.idxデータ形式を使用する理由

MNIST手書き数字データセットは、ファイル形式.idxを使用します。 CSV、TSX、ODSなどの代替ファイルに比べて、このファイル形式の利点は何ですか?

0

1 答え

一般的に、データセットは、言語が同梱されているパッケージだけで任意のプログラミング言語で取り込むことができるシンプルで人間が判読できる形式のため、CSV形式で配布されています。通常、表形式のデータはCSV形式でエクスポートされ、MNISTデータセットがCSV形式で提供されない理由の1つです。

idx形式でデータセットを保存するための LeCunのウェブサイトからの引用です。

データは、保存用に設計された非常に単純なファイル形式で保存されます   ベクトルと多次元の行列です。

パフォーマンス面では、バイナリファイル形式は、CSVやODSなどのリッチテキスト形式などのテキストファイル形式に比べて優れています。

以下は、広く使用されているバイナリファイル形式の一部です。

  • Avro形式
  • 寄木張りの書式
  • 最適化された行の列(ORC)
  • プロトコルバッファ(protobuf)

これらのファイル形式はデータ圧縮をサポートし、データ型のメタデータを格納してデータを効率的に直列化および逆直列化します。

2
追加された