gzstreamをgzippedファイルで使用する場合のストリーム位置の保持方法

私はgzippedで圧縮された大きなファイルを扱わなければなりません。私はラインのサブセットにアクセスする必要がありますが、必ずしもそうではありません。このように、私は興味のある行にストリームの位置を記録しながら、一度すべてのファイルを調べることを考えていました。そして、これらのストリームの位置を使用して、必要な情報をすばやく取得します。

このため、 gzstream を使用しています。しかし残念ながら tellg はこのラッパーでは動作しません。

#include 
#include 
using namespace std;

#include 

int main (int argc, char ** argv)
{
  string inFile;
  string line;

  system ("rm -f infile1.txt; echo \"toto1\ntoto2\ntoto3\" > infile1.txt");
  inFile = "infile1.txt";
  ifstream inStream;
  inStream.open (inFile.c_str());
  cout << inStream.tellg() << endl;
  getline (inStream, line);
  cout << inStream.tellg() << endl;
  inStream.close ();

  system ("rm -f infile1.gz; echo \"toto1\ntoto2\ntoto3\" | gzip > infile1.gz");
  inFile = "infile1.gz";
  igzstream igzStream;
  igzStream.open (inFile.c_str());
  cout << igzStream.tellg() << endl;
  getline (igzStream, line);
  cout << igzStream.tellg() << endl;
  igzStream.close ();

  return 0;
}

このコードはこれを返します:

$ gcc -Wall test.cpp -lstdc++ -lgzstream -lz
$ ./a.out
0
6
18446744073709551615
18446744073709551615

この作業をigzストリームで行う方法はありますか?または、 gzipフィルタのブーストを使用する必要があります。代わりに?どんなコードスニペットも大いに感謝されるでしょう;)

2

1 答え

gzstream doesn't support seeking in a file, and this is not a particularly efficient operation in a gzipped file anyways. You can look at this question and its answer: Random access gzip stream

その答えの1つは、zlibソースコードのサンプルコードへのリンクを提供し、gzstreamで必要な機能を実装するのに役立てることができます。もう1つの答えは、より効率的にシークをサポートする変種圧縮フォーマットを示唆しています。

ブーストiostreamはシークをサポートするかもしれませんが、gzstreamはかなり使いやすく、変更するのが簡単ですので、それに固執する傾向がありました。

0
追加された
ありがとう。確かに、変形圧縮形式(変種だがgzipに非常に近い)を示唆する答えは非常に役に立ちました。より詳細な解答は以下にあります: biostar.stackexchange.com/questions/13627/…
追加された 著者 tflutre,