私は、何百万ものファイルを含む大きなtarファイルを持っています。効率の理由から、私はディスクにファイルを解凍したくありません。tarファイルのファイルバイトオフセット(および長さ)を取得する方法
代わりに、希望のファイル名が与えられたら、私はスクリプトを書いています。 Pythonはtarファイルから関連するデータを取得します。
インデックスを作成する簡単な方法は、tarファイルのすべてのファイルの開始バイトと長さを教えてください。私は上記のPythonスクリプトで使用するためのインデックスとしてディスクにダンプできますか?
おそらく、tarコマンドでこれを行うことができますが、マニュアルページには何も明白ではありません。
タールは圧縮されていません。
ありがとうございます。同様のユースケースと他人の利益のために
ありがとうございますが、ファイルをディスクに抽出します。 OPを参照してください - 私はこれをしたくありません。私はタール内のファイルのすべての開始バイトとファイルの長さのインデックスを作成したい...その後、私は関連する位置を追求し、データを引き出すスクリプトを記述します。 – jcollomosse
linuxコマンドを修正してディスクを避けました。 IMHO、タールの書き換えを避けてください。 – Mark