webarchiveにアクセスするためにpythonスクリプトを使用する必要があります。Pythonからmegawarcアーカイブを開く際にエラーが発生しました
私が持っているものは、 'megawarc'ウェブアーカイブファイルです(http://archive.org/details/archiveteam-fanfiction-warc-11)。 https://github.com/alard/megawarcにあるPythonスクリプトを使用して、私はこれをun-megawarcにする必要があります。
私は 'restore'コマンドを実行しようとしており、最初のリンクから3つのファイル(FILE.warc.gz、 FILE.tar、およびFILE.json.gz)が必要です。
私はPython 2.7と3.3の両方をインストールしています。
--------------更新--------------私はこの方法の両方を走ってきました
..
python megawarc restore FILE
とこの方法..
変換するファイルと同じディレクトリにmegawarcとordereddict.pyというファイルがあることを確認してください。私は
c:\Python27>python megawarc restore FILE
Traceback (most recent call last):
File "megawarc", line 563, in <module>
main()
File "megawarc", line 552, in main
mwr.process()
File "megawarc", line 460, in process
self.process_entry(entry, tar_out)
File "megawarc", line 478, in process_entry
entry["target"]["offset"], entry["target"]["size"])
File "megawarc", line 128, in copy_to_stream
raise Exception("End of file: %d bytes expected, but %d bytes read." % (buf_size, l))
Exception: End of file: 4096 bytes expected, but 236 bytes read.
は何か他のものがあります。.. は、Python 2.7を使用して、このディレクトリに 開き
Type the following code (line by line) :
import sys
sys.argv = ['megawarc','restore','FILE']
import megawarc
megawarc.main()
をPythonのコンソールをmegawarc.pyするファイルmegawarcの名前を変更し、これは私が得るものです行方不明?
私はC で、次のすべてのファイルを持っている:
\ python27FILE.megawarc.json.gz
FILE.megawarc.tar
FILE.megawarc.warc.gz
megawarc
ordereddict.py
が、これは破損したファイルのエラーのいくつかのタイプのですか?私は行方不明のものがありますか?あなたが設けられた第二のリンクで
何を試しましたか、どのようなエラーがありましたか? –
Pssh、誰もプログラミングの考え方が間違っています。あなたがプログラミングの問題を解決しようとしているという事実だけでは、あなたは素晴らしいプログラマーになることができます。それはすべて問題解決のためです。 –
あなたは与えられたPythonスクリプトを実行しましたか?エラーメッセージが表示されるようにコマンドシェルを開いていましたか? – duffymo