私はJSONに変換する必要があるすべての行にXML要素を含むファイルを持っています。私は変換を行うがシリアルモードで動作するPythonスクリプトを書いている。私はHadoopまたはGNU Parallelを使用する2つのオプションを持っています。私はHadoopを試してみて、GNUがどのように役立つかを見たいと思っています。次のようにGNU Parallelで巨大ファイルのPythonスクリプトを実行する
私のPythonコードは次のとおりです。
import sys import json import xmltodict with open('/path/sample.xml') as fd: for line in fd: o=xmltodict.parse(line) t=json.dumps(o) with open('sample.json', 'a') as out: out.write(t+ "\n")
は、だから私は直接、巨大なファイルで作業するか、私はそれを分割する必要がありますGNU平行を使用することができますか?
またはこの権利である: cat sample.xml | parallel python xmltojson.py >sample.json
はあなたがUNIXフィルタにあなたのPythonコードを変更する必要があるおかげで
オレに10kを手に入れよう! –
オレは59分から15秒に時間を短縮! – user3646519