6
ラップトップにPythonのmrjobモジュール経由でmapreduceジョブを実行するための外部スクリプトを作成しています(Amazon Elastic Compute Cloudや大きなクラスターではない)。Pythonからランナーの入力ファイルを指定するにはどうすればよいですか?
mrjob documentationから、MRJob.make_runner()
を使用して、次のように別のpythonスクリプトからmapreduceジョブを実行する必要があります。
mr_job = MRYourJob(args=['-r', 'emr'])
with mr_job.make_runner() as runner:
...
ただし、どの入力ファイルを使用するかを指定するにはどうすればよいですか。私はmapalduceスクリプトとマップを実行する他のpythonスクリプトと同じディレクトリに "datalines.txt"というファイルを使いたいと思っています。さらに、どのように出力を指定するのですか?
私はこれらのパラメータを指定できるmrjobドキュメントの関数を見つけることができませんでした。
mr_job = MRYourJob(args=["datalines.txt"])
: