2012-09-24 7 views
6

ラップトップにPythonのmrjobモジュール経由でmapreduceジョブを実行するための外部スクリプトを作成しています(Amazon Elastic Compute Cloudや大きなクラスターではない)。Pythonからランナーの入力ファイルを指定するにはどうすればよいですか?

mrjob documentationから、MRJob.make_runner()を使用して、次のように別のpythonスクリプトからmapreduceジョブを実行する必要があります。

mr_job = MRYourJob(args=['-r', 'emr']) 
with mr_job.make_runner() as runner: 
    ... 

ただし、どの入力ファイルを使用するかを指定するにはどうすればよいですか。私はmapalduceスクリプトとマップを実行する他のpythonスクリプトと同じディレクトリに "datalines.txt"というファイルを使いたいと思っています。さらに、どのように出力を指定するのですか?

私はこれらのパラメータを指定できるmrjobドキュメントの関数を見つけることができませんでした。

mr_job = MRYourJob(args=["datalines.txt"]) 

答えて

5

Getting started guide

は、入力がコマンドラインで供給され、標準入力またはファイルから読み込まれることを示唆しています
関連する問題