2017-11-11 1 views
1

私は大きなデータセットを処理しており、Mapreduceプログラムを実行しています。 Mapreduceは、3GB程度のサイズの単一ファイルで簡単に実行できます。すべてのファイルに対してmapreduceを実行したいと知っています。すべてのファイルに対して直接mapreduceを実行するためのショートカットや手法はありますか? OS-Ubuntuの使用 Hadoop-2.7.1多数のファイルに対して同時にmapreduceプログラムを実行するには?

答えて

1

すべてのファイルがある場合は、ファイル名の代わりにmap-reduce入力パラメータでディレクトリ/正規表現を指定します。

例:

あなたが継続的にファイルを取得し、プロセスをたい場合 /ユーザー/ジョー/語数/出力/user/joe/wordcount/*.txt をWORDCOUNT wc.jar ビン/ Hadoopのジャー彼らが到着したときと同じように。 map-reduceジョブを何度も実行する必要があります。それはバッチジョブなので。

関連する問題