デフォルトでは、hadoop 2.7.3ではジョブのマッパが2つあります。私はそれぞれ4つのコアを持つ2つのシステムのクラスタを持っています。一つはマスター、もう一つは労働者です。今私は、3つの地図作業ワーカーノードを実行したい。それはできますか?私はhadoopストリーミングを使って仕事をしています。では、この目的のためにどのような議論をするべきですか。また、1つの入力(行)を1つのマッパーだけに設定したいと思います。どのような議論の形式にする必要があります。仕事をfullfilていない私の現在のコマンドがhadoop内の各ワーカーのコア数にマッパを変更2.7.3
hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar\
-D mapred.output.compress=true \
-D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
-files test.py -mapper test.py -reducer cat \
-input /aws/input/sample.gz -output /aws/output/test
出力が並列運転マッパーの唯一
ありがとうございました。私は、全体的ではなく、1人の作業員につき3つのマッパーを必要としていると言いました。実際、私は自分の労働者のコアを完全に使いたいです。 – Shafiq
@Shafiqアイデアはとにかく同じです – AdamSkywalker
ありがとう、私は別のポイントで立ち往生しています。私はhttp://stackoverflow.com/questions/41561367/hadoop-2-7-3-analyze-gz-files-one-mapper-to-each-file – Shafiq