パラメータ "mapred.min.split.size"は、ファイルが以前に書き込まれたブロックのサイズを変更しますか? 私がJOBを起動するときに、パラメータ "mapred.min.split.size"を134217728(128MB)の値で渡すと仮定します。 何が起こるかについては何が正しいと思いますか?HDFSにおけるパラメータ "mapred.min.split.size"の動作
1 - 各MAP処理は、2つのHDFSブロックに相当します(各ブロックは64MBと仮定します)。
2 - HDFS 128Mのブロックを占有するために、私の入力ファイル(以前はHDFSを含む)の新しい部分があります。
ありがとうございました – Alexandre
間違いなく役立ちました! – wakensky
[値はバイト単位であることに注意してください(https://github.com/linkedin/dr-elephant/wiki/Tuning-Tips#mapreduceinputfileinputformatsplitminsize)、メガバイトではありません。 128MBの場合、mapreduce.input.fileinputformat.split.minsize = 134217728を指定する必要があります。 –