2012-02-22 10 views
2

mapreduceを実行すると、マップ出力レコードより大きな入力レコードが結合されていますか?これは本当に奇妙です。私は何が起こっているのか正確に把握できませんでしたか?私が知っている限り、マップの出力レコードは、同じ広告が入力レコードを組み合わせるべきです。誰も私が問題を理解するのを助けてくれませんか?前もって感謝します。マップ出力レコードの数がhadoopの入力レコードを結合するよりも小さい

Map-Reduce Framework 
     Map input records=112705844 
     Map output records=64841776 
     Combine input records=64842079 
     Combine output records=409 
     Reduce input records=106 
     Reduce output records=4 

答えて

1

コンバイナは、以降のHadoop 0.18から変更されましたどのように適用されるかは明らか行動:

はここで現実の世界の仕事の一例です。コンバイナがマップタスクごとに1回だけ呼び出される前。これで、地図と還元側の両方で0回以上呼び出すことができます。これは、コンバイナ入力/出力レコードのカウントがマップ/入出力の入出力カウントと正確に一致する必要はないことを示唆しています。

関連する問題