私は16のリダクション・タスクで1つのハーフ・ジョブを実行しています。 (hadoop-1.2.1)ハーフ・レデューサーが100%進捗しましたが終了しません
いくつかは100%進歩していますが、終了しないものもあります。 彼らは100%で立ち往生し、ジョブクリーンアップ:保留中です。 ステータスには「reduce> reduce」と表示されます。
ジョブが多すぎる複数の出力を書き込むため、この問題が発生すると思います。 (約50〜100の多出力) しかし、それは私の推測です。私は、多くの複数の出力を書くことがこの問題の原因であることを正確には知らない。 誰でもこの問題の原因を詳細に教えてもらえますか? 私はこれを多く探しましたが、明確な答えが見つかりませんでした。
よろしくお願いいたします。
あなたの推測は合理的です。ディスクI/OはMapReduceジョブのボトルネックになることがよくあります。 – vefthym
私の推測が正しければ、複数の出力と多くの値を各減速器のpart-r-000XXファイルに書き込むことの違いは何ですか?ファイルに値を書き込んでいない複数の出力ファイルを閉じることは常に止まっているようです。ご意見ありがとうございます。 – DoDary