YARNによって管理されている30ノードのHadoop MR2クラスタがあります。現時点で10のOozieジョブがあり、それぞれに1つのMapプログラムが実行されています。私は、30ノードのうち11ノードしか実際に利用されていないことに気付いています。 Mapプログラムを実行するコンテナは11ノードのみです。クラスタですべてのノードが利用されているわけではありません
各ノードに少なくとも1つのコンテナが実行されていると思います。それはなぜそうではないのですか?それは入力分割によるもので、私のHDFSブロックサイズの設定に基づいて、入力データは11個のノードに分割するのが最良でしたか?その場合、すべてのノードが利用されるようにブロックサイズを調整する方が最適でしょうか?
30ノードはすべてデータノードですか?私はあなたのデータが非常にまばらで、すべてのノードが必要ないと思っています。データ地域がその仕事をしているようです –
Hadoop/Big Data規格では、80GBのフラットファイルがスパースとみなされていますか?私は確信している、ただ同じ言語を話していることを確認したい! – Neeko
各ディスクのサイズにもよりますが、それはそれほど大きくはありません –