2017-03-12 4 views
0

私は4ノードクラスタを持っていて、Spark、Hive、ImpalaなどのTPCHベンチマークを実行するためにClouderaを探索しています。私のクラスタノードは妥当で、4コア、8GBのRAM、250GBのディスクを持つCPUを搭載しています。CDHのインストールとデプロイ

私は、Web UIを使ってCDH 5を正しくインストールしようとしていますが、インストーラが推奨するデフォルトのロール/ツール配布を常に維持しているいくつかのツールをインストールできます。インスタレーションが終わると、私はいつもいくつかの健康上の問題と警告で終わります!

私はそれがラムと関係していると思います。ほとんどの警告は、ヒープサイズやその他のようなノードコンポーネントのメモリを増やすためのsugestionsです。警告は "メモリスレッショルドオーバーコミット"という警告の表示につながります。それらの訴訟を無視するか、それに従う方が良いかどうかを知ってください。すべての悪い健康の警告が、私はすべての変更を適用し、データをロードしていくつかのクエリを実行するためにハイブにロードしたが、いくつかのケースでは、

誰でも可能な解決策や提案はありますか? 事前に感謝し、長いポストにごめんなさい!

+0

8 * 4 = 32 GBのメモリは、物事の壮大なスキームでは本当に小さいです...特にSparkの場合 –

+0

コアサービス以外のサービスのためのLARGEノードを追加する必要があります - Cloudera Manager、その監視サービス、Hue 、Oozie *(色合いが若干の理由で必要)*、等など - またスパークゲートウェイ、スパーク履歴サービス、YARN JobHistory、等などやインパラカタログ等 –

+0

重い負荷の場合、Hive Metastoreサービスには8 GBのRAMだけが必要であることに注意してください。 HiveServer2と同じです。あなたが本当にストレステストをしたいのであれば、Impalaデーモンと同じです(それはまだ "小さなデータ"のためです)。 –

答えて

0

大部分のJavaアプリケーションは実際のヒープサイズの一部を使用しているため、メモリオーバーコミットエラーは通常無視できます。しかし、cricket_007とSamson Scharfrichterがあなたの設定は非常に小さいと指摘しています。

http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/は推奨しています:JBODで

12-24 1-4TBハードディスク(ディスクのちょうど束:ここ

は バランスのHadoopクラスタのデータノード/ TaskTrackersための推奨仕様です)構成 少なくとも2-2.5GHzの64-512GBのRAMを稼働する2つのクアッド/ 16進/オクトコアCPU ボンディングされたギガビットイーサネットまたは10ギガビットイーサネット(密度が高いほど、ネットワークのスループットは高くなります)

あなたの仕事が滞っている可能性が最も高い理由は、vcoresの不足です。 YARN Web UIを見て、利用可能なvcoresの数を確認してください。数字が小さい(5歳未満)場合、仕事には作業負荷を実行するのに必要なスロットが不足します。クラスタでは、ノードあたり3つのvcoresを使用して、少なくとも12のvcoresを与えることができます。 VcoresはCPUではないため、vcoresはマッパー/レデューサータスクまたはアプリケーションマスターのスロットと考えるべきです。 vcoreあたり少なくとも512MBのメモリが必要です(JVMを考慮する必要があります)。

vcoresと基本設定の詳細については、https://blog.cloudera.com/blog/2015/10/untangling-apache-hadoop-yarn-part-2/を参照してください。

その他の明白なことは、必要のないサービスを無効にし、実際の作業負荷のためにメモリを解放する必要があるサービスのヒープサイズを縮小することです。

関連する問題