私は4ノードクラスタを持っていて、Spark、Hive、ImpalaなどのTPCHベンチマークを実行するためにClouderaを探索しています。私のクラスタノードは妥当で、4コア、8GBのRAM、250GBのディスクを持つCPUを搭載しています。CDHのインストールとデプロイ
私は、Web UIを使ってCDH 5を正しくインストールしようとしていますが、インストーラが推奨するデフォルトのロール/ツール配布を常に維持しているいくつかのツールをインストールできます。インスタレーションが終わると、私はいつもいくつかの健康上の問題と警告で終わります!
私はそれがラムと関係していると思います。ほとんどの警告は、ヒープサイズやその他のようなノードコンポーネントのメモリを増やすためのsugestionsです。警告は "メモリスレッショルドオーバーコミット"という警告の表示につながります。それらの訴訟を無視するか、それに従う方が良いかどうかを知ってください。すべての悪い健康の警告が、私はすべての変更を適用し、データをロードしていくつかのクエリを実行するためにハイブにロードしたが、いくつかのケースでは、
誰でも可能な解決策や提案はありますか? 事前に感謝し、長いポストにごめんなさい!
8 * 4 = 32 GBのメモリは、物事の壮大なスキームでは本当に小さいです...特にSparkの場合 –
コアサービス以外のサービスのためのLARGEノードを追加する必要があります - Cloudera Manager、その監視サービス、Hue 、Oozie *(色合いが若干の理由で必要)*、等など - またスパークゲートウェイ、スパーク履歴サービス、YARN JobHistory、等などやインパラカタログ等 –
重い負荷の場合、Hive Metastoreサービスには8 GBのRAMだけが必要であることに注意してください。 HiveServer2と同じです。あなたが本当にストレステストをしたいのであれば、Impalaデーモンと同じです(それはまだ "小さなデータ"のためです)。 –