2016-10-26 2 views
1

私は3台のサーバーを持っており、そのサーバー上にSpark Standalone ClusterまたはSpark on Yarn Clusterを展開したいと考えています。 大きなデータクラスタに物理リソースを割り当てる方法についていくつか質問があります。たとえば、Spark Master ProcessとSpark Worker Processを同じノードに配置できるかどうかを知りたいと思っています。どうして?大きなデータクラスタに物理リソースを割り当てる方法は?

Serverの詳細:

CPU Cores: 24 
Memory: 128GB 

私はあなたの助けを必要としています。ありがとう。

答えて

0

もちろん、マスターをスレーブに配置するだけで済みます。私のテストサーバーでは、このような構成があり、マスターマシンもワーカーノードであり、ワーカー専用ノードが1つあります。すべてがOKです

しかし、ワーカーは失敗し、重大な問題(システムの再起動)を引き起こすことに注意してください。マスターにも問題があります。

編集: 質問の編集後いくつかの詳細:) YARN(推奨)を使用している場合は、動的リソース割り当てを使用できます。 Hereはそれについてのスライドで、MapRのhereの記事です。これは非常に長いトピックで、特定のケースで適切にメモリを設定する方法です。これらのリソースは、あなたに多くの知識を提供すると思います。

BTW。 Hadoop Clusterを既にインストールしている場合は、YARNモードを試してください。)しかし、それは問題ありません。

+0

ありがとうございます。私は私の質問を編集しました。あなたによると。スパークマスタープロセスが汚染された場合、私はそれをしません。 –

+0

@TimothyKoo割り当てについては、複雑なケースです。最近私はそれについて非常に良いプレゼンテーションを見て、それにリンクし、私がそれを見つけるときにあなたに電話します。マスターノードは非常に非常に悪い状況でしか感染されませんが、どれだけの回復力が必要なのかによって異なります - 時にはクラスタ全体が耐えられることもあります(例えばリアルタイムのジョブなど) –

関連する問題