大きなデータクラスタに物理リソースを割り当てる方法は？

私は3台のサーバーを持っており、そのサーバー上にSpark Standalone ClusterまたはSpark on Yarn Clusterを展開したいと考えています。大きなデータクラスタに物理リソースを割り当てる方法についていくつか質問があります。たとえば、Spark Master ProcessとSpark Worker Processを同じノードに配置できるかどうかを知りたいと思っています。どうして？大きなデータクラスタに物理リソースを割り当てる方法は？

Serverの詳細：

CPU Cores: 24 
Memory: 128GB

私はあなたの助けを必要としています。ありがとう。

出典

2016-10-26 Tim Koo

もちろん、マスターをスレーブに配置するだけで済みます。私のテストサーバーでは、このような構成があり、マスターマシンもワーカーノードであり、ワーカー専用ノードが1つあります。すべてがOKです

しかし、ワーカーは失敗し、重大な問題（システムの再起動）を引き起こすことに注意してください。マスターにも問題があります。

編集：質問の編集後いくつかの詳細:) YARN（推奨）を使用している場合は、動的リソース割り当てを使用できます。 Hereはそれについてのスライドで、MapRのhereの記事です。これは非常に長いトピックで、特定のケースで適切にメモリを設定する方法です。これらのリソースは、あなたに多くの知識を提供すると思います。

BTW。 Hadoop Clusterを既にインストールしている場合は、YARNモードを試してください。）しかし、それは問題ありません。

出典

2016-10-26 09:09:00

ありがとうございます。私は私の質問を編集しました。あなたによると。スパークマスタープロセスが汚染された場合、私はそれをしません。 –

@TimothyKoo割り当てについては、複雑なケースです。最近私はそれについて非常に良いプレゼンテーションを見て、それにリンクし、私がそれを見つけるときにあなたに電話します。マスターノードは非常に非常に悪い状況でしか感染されませんが、どれだけの回復力が必要なのかによって異なります - 時にはクラスタ全体が耐えられることもあります（例えばリアルタイムのジョブなど） –

大きなデータクラスタに物理リソースを割り当てる方法は？

答えて

関連する問題