2016-04-01 7 views
3

現在、私はスタンドアロンモードでスパーククラスタを実行しています。フラットファイルまたはCassandra(ジョブによって異なる)からデータを読み込み、処理したデータをCassandraに書き戻しています。私はHadoopに切り替えてYARNまたはmesosようResource managerを使用して起動した場合スタンドアロンモードでsparkクラスタを実行すると紡績/兵器

私が思っていた、それは私の実行時間と優れたリソース管理などの追加的なパフォーマンスの優位性を与えるのでしょうか?

現在、私はシャッフリング中に大量のデータを処理していて、ステージが失敗する可能性があります。 YARNに移行した場合、Resource managerでこの問題に対処できますか?

答えて

3

スパーク・スタンドアロン・クラスタ・マネージャは、クラスタ・モードの機能も提供します。

Sparkを実行している場合、Sparkスタンドアロンクラスタは他のクラスタマネージャとほとんど同じ機能を提供します。

アプリケーションをクラスタモードで送信すると、すべてのジョブ関連ファイルがクラスタ上のいずれかのマシンにコピーされ、クライアントモードでアプリケーションを送信すると、仕事が提出されると、ドライバー関連の活動が行われます。つまり、ジョブがサブミットされたマシンはオフラインにできませんが、クラスタモードでは、ジョブがサブミットされたマシンはオフラインになる可能性があります。

カッサンドラクラスターを持つことで、sparkエグゼキュータの最寄りのコンタクトポイント(データのローカリティと同じように)を得ることができれば、ネットワークトラフィックを節約できる点を除いて、これらのビヘイビアも変更されません。

いずれかのクラスタマネージャを使用すると、失敗したステージが再スケジュールされます。

3

私はHadoopに切り替えて、YARNやmesosのようなリソースマネージャを使用しても、実行時間やリソース管理などのパフォーマンス上の利点がありますか?

スタンドアロンクラスタモデルでは、各アプリケーションはクラスタ内のすべての使用可能なノードを使用します。

spark-standaloneドキュメントページから:

スタンドアロンクラスタモードは現在、アプリケーション間での単純なFIFOスケジューラをサポートしています。ただし、複数の同時ユーザーを許可するには、各アプリケーションが使用するリソースの最大数を制御できます。デフォルトでは、クラスタ内のすべてのコアが取得されます。これは、一度に1つのアプリケーションを実行するだけで意味があります。他の例で

(クラスタ内の複数のアプリケーションを実行している)、あなたはYARNを好むことができます。

現在、ステージの失敗の可能性があるシャッフル中に大量のデータを処理しているところです。私がYARNに移行した場合、リソースマネージャはこの問題に対処できますか?

アプリケーションのロジックが知られていないのでわかりません。しかし、YARNで試してみることができます。

Which cluster type should I choose for Spark?

+1

あなたの基本的な間違った相棒は、スタンドアロンクラスタを簡単にノードの数百を件まで拡張することができガット:

スタンドアロンMesosオーバーYARNの利益のため、関連するSEの質問を見てください。クラスタ管理者を区別するスケジューリング機能。 [http://spark.apache.org/docs/latest/security.html](http://spark.apache.org/docs/latest/security.html)と[http://www.agildata]を参照してください。 COM/apacheのスパーククラスタ・マネージャ・糸mesos-またはスタンドアロン/(http://www.agildata.com/apache-spark-cluster-managers-yarn-mesos-or-standalone/)私は –

+0

一定期間に渡って無関係となった古いコンテンツを削除しました。 –

関連する問題