2016-07-12 8 views
0

HDInsight Hadoopクラスタとの違い& HDInsight Sparkクラスタとは何ですか?私は、Hadoopクラスタpysparkでも利用できることを見てきました。クラスタータイプとの違いはありますか?すなわち、HadoopクラスタはYARNをクラスタ管理レイヤとして意味し、SparkはSpark Standalone(またはMesos?)をクラスタ管理レイヤとして暗示しますか?HDInsight HadoopクラスタとHDInsight Sparkクラスタの違いは何ですか?

もし私たちがHadoopクラスタでSparkを実行することができるのであれば、SparkはYARNの上で動作すると思います。

答えて

0

ビットはあなたが気づいたものと同じです。違いは、デフォルトで実行されているサービスとAmbariコンポーネントのセットです(Sparkでは、spark thrift、livy、jupyterが追加されます)。だから、技術的には、ハープ・クラスター上の糸にスパーク・ジョブを実行することができますが、推奨されていませんが、一部の構成は最適値に設定されていない可能性があります。それ以外の方法はより信頼性が高くなります - sparkクラスタを作成し、それにハープ・ジョブを実行します。

マキシム(PMスパークHDInsight)

+0

ありがとうございます。しかし、あなたの答えから明確に明確にされていないことはありますか?HDInsight SparkがYARNをクラスタ管理レイヤーとして使用していないと言っていますか?そうでない場合は、どちらを使用しますか? MesosまたはSpark Standalone? – Dhiraj

1

HDInsightスパークはただのHadoopとして、クラスタ管理層として糸を使用しています。クラスタ上のバイナリは同じです。

HDInsightスパークとのHadoopクラスタ間の差は以下の通りである:

1)最適な構成: スパーククラスタがスパーク・ワークロードのために調整され、構成されています。たとえば、SSDを使用するための事前設定されたスパーククラスタと、マシンリソースに基づいてエグゼキュータのメモリサイズを調整するため、お客様はsparkのデフォルト設定よりもすぐれたアウトオブボックスの経験を得ることができます。

2)サービス設定: スパーククラスタは、Livy、Jupyter、Spark Thrift Serverなどのスパーク関連サービスも実行します。

3)ワークロードの品質:サービス品質を保証するため、リリースの前にスパーククラスタ上のスパークワークロードをテストします。

関連する問題