2017-03-07 4 views
1

cloudera 5.2を使用しており、Sparkを完全な可能性(分散モードで使用できるように、HDFSでデータローカリティを利用できるようにする)を使用したいと考えています。インストールされ、cloudera managerのステータス(ホームページ)で利用可能ですが、サービスをクリックして「インスタンス」をクリックすると、履歴サーバーの役割だけが表示され、他のノードではゲートウェイサーバーの役割が表示されます。 Sparkのアーキテクチャーについて私が理解しているように、マスターノードとワーカーノード(HDFSデータノードと一緒に暮らしています)がありますので、clouderaマネージャーでは「役割インスタンスの追加」を試みましたが、「ゲートウェイ」役割のみが利用できます。あなたはHDFSデータノードを持つホストにSparksワーカーノード(またはエグゼキュータ)の役割をどのように追加しますか?それとも不要なのですか(糸のせいで、糸はエグゼキュータとアプリケーションマスターの作成を担当します)?そして、masternodeのケースは何ですか? Sparkをフル配布モードで使用できるように設定する必要はありますか?ClouderaにSparnワーカーノードを追加する方法

答えて

1

マスターとワーカーの役割は、Spark Standaloneサービスの一部です。 YARN(マスターノードとワーカーノードは関係ない)またはSpark(スタンドアロン)を使用して実行するSparkを選択できます。

Cloudera ManagerでSpark(スタンドアロン)ではなくSparkサービスを開始したため、Sparkは既にYARNを使用しています。 Cloudera Manager 5.2以降では、2つの個別のSparkサービス(SparkおよびSpark(スタンドアロン))があります。 Sparkサービスは、スパークヒストリサーバーの役割に加えてゲートウェイの役割のみを持つYARNアプリケーションとしてSparkを実行します。

はどのようにあなたがHDFSのdatanodesを持って ホストにスパークスワーカーノード(または執行)の役割を追加するには?

必須ではありません。これらのホストではゲートウェイの役割のみが必要です。 CM Documentationから引用

:ClouderaのManagerのゲートウェイの役割で

は、クラスタ内の他のホストにクライアント構成の伝播の世話をします。したがって、ゲートウェイロールをクラスタ内のホストに割り当てるようにしてください。ゲートウェイの役割がない場合、クライアントの構成は展開されません。

関連する問題