与えられたクラスターごとにスパークを設定する

私はいくつかのアプリケーションをPythonでApache Sparkクラスターに送る必要があります。 Clustermanagerと、アプリケーションを送るアドレスを持つワーカーノードが与えられます。与えられたクラスターごとにスパークを設定する

私の質問は、ローカルコンピュータ上でSparkをセットアップして、クラスタに出力するデータを要求に送信する方法です。

私はUbuntu 16.xxで作業しており、すでにJavaとscalaをインストールしています。私はinetを検索しましたが、最もよく見つかったのは、クラスターを構築する方法や古いアドバイスを行う方法、古いものです。

出典

2016-09-16 Sam

私はあなたがリモートクラスタが動作していると仮定し、リモートサーバ自体からジョブを送信できます。あなたが必要とするのはssh tunelingです。それはawsで動作しないことを覚えておいてください。

ssh -f [email protected] -L 2000:personal-server.com:7077 -N

はもっとここで読む：http://www.revsys.com/writings/quicktips/ssh-tunnel.html

出典

2016-09-16 15:25:17 Dima

なぜトンネリングを？ spark-submitコマンドのマスターを十分に設定しないでください。 –

あなたの質問は不明です。データがローカルマシン上にある場合は、最初にHDFSファイルシステム上のクラスタにデータをコピーする必要があります。 Sparkは、YARN（YARNまたはMESOSを使用していますか？）：クラスタ、クライアント、およびスタンドアロンの3つのモードで動作します。あなたが探しているのは、クライアントモードまたはクラスタモードです。しかし、ローカルマシンからアプリケーションを起動する場合は、client-modeを使用してください。 SSHアクセス権を持っている場合は、両方を自由に使用できます。

最も簡単な方法は、コードが適切に構成されている場合は、コードを直接クラスタにコピーしてから、./spark-submitスクリプトを使用してアプリケーションを起動し、クラスを引数として使用することです。それはpythonスクリプトとjava/scalaクラスで動作します（私は実際には知りませんので、私はPythonのみを使用します）。

出典

2016-09-16 11:19:52 GwydionFR

与えられたクラスターごとにスパークを設定する

答えて

関連する問題