2016-09-16 4 views
0

私はいくつかのアプリケーションをPythonでApache Sparkクラスターに送る必要があります。 Clustermanagerと、アプリケーションを送るアドレスを持つワーカーノードが与えられます。与えられたクラスターごとにスパークを設定する

私の質問は、ローカルコンピュータ上でSparkをセットアップして、クラスタに出力するデータを要求に送信する方法です。

私はUbuntu 16.xxで作業しており、すでにJavaとscalaをインストールしています。私はinetを検索しましたが、最もよく見つかったのは、クラスターを構築する方法や古いアドバイスを行う方法、古いものです。

答えて

0

私はあなたがリモートクラスタが動作していると仮定し、リモートサーバ自体からジョブを送信できます。あなたが必要とするのはssh tunelingです。それはawsで動作しないことを覚えておいてください。

ssh -f [email protected] -L 2000:personal-server.com:7077 -N 

はもっとここで読む:http://www.revsys.com/writings/quicktips/ssh-tunnel.html

+0

なぜトンネリングを? spark-submitコマンドのマスターを十分に設定しないでください。 –

0

あなたの質問は不明です。データがローカルマシン上にある場合は、最初にHDFSファイルシステム上のクラスタにデータをコピーする必要があります。 Sparkは、YARN(YARNまたはMESOSを使用していますか?):クラスタ、クライアント、およびスタンドアロンの3つのモードで動作します。あなたが探しているのは、クライアントモードまたはクラスタモードです。しかし、ローカルマシンからアプリケーションを起動する場合は、client-modeを使用してください。 SSHアクセス権を持っている場合は、両方を自由に使用できます。

最も簡単な方法は、コードが適切に構成されている場合は、コードを直接クラスタにコピーしてから、./spark-submitスクリプトを使用してアプリケーションを起動し、クラスを引数として使用することです。それはpythonスクリプトとjava/scalaクラスで動作します(私は実際には知りませんので、私はPythonのみを使用します)。

関連する問題