sparkとAWSの新機能です.JupyterをSparkクラスタ(EMR)にインストールしようとしています.Jupyter Notebookを私のブラウザに最後に開くことができません。EMRでSparkのJupyterノートブックを使用
コンテキスト:私は働いている場所からファイアウォールの問題を抱えています。私は日常的に作成するEMR clsuterのIPアドレスにアクセスできません。私は、専用のEC-2インスタンス(このインスタンスのIPアドレスはホワイトリストに記載されています)を持っています。これは、クライアントとして、私が必要に応じて作成するEMRクラスタに接続するために使用しています。
私はEMRクラスタのIPアドレスにアクセスすることはできませんEC2インスタンスのIPアドレスとポート22と8080 へのアクセス権を持っています。私のEC2インスタンスとEMRクラスタ のssh -i publickey.pem EC2ユーザーとの間の接続を確立し
- オープンパテとEC2インスタンス
- に接続@:後
は、私は、次の午前の手順ですEMRクラスターのホスト名
は、次のコマンドを使用して、スパーククラスタ上jupyterをインストール: ピップはjupyter
をインストール
火花に接続: PYSPARK_DRIVER_PYTHON =/usr/local/bin/jupyter PYSPARK_DRIVER_PYTHON_OPTS = "ノートブック - ノーブラウザ - ポート= 7777" pyspark - パッケージcom.databricks:spark-csv_2.10:1.1.0スパーク--master://127.0.0.1:7077 --executorメモリ6400M --driverメモリ6400M
ブラウザにトンネルを確立: SSH -L 0.0.0.0:8080:127.0.0.1:7777ブラウザ上でIP-172-31-34-209 -i publickey.pem
オープンJupyter:
http:// EMRクラスターのホスト名:8080
私は最初の5つのステップを実行できますが、私のブラウザーでJupyterノートブックを開くことはできません。