Spark 1.6.0を1台のMaster(スタンドアローン)、8G RAM搭載の2xワーカー、2CPUの3つのVMで使用しています。Jupyter&PySpark:複数のノートブックを実行するには
私は下にカーネルの設定を使用しています:
{
"display_name": "PySpark ",
"language": "python3",
"argv": [
"/usr/bin/python3",
"-m",
"IPython.kernel",
"-f",
"{connection_file}"
],
"env": {
"SPARK_HOME": "<mypath>/spark-1.6.0",
"PYTHONSTARTUP": "<mypath>/spark-1.6.0/python/pyspark/shell.py",
"PYSPARK_SUBMIT_ARGS": "--master spark://<mymaster>:7077 --conf spark.executor.memory=2G pyspark-shell --driver-class-path /opt/vertica/java/lib/vertica-jdbc.jar"
}
}
は現在、これは動作します。 pysparkシェルのように、スパークコンテキストsc
& をインポートせずに使用できます。
複数のノートブックを使用すると問題が発生します。 私のスパークマスターでは、ちょっと意味が分かりますが、一度に1つしか実行できない2つの 'pyspark-shell'アプリがあります。しかしここで、「走っている」とは、何かを実行することを意味するものではなく、私がノートブックで何かを動かしていなくても、「走っている」と表示されます。これを考えると、ノートブック間でリソースを共有することはできません。これはかなり悲しいです(私は現在、2番目のシェルを実行するために最初のシェル(=ノートブックカーネル)をkillする必要があります)。
どうすればいいか教えてください! また、私はカーネルで作業している方法が「ベストプラクティス」であるかどうかは分かりませんが、私はすでに火花を設定するだけで問題が生じました& jupyterが一緒に働くこと。
Thxをすべての
@AlbertoBonsanto? :) – eliasah
@eliasahこれは間違いない。いくつかのアドバイスを得るのにまだ良い:p – pltrdy
sparkcontextを共有しようとしていますか? – eliasah