Dataproc：グラフフレームパッケージをインポートできないJupyter pysparkノート

Dataprocスパーククラスタでは、グラフフレームパッケージはspark-shellで利用できますが、jupyter pysparkノートブックでは使用できません。Dataproc：グラフフレームパッケージをインポートできないJupyter pysparkノート

Pysparkカーネルの設定：以下は

PACKAGES_ARG='--packages graphframes:graphframes:0.2.0-spark2.0-s_2.11'

初期化するためのCMDであるクラスタ：

gcloud dataproc clusters create my-dataproc-cluster --properties spark.jars.packages=com.databricks:graphframes:graphframes:0.2.0-spark2.0-s_2.11 --metadata "JUPYTER_PORT=8124,INIT_ACTIONS_REPO=https://github.com/{xyz}/dataproc-initialization-actions.git" --initialization-actions gs://dataproc-initialization-actions/jupyter/jupyter.sh --num-workers 2 --properties spark:spark.executorEnv.PYTHONHASHSEED=0,spark:spark.yarn.am.memory=1024m  --worker-machine-type=n1-standard-4 --master-machine-type=n1-standard-4

出典

2016-11-30 Ashish Bindal

これは、私がSPARK-15782に固定していたと思ったことを、スパークシェルと糸で古いバグですが、明らかにこの事件は逃した。

提案回避策は、インポートする前に

import os 
sc.addPyFile(os.path.expanduser('~/.ivy2/jars/graphframes_graphframes-0.2.0-spark2.0-s_2.11.jar'))

を追加しています。

出典

2016-12-01 20:04:23

私はJupyterノートブック上で動作するパッケージを追加行うための別の方法を見つけました：

spark = SparkSession.builder \ 
.appName("Python Spark SQL") \ \ 
.config("spark.jars.packages", "graphframes:graphframes:0.5.0-spark2.1-s_2.11") \ 
.getOrCreate()

出典

2017-07-10 06:53:14

Dataproc：グラフフレームパッケージをインポートできないJupyter pysparkノート

答えて

関連する問題