Jupyterノートブック経由でPySparkでgraphFramesを使用しようとしています。私のSparkクラスタはHD Insight上にあるので、kernel.jsonを編集する権限はありません。HD InsightでJupyter NotebookでSparkパッケージを使用する
ここで提案されている解決策[1] [2]は機能しませんでした。これは私が実行しようとしたものです:
import os
packages = "graphframes:graphframes:0.3.0-spark2.0" # -s_2.11
os.environ["PYSPARK_SUBMIT_ARGS"] = (
"--packages {0} pyspark-shell".format(packages)
)
from graphframes import *
この結果、graphframesという名前のモジュールが存在しないというエラーが発生しました。このenv変数を変更した後、新しいSparkContextを開始する方法はありますか?
私はまた、%set_env魔法のコマンドを使用してIPythonにPYSPARK_SUBMIT_ARGS変数を渡し、その後graphframesをインポートしようとしました:
%set_env PYSPARK_SUBMIT_ARGS='--packages graphframes:graphframes:0.3.0-spark2.0-s_2.11 pyspark-shell'
from graphframes import *
しかし、これは、同じエラーが発生しました。
jarをIPythonに渡すための提案がありましたが、HD Insightクラスタに必要なjarをダウンロードする方法がわかりません。
ご意見はありますか?
1)私はノートブックを設定するには、間違った構文を使用していました: