2016-12-12 11 views
2

Jupyterノートブック経由でPySparkでgraphFramesを使用しようとしています。私のSparkクラスタはHD Insight上にあるので、kernel.jsonを編集する権限はありません。HD InsightでJupyter NotebookでSparkパッケージを使用する

ここで提案されている解決策[1] [2]は機能しませんでした。これは私が実行しようとしたものです:

import os 
packages = "graphframes:graphframes:0.3.0-spark2.0" # -s_2.11 
os.environ["PYSPARK_SUBMIT_ARGS"] = (
    "--packages {0} pyspark-shell".format(packages) 
) 
from graphframes import * 

この結果、graphframesという名前のモジュールが存在しないというエラーが発生しました。このenv変数を変更した後、新しいSparkContextを開始する方法はありますか?

私はまた、%set_env魔法のコマンドを使用してIPythonにPYSPARK_SUBMIT_ARGS変数を渡し、その後graphframesをインポートしようとしました:

%set_env PYSPARK_SUBMIT_ARGS='--packages graphframes:graphframes:0.3.0-spark2.0-s_2.11 pyspark-shell' 

from graphframes import * 

しかし、これは、同じエラーが発生しました。

jarをIPythonに渡すための提案がありましたが、HD Insightクラスタに必要なjarをダウンロードする方法がわかりません。

ご意見はありますか?

1)私はノートブックを設定するには、間違った構文を使用していました:

答えて

1

それは私は2つの別々の問題を持っていたが判明しました。あなたが使用する必要があります。

# For HDInsight 3.3 and HDInsight 3.4 
%%configure 
{ "packages":["com.databricks:spark-csv_2.10:1.4.0"] } 

# For HDInsight 3.5 
%%configure 
{ "conf": {"spark.jars.packages": "com.databricks:spark-csv_2.10:1.4.0" }} 

Hereマイクロソフトから関連ドキュメントです。

2)this有用な答えによると、Sparkにバグがあり、パッケージのジャーを見逃しているようです。これは私のために働いた:

関連する問題