HD InsightでJupyter NotebookでSparkパッケージを使用する

Jupyterノートブック経由でPySparkでgraphFramesを使用しようとしています。私のSparkクラスタはHD Insight上にあるので、kernel.jsonを編集する権限はありません。HD InsightでJupyter NotebookでSparkパッケージを使用する

ここで提案されている解決策[1] [2]は機能しませんでした。これは私が実行しようとしたものです：

import os 
packages = "graphframes:graphframes:0.3.0-spark2.0" # -s_2.11 
os.environ["PYSPARK_SUBMIT_ARGS"] = (
    "--packages {0} pyspark-shell".format(packages) 
) 
from graphframes import *

この結果、graphframesという名前のモジュールが存在しないというエラーが発生しました。このenv変数を変更した後、新しいSparkContextを開始する方法はありますか？

私はまた、％set_env魔法のコマンドを使用してIPythonにPYSPARK_SUBMIT_ARGS変数を渡し、その後graphframesをインポートしようとしました：

%set_env PYSPARK_SUBMIT_ARGS='--packages graphframes:graphframes:0.3.0-spark2.0-s_2.11 pyspark-shell' 

from graphframes import *

しかし、これは、同じエラーが発生しました。

jarをIPythonに渡すための提案がありましたが、HD Insightクラスタに必要なjarをダウンロードする方法がわかりません。

ご意見はありますか？

1）私はノートブックを設定するには、間違った構文を使用していました：

出典

2016-12-12 mibarg

それは私は2つの別々の問題を持っていたが判明しました。あなたが使用する必要があります。

# For HDInsight 3.3 and HDInsight 3.4 
%%configure 
{ "packages":["com.databricks:spark-csv_2.10:1.4.0"] } 

# For HDInsight 3.5 
%%configure 
{ "conf": {"spark.jars.packages": "com.databricks:spark-csv_2.10:1.4.0" }}

Hereマイクロソフトから関連ドキュメントです。

2）this有用な答えによると、Sparkにバグがあり、パッケージのジャーを見逃しているようです。これは私のために働いた：

出典

2017-03-01 07:34:30 mibarg

HD InsightでJupyter NotebookでSparkパッケージを使用する

答えて

関連する問題