apache zeppelinがpysparkを使用してCSVを読み込めない場合

Zeppelin-Sandbox 0.5.6をSpark 1.6.1とし、Amazon EMRを使用しています。 s3にあるcsvファイルを読んでいます。問題はです。ファイルを読み取る際にエラーが発生します。私はインタープリタを動作させるまで数回再起動する必要があります。私のコードの変更は一切ありません。私はそれを復元することはできず、いつ起きているのかを知ることはできません。apache zeppelinがpysparkを使用してCSVを読み込めない場合

私のコードは次のように行く：

を依存関係を定義する：

%dep 
z.reset() 
z.addRepo("Spark Packages Repo").url("http://dl.bintray.com/spark-packages/maven") 
z.load("com.databricks:spark-csv_2.10:1.4.0")

spark-csvを使用して：

%pyspark 
import pyspark.sql.functions as func 

df = sqlc.read.format("com.databricks.spark.csv").option("header", "true").load("s3://some_location/some_csv.csv")

エラーメッセージ：

Py4JJavaError: An error occurred while calling o61.load. : 
org.apache.spark.SparkException: Job aborted due to stage failure: 
Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 
in stage 0.0 (TID 3, ip-172-22-2-187.ec2.internal): 
java.io.InvalidClassException: com.databricks.spark.csv.CsvRelation; 
local class incompatible: stream classdesc serialVersionUID = 
2004612352657595167, local class serialVersionUID = 
6879416841002809418 

... 

Caused by: java.io.InvalidClassException: 
com.databricks.spark.csv.CsvRelation; local class incompatible

私は一度csvをdataframeに読み込むと、残りのコードは正常に動作します。

アドバイスはありますか？

ありがとうございます！

出典

2016-06-21 user3318421

あなたは今、火花-CSVは、あなたのクラスパスになります。この

$ pyspark --packages com.databricks:spark-csv_2.10:1.2.0

みたいに火花CSVパッケージを追加する火花を実行する必要があり

出典

2016-11-10 16:27:07 dirceusemighini

apache zeppelinがpysparkを使用してCSVを読み込めない場合

答えて

関連する問題