0

Zeppelin-Sandbox 0.5.6Spark 1.6.1とし、Amazon EMRを使用しています。 s3にあるcsvファイルを読んでいます。 問題はです。ファイルを読み取る際にエラーが発生します。私はインタープリタを動作させるまで数回再起動する必要があります。私のコードの変更は一切ありません。私はそれを復元することはできず、いつ起きているのかを知ることはできません。apache zeppelinがpysparkを使用してCSVを読み込めない場合

私のコードは次のように行く:

を依存関係を定義する:

%dep 
z.reset() 
z.addRepo("Spark Packages Repo").url("http://dl.bintray.com/spark-packages/maven") 
z.load("com.databricks:spark-csv_2.10:1.4.0") 

spark-csvを使用して:

%pyspark 
import pyspark.sql.functions as func 

df = sqlc.read.format("com.databricks.spark.csv").option("header", "true").load("s3://some_location/some_csv.csv") 

エラーメッセージ:

Py4JJavaError: An error occurred while calling o61.load. : 
org.apache.spark.SparkException: Job aborted due to stage failure: 
Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 
in stage 0.0 (TID 3, ip-172-22-2-187.ec2.internal): 
java.io.InvalidClassException: com.databricks.spark.csv.CsvRelation; 
local class incompatible: stream classdesc serialVersionUID = 
2004612352657595167, local class serialVersionUID = 
6879416841002809418 

... 

Caused by: java.io.InvalidClassException: 
com.databricks.spark.csv.CsvRelation; local class incompatible 

私は一度csvdataframeに読み込むと、残りのコードは正常に動作します。

アドバイスはありますか?

ありがとうございます!

答えて

0

あなたは今、火花-CSVは、あなたのクラスパスになります。この

$ pyspark --packages com.databricks:spark-csv_2.10:1.2.0 

みたいに火花CSVパッケージを追加する火花を実行する必要があり

関連する問題