0
Zeppelin-Sandbox 0.5.6
をSpark 1.6.1
とし、Amazon EMR
を使用しています。 s3
にあるcsv
ファイルを読んでいます。 問題はです。ファイルを読み取る際にエラーが発生します。私はインタープリタを動作させるまで数回再起動する必要があります。私のコードの変更は一切ありません。私はそれを復元することはできず、いつ起きているのかを知ることはできません。apache zeppelinがpysparkを使用してCSVを読み込めない場合
私のコードは次のように行く:
を依存関係を定義する:
%dep
z.reset()
z.addRepo("Spark Packages Repo").url("http://dl.bintray.com/spark-packages/maven")
z.load("com.databricks:spark-csv_2.10:1.4.0")
spark-csv
を使用して:
%pyspark
import pyspark.sql.functions as func
df = sqlc.read.format("com.databricks.spark.csv").option("header", "true").load("s3://some_location/some_csv.csv")
エラーメッセージ:
Py4JJavaError: An error occurred while calling o61.load. :
org.apache.spark.SparkException: Job aborted due to stage failure:
Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3
in stage 0.0 (TID 3, ip-172-22-2-187.ec2.internal):
java.io.InvalidClassException: com.databricks.spark.csv.CsvRelation;
local class incompatible: stream classdesc serialVersionUID =
2004612352657595167, local class serialVersionUID =
6879416841002809418
...
Caused by: java.io.InvalidClassException:
com.databricks.spark.csv.CsvRelation; local class incompatible
私は一度csv
をdataframe
に読み込むと、残りのコードは正常に動作します。
アドバイスはありますか?
ありがとうございます!