2017-10-23 3 views
0

Amazon S3(特定のパーティションの下にある)で寄木細工のファイルを読み書きするのにどれくらい時間がかかりますか? 私は単純にファイルを読み込んで書き戻すスクリプトを書いた:寄木細工を書くときにNullPointerExceptionが発生する

val df = sqlContext.read.parquet(path + "p1.parquet/partitionBy=partition1") 
df.write.mode("overwrite").parquet(path + "p1.parquet/partitionBy=partition1") 

ただし、NULLポインタ例外が発生します。その間にdf.countを追加しようとしましたが、同じエラーが発生しました。

+0

例外のテキストを追加できますか? –

答えて

0

エラーが発生する理由は、Sparkはデータを使用するときにのみデータを読み取るためです。この結果、Sparkはファイルを上書きしようとすると同時にファイルからデータを読み込みます。これは、読み取り中にデータを上書きすることができないため、問題を引き起こします。

一時的な場所に保存することをお勧めします。タイミング目的のためです。別の方法として、データを読み取るときに.cache()を使用し、強制的に読み取り(データを実際にキャッシュする)するアクションを実行し、ファイルを上書きすることもできます。

関連する問題