寄木細工する:省はこのように私は、2つのパーティションに基づいてディレクトリ構造を持つサブパーティション
People
> surname=Doe
> name=John
> name=Joe
> surname=White
> name=Josh
> name=Julien
私は情報のみについてのすべてのんで、寄木細工のファイルを読んでいますので、私は直接指定姓= Doeのだが私のDataFrameの出力ディレクトリとして。今問題は、書き込み時にpartitionBy("name")
という名前ベースのパーティショニングを追加しようとしていることです。
df.write.partitionBy("name").parquet(outputDir)
(outputDirのがDoeのディレクトリへのパスが含まれています)
これは、以下のようなエラーが発生します
Caused by: java.lang.AssertionError: assertion failed: Conflicting partition column names detected:
Partition column name list #0: surname, name
Partition column name list #1: surname
それを解決するためにどのように任意のヒントを?おそらく、姓のディレクトリに_SUCCESS
というファイルが作成されているため、Sparkに間違ったヒントが与えられている可能性があります。_SUCCESS
とファイルを削除しても問題ありません。
誰もが他の掲示以来、私の恵みは、有効期限が切れます私はこのソリューションを現在のところ唯一のものとして受け入れています。 – Niemand
これは、Spark 1.6.3 'sc._jsc.hadoopConfiguration()。set(" mapreduce.fileoutputcommitter.marksuccessfuljobs "、" false ")のために私のために働いた sc._jsc.hadoopConfiguration()。set(" parquet.enable.summary -metadata "、" false ")' – Vezir