2016-10-25 3 views
1

私はこのようなpysparkでパーティションに寄木細工のファイルを書き込むことができます。pysparkに似たJavaのパーティションにパーケットファイルを書き込む方法は?

rdd.write 
.partitionBy("created_year", "created_month") 
.parquet("hdfs:///my_file") 

寄木細工のファイルはcreated_year、created_monthへの自動パーティションです。どのようにJavaで同じを行うには? ParquetWriterクラスにはオプションがありません。それを行うことができる別のクラスがありますか?

おかげで、あなたはデータフレームにあなたのRDDを変換してから書き込み寄木細工の機能を呼び出す必要があり

答えて

1

df = sql_context.createDataFrame(rdd) 
df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"]) 
関連する問題