1
私はデータを一方向に分割していますが、別のパーティションに分割したいだけです。 だから、基本的にこのようなものになるつもり:私はこの文脈でパーティションがからHDFSとデータでディレクトリだけを意味するので、これはシャッフルをトリガするか、すべてのデータがローカルに再パーティションになりますんだろdataFrameWriterパーティションはデータをシャッフルしますか?
sqlContext.read().parquet("...").write().partitionBy("...").parquet("...")
同じパーティションがHDFSの同じディレクトリに書き込まれるために同じノード上にある必要はありません。
これを避けるために何を再分割すべきですか? –