:PySparkのWindow関数のパーティションを設定するには?私はPySparkジョブを実行している、と私は、次のメッセージが出てい
WARN org.apache.spark.sql.execution.Window: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
メッセージは何を示しんし、どのように私は、ウィンドウの操作のためのパーティションを定義していますか?
編集:
私は列全体をランク付けしようとしています。
私のデータは以下のように構成されています
A
B
A
C
D
そして、私が欲しい:
A,1
B,3
A,1
C,4
D,5
私は.partitionBy(BYそこべきだと思いません)このため、のみ.orderBy()。問題は、これがパフォーマンスの低下を引き起こすように見えるということです。ウィンドウ機能なしでこれを達成する別の方法はありますか?
私は最初の列で分割する場合、結果は次のようになります。
私はしたくないA,1
B,1
A,1
C,1
D,1
。
の回答の一つはあなたの問題を解決するかどうか、受け入れてください。それで私たちはこの質問を閉じることができます! – eliasah
申し訳ありませんが、答えがまだ解決策を提供していません。 – cshin9
@ cshin9まあ、実際には既存の答えはあなたの質問にちょうど対処しています。パーティショニングを効率化することなくウィンドウ機能を発揮できる特別な魔法はありません。 – zero323