最近、私はいくつかの大きなシャッフル重い仕事のパフォーマンスを調整してきました。スパークのUIを見て、私は追加のメトリックのセクションの下に "Shuffle Read Blocked Time"というオプションがあることに気付きました。スパーク - シャッフル読み取りブロック時間
この「シャッフル読み取りブロック時間」は、大規模な作業の場合、タスクの持続時間の50%以上を占めるようです。
私はこれが意味するものについていくつかの可能性を指摘することができますが、実際に何が表現されているかを説明するドキュメントは見つかりません。言うまでもありませんが、私はまた、緩和戦略に関するリソースを見つけることができませんでした。
Shuffle Read Blocked Timeをどのように減らすことができるか、誰にでも分かりますか?