特定のRDDの各パーティションサイズを見つける最も良い方法は何ですか?スパーク:RDDの各パーティションサイズの検索
l = builder.rdd.glom().map(len).collect() # get length of each partition
print('Min Parition Size: ',min(l),'. Max Parition Size: ', max(l),'. Avg Parition Size: ', sum(l)/len(l),'. Total Partitions: ', len(l))
それは小さなRDDSのため正常に動作しますが、大きなRDDSのために、それがOOMエラーを与えている:私は、私はこれを試してみた、歪んだパーティションの問題をデバッグしようとしています。私の考えは、glom()
がこれを引き起こしているということです。しかし、とにかく、もっと良い方法があるかどうかを知りたがっていますか?
OPのアプローチが彼のケースでは機能していないと説明することができ、なぜこのアプローチが**働いているのですか? –