したがって、iveには3000行のrddがあると仮定します。 2000年の第1行はクラス1であり、最後の1000行はクラス2である。 RDDは100個のパーティションに分割されています。スパークRDD.randomSplitは実際にRDDを分割します
機能もRDDをシャッフルしていRDD.randomSplit(0.8,0.2)
を呼び出しますか?私たちは分裂を単に20%連続的にrddのサンプルですか?それとも、20%のパーティションをランダムに選択するのですか?
理想的には、結果の分割に元のRDDと同じクラス分布があります。 (すなわち、2:1)
おかげweights
アレイによって定義された各範囲について