私はPysparkを初めて使用しています。私はSpark 2.0.2を使用しています。私は例えばPyspark RDDから複数RDDへのRDD
RDD_1001_01、U-キー列で利用可能なユニークな値から新しいRDDを作成する必要が
U-Key || V1 || V2 || V3 ||
-----------------------------------
1001_01 || 12 || 41 || 21 ||
1001_01 || 36 || 43 || 63 ||
1001_01 || 60 || 45 || 10 ||
1002_03 || 84 || 57 || 14 ||
1002_03 || 18 || 49 || 18 ||
1004_01 || 12 || 41 || 22 ||
1004_01 || 16 || 43 || 26 ||
:
U-Key || V1 || V2 || V3 ||
-----------------------------------
1001_01 || 12 || 41 || 21 ||
1001_01 || 36 || 43 || 63 ||
1001_01 || 60 || 45 || 10 ||
私はRDDは、次のような構造でTest_RDDと呼ばれています
RDD_1002_03として:
U-Key || V1 || V2 || V3 ||
-----------------------------------
1002_03 || 84 || 57 || 14 ||
1002_03 || 18 || 49 || 18 ||
としてRDD_1004_01:3 RDDの(RDD_1001_01、RDD_1002_03、RDD_1004_01)に1 RDD(Test_RDD)から
U-Key || V1 || V2 || V3 ||
-----------------------------------
1004_01 || 12 || 41 || 22 ||
1004_01 || 16 || 43 || 26 ||
、 新しいRDDの名前がRDD_(Test_RDDから一意の列名)のようにする必要があります。 Pysparkでこのシナリオに使用できる関数はありますか?