でのArrayType列の別個の要素を取得します。 feat1とfeat2は、文字列の配列の形式は以下のとおりであるIは<em>ID</em>、<em>feat1</em>と<em>feat2</em>命名3列のデータフレームを有するスパークデータフレーム
Id, feat1,feat2
------------------
1, ["feat1_1","feat1_2","feat1_3"],[]
2, ["feat1_2"],["feat2_1","feat2_2"]
3,["feat1_4"],["feat2_3"]
私は各機能の列内の個別の要素のリストを取得したいので、出力は次のようになります。
distinct_feat1,distinct_feat2
-----------------------------
["feat1_1","feat1_2","feat1_3","feat1_4"],["feat2_1","feat2_2","feat2_3]
Scalaでこれを行う最善の方法は何ですか?
お返事ありがとうございました。あなたが描いたように機能します。フィーチャー列の数があらかじめ分かっていない場合は、ハードコーディングを必要としないソリューションについて考えることができますか? –
SparkRでこれをどうやってやりますか? – nate
@MasoudTavazoei少し遅れましたが、ハードコードされていない値でも動作するバージョンの答えが表示されます。 –