3
test.csv
name,key1,key2
A,1,2
B,1,3
C,4,3
とCSVデータ分割私は(データセットまたはRDDとして)このように、このデータを変更したいスパーク - スカラ
whatIwant.csv
name,key,newkeyname
A,1,KEYA
A,2,KEYB
B,1,KEYA
B,3,KEYB
C,4,KEYA
C,3,KEYB
私は、readメソッドでデータをロードしました。
val df = spark.read
.option("header", true)
.option("charset", "euc-kr")
.csv(csvFilePath)
私は(名前、キー1)または(名前、KEY2)のように、各データセットをロードし、そして組合それらを結合によって、しかし、単一の火花セッションでこれをやりたいことができます。 これは何ですか?
これらは機能しません。
val df2 = df.select(df("TAG_NO"), df.map { x => (x.getAs[String]("MK_VNDRNM"), x.getAs[String]("WK_ORD_DT")) })
val df2 = df.select(df("TAG_NO"), Seq(df("TAG_NO"), df("WK_ORD_DT")))
あなたはDATAFRAMEから 'explode'機能を試してみましたか? – Shankar
nope。私は爆発しようとします。ありがとう:) –
key1とkey2は単一の列ではないので、私は正しい答えではないと思います。 –