ここは例です。Sparkに単語を追加する良い方法はありますか?
のDataSet - dataset.txt
1 banana kiwi orange melon
コード
scala> val table = sc.textFile("dataset.txt").map(_.split(" "))
scala> table.take(1)
res0: Array[Array[String]] = Array(Array(1, banana , kiwi , orange, melon))
scala> val pairSet = table.map{case Array(key,b,k,o,m) => (key, b+" "+k+" "+o+" "+m)}
scala> pairSet.take(1)
res1: Array[(String, String)] = Array((1, banana kiwi orange melon))
pairSet
に値を追加する部分が効率的である場合、私は疑問に思います。それとも良い方法がありますか?
ありがとうございました! あなたのメソッドは '(' '+ + +" + + "+" + "+" + " + m) '? –
はい、あなたのケースでは、最初のオカレンスを除いて残りの文字列を不必要に分割しているため、後でそれらを再度追加するだけです。 – vdep
ああああ!ご清聴ありがとうございました! –