私は2つのファイルを持っています.1つは要約(csvファイルから抽出された多くの行を含んでいます)と他のものはcsvファイルの行にあります。私は両方のファイルを読み込み、各1の配列[文字列]を得た:単語辞書からの単語の抽出
val summary: Array[String] = ...
val wordList: Array[String] = ...
各行についてsummary
で、私もwordList
に存在する単語のリストを抽出したい、
サンプル・データsummary
中:wordList
で
hi how are you
I am good.how about you.
I would like to have tea.
サンプルデータ:
good
tea
you
like
期待される結果:
import scala.collection.mutable.ArrayBuffer
val results = summary.map(l => {
var result = ArrayBuffer[String]();
wordList.foreach(w => {if (l.contains(w)) result.append(w)});
result.toArray.mkString(",")
}).filter(l => l.length > 0)
なぜcsvを直接データフレームにインポートしないでください。 https://github.com/databricks/spark-csv – ulrich
これは明らかに割り当てです。あなたが試したことと、あなたがどこにこだわっているのかを見せてくれれば最高です。また、あなたはSparkでタグ付けしましたが、Arraysは本当にRDDですか? –
それはまた、私が忘れてしまったことを含むいくつかの他の質問の複製です... –