の一覧を表示するには、私はRDD構造スパーク:RDDは
RDD[(String, String)]
を持っていると私は2つのリスト(RDDの各次元に1つ)を作成します。
私はrdd.foreach()を使用して2つのListBuffersを埋め込み、リストに変換しようとしましたが、繰り返し後にBufferListsが空であるため、各ノードは独自のListBufferを作成します。どうしたらいいですか?
EDIT:私のアプローチ
val labeled = data_labeled.map { line =>
val parts = line.split(',')
(parts(5), parts(7))
}.cache()
var testList : ListBuffer[String] = new ListBuffer()
labeled.foreach(line =>
testList += line._1
)
val labeledList = testList.toList
println("rdd: " + labeled.count)
println("bufferList: " + testList.size)
println("list: " + labeledList.size)
と結果は次のとおりです。
rdd: 31990654
bufferList: 0
list: 0
を何のコードで更新してくださいいくつかの入力データサンプルと期待される出力を試しました!あなたの質問は私にはあまり明確ではありません。 – eliasah