2016-05-02 16 views
0

私はapache spark intersectionメソッドを使用して2つのRDD Stringの交差点を見つけようとしていますが、空の配列を返します。apache sparkで交差しない交差点

val d=sc.parallelize(Seq("web services as a software","RCB vs CSK")) 

val d1 = sc.parallelize(Seq("software as a services", "CSK vs RCB")) 

d.intersection(d1).collect 

出力

RES6:配列[文字列] =配列()

+3

なしにあなたの弦の長さは同じです。あなたが何を期待していたかわからない –

+0

?私はあなたが_words_の交差点を探していると推測していますが、あなたのRDDには完全な文章が含まれています。 d.flatMap(_。split( "")))。intersection(d1.flatMap(_。split( "")))) 'を実行しようとしていましたか? –

答えて

1

あなたが単語に文章を分割一部欠けている:

val d=sc.parallelize(Seq("web services as a software","RCB vs CSK")).flatMap(_.split(" ")) 

val d1 = sc.parallelize(Seq("software as a services", "CSK vs RCB")).flatMap(_.split(" ")) 

d.intersection(d1).collect