私はSpark 2.0を使ってデータセットを分析しています。Spark 2.0でコンマ区切りの文字列から別の項目を取得
A,C
A,B
A
B
B,C
私は列に表示されるすべての個別項目とJavaRDDを取得したい、このような何か:これはスパークで効率的に行うことができますどのように
A
B
C
一つの列には、このような文字列データが含まれています? SparkをJavaで使用していますが、Scalaの例やポインタが便利です。
編集: flatMapを使用しようとしましたが、実装が非常に遅いです。
JavaRDD<String> d = dataset.flatMap(s -> Arrays.asList(s.split(",")).iterator())