2016-11-15 2 views
-2

巨大なRDDと私はルールに従ってそれをフィルタリングしたいと思います。私はRDD 2つの要素と私は要因の順序を気にしないので、私はそれをフィルタにすることができますを削除するこれらのを繰り返しペア。繰り返し要素をフィルタリングするRDD

私の入力データは、このようなものです:

{{A,B},{A,C},{B,A},{B,C},{C,A},{C,B}} 

そしてRDDフィルタリングされた出力はこの1つのようになります。

{{A,B},{A,C},{B,C}} 

は、事前にありがとうございます。

答えて

1

タプルの要素をソートするRDDに.mapステップを適用したいと思います。 (A、C)、(A、C)]になります。

その後、すべての一意の値を取得するために.distinctを実行できます。

+0

私に手がかりをくれませんか?それを行うにはRDDにデカルトを適用する必要がありますか? –

+0

'' 'val newRdd = oldRdd.map(myValue => {myValue/*ここでカスタムソートロジックを適用する* /})distinct' ''地図と別個の演算子...デカルトは必要ありません。 –

関連する問題