sortByKeyなどの関数を呼び出すことができるコレクションのデータ型を理解できない。私はListMapを持っています(私はsortByKeyを呼び出すために要素を順番に格納するデータ構造が必要です)。リストマップの内容は、キーとしての最初のn番号と、それぞれの値としての1です。リストマップの代わりに何を使用すればよいですか?sparkでOrderedRDD関数を使用する
val l = (1 to 1000).toList
val d = ListMap(l.map(s=> s -> 1):_*)
val rdd = sc.parallelize(Seq(d))
rdd.collect()
val sorted = rdd.sortByKey()
sorted.collect()
ListMapを使用しています。ソート機能への入力が既にソートされているので、キーがソートされていることを確認したいのです。このrddがソート関数に渡されたときに、このrddが順序付けされていることを確認する方法を教えてください。 – user1745995
@userなぜソートされたものを並べ替えるのですか?私が従うかわからない –
シャッフルの読み込みとシャッフル書き込みが必要なため、データがネットワーク上を移動する必要があります。しかし、私は実際のソートを行う時間を費やしたくありません(実際には、私の最終データがソートされていない場合でも気にしません)。私が理解しているところでは、sparkはソートされたデータに対してO(n)ランタイムを与えるtim sortを使用するので、ソートしようとしているデータがソートされていることを確認したい。 – user1745995