0
複数のファイルを読み込み、繰り返し行を数え、繰り返し数で行を並べ替え、上位10行を繰り返します。複数のソート済みパーティションから最初のn個の要素を取得する
lines = env.readTextFile("logs-dir")
tuples = lines.map(line -> Tuple2(line, 1))
aggregate = tuples.groupBy(0).sum(1)
sort = aggregate.sortPartition(1, Order.DESCENDING)
sorted.first(10).writeAsText("domains")
問題は、first-nが任意であり、すべてのパーティションからランダムな10番目の要素を返すことです。
並列性を1に減らさずに、すべてのパーティションからソートされたfirst-n要素を選択する方法はありますか?