2016-04-01 11 views
0

合計の質問はありません。私は、各行に数字を含むファイルを持っている、約5百万行があり、各行に異なる番号があります。どのように私は火花とpythonを使用してファイルの上位5の値を見つけるのですか?spark pythonプロダクトトップ5ファイルからの番号

+0

1日が過ぎましたが、反応しないでください、心配する必要はありますか? – gsamaras

答えて

1
  1. ノード間で読み取ったデータを配布します。
  2. すべてのノードは、5つのローカル最大値を検出します。
  3. すべてのローカル最大値を組み合わせると、その最大値である5個の最大値である が返されます。
+0

1つのノードに最大の2つのデータポイントがある場合はどうなりますか?私たちは二番目に大きいのを無視しませんか? – JeD

+0

@JeDを修正してください、更新されました、ありがとうございます! – gsamaras

関連する問題