2016-08-24 3 views
1

従来の方法では多くのメモリ/ディスクスイッチが必要になるため、紙の参照の中で統計を行う場合、map-reduceは従来の方法よりもはるかに優れています。なぜ私は伝統的な方法がうまくいかないのかどうか分かりません。なぜmap-reduceは伝統的な手法よりも「ペーパーリファレンス」の問題を改善していますか?

マップ・リダクションを1台のマシン(クラスタなし)で実行すると、従来の方法よりもいくつかの問題が改善されていますか?

または別の言葉では、 "map-reduce"自体のアルゴリズムパラダイムは、アルゴリズムの観点から問題を解決することにいくつかの利点がありますか?

ありがとうございました。

+0

'誰がどこに? –

答えて

1

のM/Rでは、高度な統計パッケージと同じアルゴリズムを再適用できます。しかし、より典型的には、使用されるアルゴリズムにおいて、分散して実行することを可能にするためにいくつかの犠牲がなされる。 Map/Reduceは、クロスフォールディングサンプリング(または他のサンプリング方法論)の間に、より均一に無作為化された分布を提供するという点で「魔法」を提供しません。

メモリに収まる小さなデータセットの場合、スケーラビリティのためのアルゴリズムの妥協のために、通常はM/Rが従来のパッケージより悪くなります。 1台のマシンで完全にサンプリングすることができない大きなデータセットを使用すると、M/Rの利点が見え始めます。 R/Matlab/SASを使用すると、通常、ダウンサンプリングが必要になります。

関連する問題