2016-09-22 2 views
1

多くの場合、データベースからデータを取得し、それをアプリケーション(データから機能へ)に持ち出します。しかし、いくつかのデザインでは、それは逆のやり方で行います。これはビッグデータ設定に適しています。例として、Hadoop MapReduceまたはApache Sparkがあります。データへの機能の導入 - これはどのように呼び出されますか?

私たちは、どのように機能をデータにもたらし、それ以外の方法ではないのでしょうか?私は "データの場所に敏感"や "データの場所の認識"やそのようなものを覚えていますが、インターネット上で正しい用語を見つけることができません。

答えて

1

data localityとは何ですか? サイズが1 GBのテキストファイルがあり、そのファイル内のすべてのテキストを大文字に変換するマップリダクションコードを作成した場合、最初にファイルがチャンクに分割され、テキストを大文字にするロジックがあるとします各データノードで使用可能になります。各ノード上のtasktrackerは、そのローカルノードに存在するデータブロックのみをmap reduceコードを実行します。これは、データの局所性として知られています。

+0

それは1つ(用語)です。私はまた私が興味深かった記事の1つを見つけました:http://www.bluedata.com/blog/2015/05/data-locality-is-irrelevant-for-hadoop/(アイデアを裏付けるものではありません) – Make42

関連する問題