2011-01-25 13 views
-3

可能性の重複削減で検索:Luceneのインデックスに削減し、検索/ HADOOPの地図を使用する方法
instant searching in petabyte of data…Luceneのインデックスと地図/

を?????

+0

ご質問を少しお待ちくださいますか? – Tyzak

+0

http://stackoverflow.com/questions/4791602/instant-searching-in-petabyte-of-data – Nageswaran

+5

alredyさんの質問が投稿されている場合は_why_再投稿しますか? – oezi

答えて

2

私はあなたのために見つけることができる最も近いものがKattaです:

刈田はHadoopのMapReduceの、HadoopのDFS、HBaseの、BigtableのかHypertableに非常に似て多くのコモディティハードウェア・サーバ上で実行されている分散アプリケーションです。

(...)

刈田は、Luceneの実装のための分散スコアリングをサポートしています - 私たちは長期的な分布は、すべての破片の上に完全にバランスが取れていることを期待していないためです。

Kattaで実行される各検索クエリは、2つのネットワークラウンドトリップとなります。まず、すべてのノードからクエリのドキュメント頻度を取得し、2回目のトリップでこの値と検索クエリをすべてのノードに渡します。クエリに一致するドキュメントを数えても、1回のネットワークラウンドトリップでドキュメントをカウントする単純なカウント方法を提供しています。