4

私は全文検索エンジンのアーキテクチャを設計しています。その1つは、応答時間の少ない大規模なデータセット間でのクエリの処理です。私が理解できる1つのことは、逆索引をパーティションに分割することです。これには、用語ベースのパーティションとドキュメントベースのパーティションという2つの戦略があります。しかし、大きなデータセットの中で倒立型検索を高速化する他の方法があるかどうかを本当に知りたいですか?逆索引検索を高速化する方法は?

答えて

8

このvideoは、分散フルテキスト検索エンジンのElasticSearchの開発者であるShay Banonとのスピーチです。ビデオでは、用語ベースのパーティションとドキュメントベースのパーティションの長所と短所について説明します。

基本的に、用語ベースのパーティションは、プロセス/ノード間でネットワーク帯域幅が大きすぎます。そして、うまく実装するのは難しいです。ドキュメントベースは、実装と結果の作成が非常に簡単です。

また、in this lecture by Jeffrey Dean彼はまた、違いを説明し、Googleがドキュメントベースのパーティションを使用していると言います。

これは、検索エンジンを配布する2つの主な方法です。私は他のやり方を知らない。とにかく、情報検索の文献を検索して、その対象に関する斬新な研究をしたいと思うかもしれません。

関連する問題