2012-02-01 1 views
12

私はluceneがインデックスを作成し、すべてのデータを保存することを知っています。データがどのようにフラットファイルに保存されるか教えてください。またはバックエンドにデータを保存するために使用するアルゴリズムの種類によって、迅速に検索できるようになりますか?データがluceneに保存される方法

答えて

4

あなたは

+1

これは良いエントリーレベルの本ですが、この問題とは関係ないビットですが、それでも参考になります。 – linjunhalida

+1

無料のコンテンツを提供する情報検索のもう1つの素晴らしい書籍があります:https://ciir.cs.umass.edu/irbook/ – realjin

4

あなたはfile formatsセクションで説明したものをすべて見つけることができる情報検索システムで使用されるデータ構造、アルゴリズムやモデルについて知っているこの本http://nlp.stanford.edu/IR-book/を読むことができます。

8

あなたが求めているかどうかわかりません。しかしより一般的な答えは、彼らがInverted Indexを使用/実装しているということです。 Luceneがどのようにそれを保存しているかの詳細は、file formats(milanが言ったように)で見つけることができます。

しかし、一般的な考え方では、逆インデックスデータ構造や他の補助データ構造を保存して、クエリに素早く応答することができます。たとえば、各文書および各用語のIDF(inverse document frequency)のノルムのベクトルを格納します。 Luceneは実際のドキュメントフィールドも格納しますが、これは反転インデックスの外にあります。

関連する問題