2011-12-09 11 views
2

ユーザーが「知っているとおりに多くの情報を」提供できる検索機能を提供する必要があるという問題に直面しています。このデータセットは と異なるルックアップテーブルと照合して、 を私のローカルIDの1つに確実に関連付けることができるかどうかを判断する必要があります。たとえば、この検索クエリのレコードがある場合 フィールドのほとんどが曖昧です。データセットのファジーインデックス

例:ユーザーのみ街路番号を有し、別の通り (ユーザが最初の名前を有する場合) 1つのフィールドは名前とすることができます。

データセットのサイズは中程度(〜10Mエントリ)です。

この問題の最も良い選択肢は何ですか? SQL + soundex?ルシェン?

ありがとうございます!

+0

この質問はもう少し古いです。私は似たようなものを探しています。あなたは今何を使っていますか? – Albert

答えて

0

Luceneの文書にスコアを付けて類似性を比較することができます。 Luceneのような逆索引ツールは、SQLの従来のキー値ルックアップよりも高速でスケーラビリティが高いはずです。

関連する問題