2017-10-25 1 views
2

私はSolrには新しく、基本スコアリングモデルを研究しています。私は基本的なスコアリングモデルがブールを使用してドキュメントセットを生成し、次にベクトル空間モデルを使用して関連性に従ってランク付けすることを理解しています。 プロキシミティ検索を使用している間に、生成距離ORに基づいて得点が得られた後、ベクトル空間モデルに従って検索結果もランク付けされますか?Solr近接検索スコアリング

答えて

1

まずVSMスコアはorg.apache.lucene.search.similarities.TFIDFSimilarityで使用されています(最新のバージョンのLuceneではデフォルトの類似点ではありません)。たとえば、org.apache.lucene.search.similarities.BM25Similarityは同様のものを実装しますが、むしろbag of wordsと呼ばれます。近接検索の場合

、基底クラスorg.apache.lucene.search.similarities.Similarityは、SpanQuery、及びPhraseQueryとして「ずさんな」クエリを採点する責任があるネストされたクラス Similarity.SimScorerを有しています。通常は、sloppyFreqを計算するメソッドがあります。これは編集距離の関数であり、式の追加係数として追加されます。

sloppyFreqのデフォルトの実装の1つは1.0f/(distance + 1)ですが、必要に応じてカスタマイズすることもできます。

+0

ご回答ありがとうございます。 sorrはこのsloppyFreqスコアをドキュメントの最終的なVSMスコアに加えますか? –