スフィンクスの近似対応ランクカーは、若干修正されたBM25ランカー(統計的bag-of-words)+後者を強く支持する最長単語サブストリングのマッチ式を使用しますが、Solrは他の統計ランキング機能(BM25ではなく、 +単語bigrams(これはLWSのアプローチに似ています)のために必要に応じてブースト。私は、これらの両方が、関連性の人間の視点をモデル化しておらず、答えの言葉が必ずしも隣接していなくても、同じ順序であっても、関連性は崖から落ちないと思います。Solr&Sphinx:関連性を向上させる方法
簡単な例:
問合せ:ボブ・ジョーンズ
本体:。 。 。 。ジョーンズ、ボブ。 。 。
- または -
ボディを(私には関連見えますが、これは統計のみにフォールバックします):。 。 。 。ボブMiddleNameジョーンズ。 。 。 。 (同じ)
私は知っていますが、単語が出ていれば、本質的にSolrとSphinxの両方が単語の統計統計係に落ちることに気づいた唯一の人にはなりません秩序や単語で区切られていることもあり、場合によってはストップワードになる可能性もあります。
思考?上記のいずれかのケースを文書のどこかに現れる単語よりも高いランクにしたい場合はどうすればよいですか?それとも、私は間違っていますか?また、SolrやSphinxはこれをやっていますか?
AFAIKこれはケース#2(Bob MiddleNameJones)のみを改善します。そのリンクにリストされている両方のアプローチは、最初のケース(取り消し)には対処せず、統計的ランキングと連携して機能しません。別のポイント: 指定されたクエリ: Common_Wordその他の__Common_Word Rare_Word、最初の2つは他の用語に近いが、最後の単語はそれほど重要ではありません。 –