2011-08-16 13 views
1

私は検索クエリからクエリに意味を持たない単語/フレーズを削除したいと思います(ストップフレーズと呼ぶこともできます)。例:lucene/solrは一般的なフレーズ(ストップフレーズ)を削除します

"どのように.."

は "どこで見つけることができます.."

"の意味は何ですか.."

など

  1. 英語とフランス語の「共通のフレーズ」のリストをどこで見つけるか/どのように計算するのか?

  2. (ストップワードが備わっていますよりもより高度なものはありますか?)彼らは意図を明らかにするため、私は、あなたが完全にこれらの語句を取り除くしようとするべきではないと思います

+0

単なるリンクです。たぶん、より正確で正確な解決策が必要かもしれません。 http://armandbrahaj.blog.al/2009/04/14/list-of-english-stop-words/ – kisp

+0

チップの10倍。しかし、私は基本的なストップワード機能以外のソリューションに興味があります。 –

答えて

1

Solrの中でそれを実装する方法検索者のEphyraのような自然言語の質問応答システムを使って、それらの存在を活用しようとすることができます。 Luceneとの統合を目的としたprojectもあります。私はそれを自分で使ったことはありませんが、少なくとも評価するのは です。

これらを削除することに決めた場合は、クエリをフィルタリングするカスタムQueryParserを書いて、それ以降の処理を選択したパーサーに委任する必要があると思います。

関連する問題