2012-04-28 21 views
0

LuceneのTerm Freqベクトルを使用して文書間のコサインの類似性を計算しています。 私の文書には「借りている」「借りている」という3つの用語があります。 Luceneはこれを3つの別々の用語として扱いますが、そのうち3つは同じ "借り"を意味します。 Luceneにセマンティクスで索引付けするための機能がありますか? 「借りている」「借りている」「借りている」という用語は、頻度= 3の単語を「借りている」という1つの単語として索引付けしますか?Luceneのセマンティクスによる索引付け

私はこのタスクを達成するための提案を歓迎しますか?

答えて

1

EnglishStemmerでSnowballFilterを使用できます。これらの動詞を動詞動詞の単語に置き換えます(この例では、、または)。

関連する問題