2011-07-14 8 views
2

Luceneでnグラム以上のJaccard類似性を使ってクエリとドキュメントの類似性を計算する必要があります。 Jaccardの類似性はIRの非常に一般的な尺度であるため、私はLuceneの実装を見つけることを期待しましたが、できませんでした。LuceneのJaccard類似点

このような実装を知っている人はいますか?

答えて

1

私が知っている唯一の実装は、LingPipeのものです(非営利目的/研究目的のためにのみ無料です)。 Hereは、LingPipeでの使用方法を示すブログ記事です。両方のライブラリを接続する方法の詳細は、LingPipeのWebサイトおよびthis bookにあります。

ただし、(ライセンスの観点からも)他の実装を自分で統合するのが簡単ではないと評価していません。それは私にとってうまくいくソリューションです。

0

このライブラリを試してくださいhttp://sourceforge.net/projects/simmetrics/あなたははるかに類似機能を見つける。しかし、 http://secondstring.sourceforge.net/からSoftTFIDFを使用することをお勧めします。これは、「名前一致タスクの文字列距離メトリックの比較」に従って最高の精度/再呼び出しを備えています。ウィリアム・W・コーエン他。

関連する問題