Luceneでnグラム以上のJaccard類似性を使ってクエリとドキュメントの類似性を計算する必要があります。 Jaccardの類似性はIRの非常に一般的な尺度であるため、私はLuceneの実装を見つけることを期待しましたが、できませんでした。LuceneのJaccard類似点
このような実装を知っている人はいますか?
Luceneでnグラム以上のJaccard類似性を使ってクエリとドキュメントの類似性を計算する必要があります。 Jaccardの類似性はIRの非常に一般的な尺度であるため、私はLuceneの実装を見つけることを期待しましたが、できませんでした。LuceneのJaccard類似点
このような実装を知っている人はいますか?
このライブラリを試してくださいhttp://sourceforge.net/projects/simmetrics/あなたははるかに類似機能を見つける。しかし、 http://secondstring.sourceforge.net/からSoftTFIDFを使用することをお勧めします。これは、「名前一致タスクの文字列距離メトリックの比較」に従って最高の精度/再呼び出しを備えています。ウィリアム・W・コーエン他。