2009-07-31 17 views
4

これは難しい質問かもしれませんが、私は何かを研究していて、誰かが「あまり知られていない」文字列類似性メトリックを知っているのかどうか疑問に思っていました(よく知られている例についてはthis pageを参照)。私はwikipediaに行ってきました。そして、Sourceforgeには、a bunch of string metric algorithmsというSimmetricsという素晴らしいライブラリがあります。誰かがいくつかの研究を行ったか、あまり使われていないとしてあなたの注意を呼んだいくつかの文字列アルゴリズムを見つけましたか?あまり知られていない文字列類似性メトリック

ありがとうございます。

答えて

2

このpage(LingPipe)には、文字列比較に関するヒントがいくつかあります。 Damerau-Levenstein距離、Needlman-Wunschアルゴリズム、Jaccard距離、Jaro-Winkler距離、TF/IDF距離について述べています。距離は2つの弦の間の類似性として理解される。ページの終わり

は、それが参照を与え、それはまた、すべての「関連項目」参照およびすべてのユーザーのコメントを含む( download & license

1

リストに追加する可能性のある発音アルゴリズムのクラス(Soundexなど)もあります。

0

SpSim(綴りの類似性)は、言語間の同族体(同じ起源を有する語)を識別することを目的とした文字列類似度である。

関連する問題