これは、計算言語学/ファジーストリングマッチングについて尋ねるのは2回目ですが、今度はステミングの問題ではありません。 私の最初の問題は、ファジーストリングマッチングを使用してデータベースを重複排除することでした。今、文字列が別の文字列の省略形であるかどうかを検出する必要があります。たとえば: JOHN ADRIAN FREEMANウェルターは、Microsoft Office JAFウェルターや
私は1.0で表される嗜好の大きなデータセットを持っています。私はTanimoto類似性関数と一般的なブールユーザーとアイテム設定推薦者を使用しています。推奨値は、一般に0〜1.0の値です。 Mahout in Actionの本のような多くの情報源とthis prior SO threadは、ブール型データセットに対してTanimotoよりもLogLikelihoodSimilarityメトリックを
javaからワードネットにアクセスするためのワードネット検索(JAWS)用のJava APIを使用します。私は、Javaとの意味的類似性に関するいくつかの論文を読むときに、2つのsynsetの間の距離を見つけることを期待しています(階層を構築するのに関係が使用されています)。 JAWSの単語間の距離を特定する方法はありません。二つの言葉 Example
apple -> fruit-> fru