similarity

4熱

3答えて

私はJenaを使ってオントロジに格納されたデータを照会しています。オブジェクトの一部は文字列で識別されますが、スキャンしたドキュメントを処理しているときにOCRエラーが発生する可能性があるため、まったく同じ文字列を使用できないことがあります。したがって、私は最も類似した文字列を探したいと思います。この目的のためにSPARQLを使用する方法はありますか？どういうわけかSPARQLでlevenshte

4熱

1答えて

OpenCV：類似性のためにフレームを比較する速い方法

私は、フレームを平均と比較し、それらの差を判断する方法を探しています（それらが非常に似ている場合、それほど似ていない場合は低い値）。私は小さな領域だけでなく、フレーム全体を比較する必要があります。私はすでに背景にフィルタをかけるために画像に大津の閾値処理を使用しています（背景には興味がなく、フォアグラウンドの機能には興味がありません）。私が欲しいものをやるための素晴らしい、速い方法がありますか？

5熱

3答えて

類似性マトリックスの効果的なクラスタリング

私の話題は類似しており、（一束の）テキストのクラスタリングです。一言で言えば、収集したテキストをまとめて、最後に意味のあるクラスタに表示する必要があります。これを行うには、今までの私のアプローチは以下の通りです。私の問題はクラスタリングにあります。現在のソフトウェアは、PHPで書かれています。 1）類似性：私はすべての文書を「単語の袋」として扱い、単語をベクトルに変換します。剪定（単語の切れ目

0熱

1答えて

ファジーストリングの比較 - ショートネームの名前の検出

これは、計算言語学/ファジーストリングマッチングについて尋ねるのは2回目ですが、今度はステミングの問題ではありません。私の最初の問題は、ファジーストリングマッチングを使用してデータベースを重複排除することでした。今、文字列が別の文字列の省略形であるかどうかを検出する必要があります。たとえば： JOHN ADRIAN FREEMANウェルターは、Microsoft Office JAFウェルターや

3熱

1答えて

なぜLogLikelihoodSimilarity関数は、0と1のデータセットに対して1.0より大きい値を返しますか？

私は1.0で表される嗜好の大きなデータセットを持っています。私はTanimoto類似性関数と一般的なブールユーザーとアイテム設定推薦者を使用しています。推奨値は、一般に0〜1.0の値です。 Mahout in Actionの本のような多くの情報源とthis prior SO threadは、ブール型データセットに対してTanimotoよりもLogLikelihoodSimilarityメトリックを

6熱

3答えて

ステミングの逆のプロセス

私はステーミングを実行するためにluceneの雪球アナライザーを使用します。結果は意味のある言葉ではありません。私はこれを参照しましたquestion。解決策の1つは、単語のステムバージョンと単語の安定バージョンの間のマップを含むデータベースを使用することです。（コミュニティーからコミュニティーへの例（コミュニティ/その他の単語））このような機能を実行するデータベースがあるかどうかを知りたい

1熱

2答えて

ワードネット内のsynset間の距離を調べる

javaからワードネットにアクセスするためのワードネット検索（JAWS）用のJava APIを使用します。私は、Javaとの意味的類似性に関するいくつかの論文を読むときに、2つのsynsetの間の距離を見つけることを期待しています（階層を構築するのに関係が使用されています）。 JAWSの単語間の距離を特定する方法はありません。二つの言葉 Example apple -> fruit-> fru

0熱

2答えて

テキストグループから最もユニークなテキストを取得

私はいくつかのテキスト（例：100）を持っています。私はそれらの中で最もユニークな10を保ちます。私は100x100マトリックスを作って、それぞれのテキストをLevenshteinアルゴリズムと比較しました。最もユニークな10個のアルゴリズムを選択するアルゴリズムはありますか？ EDIT：何私がしたいことは関係なく、私のセットの第一の要素のこのNテキストの間の距離を最大化N最もユニークなテキ

33熱

2答えて

類似のアルゴリズムを比較する

データベース内の破損したデータを見つけるために文字列類似機能を使用したいと思います。 JARO、 JARO-ウィンクラー、レーベンシュタイン、ユークリッドと Q-グラム、 I：は、私はそれらのいくつかに出くわしました何が彼らの違いで、どのような状況で彼らが一番うまくいくのかを知りたがっていましたか？

0熱

1答えて

サブストリングの比較です

次はすなわち、 ABCは、私がチェックをしたAXZ と同じABXまたはAXCまたはXBCと同じですが、ではない[最大つのミスマッチを持つ文字列Aと文字列Bを比較するためのコードですいくつかのケースがありますが、ウェブサイトは間違った答えを提供しています。誰かがこのコードがどこで失敗するかを理解するのに役立つでしょうか？また、誰かが同じ問題に対してより良いアルゴリズムを提供できると嬉しいです。