similarity

    3

    2答えて

    Googleニュースと同様の2つのニュース項目の内容の類似性を判断したいが、基本的な話題が何を決定するかを判断できるようにしたいどのトピックが関連しているか もし記事がSaddam Husseinについて書かれていたら、このアルゴリズムはDonald Rumsfeldのイラクにおけるビジネス取引について何かを推奨するかもしれない。 もしあなたがk-最近隣のようなキーワードを投げ捨てることができ、な

    1

    5答えて

    私はいくつかのファイル名(LIST1)と完全な名前リスト(LIST2)を持つもう一つの大きな名前のジェネリックを持っています。 LIST1の名前とLIST2の名前を同じにする必要があります。例 LIST1 - **MAIZE_SLIP_QUANTITY_3_9.1.aif** LIST 2 1- TUTORIAL_FAILURE_CLINCH_4.1.aif 2- **MAIZE_SLI

    0

    1答えて

    Perlでの2つのドキュメントの余弦類似距離を計算するにはどうすればよいですか?いくつかの質問: 1)CPANにコサイン類似距離を計算するためのモジュールはすでにありますか?あるいは、この作業は簡単にコード化することができますか? 2)私が文書を言うとき、私は本当に一つの "文書"が文であり、もう一つの "文書"が単なるキーワードのリストであることを意味します。公平であるためには、コサイン類似度距

    6

    3答えて

    私は現在、similar_textを使用して文字列と〜50,000のリストを比較していますが、比較の数が非常に遅いためです。 〜500のユニークな文字列を比較するのに約11分かかります。 これを実行する前に、過去に処理されたかどうかを確認するためにデータベースをチェックします。 私は確かにlevenshteinを使用すると少し速くなり、誰かがマニュアルに載せたLevenshteinDistance

    7

    3答えて

    私はこのようなユーティリティを構築しようとしていますが、http://labs.ideeinc.com/multicolr、 はどのアルゴリズムを使用しているのか分かりません。

    1

    1答えて

    私は遺伝的アルゴリズムを使ってテキストを最もよく表す単語リストを生成するプロジェクトに取り組んでいます。 私は現在コサインの類似性を使用していますが、それは2つの欠点があります。それは目的にはあまりにも遅く、比較される2つのベクトルがゼロの場合、人工的に高い類似性と、非常に良い。 速い/そこにない言葉に注意を払わない他の尺度に対する提案はありますか?おかげさまで

    2

    1答えて

    私は、realtyサイトの特定のプロパティの上位10個の最も類似したプロパティを選択しようとしています。私が扱っている変数は、price(int)、area(int)、bathrooms(int)、bedrooms(int)、suites(int)、parking(int)です。現時点では、私はABS(a-b)による注文を考えていますが、プロパティを表示するたびに計算しなければならない場合は遅くな

    0

    1答えて

    2つのjpgファイルバイナリデータがあり、PHPを使用して類似度を計算する方法があります。 バイナリコードから色情報を取得することが可能な場合はそれ以上です。それ以上の場合、サーバはsurport gdを実行できません。これはデリゲートサーバです。

    3

    2答えて

    私は、エラーログとその説明の何千もの行を持つデータベースを持っています。このエラーログは24時間365日稼働しているアプリケーション用です。私はダッシュボード/ UIを作成して、プロクシションサポートのために起こっている現在の一般的なエラーを表示したいと考えています。 私が抱えている問題は、一般的なエラーが多いにもかかわらず、エラーの説明が、転写IDまたはユーザーID、またはそのような固有の特質で

    1

    1答えて

    私はLuceneの類似度を扱うのに多くの問題があります。私はそれがデフォルト(ドキュメントによれば0.5)とは異なる類似要素を適用したいと思っていますが、動作していないようです。 [tinberland〜0.5]のような必要な類似性係数を明示的に設定するクエリを入力すると(正確に "M"であるが、 "N"でtiNberlandを書き込んだことに気付く) Timberland製造業者の多くの製品。し