2012-04-23 23 views
1

ハッシュ関数の使用に問題があります。私は、文書のすべての単語にいくつかの番号(128ビットまたは64ビット)を割り当てなければなりません。したがって、「類似性」のハッシュ値は「類似」に近くなければなりません。つまり、類似性の値が> 10022(言い換えれば)>類似=> 10025の場合です。それは似たような言葉に近いはずです。別の名前のハッシュ値も同様でなければなりません。つまり、 "ジョン"のハッシュ値も "michel"や "sita"と近いはずです。身体に何か考えがある場合。類似性ハッシュ関数(simhash)

ありがとうございました。 :)

答えて

3

このように動作していない場合は、最初に利用可能なデータのサンプル値の一般的なモデルを見つけて、ストリーミングログメッセージに使用する必要があります。

+1

私はそれについてより明確にしてください。 –

+0

あなたはどの部分を説明する必要がありますか? –

+1

利用可能なデータのサンプル値はどのようなモデルですか? –

0

OpenNLPと呼ばれるライブラリがあるので、このライブラリを使用すると、どのタイプの単語であるかを知ることができます。名前のような類似の単語については、名前や動詞などのハッシュ関数を書くことができるので、同様のハッシュ値を得ることができます。ありがとう。

+1

オープンライブラリは一般的な英語では問題なく動作しますが、イベントログは一般的な英語パターンに従いません。私はログメッセージでそれを使用することはできません。アイデアがあれば? –

関連する問題