ハッシュ関数の使用に問題があります。私は、文書のすべての単語にいくつかの番号(128ビットまたは64ビット)を割り当てなければなりません。したがって、「類似性」のハッシュ値は「類似」に近くなければなりません。つまり、類似性の値が> 10022(言い換えれば)>類似=> 10025の場合です。それは似たような言葉に近いはずです。別の名前のハッシュ値も同様でなければなりません。つまり、 "ジョン"のハッシュ値も "michel"や "sita"と近いはずです。身体に何か考えがある場合。類似性ハッシュ関数(simhash)
ありがとうございました。 :)
私はそれについてより明確にしてください。 –
あなたはどの部分を説明する必要がありますか? –
利用可能なデータのサンプル値はどのようなモデルですか? –