2017-02-01 9 views
0

私はアイテムアイテムマトリックス(1877 x 1877)を持っています。行列の値は、2つのアイテムが一緒に発生した回数を表します。 2つのアイテムの類似点を判断するにはどうすればよいですか? 読書を通して、私はいくつかのオプションを見つけました。しかし、私はこれらのアプローチについてはわかりません。開始するための入力は感謝しています。共起行列に基づいて類似点を計算する方法は?

  1. 使用余弦は、2つのベクトル間のグラフに
  2. 電源を入れ、これをSIM計算するために、simrankような使用対策が類似度を計算する - 発生は2つのノード間の重みとしてカウントを使用してもよいです。

答えて

0

1877個の機能を持つ1877個のアイテムとしてスレッドすることができます。 2つの項目が似ている場合は、共起が類似します。最も近いものを見つけるためにNearestNeighborsを使うかもしれないと考えると、利用可能な指標があるかもしれません。

また、データを再解析すると役立ちます。私はそれが流通しているのかわかりませんが、値を範囲[0; 1]に正規化したり、そういうふうにしたいかもしれません。

+0

私はあなたが正しくなるなら、私はコサインを使って行列の列間の計算をしますか?列はフィーチャと見なされます。正規化に関しては、各列の長さを1にするようにリスケールしますか? sklearn.preprocessingからのインポート*;正規化された_X =正規化(X、軸= 0、ノルム= 'l1') – kitchenprinzessin

関連する問題