2016-06-12 2 views
0

私は潜在意味解析に取り組んでいます.2つのドキュメントから類似性を得ようとしています。私は、Pythonの潜在意味解析の私のコードを実行し、私はそれを実行したときに私が取得:LSAから類似性を得るには

Here are the singular values 
[ 0.7376057 0.4596623 0.25422212] 
Here are the first 3 columns of the U matrix 
[[ 0.98465137 -0.172792 -0.02458864] 
[ 0.15675976 0.81362269 0.55986114] 
[ 0.07673365 0.55512255 -0.82822153]] 
Here are the first 3 rows of the Vt matrix 
[[ 0.08861949 0.02992777 0.36751379 0.9253024 ] 
[ 0.78716383 0.34742637 0.43792207 -0.26056147] 
[ 0.29462756 -0.93722956 0.17407106 -0.06704194]] 

私は、この番号からの類似性を見つける方法は?

答えて

0

https://en.wikipedia.org/wiki/Latent_semantic_analysisは非常によく、またあなたの問題を説明します。

たとえば、ドキュメントiとjの間の類似性を判断したいとします。 は、diag(S)* d_iとdiag(S)* d_jのコサイン類似度を取る。

近づくほど+1に近いほど類似しています

関連する問題