2017-12-15 11 views
0

Googleのニュースベクター-300データセットを読み込みました。各単語は300ポイントのベクトルで表されます。私は分類のために私の神経ネットワークでこれを使用したい。しかし、1つの単語300は大きすぎるようです。品質を損なうことなく、ベクトルを300から100に減らすにはどうすればいいですか?Google News Vectorデータセットからword2vecディメンションを減らす

答えて

0

@narasimman word2vecモデルの出力ベクトルの上位100個の数字をそのまま使用することをお勧めします。私はあなたがすべての単語(!ないように注意してくださいが)にそれを行う場合は、この結果を台無しにすることはないと思う

>>> word_vectors = KeyedVectors.load_word2vec_format('modelConfig/GoogleNews-vectors-negative300.bin', binary=True) 
>>> type(word_vectors["hello"]) 
<type 'numpy.ndarray'> 
>>> word_vectors["hello"][:10] 
array([-0.05419922, 0.01708984, -0.00527954, 0.33203125, -0.25  , 
     -0.01397705, -0.15039062, -0.265625 , 0.01647949, 0.3828125 ], dtype=float32) 
>>> word_vectors["hello"][:2] 
array([-0.05419922, 0.01708984], dtype=float32) 

:あなたのような何かを行うことができますので、出力はタイプnumpy.ndarrayであります
関連する問題