2016-12-13 10 views
0

私は300ディメンションのgeinsimで訓練されたword2vecモデルを持っており、ディメンションを100にカットしたい(最後の200ディメンションを削除する)。 Pythonを使用する最も簡単で効率的な方法は何ですか?Gensim Word2Vecモデル:カットディメンション

答えて

1

word2vec formatに出力モデルを保存することができます。テキストファイル(.txt)として保存してください。 word2vec形式は次のとおりです

先頭行は<vocabulary_size> <embedding_size>です。あなたの場合、<embedding_size>300になります。 残りの行は<word><TAB><300 floating point numbers space separated>になります。これで、Pythonでこのファイルを簡単に解析し、各行から最後の200個の浮動小数点を捨てることができます。最初の行にある<embedding_size>を更新してください。これを新しいファイルとして保存します(オプション)。 load_word2vec_format()を使用して、新しいファイルを新鮮なword2vecモデルとして読み込むことができます。

これが問題を解決する場合は、どうぞご了承ください。

関連する問題