2017-10-26 6 views
0

私はGoogleのニュース負荷事前訓練されたワード埋め込み

model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) 
print (model.wv.vocab) 

から事前に訓練された単語の埋め込みをロードしたい。しかし、エラーが表示されている:

UnicodeEncodeError: 'ascii' codec can't encode character '\u2022' in position 62425: ordinal not in range(128) 

が、私はこれをどのように修正すればよいですか?私は単語embeddingsのすべての単語をリストし、文の埋め込みの平均をしたいので。

+0

Python 2または3を使用していますか? – MaximTitarenko

+0

私はpython 3を使用しました。 –

答えて

0

私はそれらを同じ方法でロードしていますが、その問題はありません。私はそれがprintステートメントであると考えています。おそらくあなたのstdoutは、それが上司か端末かにかかわらずasciiのためだけに設定されています。この問題を避けるために、私は

のファイルを開くことをお勧めします
with open("vocab.txt", "w", encoding="utf8") as vocab_out: 
    for word in model.wv.vocab: 
     vocab_out.write(word + "\n") 
関連する問題