2016-05-26 8 views
0

word2vecをVietnamese言語に実装しようと思っていますが、事前に訓練されたベクトルについて混乱しています。私は英語で使ってみましたが、Google News-vectors-negative300.bin.gz(約3.4GB )、それは良い仕事をします。もし私がベトナム語を使っているのであれば、私はデータをあらかじめ訓練されたベクトルにする必要がありますか?他の言語(word2vec)用に事前に訓練されたベクトルを作成する方法は?

: なGoogleニュースベクトル-negative300.bin.gzとして事前に訓練されたベクターを作製する方法を、私は、テキスト形式に結果をGoogleニュースベクトル-negative300.binを変換しよう

0.001129 -0.000896 0.000319 0.001534 0.001106 -0.001404 -0.000031 -0.000420 -0.000576 0.001076 -0.001022 -0.000618 -0.000755 0.001404 -0.001640 -0.000633 0.001633 -0.001007 -0.001266 0.000652 -0.000416 -0.001076 0.001526 -0.000275 0.000140 0.001572 0.001358 -0.000832 -0.001404 0.001579 0.000254 -0.000732 -0.000105 -0.001167 0.001579

上記のフォームに文字や単語を変更するには?

答えて

0

言語データでモデルをトレーニングする必要があります。 Pythonで "decode"と "encode"関数を使うことが可能です。あなたの文章の列車モデルの前に、あなたの文章をユニコードする必要があります。

for sentence in sentences: 
    for word in sentence: 
     word = word.decode('utf-8') 

このモデルは、 "UTF-8" でサポートされている任意の言語:)

と電車することができた後、
関連する問題