2016-04-23 23 views
0

私は既に訓練を受けた準備ができているword2vecモデルを持っています。私は、CSVファイルとして連載している:私が知りたいのですがどのようなgensimでpre-trainedモデルを読み込み、doc2vecでトレーニングする方法は?

word, v0,  v1,  ..., vN 
house, 0.1234, 0.4567, ..., 0.3461 
car, 0.456, 0.677, ..., 0.3461 

は、私がgensimでその単語のベクトルモデルをロードし、段落またはdoc2vecモデルを訓練するためにそれを使用する方法です。

このDoc2Vec tutorialは、「# C text format」の形式でモデルを読み込むことができますが、実際にはどういう意味かわかりません。最初は「Cのテキスト形式」ですが、もっと重要なのは

  • 私はword2vecモデルを読み込んでdoc2vecトレーニングに使用できますか?

word2vecモデルから語彙を構築するにはどうすればよいですか?

答えて

1

Doc2Vecは、入力として単語ベクトルを必要としません。それは、それ自身の訓練の間に必要な単語ベクトルを作成します。 (純粋なDBOW-dm=0, dbow_words=0のようないくつかのモードでは、単語ベクトルをまったく使用しないでください)

単語ベクトルを使ってDoc2Vecモデルをシードすると助けとなるかもしれません。ガイダンスを提供するための理論や公表された結果はあまりありません。そこ既存の語彙をモデルにword2vec-CフォーマットのベクトルをマージすることができWord2Vec、intersect_word2vec_format()、上の実験方法がありますが、あなたは本当に、その前提を理解するためのソースを確認する必要があるだろう:

https://github.com/RaRe-Technologies/gensim/blob/51753b95415bbc344ea6af671818277464905ea2/gensim/models/word2vec.py#L1140

+0

私はこのステートメントを証明することはできませんが、事前に訓練された単語ベクトルを提供する場合、ドキュメントベクタがうまく機能すると思います。私は交差部分をコメントアウトしてテストし、結果を比較しました。しかし、答えを提供していただきありがとうございます:) – displayname

+0

どのくらいのデータで、どのようなタスクでよりうまくいくか、事前に訓練されたベクトル? – gojomo

-1

これに照らしてメーリングリストanswerがあります。これは、バイナリ形式からテキストファイル形式に変換するCプログラムですが、期待通りのものを見ることができます。

+0

それは、この "C"ファイルは、最初の行が '#vocabSize#vectorSize'であることを除いて、csvファイルと同じように見えます。また、すべての行は' word float1 float2 ... floatN'で空白で区切られた行です。どのように私の語彙と訓練の段落ベクトルとdoc2vecをフィードする方法。 – displayname

関連する問題