2017-02-08 41 views
1

私はgensimを使ってドキュメントから特徴ベクトルを抽出しています。 私はGoogleからの事前訓練されたモデルをダウンロードしたGoogleNews-vectors-negative300.binを命名し、私は次のコマンドを使用して、そのモデルをロード:doc2vec用に事前に訓練されたword2vecモデルをロードする

model = models.Doc2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) 

私の目的は、文書から特徴ベクトルを取得することです。単語の場合、対応するベクトルを取得するのは非常に簡単です:

vector = model[word] 

しかし、私はドキュメントのためにそれを行う方法がわかりません。助けてもらえますか?

答えて

0

Doc2Vecクラスで作成されたテキストベクトル(Le/Mikolov 'Paragraph Vectors')の種類には、単語ベクトルのセット(GoogleNews-vectors-negative300.binなど)は必要でも十分でもありません。代わりに、ドキュメントごとのベクトルを学習するためのサンプルテキストを訓練することが期待されます。次に、訓練されたモデルを使用して、他の新しい文書のベクトルを推論することもできます。

(それはWord2Vecクラスから継承するためDoc2Vecクラスのみload_word2vec_format()メソッドをサポートしています - 。ではない、それはその機能を必要とするため)

単純にすべての単語を平均化することによって作成することができるテキストベクトルの別の簡単な種類があります文書内では、おそらく単語単位の重要度重み付けにもよる。しかし、それはDoc2Vecが提供するものではありません。

関連する問題