2016-04-30 28 views
2

genclass doc2vecモデルを分類タスクに使用したいと思います。 しかし、doc2vecのgensim実装では、モデルをトレーニングする前にすべてのドキュメント(列車とテスト)を見てボキャブラリを構築する必要があるようです。それ以外の場合は、ボキャブラリを作成するときに存在しなかったドキュメントのドキュメントベクトルを取得する場合は、keyerrorが返されます。私の理解が正しいかどうか疑問に思う!実際には、トレーニング時にテストデータにアクセスすることはできません。doc2vecの目に見えない段落の段落表現を取得する

テスト文書のドキュメント表現を取得できるように、テスト時に語彙を更新する方法はありますか?

答えて

2

訓練中に提示された資料の学習された文書ベクトルだけをルックアップできます。

しかし、凍結された訓練されたモデルに新しいトークン化されたドキュメントを提供し、「ベストフィット」ベクトルを返す方法infer_vector()があります。トレーニング中に新しい文書が利用可能になった場合に返されるものに近似します。参照:

https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec.infer_vector