gensimのDoc2Vecの場合、テキストの例は、TaggedDocument
クラスのようなオブジェクトでなければなりません(words
およびtags
のプロパティを使用)。 tags
プロパティは、対応するテキストから学習されるdoc-vectorsのキーとして機能する 'tags'のリストでなければなりません。
古典/元のケースでは、各ドキュメントには1つのタグがあります。基本的にその1つのドキュメントの固有のIDです。 (タグは文字列にすることができますが、非常に大きなコーパスに対しては、スキップされた値を持たずにゼロから始まるプレーンなPython intであるタグを使用する場合、Doc2Vecのメモリ使用量はやや少なくなります)。
タグは、学習後の学習ベクトルを上げる。あなたは、単一のタグ'mars'
で訓練中に文書を持っていた場合は、ルックアップしたい学んだベクトルをと:
model.docvecs['mars']
あなたがmodel.docvecs.most_similar['mars']
呼び出しを行うならば、結果として、そのタグキーによって報告されますよく
タグは、doc-ベクトルコレクションにだけ鍵である - 彼らは何の意味論的な意味を持たず、文字列がテキスト中の単語のトークンから繰り返されても、このタグのキーとの間には必要に応じて関係ありませんワード。
つまり、1つのIDタグが「mars」であるドキュメントがある場合、そのキー(model.docvecs['mars']
)を介してアクセスされた学習済みdoc-vectorと、同じ文字列でアクセスされた学習済みワードベクトルキー(model.wv['mars']
) - 別々のコレクションから来ています。