doc2vec

1熱

1答えて

と表されます。doc2vec functionには、sizeというパラメータがあります。私は、sizeが出力ベクトルの次元であり、size=400の場合はsize=100よりも優れたコンテンツをキャプチャすることを理解しています。しかし、わかりませんが、sizeは何を表していますか？ Doc2Vecが単語からどのくらい検索して次の単語を予測するのかを意味しますか？それともそれはどういう意味です

0熱

1答えて

フレーズでdoc2vecを使用するには？

私はdoc2vecでフレーズを使いたいと思います。私はgensim.phrasesを使います。 doc2vecでは、モデルを訓練するためにタグ付きドキュメントが必要です。フレーズにタグを付けることはできません。どのように私はこれを行うことができますか？ここは私のコード text = phrases.Phrases(text) for i in range(len(text)): st

1熱

1答えて

Doc2VecはSentiment Analysisに適していますか？

私は、thisのような感情分類（分析）に関する最新の記事を読んでいます。私は特徴抽出のためのトライグラムを持つ単純なTFIDFのvectoriserを使用してDoc2Vec（88％）、を使用して、同様の精度の割合に（91％）がはるかに良い結果を得ることを見つけるの例として、IMDBのデータセットを取ると。私はこれが表2のMikolov's 2015 paperに似ていると思います。これよりも大

0熱

1答えて

gensimのdoc2vec（PV-DM）のドキュメント・ベクトルの更新

gensimで平均化したPV-DMの実装を理解しようとしています。 train_document_dmがdoc2vec.pyの場合、train_cbow_pairの戻り値（ "errors"）は、平均化の場合（cbow_mean=1）は入力ベクトルの数（count）で除算されません。この説明によれば、入力ベクトルを平均化する場合の文書数で除算する必要があります：word2vec Paramete

1熱

1答えて

Python - Sklearn MDSクラスを使用して2DでDoc2Vec多次元ベクトルを視覚化する

私のDoc2Vecトレーニングモデルで簡単に評価するために、400次元ベクトルを2次元に変換し、ドキュメントをノードのセットとして視覚化する必要があります。任意の2つのノード間の距離はそれらの類似性に反比例する（非常に似ているノードは互いに接近している）。検索の結果、MDS（多次元スケーリング）とsklearn MDSライブラリが見つかりました。今私はそれぞれが400次元を持っている2.2Mの

0熱

3答えて

Doc2vec Gensim：各エポック中に単語埋め込みが更新されない

Gensim Doc2vecモデルを使用して文書ベクトルを訓練します。私は「良い」という言葉の表現を印刷しましたが、私はすべての時代を見つけました。私はid '3'の文書の表現を印刷していましたが、すべての時代が異なります！私のコードは以下の通りです。何が起こっているのかわかりません。 model = gensim.models.Doc2Vec(dm = 0, alpha=0.1, size=

1熱

1答えて

Gensim Doc2Vec - Doc2Vec関数にコーパス文を渡す

ディレクトリ内のすべてのファイルから文を抽出するのにMySentencesクラスを使用し、この文を列車word2vecモデルに使用しました。私のデータセットのラベルがありません。 class MySentences(object): def __init__(self, dirname): self.dirname = dirname def __iter__(

0熱

1答えて

Gensim：Doc2Vecモデリングでは、以前のword2vecモデル

を使用してモデルをdoc2vec再教育するためにどのように、私は、モデルを訓練し、以下のファイルが保存されている： 1. model 2. model.docvecs.doctag_syn0.npy 3. model.syn0.npy 4. model.syn1.npy 5. model.syn1neg.npy しかし、私は文書をラベル付けするための新しい方法を持っているし、訓練したい

3熱

1答えて

Doc2VecモデルPython 3との互換性

私はPython2でdoc2vecモデルを訓練しました。私はPython3で使用したいと思います。私は、Python 3でそれをロードしようとすると、私が手： Doc2Vec.load('my_doc2vec.pkl') UnicodeDecodeError: 'ascii' codec can't decode byte 0xb0 in position 0: ordinal not in

4熱

1答えて

gensim 0.11.1でDoc2Vecからドキュメントベクターを取得するには？

gensim 0.11.1バージョンのDoc2Vecから見えない文書の文書ベクトルを取得する方法はありますか？例えば、私は百万にモデルを訓練したと - 私はそれらの1000のドキュメントのためのドキュメントベクトルを得ることができますか？目に見えない文書の文書ベクトルを得る方法がありますか？同じ語彙からのですか？最初の箇条書きの場合