doc2vec

    1

    1答えて

    と表されます。doc2vec functionには、sizeというパラメータがあります。 私は、sizeが出力ベクトルの次元であり、size=400の場合はsize=100よりも優れたコンテンツをキャプチャすることを理解しています。 しかし、わかりませんが、sizeは何を表していますか? Doc2Vecが単語からどのくらい検索して次の単語を予測するのかを意味しますか?それともそれはどういう意味です

    0

    1答えて

    私はdoc2vecでフレーズを使いたいと思います。私はgensim.phrasesを使います。 doc2vecでは、モデルを訓練するためにタグ付きドキュメントが必要です。フレーズにタグを付けることはできません。どのように私はこれを行うことができますか?ここ は私のコード text = phrases.Phrases(text) for i in range(len(text)): st

    1

    1答えて

    私は、thisのような感情分類(分析)に関する最新の記事を読んでいます。私は特徴抽出のためのトライグラムを持つ単純なTFIDFのvectoriserを使用してDoc2Vec(88%)、を使用して、同様の精度の割合に(91%)がはるかに良い結果を得ることを見つけるの例として、IMDBのデータセットを取ると 。私はこれが表2のMikolov's 2015 paperに似ていると思います。 これよりも大

    0

    1答えて

    gensimで平均化したPV-DMの実装を理解しようとしています。 train_document_dmがdoc2vec.pyの場合、train_cbow_pairの戻り値( "errors")は、平均化の場合(cbow_mean=1)は入力ベクトルの数(count)で除算されません。 この説明によれば、入力ベクトルを平均化する場合の文書数で除算する必要があります:word2vec Paramete

    1

    1答えて

    私のDoc2Vecトレーニングモデルで簡単に評価するために、400次元ベクトルを2次元に変換し、ドキュメントをノードのセットとして視覚化する必要があります。任意の2つのノード間の距離はそれらの類似性に反比例する(非常に似ているノードは互いに接近している)。 検索の結果、MDS(多次元スケーリング)とsklearn MDSライブラリが見つかりました。 今私はそれぞれが400次元を持っている2.2Mの

    0

    3答えて

    Gensim Doc2vecモデルを使用して文書ベクトルを訓練します。 私は「良い」という言葉の表現を印刷しましたが、私はすべての時代を見つけました。私はid '3'の文書の表現を印刷していましたが、すべての時代が異なります! 私のコードは以下の通りです。何が起こっているのかわかりません。 model = gensim.models.Doc2Vec(dm = 0, alpha=0.1, size=

    1

    1答えて

    ディレクトリ内のすべてのファイルから文を抽出するのにMySentencesクラスを使用し、この文を列車word2vecモデルに使用しました。 私のデータセットのラベルがありません。 class MySentences(object): def __init__(self, dirname): self.dirname = dirname def __iter__(

    0

    1答えて

    を使用してモデルをdoc2vec再教育するためにどのように、私は、モデルを訓練し、以下のファイルが保存されている: 1. model 2. model.docvecs.doctag_syn0.npy 3. model.syn0.npy 4. model.syn1.npy 5. model.syn1neg.npy しかし、私は文書をラベル付けするための新しい方法を持っているし、訓練したい

    3

    1答えて

    私はPython2でdoc2vecモデルを訓練しました。私はPython3で使用したいと思います。 私は、Python 3でそれをロードしようとすると、私が手: Doc2Vec.load('my_doc2vec.pkl') UnicodeDecodeError: 'ascii' codec can't decode byte 0xb0 in position 0: ordinal not in

    4

    1答えて

    gensim 0.11.1バージョンのDoc2Vecから見えない文書の文書ベクトルを取得する方法はありますか?例えば 、私は百万にモデルを訓練したと - 私はそれらの1000のドキュメントのための ドキュメントベクトルを得ることができますか? 目に見えない文書の文書ベクトルを得る方法がありますか? 同じ語彙からのですか?最初の箇条書きの場合