doc2vec

    3

    3答えて

    私は、各ドキュメントが時間とともに急速に成長しているドキュメントのコレクションを持っています。タスクは、一定の時間に類似の文書を見つけることです。文書内の単語ベクトルを平均し、コサイン類似度を用いて、 ベクトル埋め込み(word2vec、手袋又はfasttext):私は2つの潜在的なアプローチを持っています。 bag-of-words:tf-idfまたはその変形例(BM25など)。 これらのいずれ

    2

    1答えて

    上記の画像はDoc2Vecを紹介したDistributed Representations of Sentences and Documentsです。私はGensimのWord2VecとDoc2Vecの実装を使用しています。これは素晴らしいものですが、私はいくつかの問題を明確にしたいと考えています。 与えられたdoc2vecモデルdvmについては、dvm.docvecsとは何ですか?私の印象は、単

    1

    1答えて

    小さなプロジェクトでは、Doc2Vecオブジェクトから取得した機能をgensimで抽出する必要があります。 vector = model.infer_vector(words)は正しいですか?

    5

    1答えて

    TaggedDocumentとLabeledSentenceのgensimの違いを理解するのを手伝ってください。私の最終的な目標は、Doc2Vecモデルと任意のクラシファイアを使用するテキスト分類です。私はこれに従いますblog! class MyLabeledSentences(object): def __init__(self, dirname, dataDct={}, sentL

    0

    1答えて

    を持っていない私はgensimライブラリからDoc2Vecモデルを学んでいますし、次のようにそれを使用して: class MyTaggedDocument(object): def __init__(self, dirname): self.dirname = dirname def __iter__(self): for fname in os.li

    1

    1答えて

    私はgensimを使ってドキュメントから特徴ベクトルを抽出しています。 私はGoogleからの事前訓練されたモデルをダウンロードしたGoogleNews-vectors-negative300.binを命名し、私は次のコマンドを使用して、そのモデルをロード: model = models.Doc2Vec.load_word2vec_format('GoogleNews-vectors-negati

    1

    1答えて

    私は、pythonでdoc2vecを使用して2つのカテゴリでユーザー入力テキストを分類しようとしています。私はモデルを訓練し、入力テキストを分類する次のコードを持っています。問題は、文字列を分類するメソッドを見つけることができないことです。 私は初心者ですので間違いを無視してください。 はここにあなたの最後のステップのクラス参照 http://scikit-learn.org/stable/mod

    0

    1答えて

    this pageで質問したため、コードのメモリが不足しています。次に、2番目のコードを作成して、すべてのメモリがalldocsではなく、反復可能なコードalldocsを作成しました。 this pageの説明に基づいてコードを変更しました。私はストリームコンセプトに精通していないし、私は私が得たエラーを解決することができませんでした。 このコードでは、ドキュメント名で構成されている各ファイルの特

    1

    1答えて

    コンピュータにdoc2vecモデルを読み込めず、次のエラーが発生しました。しかし、そのモデルを他のコンピュータにロードすると、そのモデルを使用できます。したがって、モデルが正しく構築されていることがわかります。 どうすればよいですか。 これはコードです: # coding: utf-8 from gensim.models.doc2vec import Doc2Vec import gensi

    2

    1答えて

    私はgensim doc2vecを使用しています。私はdoc2vecから語彙のサイズを知る効率的な方法があるかどうかを知りたい。 1つの原点は、単語の総数を数えることですが、データが膨大な場合(1GB以上)、これは効率的な方法ではありません。