doc2vec

3熱

3答えて

私は、各ドキュメントが時間とともに急速に成長しているドキュメントのコレクションを持っています。タスクは、一定の時間に類似の文書を見つけることです。文書内の単語ベクトルを平均し、コサイン類似度を用いて、ベクトル埋め込み（word2vec、手袋又はfasttext）：私は2つの潜在的なアプローチを持っています。 bag-of-words：tf-idfまたはその変形例（BM25など）。これらのいずれ

2熱

1答えて

gensimの「docvecs」とは何ですか？

上記の画像はDoc2Vecを紹介したDistributed Representations of Sentences and Documentsです。私はGensimのWord2VecとDoc2Vecの実装を使用しています。これは素晴らしいものですが、私はいくつかの問題を明確にしたいと考えています。与えられたdoc2vecモデルdvmについては、dvm.docvecsとは何ですか？私の印象は、単

1熱

1答えて

PythonでDoc2Vecの機能を抽出する

小さなプロジェクトでは、Doc2Vecオブジェクトから取得した機能をgensimで抽出する必要があります。 vector = model.infer_vector(words)は正しいですか？

5熱

1答えて

gensim LabeledSentenceとTaggedDocumentの違いは何ですか

TaggedDocumentとLabeledSentenceのgensimの違いを理解するのを手伝ってください。私の最終的な目標は、Doc2Vecモデルと任意のクラシファイアを使用するテキスト分類です。私はこれに従いますblog！ class MyLabeledSentences(object): def __init__(self, dirname, dataDct={}, sentL

0熱

1答えて

Gensim Doc2Vec例外はAttributeError：「str」はオブジェクトが属性の言葉 "

を持っていない私はgensimライブラリからDoc2Vecモデルを学んでいますし、次のようにそれを使用して： class MyTaggedDocument(object): def __init__(self, dirname): self.dirname = dirname def __iter__(self): for fname in os.li

1熱

1答えて

doc2vec用に事前に訓練されたword2vecモデルをロードする

私はgensimを使ってドキュメントから特徴ベクトルを抽出しています。私はGoogleからの事前訓練されたモデルをダウンロードしたGoogleNews-vectors-negative300.binを命名し、私は次のコマンドを使用して、そのモデルをロード： model = models.Doc2Vec.load_word2vec_format('GoogleNews-vectors-negati

1熱

1答えて

doc2vecとLogisticRegressionを使用して入力テキストを分類します。

私は、pythonでdoc2vecを使用して2つのカテゴリでユーザー入力テキストを分類しようとしています。私はモデルを訓練し、入力テキストを分類する次のコードを持っています。問題は、文字列を分類するメソッドを見つけることができないことです。私は初心者ですので間違いを無視してください。はここにあなたの最後のステップのクラス参照 http://scikit-learn.org/stable/mod

0熱

1答えて

'iterable'オブジェクトを使用してDoc2Vecモデルを構築するには

this pageで質問したため、コードのメモリが不足しています。次に、2番目のコードを作成して、すべてのメモリがalldocsではなく、反復可能なコードalldocsを作成しました。 this pageの説明に基づいてコードを変更しました。私はストリームコンセプトに精通していないし、私は私が得たエラーを解決することができませんでした。このコードでは、ドキュメント名で構成されている各ファイルの特

1熱

1答えて

doc2vecモデルの読み込み中にEOFErrorが発生しました

コンピュータにdoc2vecモデルを読み込めず、次のエラーが発生しました。しかし、そのモデルを他のコンピュータにロードすると、そのモデルを使用できます。したがって、モデルが正しく構築されていることがわかります。どうすればよいですか。これはコードです： # coding: utf-8 from gensim.models.doc2vec import Doc2Vec import gensi

2熱

1答えて

doc2vecモデルからボキャブラリサイズを取得する方法はありますか？

私はgensim doc2vecを使用しています。私はdoc2vecから語彙のサイズを知る効率的な方法があるかどうかを知りたい。 1つの原点は、単語の総数を数えることですが、データが膨大な場合（1GB以上）、これは効率的な方法ではありません。