doc2vec

1熱

1答えて

doc2vec表現とscikit-learnモデルを使ってテキスト文書を分類したいと思っています。私の問題は、どうやって始めればいいのですか？誰かがscikit-learnでdoc2vecを使用するために通常取られる一般的な手順を説明できますか？

0熱

1答えて

xlsxファイルのReadlines関数が正しく機能しない

目標はセンチメント分類です。手順は、3 xlsxファイルを開いて読み込み、gensim.doc2vecメソッドで処理し、SGDClassificatorで分類することです。 this code on doc2vecを繰り返してみてください。 Pythonの2.7 with open('C:/doc2v/trainpos.xlsx','r') as infile: pos_reviews

1熱

1答えて

Doc2Vecに使用されている単語を抽出するには

つぶやきを使用してDoc2Vecモデルを準備しています。各つぶやきの単語列を別の文書としてみなされ、「SENT_1」と表示され、SENT_2" SENT_2を『など taggeddocs = [] for index,i in enumerate(cleaned_tweets): if len(i) > 2: # Non empty tweets sentence =

1熱

1答えて

Pythonのdoc2vecの簡単な実装ですか？

私はgensimからdoc2vecを実装しようとしていますが、いくつかのエラーがあり、Web上で十分なドキュメンテーションやヘルプがありません。ここは私の作業のコードの一部です： from gensim.models import Doc2Vec from gensim.models.doc2vec import LabeledSentence class LabeledLineSente

2熱

1答えて

python gensim doc2vecの元の文章を取得するtaggedlinedocument

Gensimのdoc2vecメソッドを使用して、1行に1文を含むテキストファイルを読み込んでいます。私のファイルを辞書に読み込みます。ここで、キーはトークン化された用語リストで、値は文番号です。ここが私のコードです：新しいファイルの from gensim import utils from gensim.models.doc2vec import LabeledSentence,Ta

0熱

1答えて

テンソルフロー内の複数の埋め込みからのルックアップの埋め込み

doc2Vecアルゴリズムを構築するには、複数の埋め込みを行う必要があります。ワードベクタには埋め込みがありますが、同時にドキュメント自体に埋め込みがあります。アルゴリズムの動作方法はCBOWモデルと似ていますが、ドキュメントの埋め込みは、指定されたウィンドウで訓練されているドキュメントごとにも使用されます。したがって、5つの単語のウィンドウがある場合は、それらの5つの単語を先に進んで行きますが、

0熱

1答えて

単語ベクトルと段落ベクトルクエリ

Gensimの実装でword2vecとdoc2vecベクトルの関係を理解しようとしています。私のアプリケーションでは、同じラベル（トピック）で複数のドキュメントにタグを付けるので、単語ベクトルを訓練するためにdbow_words = 1を使用して、私のコーパス上でdoc2vecモデルを訓練しています。私は多くの意味を成しているこのようなやり方で、単語と文書のベクトルの間に類似点を得ることができ

3熱

1答えて

doc2vec - 文書のベクトルをより速く推論する方法

私は約2300の段落（それぞれ2000-12000語の間）のベクトルサイズを300に訓練しました。今、私は段落とみなした約10万センチの段落ベクトルを推論する必要があります（各センテンスは約10ですすでに訓練された2300の段落に対応する-30語）。ので、 model.infer_vector(sentence) を使用しています。しかし、問題は、それは時間がかかりすぎるし、これは、そのような「

4熱

1答えて

doc2vec - doc2vec訓練とinfer_vectorのための入力形式（）のpython

でgensimで、私はトレーニングdoc2vecモデルのための入力として文字列を与えるとき、私はこのエラーを取得：はTypeError（「ドン\」トンノウハウURI％s'は％のrepr（URI）をどのように扱うか）私はこの質問Doc2vec : TaggedLineDocument() 呼ばそれでも入力フォーマットについて疑問を持っています。 documents = TaggedLineDoc

1熱

1答えて

Doc2Vec Gensimドキュメントとトピックの類似点

私は初めてGensimを試しています。今質問があります。私は準備された文書のコーパスを使ってLSIモデルを訓練しました。私の質問は、新しい文書が文書のコーパスから生成されたモデルに類似しているかどうかを知る方法です。 MatrixSimilarityのように、コーパス内の各ドキュメントに対するドキュメントの類似性を知りたいのではなく、ドキュメントが自分のトピック/モデルと似ているかどうかを知りたい