doc2vec

    1

    1答えて

    doc2vec表現とscikit-learnモデルを使ってテキスト文書を分類したいと思っています。 私の問題は、どうやって始めればいいのですか?誰かがscikit-learnでdoc2vecを使用するために通常取られる一般的な手順を説明できますか?

    0

    1答えて

    目標はセンチメント分類です。手順は、3 xlsxファイルを開いて読み込み、gensim.doc2vecメソッドで処理し、SGDClassificatorで分類することです。 this code on doc2vecを繰り返してみてください。 Pythonの2.7 with open('C:/doc2v/trainpos.xlsx','r') as infile: pos_reviews

    1

    1答えて

    つぶやきを使用してDoc2Vecモデルを準備しています。各つぶやきの単語列を別の文書としてみなされ、「SENT_1」と表示され、SENT_2" SENT_2を 『など taggeddocs = [] for index,i in enumerate(cleaned_tweets): if len(i) > 2: # Non empty tweets sentence =

    1

    1答えて

    私はgensimからdoc2vecを実装しようとしていますが、いくつかのエラーがあり、Web上で十分なドキュメンテーションやヘルプがありません。ここ は私の作業のコードの一部です: from gensim.models import Doc2Vec from gensim.models.doc2vec import LabeledSentence class LabeledLineSente

    2

    1答えて

    Gensimのdoc2vecメソッドを使用して、1行に1文を含むテキストファイルを読み込んでいます。私のファイルを辞書に読み込みます。ここで、キーはトークン化された用語リストで、値は文番号です。ここ が私のコードです:新しいファイルの from gensim import utils from gensim.models.doc2vec import LabeledSentence,Ta

    0

    1答えて

    doc2Vecアルゴリズムを構築するには、複数の埋め込みを行う必要があります。ワードベクタには埋め込みがありますが、同時にドキュメント自体に埋め込みがあります。アルゴリズムの動作方法はCBOWモデルと似ていますが、ドキュメントの埋め込みは、指定されたウィンドウで訓練されているドキュメントごとにも使用されます。したがって、5つの単語のウィンドウがある場合は、それらの5つの単語を先に進んで行きますが、

    0

    1答えて

    Gensimの実装でword2vecとdoc2vecベクトルの関係を理解し​​ようとしています。私のアプリケーションでは、同じラベル(トピック)で複数のドキュメントにタグを付けるので、単語ベクトルを訓練するためにdbow_words = 1を使用して、私のコーパス上でdoc2vecモデルを訓練しています。私は多くの意味を成しているこのようなやり方で、単語と文書のベクトルの間に類似点を得ることができ

    3

    1答えて

    私は約2300の段落(それぞれ2000-12000語の間)のベクトルサイズを300に訓練しました。今、私は段落とみなした約10万センチの段落ベクトルを推論する必要があります(各センテンスは約10ですすでに訓練された2300の段落に対応する-30語)。 ので、 model.infer_vector(sentence) を使用しています。しかし、問題は、それは時間がかかりすぎるし、これは、そのような「

    4

    1答えて

    でgensimで、私はトレーニングdoc2vecモデルのための入力として文字列を与えるとき、私はこのエラーを取得: はTypeError(「ドン\」トンノウハウURI%s'は%のrepr(URI)をどのように扱うか) 私はこの質問Doc2vec : TaggedLineDocument() 呼ばそれでも入力フォーマットについて疑問を持っています。 documents = TaggedLineDoc

    1

    1答えて

    私は初めてGensimを試しています。今質問があります。私は準備された文書のコーパスを使ってLSIモデルを訓練しました。私の質問は、新しい文書が文書のコーパスから生成されたモデルに類似しているかどうかを知る方法です。 MatrixSimilarityのように、コーパス内の各ドキュメントに対するドキュメントの類似性を知りたいのではなく、ドキュメントが自分のトピック/モデルと似ているかどうかを知りたい