doc2vec

2熱

1答えて

自分の語彙でword2vecを練習しているうちにエラーが発生します。私はまた、なぜ起こっているのか分からない。コード： from gensim.models import word2vec import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.I

0熱

3答えて

Doc2vecを使用した後にクラスタ結果を取り除く方法は？

私はdoc2vecを使用して、フォロワーのトップ100のつぶやきをベクトル表現（たとえば、v1 ..... v100）に変換しています。その後、私はK-Meansクラスタを行うためにベクトル表現を使用しています。 model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2) クラスタ0

1熱

1答えて

Doc2vecとword2vecのマイナスサンプリング

私の現在のdoc2vecコードは以下の通りです。 # Train doc2vec model model = doc2vec.Doc2Vec(docs, size = 100, window = 300, min_count = 1, workers = 4, iter = 20) 以下のようなword2vecコードもあります。 # Train word2vec model model =

1熱

1答えて

Doc2Vecモデルは、文書のタグをシンボルで分割します。

私はgensim 3.0.1を使用しています。私は、フォーム"label_17"のユニークなラベル付きTaggedDocumentのリストを持っているが、私はDoc2Vecモデルを訓練するとき、それは何とかシンボルにラベルを分割し、そのmodel.docvecs.doctagsの出力は以下の通りです： {'0': Doctag(offset=5, word_count=378, doc_coun

0熱

1答えて

doc2vecモデルの寸法を確認してください

私は100サイズのサイズのdoc2vecモデルを作成しました。私が読んで理解していることから、これらの次元は私のモデルの特徴です。どのようにこれらの次元が正確であるかを特定することができます。

0熱

1答えて

データセットから最も頻繁な単語を削除します

私はテキストを扱おうとしていますが、そこにはたくさんの繰り返しがあります。 SKLearnからtf-idfベクトル化を使用しました。パラメータはmax_df=0.5です。つまり、単語が入力の50％以上に存在する場合は、それを使用しません。私は、一般的なPythonやDoc2VecやNLTKにも同様の機能があるかどうかを知りたいと思います。それらをベクトル化せずに、データセットの50％以上に存在する

0熱

1答えて

各文書の訓練されたDoc2Vecモデルからnumpyベクトルを取得する

初めてDoc2Vecを使用しています著者の作品を分類しようとしています。私はLabeled Sentences（段落、または指定された長さの文字列）を持つモデルを訓練しました。words =段落の単語のリスト、およびtags = authorの名前です。私の場合、私は2人の著者しか持たない。訓練されたモデルからdocvecs属性にアクセスしようとしましたが、モデルを訓練したときの2つのタグに対

0熱

1答えて

word2Vecやwod2Docがユーザーの感情を理解する方法

私はdoc2Vecとword2Vecについて読むために多数の文書を読みました。私は、単語をベクトルとして表現し、ベクトル加算、減算などの単純な演算を実行して単語間の意味のある類推をもたらすことがどれほど強力かを理解しています。私がまだ理解できないことの1つは、このテクニックを使用してユーザーの感情を理解する方法です。これらの手法を使用してユーザーの感情を分析する方法について詳しく説明してくださ

0熱

1答えて

Gensim Doc2Vecモデルは、私だけが私の特徴ベクトルを生成するgensim <strong>Doc2Vec</strong>モデルを使用していますベクトル

の限られた数を生成します。ここで私が使用していたコードは（私は私の問題は、コードにあるものを説明している）されています。私はミスをやっている場合、私はちょうど疑問に思ってか、他のパラメータがある場合、私は設定しなければならないこと cores = multiprocessing.cpu_count() # creating a list of tagged documents trainin

0熱

1答えて

凝集型クラスタリングto doc2vec

凝集型クラスタリングとdoc2vecの新機能です。次の問題で誰かが私を助けてくれることを願っています。これは私のコードです：私が欲しいもの model = AgglomerativeClustering(linkage='average', connectivity=None, n_clusters=2) X = model_dm.docvecs.doctag_syn0 mode