doc2vec

0熱

1答えて

Iはbatches of input pairsに、multiple coresを使用して、modelオブジェクトの同じコピーに、model.wv.most_similar_cosmulを呼び出したいです。 multiprocessingモジュールにはmodelの複数のコピーが必要ですが、modelはRAMが30GB以上であるためRAMが多すぎます。私はクエリのペアを評価しようとしました。最初の

1熱

1答えて

単語の類似性のための単語埋め込みはどのように機能しますか？

私は類似の文章を見つけるためにword2vec/doc2vecを適用しようとしています。まず単語の類似性についてword2vecを考えてみましょう。私が理解しているところでは、CBOWは文脈の中で最も適切な単語を見つけるのに使うことができますが、Skip-gramはある単語の文脈を見つけるために使われるので、どちらの場合でも頻繁に共起する単語が得られます。しかし、それと似た言葉を見つけるにはどうす

0熱

1答えて

gensim Doc2Vecモデルのトレーニング文書を更新する

私は既存のgensim Doc2Vecモデルを持っており、トレーニングセットと拡張モデルを繰り返し更新しようとしています。私は新しいドキュメントを取り、通常通りpreproecssing行う： stoplist = nltk.corpus.stopwords.words('english') train_corpus= [] for i, document in enumerate(corp

0熱

1答えて

ドキュメントタグ付けのためのDoc2vecのパラメータ値 - Gensim

私の仕事は、利用可能なタグのリストから文書や投稿にタグ（説明的な単語）を割り当てることです。私はGensimのDoc2vecで作業しています。 doc2vecを文書のタグ付けに使用できることを読んでいます。しかし、私はこのタスクのための適切なパラメータ値を得ることができませんでした。これまで、私は 'size'と 'window'という名前のパラメータの値を変更してテストしました。私が得ている結果

1熱

2答えて

大きなDataFrameにGensim Doc2vec infer_vector（）を使用するには？

私は、Gensimのdoc2vecを使用して大きなコーパスのためのドキュメントベクトルを作成しました。 sentences=gensim.models.doc2vec.TaggedLineDocument('file.csv') model = gensim.models.doc2vec.Doc2Vec(sentences,size = 10, window = 800, min_count =

0熱

1答えて

どの方法でdoc2vecモデルをより効率的に回復できますか？

私はdoc2vecモデルを訓練した後、別のモジュールの文書ベクトルを再利用したいと思います。とのdoc-vectorsを辞書として保存すると、のように保存されます。私はちょうどどれがメモリ効率が良いか、どれがターゲットモジュールでより高速に読み込まれるのだろうか？

2熱

1答えて

Doc2vec：model.docvecsは長さ10

私は文章の600000行についてdoc2vecしようとしていますので、私のコードは以下の通りです： model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores) model.build_vocab(res) model.train(res, total_exa

1熱

1答えて

Doc2vec：結果のベクトルをクラスタ化

doc2vecモデルでは、ベクター自体でクラスター化できますか？結果として得られる各ベクトルmodel.docvecs[1]をクラスタ化する必要がありますか？クラスタリングモデルの実装方法 model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores) m

0熱

1答えて

doc2vecクラスタリングn * nドキュメント間の類似性

私はgensim doc2vec（150次元の〜500Kベクトル）を使用して生成された一連のドキュメントベクトルを持っています。私はクラスタリングアルゴリズムを実行できるn * nの類似性行列を生成したい類似の文書をクラスタリングしたい。 gensim.similaritiesを使用してこのリンクhttps://github.com/RaRe-Technologies/gensim/issues/

0熱

1答えて

doc2vec/gensim - エポックでシャッフル文章の問題

私はword2vecと優れたチュートリアルを使用してdoc2vec、hereとhereを始めるしようとすると、コードサンプルを使用しようとしています。私はline_clean()の句読点、ストップワードなどを削除する方法を追加しました。しかし、私はトレーニングの反復で呼ばれるline_clean()メソッドに問題があります。私はグローバルメソッドの呼び出しがそれを台無しにしていることを理解してい