doc2vec

    0

    1答えて

    Iはbatches of input pairsに、multiple coresを使用して、modelオブジェクトの同じコピーに、model.wv.most_similar_cosmulを呼び出したいです。 multiprocessingモジュールにはmodelの複数のコピーが必要ですが、modelはRAMが30GB以上であるためRAMが多すぎます。 私はクエリのペアを評価しようとしました。最初の

    1

    1答えて

    私は類似の文章を見つけるためにword2vec/doc2vecを適用しようとしています。まず単語の類似性についてword2vecを考えてみましょう。私が理解しているところでは、CBOWは文脈の中で最も適切な単語を見つけるのに使うことができますが、Skip-gramはある単語の文脈を見つけるために使われるので、どちらの場合でも頻繁に共起する単語が得られます。しかし、それと似た言葉を見つけるにはどうす

    0

    1答えて

    私は既存のgensim Doc2Vecモデルを持っており、トレーニングセットと拡張モデルを繰り返し更新しようとしています。私は新しいドキュメントを取り、通常通りpreproecssing行う : stoplist = nltk.corpus.stopwords.words('english') train_corpus= [] for i, document in enumerate(corp

    0

    1答えて

    私の仕事は、利用可能なタグのリストから文書や投稿にタグ(説明的な単語)を割り当てることです。私はGensimのDoc2vecで作業しています。 doc2vecを文書のタグ付けに使用できることを読んでいます。しかし、私はこのタスクのための適切なパラメータ値を得ることができませんでした。これまで、私は 'size'と 'window'という名前のパラメータの値を変更してテストしました。私が得ている結果

    1

    2答えて

    私は、Gensimのdoc2vecを使用して大きなコーパスのためのドキュメントベクトルを作成しました。 sentences=gensim.models.doc2vec.TaggedLineDocument('file.csv') model = gensim.models.doc2vec.Doc2Vec(sentences,size = 10, window = 800, min_count =

    0

    1答えて

    私はdoc2vecモデルを訓練した後、別のモジュールの文書ベクトルを再利用したいと思います。 とのdoc-vectorsを辞書として保存すると、のように保存されます。 私はちょうどどれがメモリ効率が良いか、どれがターゲットモジュールでより高速に読み込まれるのだろうか?

    2

    1答えて

    私は文章の600000行についてdoc2vecしようとしていますので、私のコードは以下の通りです: model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores) model.build_vocab(res) model.train(res, total_exa

    1

    1答えて

    doc2vecモデルでは、ベクター自体でクラスター化できますか?結果として得られる各ベクトルmodel.docvecs[1]をクラスタ化する必要がありますか?クラスタリングモデルの実装方法 model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores) m

    0

    1答えて

    私はgensim doc2vec(150次元の〜500Kベクトル)を使用して生成された一連のドキュメントベクトルを持っています。私はクラスタリングアルゴリズムを実行できるn * nの類似性行列を生成したい類似の文書をクラスタリングしたい。 gensim.similaritiesを使用してこのリンクhttps://github.com/RaRe-Technologies/gensim/issues/

    0

    1答えて

    私はword2vecと優れたチュートリアルを使用してdoc2vec、hereとhereを始めるしようとすると、コードサンプルを使用しようとしています。私はline_clean()の句読点、ストップワードなどを削除する方法を追加しました。 しかし、私はトレーニングの反復で呼ばれるline_clean()メソッドに問題があります。私はグローバルメソッドの呼び出しがそれを台無しにしていることを理解してい