gensim

0熱

1答えて

私は既存のgensim Doc2Vecモデルを持っており、トレーニングセットと拡張モデルを繰り返し更新しようとしています。私は新しいドキュメントを取り、通常通りpreproecssing行う： stoplist = nltk.corpus.stopwords.words('english') train_corpus= [] for i, document in enumerate(corp

0熱

1答えて

ドキュメントタグ付けのためのDoc2vecのパラメータ値 - Gensim

私の仕事は、利用可能なタグのリストから文書や投稿にタグ（説明的な単語）を割り当てることです。私はGensimのDoc2vecで作業しています。 doc2vecを文書のタグ付けに使用できることを読んでいます。しかし、私はこのタスクのための適切なパラメータ値を得ることができませんでした。これまで、私は 'size'と 'window'という名前のパラメータの値を変更してテストしました。私が得ている結果

0熱

1答えて

LDAに関する提案

私は、テキスト文書の束（約140本）についてテキスト分析をしようとしています。各文書は、前処理して不必要な単語とストップワードを除去した後、約7000文（nlktの文トークナイザによって決定される）を有し、各文は平均約17語を有する。私の仕事は、それらの文書に隠されたテーマを見つけることです。私は、トピックモデリングをやっについて考えています。しかし、私が持っているデータがLDAを介して意味のあ

0熱

1答えて

Google News Vectorデータセットからword2vecディメンションを減らす

Googleのニュースベクター-300データセットを読み込みました。各単語は300ポイントのベクトルで表されます。私は分類のために私の神経ネットワークでこれを使用したい。しかし、1つの単語300は大きすぎるようです。品質を損なうことなく、ベクトルを300から100に減らすにはどうすればいいですか？

2熱

1答えて

Word2Vecをスキップして正しく動作しない

私はword2vec類似性辞書を構築しようとしています。私は1つの辞書を構築することができましたが、類似点は正しく配置されていません。私のコードで何かが欠けていますか？入力サンプル・データ・テキスト TAK PO LUN UNIT 3 15/F WAYSON COMMERCIAL G 28 CONNAUGHT RD WEST SHEUNG WAN - EDDY SUSANTO YAHYA RO

0熱

1答えて

gensim doc2vecは、私がgensim PythonライブラリにDoc2Vecモデルを使用しています非決定結果

与えます。私は、同じ文章データでモデルをフィードし、パラメータを設定します：Doc2Vecのシードを固定数に設定すると、モデルの作成後にモデルが異なるベクトルになります。は、テストの目的のために、私は変わらず、入力データを与えたたびに判定結果を必要としています。私は多くを検索し、gensimの結果を変更しない方法を見つけません。は、私はそれを使用する方法で、何か問題はありますか？事前に返信い

1熱

2答えて

大きなDataFrameにGensim Doc2vec infer_vector（）を使用するには？

私は、Gensimのdoc2vecを使用して大きなコーパスのためのドキュメントベクトルを作成しました。 sentences=gensim.models.doc2vec.TaggedLineDocument('file.csv') model = gensim.models.doc2vec.Doc2Vec(sentences,size = 10, window = 800, min_count =

2熱

1答えて

Doc2vec：model.docvecsは長さ10

私は文章の600000行についてdoc2vecしようとしていますので、私のコードは以下の通りです： model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores) model.build_vocab(res) model.train(res, total_exa

1熱

1答えて

Doc2vec：結果のベクトルをクラスタ化

doc2vecモデルでは、ベクター自体でクラスター化できますか？結果として得られる各ベクトルmodel.docvecs[1]をクラスタ化する必要がありますか？クラスタリングモデルの実装方法 model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores) m

0熱

1答えて

doc2vec/gensim - エポックでシャッフル文章の問題

私はword2vecと優れたチュートリアルを使用してdoc2vec、hereとhereを始めるしようとすると、コードサンプルを使用しようとしています。私はline_clean()の句読点、ストップワードなどを削除する方法を追加しました。しかし、私はトレーニングの反復で呼ばれるline_clean()メソッドに問題があります。私はグローバルメソッドの呼び出しがそれを台無しにしていることを理解してい