gensim

    0

    1答えて

    私は既存のgensim Doc2Vecモデルを持っており、トレーニングセットと拡張モデルを繰り返し更新しようとしています。私は新しいドキュメントを取り、通常通りpreproecssing行う : stoplist = nltk.corpus.stopwords.words('english') train_corpus= [] for i, document in enumerate(corp

    0

    1答えて

    私の仕事は、利用可能なタグのリストから文書や投稿にタグ(説明的な単語)を割り当てることです。私はGensimのDoc2vecで作業しています。 doc2vecを文書のタグ付けに使用できることを読んでいます。しかし、私はこのタスクのための適切なパラメータ値を得ることができませんでした。これまで、私は 'size'と 'window'という名前のパラメータの値を変更してテストしました。私が得ている結果

    0

    1答えて

    私は、テキスト文書の束(約140本)についてテキスト分析をしようとしています。各文書は、前処理して不必要な単語とストップワードを除去した後、約7000文(nlktの文トークナイザによって決定される)を有し、各文は平均約17語を有する。私の仕事は、それらの文書に隠されたテーマを見つけることです。 私は、トピックモデリングをやっについて考えています。しかし、私が持っているデータがLDAを介して意味のあ

    0

    1答えて

    Googleのニュースベクター-300データセットを読み込みました。各単語は300ポイントのベクトルで表されます。私は分類のために私の神経ネットワークでこれを使用したい。しかし、1つの単語300は大きすぎるようです。品質を損なうことなく、ベクトルを300から100に減らすにはどうすればいいですか?

    2

    1答えて

    私はword2vec類似性辞書を構築しようとしています。私は1つの辞書を構築することができましたが、類似点は正しく配置されていません。私のコードで何かが欠けていますか? 入力サンプル・データ・テキスト TAK PO LUN UNIT 3 15/F WAYSON COMMERCIAL G 28 CONNAUGHT RD WEST SHEUNG WAN - EDDY SUSANTO YAHYA RO

    0

    1答えて

    与えます。 私は、同じ文章データでモデルをフィードし、パラメータを設定します:Doc2Vecのシードを固定数に設定すると、モデルの作成後にモデルが異なるベクトルになります。 は、テストの目的のために、私は変わらず、入力データを与えたたびに判定結果を必要としています。私は多くを検索し、gensimの結果を変更しない方法を見つけません。 は、私はそれを使用する方法で、何か問題はありますか?事前に返信い

    1

    2答えて

    私は、Gensimのdoc2vecを使用して大きなコーパスのためのドキュメントベクトルを作成しました。 sentences=gensim.models.doc2vec.TaggedLineDocument('file.csv') model = gensim.models.doc2vec.Doc2Vec(sentences,size = 10, window = 800, min_count =

    2

    1答えて

    私は文章の600000行についてdoc2vecしようとしていますので、私のコードは以下の通りです: model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores) model.build_vocab(res) model.train(res, total_exa

    1

    1答えて

    doc2vecモデルでは、ベクター自体でクラスター化できますか?結果として得られる各ベクトルmodel.docvecs[1]をクラスタ化する必要がありますか?クラスタリングモデルの実装方法 model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores) m

    0

    1答えて

    私はword2vecと優れたチュートリアルを使用してdoc2vec、hereとhereを始めるしようとすると、コードサンプルを使用しようとしています。私はline_clean()の句読点、ストップワードなどを削除する方法を追加しました。 しかし、私はトレーニングの反復で呼ばれるline_clean()メソッドに問題があります。私はグローバルメソッドの呼び出しがそれを台無しにしていることを理解してい