gensim

9熱

1答えて

python gensimを使用してword2vecモデルをトレーニングした後、モデルの語彙の単語数はどのようにして調べることができますか？

7熱

2答えて

私は今、gensimのword2vecライブラリを使用してword2vecをしばらく試しています。私の質問は、入力テキストからストップワードを削除する必要がありますか？私の最初の実験結果に基づいて、私はmodel.most_similar('someword')を実行したときに「いつ」、「いつ...」（ストップワード）のような単語が現れるのでしょうか？しかし、私はword2vecで停止単語の削除

14熱

1答えて

gensimを使用してコーパスからフレーズを抽出する方法

コーパスから一般的なフレーズを超越することを計画していましたが、このためにフレーズモデルをgensimで使用しようとしましたが、以下のコードを試しました。私のコード from gensim.models import Phrases documents = ["the mayor of new york was there", "machine learning can be useful s

7熱

2答えて

あらかじめ定義された辞書と単語インデックスデータのGensim word2vec

gensimを使ってつぶやきにword2vec表現を練習する必要があります。 gensimで見たほとんどのチュートリアルやコードとは異なり、私のデータは生データではなく、すでに前処理されています。私は65k単語（ "未知の"トークンとEOLトークンを含む）を含むテキスト文書の辞書を持っていて、つぶやきはこの辞書に指数をつけた数の少ない行列として保存されています。データフォーマットの簡単な例を以下に

13熱

3答えて

Python：gensim：RuntimeError：モデルをトレーニングする前に最初に語彙を構築する必要があります

私はこの質問が既に尋ねられていることを知っていますが、それでも解決策を見つけることができませんでした。カスタムデータセットでgensimのword2vecを使用したいと思っていますが、今はデータセットがどのようなフォーマットであるかを考えています。私はthis postを見ました。入力は基本的にリストのリストです（NLTK Brownコーパスからトークン化された文である他のリストを含む大きなリス

6熱

2答えて

gensimのDoc2Vec関数の "size"パラメータをどのように解釈すればよいですか？

私はDoc2Vecの機能をPythonでgensimという文字を使って文書に変換しています。使い方 model = Doc2Vec(documents, size=100, window=8, min_count=5, workers=4) の例は、どのように私はsizeパラメータを解釈すべきです。私がsize = 100と設定すると、出力ベクトルの長さは100になりますが、それはどういう意味で

6熱

1答えて

Word2vecベクターの長さはどのような意味を持っていますか？

私はでWord2vecを使用しており、Googleのトレーニングを受けているGoogleのトレーニングを受けたベータ版がGoogleニュースで訓練されています。私はWord2Vecオブジェクトに直接インデックス検索を行うことによってアクセスすることができますワードベクトルは単位ベクトルではないことに気づいた： >>> import numpy >>> from gensim.models imp

0熱

1答えて

（「/ tmpに/ text8」）gensim

私はプログラムを実行すると文章がword2vec.Text8Corpus（「/ tmpに/ text8」）しかし私が手=行が含まれてgensim http://rare-technologies.com/deep-learning-with-word2vec-and-gensim/のチュートリアルを実装していますものですtext8は存在しないというエラーです。コードを見ると、Text8Corp

0熱

1答えて

訓練中にmin_countが1に設定されていても、Doc2VecモデルのKeyError

私はdoc2vecを約100万タイトルのコーパスで使用しています。コーパスを訓練するために、私は次のコードを使用しています： model = gensim.models.Doc2Vec(min_count=1, window=10, size=300, workers=4) model.build_vocab(corpus) for epoch in range(10): model

3熱

1答えて

python-pandasとgensimを使ってデータフレーム内の単語を整数IDにマップする方法は？

は項目とそれに対応するレビュー文章を含む、このようなデータフレームを、考える： item_id review_text B2JLCNJF16 i was attracted to this... B0009VEM4U great snippers... 私はreview_textのトップ5000最も頻度の高い単語をマッピングしたいので、結果のデータ・フレームは次のようにする必要があ