gensim

0熱

1答えて

単語ベクトルを合計して結果を比較する単純なアプローチを使用して、文比較の問題を解決しようとしています。私の目標は興味のある人にマッチさせることです。そのため、データセットは、趣味を説明する名前と短い文で構成されています。バッチはかなり小さく、数百人の人がいるので、私はdoc2vecを掘り下げる前に試してみたかったのです。私はデータを完全に掃除し、ストップワードを除去し、トークン化し、lemmat

0熱

1答えて

pythonでgensimをインストールできない

gensimモジュールのインストールに問題があります。 numpyとscipyに依存するモジュールを正常にインストールしましたが、gensimのインストール中にエラーが発生しました。私はPython pip install gives "Command "python setup.py egg_info" failed with error code 1" で与えられた解決策を試しましたが、どれ

0熱

1答えて

Gensim - 複数の文書を繰り返す

私はQ6レシピをhereと表示しようとしていますが、チェックしても文書が正しく読み込まれているように見えても、私のコーパスは[]として返され続けます。だから私のコードは次のとおりです。 def iter_documents(top_directory): """Iterate over all documents, yielding a document (=list of utf8

0熱

1答えて

Pandas DataFrameに埋め込まれた埋め込みをGensimモデルに変換するにはどうすればいいですか？

私はインデックスが単語であり、フロート番号を持つ100個の列を持つDataFrameを持っているので、各単語に対して100dベクトルとして埋め込みます。 DataFrameオブジェクトをgensim model objectに変換して、そのメソッドを使用できるようにしたいと思います。特別にgensim.models.keyedvectors.most_similar()私は私のサブセット内の類似の

0熱

1答えて

ビジュアルスタジオ2015用Pythonツールgensimパッケージをインポートするときのデバッグが遅い

私はVS 2015でPTVSを使ってPythonコードを書いています。インポートgensimライブラリを作成し、F5を使用してデバッグを開始すると、デバッガはライブラリをロードして次の行に移動するのに約5分かかります。 from gensim import utils a。この問題を解決するにはどうすればよいですか？ b。私がデバッグなしで起動すると（Ctrl + F5）、読み込みが速くなりま

0熱

1答えて

テキスト処理 - フレーズ検出後のWord2Vecトレーニング（バイグラムモデル）

いつもより多くのnグラムのword2vecモデルを作りたいと思います。私が見つけたように、gensim.models.phraseのフレーズクラスは私が望むフレーズを見つけることができ、コーパスのフレーズを使用することができ、word2vecトレイン機能の結果モデルを使用することができます。まず最初に、gensim documentationのサンプルコードとまったく同じようにします。 clas

0熱

1答えて

Tfidf行列と予測ベクトルの類似度を計算するとメモリオーバーフローが発生する

次のコードを使用して~20,000,000個のドキュメントにtf-idfモデルを生成しました。私はメモリ使用量が吹くまでlinear_kernel使用して類似性スコアを計算しようとすると、問題がある： from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import l

0熱

1答えて

なぜGensim word2vecに一文字の語彙がありますか？

私は次のようにword2vecモデルを構築しています。 from gensim.models import word2vec, Phrases documents = ["the mayor of new york was there", "human computer interaction and machine learning has now become a trending rese

2熱

1答えて

のみgensim

私はGensimを使用してLDAモデルを構築しで話題のワードにアクセスしないと私は唯一の無確率話題の単語を取得するにはどうすればよいだけの話題の単語を取得したいと私が試しただけ何IDs.wordsする方法print_topics（）とshow_topics（）はgensimで機能しますが、クリーンな言葉を得ることはできません！これは私がshow_topicsを試してみましたが、私はその言葉やそ

0熱

1答えて

LDAを適用した後に自動的にトピックにラベルを付ける方法

私はLDAをpython.nowで実装しました。私がLDAから得たトピックにラベルを付けるとします。トピックモデルの [(0, u'0.023*"alternate" + 0.023*"transfervisions" + 0.013*"tvcommunity"'), (1, u'0.026*"minimalism" + 0.026*"minimalist" + 0.018*"honking"')