gensim

    0

    1答えて

    単語ベクトルを合計して結果を比較する単純なアプローチを使用して、文比較の問題を解決しようとしています。私の目標は興味のある人にマッチさせることです。そのため、データセットは、趣味を説明する名前と短い文で構成されています。バッチはかなり小さく、数百人の人がいるので、私はdoc2vecを掘り下げる前に試してみたかったのです。 私はデータを完全に掃除し、ストップワードを除去し、トークン化し、lemmat

    0

    1答えて

    gensimモジュールのインストールに問題があります。 numpyとscipyに依存するモジュールを正常にインストールしましたが、gensimのインストール中にエラーが発生しました。 私はPython pip install gives "Command "python setup.py egg_info" failed with error code 1" で与えられた解決策を試しましたが、どれ

    0

    1答えて

    私はQ6レシピをhereと表示しようとしていますが、チェックしても文書が正しく読み込まれているように見えても、私のコーパスは[]として返され続けます。 だから私のコードは次のとおりです。 def iter_documents(top_directory): """Iterate over all documents, yielding a document (=list of utf8

    0

    1答えて

    私はインデックスが単語であり、フロート番号を持つ100個の列を持つDataFrameを持っているので、各単語に対して100dベクトルとして埋め込みます。 DataFrameオブジェクトをgensim model objectに変換して、そのメソッドを使用できるようにしたいと思います。特別にgensim.models.keyedvectors.most_similar()私は私のサブセット内の類似の

    0

    1答えて

    私はVS 2015でPTVSを使ってPythonコードを書いています。インポートgensimライブラリを作成し、F5を使用してデバッグを開始すると、デバッガはライブラリをロードして次の行に移動するのに約5分かかります。 from gensim import utils a。この問題を解決するにはどうすればよいですか? b。私がデバッグなしで起動すると(Ctrl + F5)、読み込みが速くなりま

    0

    1答えて

    いつもより多くのnグラムのword2vecモデルを作りたいと思います。私が見つけたように、gensim.models.phraseのフレーズクラスは私が望むフレーズを見つけることができ、コーパスのフレーズを使用することができ、word2vecトレイン機能の結果モデルを使用することができます。 まず最初に、gensim documentationのサンプルコードとまったく同じようにします。 clas

    0

    1答えて

    次のコードを使用して~20,000,000個のドキュメントにtf-idfモデルを生成しました。私はメモリ使用量が吹くまでlinear_kernel使用して類似性スコアを計算しようとすると、問題がある: from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import l

    0

    1答えて

    私は次のようにword2vecモデルを構築しています。 from gensim.models import word2vec, Phrases documents = ["the mayor of new york was there", "human computer interaction and machine learning has now become a trending rese

    2

    1答えて

    私はGensimを使用してLDAモデルを構築しで話題のワードにアクセスしないと私は唯一の無確率話題の単語を取得するにはどうすればよいだけの話題の単語を取得したいと私が試しただけ 何IDs.wordsする方法print_topics()とshow_topics()はgensimで機能しますが、クリーンな言葉を得ることはできません! これは私がshow_topicsを試してみましたが、私はその言葉やそ

    0

    1答えて

    私はLDAをpython.nowで実装しました。私がLDAから得たトピックにラベルを付けるとします。トピックモデルの [(0, u'0.023*"alternate" + 0.023*"transfervisions" + 0.013*"tvcommunity"'), (1, u'0.026*"minimalism" + 0.026*"minimalist" + 0.018*"honking"')