gensim

    9

    1答えて

    python gensimを使用してword2vecモデルをトレーニングした後、モデルの語彙の単語数はどのようにして調べることができますか?

    7

    2答えて

    私は今、gensimのword2vecライブラリを使用してword2vecをしばらく試しています。私の質問は、入力テキストからストップワードを削除する必要がありますか?私の最初の実験結果に基づいて、私はmodel.most_similar('someword')を実行したときに「いつ」、「いつ...」(ストップワード)のような単語が現れるのでしょうか? しかし、私はword2vecで停止単語の削除

    14

    1答えて

    コーパスから一般的なフレーズを超越することを計画していましたが、このためにフレーズモデルをgensimで使用しようとしましたが、以下のコードを試しました。 私のコード from gensim.models import Phrases documents = ["the mayor of new york was there", "machine learning can be useful s

    7

    2答えて

    gensimを使ってつぶやきにword2vec表現を練習する必要があります。 gensimで見たほとんどのチュートリアルやコードとは異なり、私のデータは生データではなく、すでに前処理されています。私は65k単語( "未知の"トークンとEOLトークンを含む)を含むテキスト文書の辞書を持っていて、つぶやきはこの辞書に指数をつけた数の少ない行列として保存されています。データフォーマットの簡単な例を以下に

    13

    3答えて

    私はこの質問が既に尋ねられていることを知っていますが、それでも解決策を見つけることができませんでした。 カスタムデータセットでgensimのword2vecを使用したいと思っていますが、今はデータセットがどのようなフォーマットであるかを考えています。私はthis postを見ました。入力は基本的にリストのリストです(NLTK Brownコーパスからトークン化された文である他のリストを含む大きなリス

    6

    2答えて

    私はDoc2Vecの機能をPythonでgensimという文字を使って文書に変換しています。 使い方 model = Doc2Vec(documents, size=100, window=8, min_count=5, workers=4) の例は、どのように私はsizeパラメータを解釈すべきです。私がsize = 100と設定すると、出力ベクトルの長さは100になりますが、それはどういう意味で

    6

    1答えて

    私はでWord2vecを使用しており、Googleのトレーニングを受けているGoogleのトレーニングを受けたベータ版がGoogleニュースで訓練されています。私はWord2Vecオブジェクトに直接インデックス検索を行うことによってアクセスすることができますワードベクトルは単位ベクトルではないことに気づいた: >>> import numpy >>> from gensim.models imp

    0

    1答えて

    私はプログラムを実行すると 文章がword2vec.Text8Corpus(「/ tmpに/ text8」) しかし私が手=行が含まれてgensim http://rare-technologies.com/deep-learning-with-word2vec-and-gensim/のチュートリアルを実装していますものですtext8は存在しないというエラーです。コードを見ると、Text8Corp

    0

    1答えて

    私はdoc2vecを約100万タイトルのコーパスで使用しています。コーパスを訓練するために、私は次のコードを使用しています: model = gensim.models.Doc2Vec(min_count=1, window=10, size=300, workers=4) model.build_vocab(corpus) for epoch in range(10): model

    3

    1答えて

    は項目とそれに対応するレビュー文章を含む、このようなデータフレームを、考える: item_id review_text B2JLCNJF16 i was attracted to this... B0009VEM4U great snippers... 私はreview_textのトップ5000最も頻度の高い単語をマッピングしたいので、結果のデータ・フレームは次のようにする必要があ