word2vec

    9

    1答えて

    python gensimを使用してword2vecモデルをトレーニングした後、モデルの語彙の単語数はどのようにして調べることができますか?

    7

    2答えて

    私は今、gensimのword2vecライブラリを使用してword2vecをしばらく試しています。私の質問は、入力テキストからストップワードを削除する必要がありますか?私の最初の実験結果に基づいて、私はmodel.most_similar('someword')を実行したときに「いつ」、「いつ...」(ストップワード)のような単語が現れるのでしょうか? しかし、私はword2vecで停止単語の削除

    7

    2答えて

    gensimを使ってつぶやきにword2vec表現を練習する必要があります。 gensimで見たほとんどのチュートリアルやコードとは異なり、私のデータは生データではなく、すでに前処理されています。私は65k単語( "未知の"トークンとEOLトークンを含む)を含むテキスト文書の辞書を持っていて、つぶやきはこの辞書に指数をつけた数の少ない行列として保存されています。データフォーマットの簡単な例を以下に

    12

    3答えて

    私は、トピックモデリングの最も一般的なテクニック(テキストから可能なトピックを抽出する)がLatent Dirichlet allocation(LDA)であることを読んだ。 しかし、Word2Vecでトピックモデリングを試してみると、ベクトル空間の単語をクラスタリングするのにはいいですか?したがって、クラスタはトピックと見なすことができませんでしたか? いくつかの研究のためにこのアプローチに従う

    13

    3答えて

    私はこの質問が既に尋ねられていることを知っていますが、それでも解決策を見つけることができませんでした。 カスタムデータセットでgensimのword2vecを使用したいと思っていますが、今はデータセットがどのようなフォーマットであるかを考えています。私はthis postを見ました。入力は基本的にリストのリストです(NLTK Brownコーパスからトークン化された文である他のリストを含む大きなリス

    6

    2答えて

    私はDoc2Vecの機能をPythonでgensimという文字を使って文書に変換しています。 使い方 model = Doc2Vec(documents, size=100, window=8, min_count=5, workers=4) の例は、どのように私はsizeパラメータを解釈すべきです。私がsize = 100と設定すると、出力ベクトルの長さは100になりますが、それはどういう意味で

    6

    1答えて

    私はでWord2vecを使用しており、Googleのトレーニングを受けているGoogleのトレーニングを受けたベータ版がGoogleニュースで訓練されています。私はWord2Vecオブジェクトに直接インデックス検索を行うことによってアクセスすることができますワードベクトルは単位ベクトルではないことに気づいた: >>> import numpy >>> from gensim.models imp