word2vec

0熱

3答えて

私は3000のテキスト文書を持っており、上位300個のキーワードを抽出したいと思う。これは、Pythonベースのキーワード抽出ライブラリであり、それは無残に失敗しました： RAKE - は、私は以下のアプローチを試してみました。 Tf-Idf：私はドキュメントごとに良いキーワードを与えてくれましたが、私たちはそれらを集約してドキュメントのグループ全体を表すキーワードを見つけることができませんでした

2熱

1答えて

自分のボキャブでword2vecを教える方法

自分の語彙でword2vecを練習しているうちにエラーが発生します。私はまた、なぜ起こっているのか分からない。コード： from gensim.models import word2vec import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.I

0熱

1答えて

Gensim doesnt_match関数はどのように機能していますか？

Gensimは、リストから外れ値の単語を返す "doesnt_match"という関数を実装しています。この関数は、ワードベクトルオブジェクトで呼び出されます。 model.wv.doesnt_match（ "朝食シリアルの夕食弁当" .split（）） '穀物' ドキュメントはこの機能が実際に（計算の背景が何であるかを）どのように動作するかを指定されていない誰でも知っていますか？

0熱

1答えて

速度（wmdistance）のためのGensimワードムーバーの距離関数の最適化

参考文と1000文の類似度の計算にはgensimwmdistanceを使用しています。 model = gensim.models.KeyedVectors.load_word2vec_format( 'GoogleNews-vectors-negative300.bin', binary=True) model.init_sims(replace=True) ref

0熱

1答えて

Python辞書をWord2Vecオブジェクトに変換する

私はPythonでそれらのベクトルに単語をマッピングする辞書を取得しました。そして、非常に多くの単語のTSNEが永遠に取っているので、最も類似したn個の単語をプロットしています。最良の選択肢は、辞書をw2vオブジェクトに変換して処理することです。

1熱

1答えて

gensim word2vecモデルの単語埋め込みモデルのテキストの確率の取得

gensim word2vecモデルを使用して、単語の可能性の高いシーケンスを取得しようとしています。私はこれらのファイルを提供しpretrainedモデルを発見した： word2vec.bin word2vec.bin.syn0.npy word2vec.bin.syn1neg.npy これは私のコードは、このモデルで文の確率を取得しようとしている：私はこのエラーを取得しています。このコ

1熱

2答えて

word2vecのbigramsとtrigramsを取得するGensim

私は現在、word2vecモデルで次のようにユニグラムを使用しています。 def review_to_sentences(review, tokenizer, remove_stopwords=False): #Returns a list of sentences, where each sentence is a list of words # #NLTK tok

1熱

2答えて

Gensimを使用してフレーズを抽出する際のエラー

Gensimのフレーズを使用して文中のバイグラムを次のように取得しようとしています。それは「ニューヨーク」として「新しい」、「ニューヨーク」をキャッチしていても from gensim.models import Phrases from gensim.models.phrases import Phraser documents = ["the mayor of new york was t

0熱

1答えて

word2vecモデルとlstmモデルの統合方法は？

自然言語処理（NLP）タスクでは、単語の埋め込みとしてword2vecベクトルを使用することがよくあります。私はまだword2vecモデルとlstmモデルの統合方法を理解していませんか？長い短期（LSTM）ネットワークを使用した感情予測など、NLPタスクをモデリングするときに、このような未知語をどのように扱うべきですか？

4熱

1答えて

Gensimを使ってトリグラムを取得する際の問題

私が言及した例文からbigramsとtrigramsを取得したいと思います。私のコードはバイグラムでうまく動作します。しかし、データ内のトリグラム（例えば、私の文章の5カ所に記載されている人間のコンピュータのやりとり）は捕捉されません。以下は、Gensimのフレーズを使用した私のコードです。 from gensim.models import Phrases documents = ["the