word2vec

    0

    3答えて

    私は3000のテキスト文書を持っており、上位300個のキーワードを抽出したいと思う。これは、Pythonベースのキーワード抽出ライブラリであり、それは無残に失敗しました: RAKE - は、私は以下のアプローチを試してみました。 Tf-Idf:私はドキュメントごとに良いキーワードを与えてくれましたが、私たちはそれらを集約してドキュメントのグループ全体を表すキーワードを見つけることができませんでした

    2

    1答えて

    自分の語彙でword2vecを練習しているうちにエラーが発生します。私はまた、なぜ起こっているのか分からない。 コード: from gensim.models import word2vec import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.I

    0

    1答えて

    Gensimは、リストから外れ値の単語を返す "doesnt_match"という関数を実装しています。 この関数は、ワードベクトルオブジェクトで呼び出されます。 model.wv.doesnt_match( "朝食シリアルの夕食弁当" .split()) '穀物' ドキュメントはこの機能が実際に(計算の背景が何であるかを)どのように動作するかを指定されていない 誰でも知っていますか?

    0

    1答えて

    参考文と1000文の類似度の計算にはgensimwmdistanceを使用しています。 model = gensim.models.KeyedVectors.load_word2vec_format( 'GoogleNews-vectors-negative300.bin', binary=True) model.init_sims(replace=True) ref

    0

    1答えて

    私はPythonでそれらのベクトルに単語をマッピングする辞書を取得しました。そして、非常に多くの単語のTSNEが永遠に取っているので、最も類似したn個の単語をプロットしています。最良の選択肢は、辞書をw2vオブジェクトに変換して処理することです。

    1

    1答えて

    gensim word2vecモデルを使用して、単語の可能性の高いシーケンスを取得しようとしています。私はこれらのファイルを提供しpretrainedモデルを発見した: word2vec.bin word2vec.bin.syn0.npy word2vec.bin.syn1neg.npy これは私のコードは、このモデルで文の確率を取得しようとしている:私はこのエラーを取得しています。このコ

    1

    2答えて

    私は現在、word2vecモデルで次のようにユニグラムを使用しています。 def review_to_sentences(review, tokenizer, remove_stopwords=False): #Returns a list of sentences, where each sentence is a list of words # #NLTK tok

    1

    2答えて

    Gensimのフレーズを使用して文中のバイグラムを次のように取得しようとしています。それは「ニューヨーク」として「新しい」、「ニューヨーク」をキャッチしていても from gensim.models import Phrases from gensim.models.phrases import Phraser documents = ["the mayor of new york was t

    0

    1答えて

    自然言語処理(NLP)タスクでは、単語の埋め込みとしてword2vecベクトルを使用することがよくあります。私はまだword2vecモデルとlstmモデルの統合方法を理解していませんか? 長い短期(LSTM)ネットワークを使用した感情予測など、NLPタスクをモデリングするときに、このような未知語をどのように扱うべきですか?

    4

    1答えて

    私が言及した例文からbigramsとtrigramsを取得したいと思います。 私のコードはバイグラムでうまく動作します。しかし、データ内のトリグラム(例えば、私の文章の5カ所に記載されている人間のコンピュータのやりとり)は捕捉されません。以下は、Gensimのフレーズを使用した私のコードです。 from gensim.models import Phrases documents = ["the