word2vec

    7

    1答えて

    私は、各テキストが急速に成長している大量のテキストを持っています。私は類似検索を実装する必要があります。 考えられるのは、各単語をword2vecとして埋め込み、各単語の埋め込みをベクトル加算することによって各テキストを正規化されたベクトルとして表現することです。テキストへの後続の追加は、新しい単語ベクトルをそれに追加することによって、得られたテキストのベクトルを洗練させるだけである。 各テキスト

    0

    1答えて

    私はPyCharmを使用しており、Word2Vecを使用して単語を訓練したモデルをロードしています。私は2つの単語間の類似度をチェックしてみましたが、私はこのエラーを取得: # Loading model trained on words model = word2vec.Word2Vec.load('models/text8.model') # Loading model

    2

    1答えて

    ためKeras functionnal APIとのレイヤーを結合hereが見つかりました: EMBEDDING_DIM = 100 sentences = SentencesIterator('test_file.txt') v_gen = VocabGenerator(sentences=sentences, min_count=5, window_size=3, sa

    6

    1答えて

    私はWord2Vecのgensim実装を使用しています。私は次のコードスニペットを持っています: print('training model') model = Word2Vec(Sentences(start, end)) print('trained model:', model) print('vocab:', model.vocab.keys()) これをPython2で実行する

    0

    1答えて

    私は約70k文のコーパスにword2vecモデルを訓練しました。それぞれの文章には、「abc-2011-100」のような一意のキーワードが含まれ、その後にそれを説明する特定の機能が続きます。さて、私はabc idごとに分類しなければなりません。 abc-2011-100はabc_category_1に属しています。 abc-2999-0000はabc_category_20に属します。カテゴリには

    1

    1答えて

    this paper (Improving document ranking with dual word embeddings)などのword2vecの出力埋め込みを使用したいと思います。 私は入力ベクトルがsyn0にあり、出力ベクトルはsyn1にあり、陰性サンプリングの場合はsyn1negであることがわかります。 しかし、出力ベクトルでmost_similarを計算したとき、syn1またはsy

    1

    1答えて

    私はword2vecのCバージョン(https://code.google.com/archive/p/word2vec/にあります)を使用しており、Wikipediaのドイツ語版のフィルタリングされたダンプ(約17 GBの原文、〜1.4 B語)で訓練しています。私は、次の設定を使用しています: -cbow 1 -size 300 -window 5 -negative 25 -hs 0 -sam

    0

    1答えて

    Word2Vecモデルに文章を追加すると、「ISO 9001」が「ISO」として返されるなど、数値で始まる、または始まる単語が削除されているように見えます。 ... ありがとうございます。

    0

    1答えて

    なぜword2vecは他のニューラルネットワークの手法よりも優れていますか? Word2vecは、他のニューラルネットワーク方法(NNLM、RNNLMなど)よりも浅いです。 説明できませんか? そして、隠れ層がないモデル(シグモイドなどの起動機能)に悪影響を及ぼすかどうかを知りたいですか?

    3

    3答えて

    私は、各ドキュメントが時間とともに急速に成長しているドキュメントのコレクションを持っています。タスクは、一定の時間に類似の文書を見つけることです。文書内の単語ベクトルを平均し、コサイン類似度を用いて、 ベクトル埋め込み(word2vec、手袋又はfasttext):私は2つの潜在的なアプローチを持っています。 bag-of-words:tf-idfまたはその変形例(BM25など)。 これらのいずれ