word2vec

7熱

1答えて

私は、各テキストが急速に成長している大量のテキストを持っています。私は類似検索を実装する必要があります。考えられるのは、各単語をword2vecとして埋め込み、各単語の埋め込みをベクトル加算することによって各テキストを正規化されたベクトルとして表現することです。テキストへの後続の追加は、新しい単語ベクトルをそれに追加することによって、得られたテキストのベクトルを洗練させるだけである。各テキスト

0熱

1答えて

Word2Vec類似機能が動作しない

私はPyCharmを使用しており、Word2Vecを使用して単語を訓練したモデルをロードしています。私は2つの単語間の類似度をチェックしてみましたが、私はこのエラーを取得： # Loading model trained on words model = word2vec.Word2Vec.load('models/text8.model') # Loading model

2熱

1答えて

製品は、私は次のコード、Kerasと負のサンプリングでWord2Vec CBOWを実装しようとしていますWord2Vecモデル

ためKeras functionnal APIとのレイヤーを結合hereが見つかりました： EMBEDDING_DIM = 100 sentences = SentencesIterator('test_file.txt') v_gen = VocabGenerator(sentences=sentences, min_count=5, window_size=3, sa

6熱

1答えて

python3のGensim word2vecがありません。

私はWord2Vecのgensim実装を使用しています。私は次のコードスニペットを持っています： print('training model') model = Word2Vec(Sentences(start, end)) print('trained model:', model) print('vocab:', model.vocab.keys()) これをPython2で実行する

0熱

1答えて

wekaを使ってword2vecを分類する

私は約70k文のコーパスにword2vecモデルを訓練しました。それぞれの文章には、「abc-2011-100」のような一意のキーワードが含まれ、その後にそれを説明する特定の機能が続きます。さて、私はabc idごとに分類しなければなりません。 abc-2011-100はabc_category_1に属しています。 abc-2999-0000はabc_category_20に属します。カテゴリには

1熱

1答えて

gensim word2vecで出力埋め込み（出力ベクトル）にアクセスするにはどうすればよいですか？

this paper (Improving document ranking with dual word embeddings)などのword2vecの出力埋め込みを使用したいと思います。私は入力ベクトルがsyn0にあり、出力ベクトルはsyn1にあり、陰性サンプリングの場合はsyn1negであることがわかります。しかし、出力ベクトルでmost_similarを計算したとき、syn1またはsy

1熱

1答えて

ドイツ語wikipediaでのWord2vec C++トレーニング

私はword2vecのCバージョン（https://code.google.com/archive/p/word2vec/にあります）を使用しており、Wikipediaのドイツ語版のフィルタリングされたダンプ（約17 GBの原文、〜1.4 B語）で訓練しています。私は、次の設定を使用しています： -cbow 1 -size 300 -window 5 -negative 25 -hs 0 -sam

0熱

1答えて

数値を含むWord2Vec単語

Word2Vecモデルに文章を追加すると、「ISO 9001」が「ISO」として返されるなど、数値で始まる、または始まる単語が削除されているように見えます。 ... ありがとうございます。

0熱

1答えて

なぜword2vecが他のニューラルネットワーク手法よりも優れているのですか？

なぜword2vecは他のニューラルネットワークの手法よりも優れていますか？ Word2vecは、他のニューラルネットワーク方法（NNLM、RNNLMなど）よりも浅いです。説明できませんか？そして、隠れ層がないモデル（シグモイドなどの起動機能）に悪影響を及ぼすかどうかを知りたいですか？

3熱

3答えて

ドキュメントの類似性：ベクターの埋め込みとTf-Idfのパフォーマンス

私は、各ドキュメントが時間とともに急速に成長しているドキュメントのコレクションを持っています。タスクは、一定の時間に類似の文書を見つけることです。文書内の単語ベクトルを平均し、コサイン類似度を用いて、ベクトル埋め込み（word2vec、手袋又はfasttext）：私は2つの潜在的なアプローチを持っています。 bag-of-words：tf-idfまたはその変形例（BM25など）。これらのいずれ