word2vec

0熱

1答えて

Spacyのベクタ表現の作成方法は何ですか？私はコーパス上でNLPを実行し、類似性（コサイン類似度）を使用して、「類似した」ドキュメントをマップします。しかし、私はベクトル表現を作成するためにspacyがどのようなメソッドを使用するのか不明です。私の知る限り、私はそれがおそらくnegative2サンプリングのスキップグラムであると考えていますが、私は確信しています！

0熱

1答えて

事前に訓練されたWord2Vecモデルを読み込んだ後、新しい文章のword2vec表現を取得するにはどうすればよいですか？

Googleニュースデータセットを使用してword2vecモデルを読み込みました。今私はクラスタ化したい文のリストのWord2Vecの表現を得たいと思う。 documentationを通過した後、私はこれを見つけたgensim.models.word2vec.LineSentenceしかし、私はこれが私が探しているものであるか分からない。 pretrainedモデルの文章のリストのword2vec

0熱

1答えて

中間の単語を予測するword2vec

私は公式のgithubリポジトリからpredict_output_wordメソッドを持っています。これはskip-gramで訓練されたwod2vecモデルのみを取り、すべての入力単語のインデックスのベクトルを合計することによって中間単語を予測しようとし、は入力単語インデックスのnp_sumの長さで除算します。そうすると、最も可能性の高い単語を得るためにこれらの確率を合計した後に、予測された単語の

0熱

1答えて

word2vec vocab vs char

私は単語をベクトルとして表現するためにword2vecを使用しています。 text = np.loadtxt("file.txt", dtype=str, delimiter=" ") word2vec = w2v.Word2Vec(text, size=100, window=5, min_count=5, workers=4) print(len(word2vec.wv.vocab))

0熱

1答えて

python word2vec文脈の類似性を使用して周囲の単語

個々の単語を提供するのではなく、最も可能性の高い代替語GIVENを文脈（周囲の単語）を得るためにw2vによる埋め込みを使用したいと思います。例：文=「私は放課後明日公園に行ってみたい」私は「公園」に似た候補者を検索する場合、一般的に私はちょうどGensimモデルから類似の機能を活用します model.most_similar('park') となり、意味的に類似した単語が得られます。しか

2熱

1答えて

どのようにgensimでTaggedDocumentを使用しますか？

私はそれらのテキストファイルを読み込み、それらにラベルを付ける2つのディレクトリがありますが、TaggedDocument経由でこれを行う方法がわかりません、TaggedDocument（[Strings]、[Labels]）として機能すると思っていましたが、明らかに仕事をしている。これは私のコードです： from gensim import models from gensim.models.

0熱

2答えて

word2vecモデルは単語の代わりに文字列で構成されています

私は、文字区切り文字として「スペース」を持つペルシャ語のGensimによってword2vecモデルを作成しようとしています。私が遭遇する問題は、テキストファイルを入力として与え、単語の代わりにそれぞれの文字だけで構成されるモデルを返します。それは私のために動作しませんし、私はそれがないように、それは文の単語の順序を考慮していないと思います Python Gensim word2vec vocabu

0熱

1答えて

word2vecが文末をどう扱うか

訓練をすると、文末にある単語に対処するためにword2vecは何をしますか？最後の文の最後に、である中心単語の文脈語として、別の文頭に正確な単語を使用しますか？

1熱

1答えて

Hierarchical Softmaxの出力レイヤーのユニット数

word2vecには、入力レイヤー、非表示レイヤー、出力レイヤーの3つのレイヤーがあります。サイズがVのコーパスに対して伝統的なsoftmaxアプローチを使用すると、出力レイヤーのユニット数もV（ワンホットベクトル入力）になります。 Hierarchical Softmaxを使用した場合、という記事では、ハフマンバイナリツリー内にV-1ノードしか存在しないと記載されています。この場合、出力

1熱

1答えて

モデルのためのGensim Doc2Vec巨大なファイルを生成する

gensimパッケージからdoc2vecライブラリを実行しようとしています。 model.estimate_memory() しかし、それは何も変更しませんでした：私の問題は、私はこの行を使用してみました（2.5 GB）私はトレーニングし、モデルを保存していたときにモデルファイルがかなり大きいことです。また、スペースを減らすためにmax_vocab_sizeを変更しようとしました。しかし運がな