2017-08-01 19 views
2

私はsizeがベクトルの次元である、Gensimのドキュメントからgensim.models.Word2VecPythonの:Gensim Word2vecモデルクラスで「サイズ」パラメータは何ですか

sizeパラメータの使用を理解するために苦労してきました。さて、私の知る限り、word2vecは、各単語の文中の他の単語との近さの確率のベクトルを作成します。だから私のvocabのサイズが30の場合、30より大きい次元のベクトルをどのように作成するのでしょうか?誰もがWord2Vecサイズの最適値で私を要約してください?

ありがとうございます。

+0

のhttps:// en.wikipedia.org/wiki/Word2vec#Dimensionality 通常、最適値が何であるかを知る方法がない場合 –

+0

ありがとう、@ juanpa.arrivillagaしかし、私はまだそれの背後にある数学を得ることができません。 34ワードはどのようにして100ワード、すなわちサイズ= 100の場合に埋め込みができますか?これを説明している紙、ブログ、チュートリアルはありますか? –

答えて

1

sizeは、ベクトルの次元数です。

Word2Vecは、単語ごとに「密な」埋め込みベクトルを作成するために、大きくて多様なテキストの例が必要です。 (これは、訓練中の多くの対照的な例の間の競争であり、単語ベクトルを互いに興味深い距離および空間的関係を有する位置に移動させることができる)。

語彙が30語しかない場合、word2vecはありそうもない適切な技術。そして、それを適用しようとするならば、理想的にはが低く、あなたの語彙サイズよりもはるかに小さいベクトルサイズを使用したいと思うでしょう。例えば、数万の単語の各々の多くの例を含むテキストは、100次元の単語ベクトルを正当化する可能性がある。

ボキャブラリサイズよりも高い次元性を使用すると、「オーバーフィッティング」が多かれ少なかれ保証されます。トレーニングは、より少ない数でより多くの単語を表現することによって強制されるクロスワードの干渉がないため、他のどのエンコーディングよりも優れた性能を発揮する、基本的に「ワンホット」エンコーディングのような、各単語の特異なベクトルに向かう傾向があります寸法の

これは、Word2Vec内部の近くの単語の予測タスクで可能な限りうまくいくモデルですが、他の下流のタスクではひどいことになります。一般的な相対関係知識はキャプチャされていないためです。 (クロスワードの干渉は、アルゴリズムが増分同様の言葉が学習した重みに類似していなければならない、および異なる単語を対比構成に落ち着くために、多くのトレーニングサイクルにわたって、を必要ものである。)

+1

これは素晴らしい説明です。これは非常に意味があります。ありがとう、@gojomo –

関連する問題