2016-07-01 12 views
1

が何であるかを私は現在、深い学習においてアマチュアとCBOWまたはskipgramモデルのいずれかの場合、このサイト https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectors単語ベクトルの次元

にword2vectorについて読んでいたよ、私は単語ベクトルの寸法は300とであることがわかります語彙のサイズは15000です。私が以前の記事で読んだことは、単語内で単語をハードにエンコードできることです。だから私は、単語のベクトル次元は、語彙のサイズと等しいか、別の方法で質問を置く、この単語の次元とはどのように視覚化する必要がありますね。どのようにこの次元をとっていますか?

+0

この文章を説明してください。 – sel

+0

編集した質問 – Nipun

答えて

0

実際、単語ベクトルの次元は語彙のサイズを反映していません。 Word2Vecが行っていることは、単語をベクトル空間の表現にマッピングすることです。あなたは、任意の次元のこの空間を作ることができます::各単語はこの空間の点で表され、単語ベクトル次元はこのスペース。 同じ文脈に現れる傾向がある単語も、このスペース内で互いに隣り合って表示されます。これは

+0

https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectorsこのリンクをご覧になり、 「最小単語数を40に設定すると、合計で300語の16,492語の語彙が得られます」とは、300個の機能を意味します。その言葉の特徴は何か – Nipun

3

「Wordのベクトル次元」助け

希望はあなたが訓練文書で訓練を受けてきたベクトルの次元です。技術的には、10,100,300、1000などの任意のディメンションを選択できます。さまざまなディメンション(300,400,500、... 1000など)で実験したため、業界標準は300〜500ですが、気づいていません300-400の後で顕著なパフォーマンスの向上。 (これはトレーニングデータにも左右されます)。しかし、ディメンションを低すぎると設定すると、トレーニング文書全体に含まれる情報をキャプチャするためのベクトル空間があまりありません。

どのように表示するには?

300次元ベクトルを容易に視覚化することはできず、おそらく300-dベクトルを視覚化することはそれほど有用ではありません。私たちができることは、これらのベクトルを2次元空間に投影することです。空間は、私たちが最もよく知っていて、簡単に理解できる空間です。

あなたの最後のステートメント単語のベクトル次元は、語彙のサイズと同じでなければなりません。は間違っています! Vocabのサイズは10億です!単語ベクトルの次元(大部分は300-500、あなたは10億次元のベクトルを訓練したくないですか?)は、データを訓練するために事前に決めたベクトルのサイズです。このビデオは、重要な単語のベクトルの概念を理解するのに役立ちます:AI with the Best