2017-08-03 4 views
0

Word2Vectorでは、単語の埋め込みは、共起を使用して学習され、お互いのコンテキストで発生する単語が互いに接近するように。ニューラルネットワークの既存の埋め込みスペースに新しい単語ベクトル埋め込みを追加する効果

私の質問は以下のとおりです。

1)あなたはすでに埋め込みの事前訓練されたセットを持っている場合は、変更することなく、この埋め込み空間に10個の追加の単語を追加することができる、のは40kの言葉で100次元空間を言わせて既存の単語の埋め込み。したがって、既存の単語埋め込みを使用して新しい単語のディメンションを更新するだけです。私はこの問題を「単語2ベクトル」アルゴリズムに関して考えていますが、GLoVe埋め込みがこの場合どのように機能するかについての洞察を人が持っていれば、私はまだ非常に興味があります。

2)質問のパート2は次のとおりです。以前の埋め込みセットで訓練されたNNにNEW単語埋め込みを使用でき、妥当な結果が期待できますか?たとえば、感情分析のためにNNを訓練し、以前に「神経質」という言葉が語彙に含まれていなかった場合、「神経質」は正しく「否定的」に分類されます。

これは、埋め込みに関するNNがどれほど敏感であるか(または堅牢な)かについての質問です。私は思考/洞察力/指導に感謝します。

答えて

1

最初のトレーニングでは、有益なN次元空間にそれらをプロットするための既知の単語に関する情報を使用しました。

もちろん理論的には新しい単語についての新しい情報を使用して同じ空間に座標を与えることも可能です。あなたは、古い言葉と一緒に使用されている新しい言葉のさまざまな例をたくさん必要とします。

古い単語の位置を固定するか、新しい例に基づいて新しい位置に移動させるかは、重要な選択です。以前の単語を使用して既存のクラシファイア(感情分類器のような)を既に訓練していて、そのクラシファイアを再トレーニングしたくない場合は、古い単語をロックして互換性のある位置への新しい単語(より新しい結合されたテキストの例が古い単語の相対的な位置を変更する場合でも)。

新しい単語の効果的な訓練の後、一般的には類似しているはずです。古い単語を意味するので、古い単語で作業していた分類子が新しい単語で有用なことを期待するのは妥当です。しかし、それがうまくいくかどうかは、元の単語セットが意味の一般化可能な「近隣」をどれくらいうまくカバーしているかなど、多くのことに依存します。 (もし新しい言葉が古い言葉に例がないという意味の陰影をもたらすならば、座標空間の領域は貧困になる可能性があり、分類器は決して良い例を持っていないかもしれないので、性能は遅れる可能性がある)

+0

私は、このアイデアをさらに追求する前に、あなたが一般的なコンセンサスであることを期待していました。私は、クラシファイアのために「意味の一般化可能な近傍」をカバーするためにオリジナルの単語セットを必要とすることに関して、あなたが言ったことは理にかなっていると思います。それは一般的に使われているフレーズ「一般化可能な近隣の意味」ですか?それは私がそれについて考えると完璧な意味を持ちます。 –

+0

私はそれが一般的だとは思わないが、それは私がそれについて考えている方法だ。ある程度、訓練プロセスは、可能な限り内部訓練テキストが提供する意味の範囲内で、内部予測タスクを良好にするために全領域を使用する。物理的なテキストだけで「ホット」と「コールド」を学ぶと、そのドメインの単語と方向は隔てられますが、後で感情的/架空のテキストを同じアンカー空間に押し込むと、 「冷たい」気分は、それを有効に対照的な方法で位置づけるほどの自由度を持たないかもしれない。 – gojomo

関連する問題