2017-08-08 6 views
1

私は2つの文の間の類似性を見つけるために単語埋め込みを使用しています。 word2vecを使って、ある文章が英語であり、もう1つがオランダ語であれば(類似していないにもかかわらず)同様の尺度が得られます。複数の言語にわたる意味類似度

2つの異なる言語(明示的な翻訳なし)で2つの文の間の類似性を計算できるかどうか、特に言語にいくつかの類似点(Englis/Dutch)がある場合、

+1

「**アップデート**」も私の答えの一番下に追加されています。 – gojomo

+0

@gojomoがそれに従います。 – utengr

答えて

3

単純な単語ベクトル平均スキームやWord Moverの距離のように、文の類似性スキームが入力として単語ベクトルのみを使用するとしましょう。あなたは単語ベクトルの座標スペースに互換性がある各言語の単語の単語ベクトルの良いセット

  • を持って

    • あなたが提案してきた何をすることは可能であるべきでは、ということに提供しました両方の言語でまったく同じものの単語がほぼ同じ座標を持つことを意味します(同様の意味を持つ他の単語は近い座標を持ちます)。

    この2番目の品質は自動的に保証されません。実際には、word2vecモデルのランダムな初期化やアルゴリズム/実装によって導入された他のランダム化を考慮すると、まったく同じデータで実行されても、単語はまったく同じ場所に配置されません。したがって、完全に分離された英語/オランダ語のコーパスで訓練された単語ベクトルは、同じ座標に同等の単語を配置しない可能性があります。

    しかし、特定のアンカー/参照語ペア(同様のベクトルがあるはずです)に基づいて、2つのスペース間の代数変換を習得できます。その変換を2つのセットのうちの1つに含まれるすべての単語に適用することができます。その結果、「正規の」単語セットの同等の座標空間内にあるそれらの「外国語」の単語にベクトルが適用されます。この非常にアイデアは最初word2vecの論文の一つに使用された事実

    :あなたはあなたの言語の単語ベクトルのセットのいずれかに類似した変換を適用した場合

    Exploiting Similarities among Languages for Machine Translation

    、その後、使用それらの変換されたベクトルをあなたの文 - ベクトルスキームの入力として使用すると、それらの文 - ベクトルは、同じ座標空間の単語ベクトルからブートストラップされた他の言語の文 - ベクトルとある程度有用な互換性を持つでしょう。

    更新:あります各単一言語で生の文章、としている整列文章の(小さい)セットの両方を含んでいるコーパスを使用して、同時に複数の言語で単語ベクトルを訓練するために管理しrecent paperを非常に興味深いです両方の言語で同じことを意味することが知られています。 Gensimはまだこのモードをサポートしていませんが、将来のリファクタにはdiscussion of supporting itがあります。

  • 関連する問題