2017-06-03 7 views
0

私はgensimでDoc2Vec.docvecs.similarity()を使用してドキュメントの類似性を計算しました。ここで、gensimがコサインの絶対値を類似メトリックとして使用した場合、コサインの類似性は[0.0、1.0]の範囲にあると予想します。 30000のドキュメントの私のセットでペアごとの類似点の1%未満 -gensim doc2vecでは、ほとんどすべてのコサインの類似性が単語または文書ベクトル間で正であるのですか?

しかし、私が見ていますと、一部類似点は否定しているが、彼らは非常に稀であるということです。

ほとんどの類似点はなぜ肯定的なのですか?

答えて

0

Word2Vec/Doc2Vecには、生成されたベクトルの集合が原点の周りに対称的に分布していることが保証されていません。彼らは、あなたが見た結果をもたらすいくつかの方向で不均衡になる可能性があります。私はちょうどおもちゃサイズのデータ​​セットでやったいくつかのテストで

最初の文書に対するすべての文書の余弦類似性をチェックし、同梱gensim docs/notebooks/doc2vec-lee.ipynbノートブックで使用される(「・リーコーパス」)は、それは漠然とそのようだ:

階層ソフトマックスむしろ負サンプリングより使用
  1. hs=1, negative=0)が近いから(ただし、まだかなり)半々
  2. の少ない数を使用している> 0.0と< 0.0コサイン類似度とのバランスをもたらします負のサンプル(例えば、negative=1)は、よりバランスの取れた結果セットを生成する。より多くの(例えばnegative=10など)を使用すると、比較的> 0.0コサイン類似度が得られる

決定的ではない、これはベクターの構成はnegativeパラメータによって影響され得ることは穏やか示唆されています。具体的には、デフォルトのnegative=5などの典型的な否定サンプリングパラメータは、肯定的なターゲットよりも、非ターゲットとして平均単語が訓練される回数が増えます。そのは、最終座標の優位性を一方向に押し出す可能性があります。 (大規模なデータセットやモードのテストをさらに行い、モデルの設定が最終的なベクトルの位置にどのように影響するかをより詳細に分析することは、このアイディアの信頼性を高めるために必要です)。

何らかの理由で、あなたは、彼らのポジションを変えて、訓練後に考えることができます。

word2vecのスペース"All-but-the-Top: Simple and Effective Postprocessing for Word Representations"には、訓練された単語ベクトルのセットが必ずしも0の大きさの平均を持たないという興味深い最近の論文があります。これらの単語は、原点から一方向に平均しています。さらに、この論文では、共通の平均値(集合を再センタリングする)を減じ、他のいくつかの支配的な方向を取り除くことで、特定のタスクのベクトルの有用性を向上させることができることを報告しています。

私は直感的に、この「オール・ザ・トップ」の変換が、結果として得られるベクトルの差別的な「コントラスト」を増やすのに役立つと考えています。

同様のプロセスDOCベクトル用かもしれない収率同様の利点 - 、おそらく任意のドキュメント・ベクトルに、よりバランスの取れ0.0 < 0.0の値>との間に、コサイン類似度のフルセットになるだろう。

関連する問題