私のタイトルが間違っていたり、良くなっていたら、教えてください。word embeddings/word2vec ..の使い方は?実際の物理的な辞書を使って
私は問題を説明している既存の論文/記事を見つけようとしています。単語のベクトルを作成して、それらの部分の合計に等しいようにしようとしています。 例:Cardinal(鳥)は、赤、鳥、およびその唯一のベクトルに等しくなります。 そのようなモデルを訓練するために、入力は辞書のようなものかもしれず、各単語はその属性によって定義されます。 のような何か:
枢機卿:鳥、赤、...
ブルーバード:青、鳥、....
鳥:温血動物、羽、くちばし、両眼、爪....
翼骨、羽....
したがって、この例では、各ワードベクトルは、その部品の単語ベクトルの和に等しく、そうで
。元のword2vecでは、Vec(マドリッド)-Vec(スペイン)+ Vec(パリ)=約Vec(パリ)のような意味的距離が保存されていたと私は理解しています。
ありがとうございます!
PS:可能であれば、新しい単語を後で追加することができます。
応答ありがとう: 私はこのスタイルのアプローチを試みていた理由は、私が実際に効果的なコーパスを得ることができる非常に固有の生物学的情報です。私は当初、ウィキペディアといくつかの生物学的データベース(NCBI)のクロールだけを考えていましたが、AがB、C、Dで構成されていれば、定義は厳密です - Aのベクトルは常にB、C、Dの合計、それ以上のもの、それ以下のもの(最も近いものが与えられ、重複がないものとする)。私は、W2Vがそれを生成できることは確かです。 –
この最終目標は何ですか?アプリケーションは何ですか?評価指標は何ですか? – Dan
最終目標は何が生成されるのでしょうか?そのセットと最もよく一致するオブジェクトを見つけるために、(生物学的プロセスの)プロパティのセットを追加したり、差し引いたりすることができるいくつかのベクトル世界。 アプリケーションは生物学的データの深い学習です。 評価指標: 'Item; Property1、Property2 ... PropertyN'の入力系列が与えられた場合、出力は数学がすべて動作するようなベクトル空間でなければなりません。これはW2Vの問題ではないか、間違っていると思っている可能性は非常に高いです。 –