2017-07-14 6 views
0

個々の単語を提供するのではなく、最も可能性の高い代替語GIVENを文脈(周囲の単語)を得るためにw2vによる埋め込みを使用したいと思います。python word2vec文脈の類似性を使用して周囲の単語

例: 文=「私は放課後明日公園に行ってみたい」

私は「公園」に似た候補者を検索する場合、一般的に私はちょうどGensimモデルから類似の機能を活用します

model.most_similar('park') 

となり、意味的に類似した単語が得られます。しかし、これは、私が後にしていた名詞の "公園"の代わりに、私に動詞 "公園"に似た言葉を与えることができました。

モデルにクエリを行い、周囲の言葉を文脈として与えてより良い候補を提供する方法はありますか?

答えて

2

Word2vecは、主に単語予測アルゴリズムではありません。内部的には、単語のベクトルを訓練するために半予測を試みますが、通常、これらの訓練の予測は、単語ベクトルが求められる最終用途ではありません。最近のバージョンのgensimでは、(いくつかのモデルモードでは)トレーニング中に行われた予測と近似する方法を追加しました。あなたの目的に役立つかもしれません。また

、言葉は役立つかもしれない状況に幾分、類似したもあるあなたの最初のターゲットワードに言葉most_similar()をチェック。

単語ベクトル訓練中に複数の単語感覚を曖昧さ回避する方法についての研究論文がいくつかありましたが(私は/公園/歩行者とは違っています)、私は見たことがありませんオープンソースライブラリに実装されています。

関連する問題