私はword2vecモデルを持っていて、すべての単語を列車とテストセットに埋め込むために使用します。しかし、適切な言葉では、word2vecモデルには含まれていません。そして、すべての適切な単語の埋め込みとしてベクトルをランダム化できますか? できる場合は、私にいくつかのヒントといくつかの論文を参考にしてください。 ありがとうございます単語埋め込みの単語が欠けています
0
A
答えて
0
あなたが求めていることは明確ではありません。特に「正しい言葉」とは何を意味しますか?
しかし、トレーニングの後、あなたがモデルであることを期待言葉がモデルになっていない、それは通常のいずれかによって引き起こされている場合:
(1)あなたが/前処理方法に問題があなたのコーパスをトークン化、あなたが提供したと思った言葉はそうではありませんでした。そこで、どのデータをトレーニングに渡すかをもう一度確認してください。
(2)パラメータと期待値のミスマッチ。たとえば、min_count
が5(デフォルトのword2vecライブラリ)のトレーニングを実行する場合、5回未満の単語は無視され、ワードベクトルは受信されません。 (これは通常、低頻度の単語が自分自身にとって良い単語ベクトルを得ることはできないが、他の単語とインターリーブされることによって他の単語の訓練に軽度に干渉することができるので、全体的な単語ベクトル品質にとっては良いことである)
通常、入力を二重化し、問題の疑いのある指標を記録して監視し、訓練後のモデルに含まれていることを慎重に調べることで、何がうまくいかなかったかを推測することができます。
関連する問題
- 1. 4グラムモデルのKeras単語埋め込み
- 2. 埋め込みパターンと一致する単語
- 3. text2vec Rパッケージに単語埋め込みを準備する
- 4. 単語埋め込みのTensorFlow双方向LSTM符号化
- 5. 事前訓練された単語の埋め込みとケラスの訓練単語の埋め込みの違い
- 6. Doc2vec Gensim:各エポック中に単語埋め込みが更新されない
- 7. CNTK:ファイルから事前に埋め込まれた単語埋め込みの回避策
- 8. ファイルと単語の読み込み
- 9. Tensorflowの予測に単語埋め込みを使用する方法
- 10. 小規模データセットのNLP分類/推論 - >単語埋め込みアプローチ
- 11. winformにms単語を埋め込む方法
- 12. ComboBoxの書き込み単語
- 13. 最後の単語が読み込まれない
- 14. word2vecを使用してテストデータを含む単語埋め込みを行う必要がありますか?
- 15. アラビア語のデータが埋め込まれたXMLを読み込みます。C#
- 16. Prolog:自然言語ファイルを単語のリストに読み込みますか?
- 17. nltkには、指定された単語によく似た単語やフレーズを見つけるための組み込みメソッドがありますか?
- 18. MySQL:列には単語の単語が含まれています
- 19. 検証のみ大文字の単語、単語はREGEX
- 20. 文字列を.Substringで単語単位で読み込みますか?
- 21. ASP.NET MVC3でC#を使用して単語テンプレートを埋め込む
- 22. cpとasp.netを使用してaspxページに単語文書を埋め込む
- 23. 単語入力フィールドを読み込んでいますか?
- 24. どのようにプログラムで単語をExcelに埋め込むのですか?
- 25. srec_catを使用してSレコードファイルを単語で埋める
- 26. Solr:複数の単語の同義語:最初の単語のみがハイライト表示されます
- 27. preg_match_all単語のある単語のID
- 28. 視覚スタジオ2010が読めないコードにアラビア語の単語
- 29. 単語がisogram
- 30. C#Create単語からの単語
私が思うに、質問の著者は、事前に単語を埋め込んだニュースをAmazonで販売している商品のようなデータに適用すると、事前に埋め込まれた埋め込みには欠けている多くの単語はどうなるでしょうか? – neurite
未知語を無視する方がよいでしょう。しかし、未知語の例が多いコーパスがあれば、自分のベクトルを訓練することができます。 (実際には、あなた自身のドメインコーパスからの単語ベクトルは、もしそれが十分大きければ、他のコーパスから借りられた単語ベクトルよりも良いかもしれません。)word2vecのFacebookのFastTextバリアントは、単語断片ベクトルのうち、見えない単語 - 共有された語根またはスペルミスに起因するものは、「新しい」単語の意味を示すことができる。 – gojomo
ここに、[FastText out-of-vocabulary words](https://github.com/facebookresearch/fastText#obtaining-word-vectors-for-out-of-vocabulary-words) – neurite