0

私はNLPの新しい人です。私はテキスト分類の仕事をしようとしています。仕事をする前に、言葉の埋め込みをすべきだと私は知っています。 私の質問は、私は言葉(試験データだけでトレーニングデータの事前訓練を受けVECモデルからベクトルを得るように)学習データのみに仕事を埋め込む、またはトレーニングデータ&テストデータの両方に行う必要がありますか?word2vecを使用してテストデータを含む単語埋め込みを行う必要がありますか?

答えて

0

これは非常に重要な問題です。 NNコミュニティでは一般的にどのような人がやっていることは、トレーニングセットにおける閾値(即ち、周波数= 2 <)を使用してUNKトークンによってその閾値未満で発生したすべての単語を置き換えることです。テスト時に、実際のトレーニングセットの単語と一致しない単語がある場合、UNKの表現がその単語を置き換えます。

関連する問題