2017-12-13 2 views
0

私の仕事は、利用可能なタグのリストから文書や投稿にタグ(説明的な単語)を割り当てることです。私はGensimのDoc2vecで作業しています。 doc2vecを文書のタグ付けに使用できることを読んでいます。しかし、私はこのタスクのための適切なパラメータ値を得ることができませんでした。これまで、私は 'size'と 'window'という名前のパラメータの値を変更してテストしました。私が得ている結果はあまりにもナンセンスであり、またこれらのパラメータの値を変更することによって結果に傾向が見いだせません。つまり、一部の値が少し改善され、一部の値が下がってしまいます。誰もがこのタスクのために適切なパラメータ値が何を示唆することができますか?私は十分な訓練データがあれば 'サイズ'(特徴ベクトルならばサイズを定義する)が大きくなければならないことを発見しました。しかし、残りのパラメータについては、私は確信していません!ドキュメントタグ付けのためのDoc2vecのパラメータ値 - Gensim

答えて

0

どのパラメータが最適なのかは、トレーニングデータのサイズ&のサイズ、およびダウンストリームの目標とまったく同じです。

gensimのデフォルト値は、最初の推測値が妥当か、他の誰かが同様のデータセット/問題で正常に使用したことを確認した値です。

しかし実際には、保持されているテストセットに基づいた自動評価を作成し、Doc2Vecのパラメータを最適な範囲/組み合わせのパラメータの多くの小さな調整を検索してメタ最適化することによって理想的に実験する必要があります。

関連する問題