2016-10-27 8 views

答えて

0

カイ二乗値を使用してフィーチャ選択を行うことができます。これは、前処理ステップです。その後、あなたのフィーチャーボキャブラリーを大幅に減らすことができます(例えば、1Mボキャブラリーから最も有用な100,000語を選択するなど)。このステップには、次の2つの利点があります。1.次のステップでモデルサイズを小さくする。 2.予測時間が速い。短所:分類パフォーマンスに影響する場合もあれば、そうでない場合もあります。

分類を進めるには、それらの100K機能を使用してモデルをトレーニングする必要があります(たとえば、SVMアルゴリズムを使用するなど)。モデルが学習されたら、そのモデルを分類に使用できます。

関連する問題