2012-01-25 9 views
1

カスタマーサポートドメインで感情分析を実行するためにapache mahoutを使用しています。私は適切な訓練データセットを得ることができないので、私は自分自身を作った。今私は肯定的な感情のための100のサポートメールと否定的な100のメールを持っています。ベイジアン分類子のトレーニングデータサイズ

しかし問題は、私は正確さを達成することができないということです。それは約55%のどこかにとどまっています。これは哀れです。約70%前後の精度が満足できるでしょう。また、私はapache mahoutの無料ナイーブベイズ分類子を使用していることにも注意してください。

正確に質問になると、データセットのサイズが小さくなると精度が低下しますか?そうでない場合は、どこで微調整すればよいですか?

+1

トレーニングデータのサイズは非常に小さいです。これが主な問題です。また、IMOステミングは一般にナイーブベイズの精度を低下させる。 –

答えて

4

のみ、将来的にこの質問にお探しの方の利益のために、私は私が

  • はトレーニングと入力データに起因する実行50から約78%までの私の分類器の精度を微調整する方法を共有します
  • 小文字(または大文字)に訓練し、入力データにストップワードの除去
  • 変換トレーニングおよび入力データを実行
  • トレーニングデータ
  • の各カテゴリ内のサンプルの等量の近くに持って
  • ドメインに応じてngramレベルを微調整します。

これにより、精度が大幅に向上します。