ベイジアン分類子のトレーニングデータサイズ

カスタマーサポートドメインで感情分析を実行するためにapache mahoutを使用しています。私は適切な訓練データセットを得ることができないので、私は自分自身を作った。今私は肯定的な感情のための100のサポートメールと否定的な100のメールを持っています。ベイジアン分類子のトレーニングデータサイズ

しかし問題は、私は正確さを達成することができないということです。それは約55％のどこかにとどまっています。これは哀れです。約70％前後の精度が満足できるでしょう。また、私はapache mahoutの無料ナイーブベイズ分類子を使用していることにも注意してください。

正確に質問になると、データセットのサイズが小さくなると精度が低下しますか？そうでない場合は、どこで微調整すればよいですか？

出典

2012-01-25 Greenhorn

トレーニングデータのサイズは非常に小さいです。これが主な問題です。また、IMOステミングは一般にナイーブベイズの精度を低下させる。 –

のみ、将来的にこの質問にお探しの方の利益のために、私は私が

はトレーニングと入力データに起因する実行50から約78％までの私の分類器の精度を微調整する方法を共有します
小文字（または大文字）に訓練し、入力データにストップワードの除去
変換トレーニングおよび入力データを実行
トレーニングデータ
ドメインに応じてngramレベルを微調整します。

これにより、精度が大幅に向上します。

出典

2012-02-17 09:54:22 Greenhorn

ベイジアン分類子のトレーニングデータサイズ

答えて

関連する問題