-1

私は2つのクラス(+1-1)を持つ不均衡なデータセットを持っています。ポジティブはデータセットのわずか7%です。不均衡なデータセットのサンプリング比率

Desicion Treesを使用して分類したいと考えています。

  1. 陽性の同じサイズ
  2. 陽性のダブル、トリプルサイズ:私はにネガをダウンサンプリングしようとしています。

これらのすべてについて、私はほとんど同じ精度を得たが、陽性のリコールは最初のサンプル(陽性と同じサイズのネガ)ではるかに良好であった。しかし、私はここで何かが欠けていると感じるので、このサンプリングについて何が悪いですか?

答えて

0

ドミナントクラスをダウンサンプリングするのはかなり一般的です。

実際の問題を解決する必要があります。

クラスを1:1の比率にダウンサンプリングすると、特定の評価が良好に見えるかもしれませんが、それでも現実は反映されますか?クラシファイアは50%の症例で陽性を予測するように訓練されていますが、3%のみが陽性です。 「偽陽性」があなたに多額の費用をかけると、これが問題になる可能性があります。

関連する問題