2009-08-13 25 views
1

"ノルム"外のポイントを平滑化しながら、データセットの平均を計算するにはどうすればよいですか? 、2,2,2,50:売上データの平準化平均

は、私は1つのアイテムに売上データの12日を持っているとしましょう...私がどんな本当の数学をしなければならなかったので、しばらくしているが、私はこのどこかを学んだと確信しています10,15,9,6,2,0,2,1

私は4日目(50)があまりにも多くの平均を台無しにさせることなく、一日あたりの平均売上高を計算したいと思います。ログ、パーセンタイル、私は思うようなものが...

+1

私が持っていたすべての統計教師は、それが適合しないという理由だけでデータを削除すべきではないことを教えてくれました。私はまだマットの答えをupvoteします。 – mcandre

+0

はい、間違いなくデータを削除したくありません。 12日間の平均はそれで、50は平均の一部です。平均値は8.4ですが、データセットの中央値は2になります。 –

+0

将来の売上の予測変数として平均値を使用している場合、異常値を削除することは完全に正常です。 –

答えて

5

それはあなたがmoving averageを探しているように私には聞こえます。

+0

ああ!完璧、私はそれが名前を知っていた。 –

1

また、標準偏差の倍数でしきい値を設定してフィルタリングすることもできます。これは、平均(平均)から予想よりはるかに遠い結果を除外します。

標準偏差は、単にSQRT( - average_value)/ number_of_values和(your_values)です。

編集:あなたはまた、平均値からの偏差で値を重み付けを見ることができます。したがって、非常に大きな値は1/exp(偏差)として重み付けすることができ、したがって、それらの平均から遠く離れた場所に寄与することは非常に少なくなります。

1

あなたはIQR(interquartile range)のようなものを使用したいと思います。基本的には、データを四分位数に分割してから、第1四分位数と第3四分位数から中央値を計算します。そうすれば、データの中心的な傾向を得ることができます。