アルゴリズム：不完全な値を持つモードを見つける

数値が近いが正確でないデータセットのモードを探したい。たとえばのは、私は次の配列を持っているとしましょう：アルゴリズム：不完全な値を持つモードを見つける

[0.00、100.12、101.00、99.75、97.5、102.4、36.34、103.11、100.20、75.0]

私はこのうち約100番号を取得したいですアレイ。私はちょうど平均を取ることができたが、私は0.00、36.34および75.00の残りの数字を台無しにしたくない。

これをフレーズするもう1つの方法は、他のものに近くない値を除いて、値の平均値が必要です。

ありがとうございます！

2011-12-27 Jason

「モード」（=最も頻繁に発生する値）とはかなり異なるため、タグを削除してタイトルを変更したい場合があります。 –

あなたはRANSACについて読むことに興味があるかもしれません：http://en.wikipedia.org/wiki/RANSAC –

私はそれがまさに私が探しているものだと思う、ありがとう！ – Jason

ヒストグラムを計算してその最大値を見つけるのが速い解決策です。あなたはビンサイズで遊びたいかもしれません。

2011-12-28 09:41:58 cyborg

これを**にして、ビンサイズ**でプレーする必要があります。これは、ヒストグラムが合理的に機能するためには重要です。したがって、合理的な結果を得るには、異なるビンサイズで複数回試行する必要があります。最後に、ビン内でそれを洗練したいと思うでしょう。 –

平均の代わりに中央値を使用することはどうですか？

または使用 "トリム平均"。値の上位10％と下位10％を削除し、残りの部分にのみ平均を計算します。それはおそらくより安定しています。

2011-12-29 15:30:51

[0,10,20,30,100,200,1000,1000,1000,1000,1000]の中央値は200です。 – cyborg

はい、どういう場合ですか？ 2つ以上の1000回の観測を追加すると、1000になります。中央値は、特に実データでは、かなり良いセマンティクスを持っています。 –

ヒストグラムにはこの問題はなく、さらに速くなる場合もあります。 – cyborg

答えて