2017-07-27 3 views
2

私は現在、私のマスターズの論文に取り組んでいます。カスタムコード化されたPythonですべてのデータを処理しました。データを表示する主な方法の1つがmatplotlibのboxplotです。私はドキュメンテーションを見てきましたが、アウトライヤー(または「フライヤー」)をどのように分類し、それらを範囲から除外するかについては何も見ることができません。Matplotlib boxplot:範囲を計算して異常値を特定するアルゴリズムは何ですか?

私はこの情報を見つけることができなければ世界の終わりではありませんが、方法論の章で私の統計的手段を完全に記述していないと私には不完全な感じがします。

答えて

2

matplotlib.pyplot api documentation of boxplotより。 boxplotにはウィスカーの範囲を指定するwhisパラメーターがあります。 dedault値が1.5の場合。

whis:フロート、配列、または文字列(デフォルト= 1.5)

floatとして、 第一及び第三の四分位数を越えてウィスカの範囲を決定します。換言すれば、IQRが 四分位範囲(Q3-Q1)である場合、上部ウィスカーは、最後に 基準点Q3 + whisIQRまで伸びる。同様に、より低いウィスカーは、Q1 - whis IQRより大きい第1のデータにまで広がる。 ウィスカーを超えると、データはアウトライヤーとみなされ、個別の ポイントとしてプロットされます。ウィスカーに最小値と最大値を表示させるには、これを不当に高い値に設定してください。 あるいは、これをパーセンタイルの昇順(例えば、[5,95])の に設定して、ウィスカをデータの特定のパーセンタイルに設定します( )。最後にwhisは文字列 'range'になり、ひげを強制的にデータの最小値と最大値にします。

ひげそりの範囲のデフォルトは、1.5 *四分位範囲です。実際には、Q1 - 1.5 *四分位範囲以下の任意の値とQ3 + 1.5 *四分位範囲のいずれかの値は、デフォルト値を使用するときは外れ値とみなされます。

デフォルト以外の値を指定すると、出力はその値に対して調整されます。

+0

だから私はずっと前から私の前にいました。ありがとう - それは私が必要としていたものです。私はwhis = rangeを使ってすべてのチャートを再作成すると思う。 (そうでなければ、私は6の人口で異常値を呼び出すことを正当化しなければなりません....) –

+0

あなたがそれについての質問があれば、何かのドキュメントをチェックすることは常に良い考えです。しかし、プログラミングを始めるときには、ドキュメンテーションは非常に難しいことがあります。助けになるのはうれしい! – error

関連する問題