2016-05-01 7 views
0

ここには、count、mean、std、およびパーセンタイルのような情報を示すデータフレームがあります。実際にこのデータを使ってdf/aシリーズを理解する方法を説明してください。pandas describe関数の統計的有意性とその使用法は何ですか?

  losses  wins   year 
count 8.000000 8.000000  8.000000 
mean 6.625000 9.375000 2011.125000 
std  3.377975 3.377975  0.834523 
min  1.000000 4.000000 2010.000000 
25%  5.000000 7.500000 2010.750000 
50%  6.000000 10.000000 2011.000000 
75%  8.500000 11.000000 2012.000000 

誰かが、カウント、平均、標準、分、それぞれどのように説明できますか。 &これらパーセンタイルはデータの理解に使用されますか?

答えて

3

これらは、データの配信の性質についていくつかの視点を示す統計です。

  • meanは、分布の「期待値」です。平均して、あなたはこの数字を得ることを期待しています。

  • stdは、データがmeanに対してどのくらいのスイングを取るかを示します。具体的には、meanからの偏差の平方がmeanです。

  • 50%も中央値で、meanとの違いは、分布の歪みに関する情報です。また、データの外れ値に対して堅牢な平均値の別の定義です。

  • 25% & 75%尖度の観点を示す。また、すべてのパーセンタイル数は一般に異常値に対してより堅牢です。

  • minmaxmax - min75% - 25%は、データがmean

  • count大きなこの数は、すべての統計情報を持っているより多くの信頼性に対して取るどのように大きなスイングの上の視点に全ての代替です。

関連する問題