私はPythonとpandas(私の仕事場の分析プラットフォームとしてSASを使用しています)にはかなり新しくなっています。尋ねられた/答えられた。 (私はドキュメントと、このサイトで回答を探していて、まだ何かを見つけることができませんでした。)平均値、標準偏差、メジアン、クオンタイルのweightedデータ付きのdescribe()の使用
レスポンダーレベルのサーベイデータを含むデータフレーム(resp)があります。私は、フィールドの1つ(anninc [annual income for short]と呼ばれる)に関するいくつかの基本的な記述統計を実行したいと思います。私の基本的な統計情報を提供します
resp["anninc"].describe()
:
count 76310.000000
mean 43455.874862
std 33154.848314
min 0.000000
25% 20140.000000
50% 34980.000000
75% 56710.000000
max 152884.330000
dtype: float64
は、しかし、キャッチがあります。サンプルがどのように構築されたかを考えると、分析を実行するときに、すべてが「等しい」とみなされないように回答データを調整する必要がありました。私は、解析中に各レコードに適用されるべき重みを表す別の列(tufnwgrpと呼ばれる)をデータフレームに持っています。
私の以前のSASの生活では、ほとんどのプロセスにはこのような重量のデータを処理するオプションがあります。同様の並べ替えがあります
proc univariate data=resp;
var anninc;
weight tufnwgrp;
output out=resp_univars mean=mean median=50pct q1=25pct q3=75pct min=min max=max n=count
run;
:
proc univariate data=resp;
var anninc;
output out=resp_univars mean=mean median=50pct q1=25pct q3=75pct min=min max=max n=count;
run;
そして、次のようになり、加重データを使用して同じ分析:たとえば、標準procの単変量は、同じ結果が次のようになります与えるためにdescribe()などのメソッドのためのパンダで利用可能な重み付けオプション? @TomAugspuger同様
私はこれを行うためのデータフレーム上の方法を認識していませんよ。あなたは数え方や分位数が変わることを期待していますか?あるいは平均と標準偏差だけ?最初に重み付けを適用し、結果のシリーズで説明を呼べますか? – TomAugspurger
ありがとうTomAuspurger ...それは私の疑いでしたが、私は余分なコーディングを避けることを望んでいました...私はそれがすべてのメトリックに当てはまると思います。 –
それほど多くの仕事は本当にすべきではありません。私は '(df ['anninc'] * df ['tufnwgrp'])。describe()'がこのトリックを行うと思います。ある時点でdtypeを変換する必要があるかもしれません。 – TomAugspurger