Python：Chi大規模なデータセットのカテゴリ値を二等分した

他のオプション（SPSSとR）は非常に大きなデータセット（1000万件）の統計解析に使用しようとしています。許可されたハードウェア上でデータセットを処理できません。Python：Chi大規模なデータセットのカテゴリ値を二等分した

このデータセットには、多くのカテゴリ変数（Diagnosis1、Diagnosis2 ... Diagnosis30）とEvent変数（従属変数）があります。
ケースが行として表示されます。

この

Diagnosis1  Diagnosis2   Diagnosis3 Event 
1    0     0   1 
0    1     0   0 
0    1     0   0

ような何か....ので

私はデータをロードし、これでそれを確認することができます上の -

import pandas as pd 
    import numpy as np 
    NRD_Data = pd.read_csv('NRD_DL.csv') 
    NRD_Data.head()

が、私はにどのように立ち往生しています2x2テーブルを作成し、テーブルに対してカイ二乗検定を実行します。

  Diagnosis1=1 Diagnosis1=0 
Event=1  100   12 
Event=0  80    45

カテゴリ値を比較するためにSPSSでクロスタブを実行するのと同様のものが望ましい結果です。

出典

2017-11-14 RROBINSON

、あなたはあなたのカイ二乗検定を行うことができ、あなたが必要とする行列を取得するためにpd.crosstabを使用し

l=['Diagnosis1', 'Diagnosis2', 'Diagnosis3'] 
d=[] 
for i in l: 
    d.append(pd.crosstab(df['Event'],df[i])) 
d[0] 
Out[569]: 
Diagnosis1 0 1 
Event   
0   2 0 
1   0 1

出典

2017-11-14 19:20:39 Wen

Python：Chi大規模なデータセットのカテゴリ値を二等分した

答えて

関連する問題