2017-11-14 3 views
3

他のオプション(SPSSとR)は非常に大きなデータセット(1000万件)の統計解析に使用しようとしています。許可されたハードウェア上でデータセットを処理できません。Python:Chi大規模なデータセットのカテゴリ値を二等分した

このデータセットには、多くのカテゴリ変数(Diagnosis1、Diagnosis2 ... Diagnosis30)とEvent変数(従属変数)があります。
ケースが行として表示されます。

この

Diagnosis1  Diagnosis2   Diagnosis3 Event 
1    0     0   1 
0    1     0   0 
0    1     0   0 

ような何か....ので

私はデータをロードし、これでそれを確認することができます上の -

import pandas as pd 
    import numpy as np 
    NRD_Data = pd.read_csv('NRD_DL.csv') 
    NRD_Data.head() 

が、私はにどのように立ち往生しています2x2テーブルを作成し、テーブルに対してカイ二乗検定を実行します。

  Diagnosis1=1 Diagnosis1=0 
Event=1  100   12 
Event=0  80    45 

カテゴリ値を比較するためにSPSSでクロスタブを実行するのと同様のものが望ましい結果です。

答えて

2

、あなたはあなたのカイ二乗検定を行うことができ、あなたが必要とする行列を取得するためにpd.crosstabを使用し

l=['Diagnosis1', 'Diagnosis2', 'Diagnosis3'] 
d=[] 
for i in l: 
    d.append(pd.crosstab(df['Event'],df[i])) 
d[0] 
Out[569]: 
Diagnosis1 0 1 
Event   
0   2 0 
1   0 1 
関連する問題