3
他のオプション(SPSSとR)は非常に大きなデータセット(1000万件)の統計解析に使用しようとしています。許可されたハードウェア上でデータセットを処理できません。Python:Chi大規模なデータセットのカテゴリ値を二等分した
このデータセットには、多くのカテゴリ変数(Diagnosis1、Diagnosis2 ... Diagnosis30)とEvent変数(従属変数)があります。
ケースが行として表示されます。
この
Diagnosis1 Diagnosis2 Diagnosis3 Event
1 0 0 1
0 1 0 0
0 1 0 0
ような何か....ので
私はデータをロードし、これでそれを確認することができます上の -
import pandas as pd
import numpy as np
NRD_Data = pd.read_csv('NRD_DL.csv')
NRD_Data.head()
が、私はにどのように立ち往生しています2x2テーブルを作成し、テーブルに対してカイ二乗検定を実行します。
Diagnosis1=1 Diagnosis1=0
Event=1 100 12
Event=0 80 45
カテゴリ値を比較するためにSPSSでクロスタブを実行するのと同様のものが望ましい結果です。