様々なパッケージには、さまざまなdescribe
機能があります。私が一番よく知っているのは、Hmisc :: describeです。
"この関数は、変数が文字、因子、カテゴリ、バイナリ、離散数値、および連続数値であるかどうかを判断し、それぞれに応じて簡潔な統計要約を出力します。この場合、クォンタイルは印刷されません。バイナリ以外の変数には20個以下のユニークな値がある場合は頻度表が印刷されます。 5つの最低値と最高値が印刷されます。
と出力の例:
Hmisc::describe(work2[, c("CHOLEST","HDL")])
work2[, c("CHOLEST", "HDL")]
2 Variables 5325006 Observations
----------------------------------------------------------------------------------
CHOLEST
n missing unique Mean .05 .10 .25 .50 .75 .90
4410307 914699 689 199.4 141 152 172 196 223 250
.95
268
lowest : 0 10 19 20 31, highest: 1102 1204 1213 1219 1234
----------------------------------------------------------------------------------
HDL
n missing unique Mean .05 .10 .25 .50 .75 .90
4410298 914708 258 54.2 32 36 43 52 63 75
.95
83
lowest : -11.0 0.0 0.2 1.0 2.0, highest: 241.0 243.0 248.0 272.0 275.0
----------------------------------------------------------------------------------
さらに、ヒストグラムを得ることについてあなたのポイントに、記述し、オブジェクトのHmisc ::ラテックス方法は、上記に示した出力でインタリーブヒストグラムを生成します。 (これを利用するには、LaTeXのインストール機能が必要です。)HarrellのWebサイトまたはAmazonの「Look Inside」プレゼンテーションで、出力のイラストを見つけることができると確信しています。「回帰モデリング戦略"この本には、データ分析に関する有用な資料が多数あります。
ベストはそれのマークダウンもすることです:)残りはデータアナリストまたはDB所有者によって完了することができます。 – Espanta