2011-10-08 11 views
7

データ辞書の引数としてデータフレームを取って、行います、私はRにデータ辞書機能を書くことを考えています

1)は、テキストファイルを作成している:

a。クラス、観測数、完全な観測数などによって変数の数を列挙してデータフレームを要約します。

b。各変数について、平均、最小、最大、モード、欠落した観測数などの重要な事実を要約します。

2)数値変数または整数変数ごとにヒストグラムを含むpdfを作成し、属性変数。

基本的な考え方は、1つの機能を持つデータフレームのデータ辞書を作成することです。

私の質問です:既にこれを行うパッケージはありますか?そうでない場合、人々はこれが有用な機能になると思いますか? ありがとう

+0

ベストはそれのマークダウンもすることです:)残りはデータアナリストまたはDB所有者によって完了することができます。 – Espanta

答えて

6

様々なパッケージには、さまざまなdescribe機能があります。私が一番よく知っているのは、Hmisc :: describeです。

"この関数は、変数が文字、因子、カテゴリ、バイナリ、離散数値、および連続数値であるかどうかを判断し、それぞれに応じて簡潔な統計要約を出力します。この場合、クォンタイルは印刷されません。バイナリ以外の変数には20個以下のユニークな値がある場合は頻度表が印刷されます。 5つの最低値と最高値が印刷されます。

と出力の例:

Hmisc::describe(work2[, c("CHOLEST","HDL")]) 
work2[, c("CHOLEST", "HDL")] 

2 Variables  5325006 Observations 
---------------------------------------------------------------------------------- 
CHOLEST 
     n missing unique Mean  .05  .10  .25  .50  .75  .90 
4410307 914699  689 199.4  141  152  172  196  223  250 
    .95 
    268 

lowest : 0 10 19 20 31, highest: 1102 1204 1213 1219 1234 
---------------------------------------------------------------------------------- 
HDL 
     n missing unique Mean  .05  .10  .25  .50  .75  .90 
4410298 914708  258 54.2  32  36  43  52  63  75 
    .95 
    83 

lowest : -11.0 0.0 0.2 1.0 2.0, highest: 241.0 243.0 248.0 272.0 275.0 
---------------------------------------------------------------------------------- 

さらに、ヒストグラムを得ることについてあなたのポイントに、記述し、オブジェクトのHmisc ::ラテックス方法は、上記に示した出力でインタリーブヒストグラムを生成します。 (これを利用するには、LaTeXのインストール機能が必要です。)HarrellのWebサイトまたはAmazonの「Look Inside」プレゼンテーションで、出力のイラストを見つけることができると確信しています。「回帰モデリング戦略"この本には、データ分析に関する有用な資料が多数あります。

+0

情報をいただきありがとうございます - 非常に便利です - 私はこれを私の機能に組み込むことができます –

関連する問題