2016-04-22 8 views
0

NYC 2011で生まれた赤ちゃんのコホートでレースで最も頻繁に1位を獲得しようとしています。これはデータセットの外観です以下のような:レース(文字列)で最も頻繁に(数値)の名前(文字列)を印刷

Baby Data

は、私は女性人口(GNDR = "FEMALE")から(ETHCTY = "BLACK NON HISPANIC")黒と白の(ETHCTY = "WHITE NON HISPANIC")サブグループのための最も一般的な(RNK = "1")(NM)を表示したいです。

私はsubset機能を試しました。ここで私が試したコードは次のとおりです。

subset(Baby.names.ethnicity.NYC, select = c(NM, subset=(RNK > 10))), + subset=c(ETHCTY == "WHITE NON HISPANIC" & ETHCTY == "BLACK NON HISPANIC" & GNDR == "FEMALE")

+0

この論理式が必要なように見えます: 'data [data、ETHCTY%in%c(" WHITE NON HISPANIC "、" BLACK NON HISPANIC ")&RNK == 1&GNDR ==" FEMALE " ] ' –

+0

また、あなたのコード' ETHCTY == "WHITE NON HISPANIC"&ETHCTY == "BLACK NON HISPANIC"は 'ETHCTY ==" WHON NON HISPANIC "でなければなりません。 ETHCTY == "BLACK NON HISPANIC" 'どちらかが欲しいからです –

+0

ありがとう、@リチャード・スクリブン! –

答えて

0

このような何かが動作するはずです:

df <- Baby.names.ethnicity.NYC 
    top_name <- subset(df, df$GNDR=="FEMALE" & df$RNK == 1 & 
    (df$ETHCTY == "BLACK NON HISPANIC" | df$ETHCTY == "WHITE NON HISPANIC"))$NM 

私は、コードを作った、データフレーム名を短くするために自由を取った、あまり複雑に見えます。

関連する問題