私はhttps://www.kaggle.com/c/titanicからタイタニックデータセットを使用しています。Rでカスタム範囲でデータをグループ化する(例:0-4,1-5,2-6,3-7など)
"0-4"、 "1-5"、 "2-6"、 "3-7"などのように異なる年齢グループを作り、生存率が最高。私の年齢グループは整数間隔[0,80]内にあります。元のデータセットの「年齢」列には、NAsも含まれています。 「生存」の列には、生存しているかどうかの情報が含まれます(0 =いいえ、1 =はい)。
私はこのような問題を解決しようとしていましたが、うまくいかなかったのです。私はどんな助けにも感謝します。
for(i in 0:80){
max= -Inf
x[i]<-(sum(subset(dataset, Age < (i+5) & Age >= i, select = "Survived")))/(length(which(dataset$Age < (i+5) & dataset$Age>= i)))
if (x[i] > max) max <- x[i]
return(max, i, i+5)}
あなたのグループは、「0-4」、「1-5」、「2-6」、「3-7」 '重複しています。 Age == 3の値はどのグループに入りますか? –
はい、年齢== 3は複数の年齢層に分類されます。私はそれがばかげていることを理解する。しかし、ループを書くか、またはこのようなグループを持つテーブルを作成して、ステップ= 5のすべての年齢層の生存率を調べる可能性がある場合は、まだですか? – iomedee