2017-11-09 9 views
1

私はリスクアナリストとして働いています、私の上司は私にどのように行うべきか分からないタスクを割り当てました。Rのリスクアセスメントモデルは、因子の特定のレベルの確率を得るために

今、私はいくつかの特定の条件の下で確率を得たいと思います。たとえば、データは次のようになります

sex  hair_color Credit_Score Loan_Status 
"Male" "Red"  "256"  "bad"   
"Female" "black" "133"  "bad"   
"Female" "brown" "33"   "bad"   
"Male" "yellow" "123"  "good" 

したがって、お客様ごとにLoan_Statusを予測します。 "sex"、 "hair_color"、 "credit_score"を要因として扱います。 これをRのglm()に入れてください。

しかし、私の上司は「男性である新しい顧客、赤毛、彼のローンステータスが「良い」だろうか?

「男性顧客のローンステータスが「良い」になる確率はいくらですか?」

どのような方法を使用しますか?どのように確率を得るために? 私は限界的なディストリビューションについて考えていますが、私はこの仕事がどういうものか、それをどのように計算するのか分かりません。私は理解することが、この問題は簡単に、そして誰が私を助けるために願ってい

は、お時間をどうもありがとうございました

+0

「予測する」を参照してください。 – JDL

+0

「リスクアナリストとして働いている」場合は、リスク推定に関連する何かを行う方法を知っておく必要があります。どうやってやるのが分かりますか? –

答えて

0

私はこのチュートリアルでは、完全にあなたの問題に合うと思う:http://www.theanalysisfactor.com/r-tutorial-glm1/

あなたがそれを使用している場合あなたのデータでは、次のようになります。

sex <- factor(c("m", "f", "f", "m")) 
hair_color <- factor(c("red", "black", "brown", "yellow")) 
credit_score <- c(256, 133, 33, 123) 
loan_status <- factor(c("b", "b", "b", "g")) 

data <- data.frame(sex, hair_color, credit_score, loan_status) 

model <- glm(formula = loan_status ~ sex + hair_color + credit_score, 
     data = data, 
     family = "binomial") 

predict(object = model, 
    newdata = data.frame(sex = "f", hair_color = "yellow", credit_score =  100), 
    type = "response") 
+0

ありがとうございました!セックスが "f"のときだけ必要なのなら、私は限界的な分布のようなものを使うべきですか? – DIoo

+0

私は実際に質問をしません。上記のモデルは男性と女性の両方の例で訓練されています。なぜなら、セックスは正しいローンステータスを得るための要因だからです。女性だけを予測する場合は、女性からの予測機能に入力を追加するだけです。 モデルにセックスの影響を受けさせたくない場合や、女性の例のみでトレーニングする場合は、セックス変数は必要ありません。 私は、glmモデル/関数がどのように機能するかについていくつかの研究を行い、より明確にすることをお勧めします。 これが役に立ったと思っています。 –

+0

ありがとうございました!データに基づいて質問を変えようとすると、イエローとクレジットスコア100の女性が「良い」を得るための最高の確率を持つなど、「良い」を得るための最良のコンボをどのように知ることができるでしょうか?カテゴリ変数が多い場合、どのように最良の組み合わせを決めることができますか? – DIoo

関連する問題