2017-02-09 8 views
1

私はかなりdecision treesに新しく、分岐を下ったときにそれらを解釈するのに少し問題があります。応答変数は、年齢、運賃、兄弟姉妹の数、および私が以下の決定木を付けた親の数によって予測される、SurvivedYes/No)です。 KaggleのTitanicデータセット。デシジョンツリーの解釈(タイタニックデータ)

  1. グリーン/ブルーの色はどういう意味ですか?
  2. 葉ノードをどのように解釈すればよいですか?
  3. 私は38%が生き残るために非常にトップノードのintepretsを理解しています、そして、62%は が生き残りませんでした、そして母集団の100%はそのバケットにあります。 を右に移動すると、どうすればバケット#3を解釈できますか?私が行っていたら、 バケツ#6?などなど...

Titanic Decision Tree

答えて

0

1)ノードは、ノードに対応する多数のクラスに応じて着色されています。大多数のクラスラベルがno(生存していない)のノードは緑色に着色され、それ以外の場合は青色(yesまたは生き残り)です。

2)左端の葉ノードをその底部で解釈しましょう。そのノードに対応するデータポイントの83%は、クラスラベルnoを有し、17%は、クラスラベルyesを有する。このノードには、データセット全体からの62%データポイントが含まれます。

3)バケット#3も同様に解釈することができる。ノードに対応するデータポイントの26%はクラスラベルno74%クラスラベルyesを有しています。このノードには、データセット全体からの35%データポイントが含まれています。ノード#2と#3のラベルnoの加重比率を計算すると、ラベルnoを含むルートノード内のデータの割合である0.65*0.81+0.35*0.26=0.6175~0.62が得られます。

+1

本当に有益です、ありがとうございます。バケツ#3のこの解釈は有効でしょうか? 1)女性の場合は74%生存(データの35%以内) 2)女性の場合は26%が生存しませんでした(データの35%以内) –

+0

はい、絶対にあります。 –