2016-11-03 6 views
0

私のツリーダイアグラムでは、2つのリーフ「DIFF」と「REG」のみが表示され、レスポンス変数の他の値は完全に無視されます。なぜ木は他の6つの値を無視していますか?応答変数の合計値のわずかなパーセンテージしか表さないという事実と関係がありますか?下の表は、応答変数の値による頻度カウントを示しています。レシピが少ないレシピのツリーがあります

35785 ED  1% 
38060 NONE 1% 
45880 INC  1% 
49787 UT  1% 
53108 OR  1% 
165945 ET  4% 
1728019 DIFF 43% 
1894532 REG  47% 
+0

他の応答変数の割合を増やすようにサンプリングを変更します。また、あなたのプレディクタに関するあなたのプレディクタの分布について何も知らずに、推論を行うことは困難です。 CrossValidatedにこの質問を投稿する方が良いでしょう。プログラミングの例がないからです。 – vagabond

答えて

0

あなたが参照している不均衡なクラスに該当すると考えられます。スキューされたデータは機械学習アルゴリズムの問​​題を引き起こす。たとえば、私のクライアントは、機械学習を使用して詐欺検出システムを構築していましたが、チューニングを行わずに97%の精度を報告したときに感心しました。

予測ルールを無効にすることは「詐欺は決してありません」でした。詐欺は非常に稀で、「ルールセット」は97%の精度をもたらしました。

私はあなたの場合に似たものを想定しています。詳細はありませんが、私はフェンスに座っています。

ways to address the issueがあります。

+0

あなたのお手伝いをありがとうございます。 – user2823833

関連する問題