2011-10-03 9 views
0

私は、約3000の正のサンプルと1500の負のサンプルのデータセットを持っています。すべての機能は実数です。私は "randomForest" RパッケージでrandomForestクラシファイアをトレーニングしたいと思います。randomForest:100%を取得する方法 - 精度?

問題は、トレーニングデータセットで100%精度(TP/TP + FP)の分類子が必要なことです。しかし、訓練されたランダムフォレストで$投票を調整することで、これを達成することはほとんどできません。

誰かがこのような問題について経験を持っているのか、それとも何か考えがあるのだろうか?何か手がかりがある場合は、私にいくつかのヒントを与えてください。前もって感謝します!

私は100%の精度を約束すれば他の機械学習方法にも触れています。

+0

リコール= TP /(TP + FN)。精度= TP /(TP + FP)。 http://en.wikipedia.org/wiki/Precision_and_recall#Definition_.28classification_context.29 –

答えて

1

投票率のしきい値を変更することでそれを行うことができなかった場合は、何とか木自体を変更する必要があります。

これを行う1つの方法は、実際に重み付けされたツリーを訓練することです。残念ながら、私はいけない」このため、今のポインタを持っているが、これはViola/Jones paper hereで行われているものと似て

(1秒の思考、あなたはパラメータを見てきました(しかし、彼らは後押しのためにそれを行う。):classwt持っていますコメント "クラスのPriors。1つに追加する必要はありません。回帰のために無視されます。")this pageに?

クイックポイント:偽陽性率はFP/(FP + TP)と等しくありません。実際には、実際のネガティブの機能として検出された偽陽性の数を考慮する必要があるため、実際にはFP/(FP + TN)またはそれに相当するのはFP/"actual negatives"です。

+0

ご返信ありがとうございます。私は投票率を試しましたが、いくつかのネガティブサンプルがポジティブラベルに対して1票近くになっているので、あまりうまくいきません。私はclasswtを少し試しましたが、うまくいきません(いくつかのスレッドは、この機能がRで実装されていないと主張していました)。 – rninja

+0

もっと良い機能が必要な場合もあります。 –

関連する問題