2016-03-24 49 views
1

Andrew Ngの機械学習コースに続いて、追加データサンプルの必要性を評価するために学習曲線(コスト対サンプル数)をプロットする方法を試したいと思います。しかし、ランダムフォレストでは、私は学習曲線を描く方法について混乱しています。ランダムフォレストは、例えば線形回帰のような基本的なコスト関数を持つようには見えないので、y軸上で正確に何を使うべきかわからない。ランダムフォレストモデルの学習曲線をどのようにプロットしますか?

答えて

1

ここではいくつかのカテゴリを混乱させる可能性があります。まず

、機械学習において、learning curveが経験する性能を関連

プロットとして定義されている経験が数かもしれないが....パフォーマンスは、学習システムの誤り率や精度であります学習に使用されるトレーニングの例、またはシステムモデルのパラメータを最適化する際に使用される反復の数などが含まれます。

ランダムフォレストと線形モデルの両方を回帰または分類に使用できます。回帰の

  • 、コストは、通常、予測信号との差分のL2ノルム(although sometimes the l1 norm)の関数です。

  • 分類の場合、コストは通常​​、不一致またはログ損失です。

重要なメカニズムが線形モデルであるか、フォレストであるかは問題ではありません。どのタイプの問題であるのか、コスト関数は何かを決定する必要があります。それを決定した後、学習曲線をプロットすることは、信号と予測の関数に過ぎません。

+0

私はそれを分類に使用していますので、コストはミスマートかロスロスかと思いますか?これは、私が学習曲線をサンプル数に対してプロットするために使用するものですか? – user123959

+0

@ user123959はい。それらは非常に論理的な選択肢になります。 –

+0

ありがとうございます。一つの最後のことは、別のスタックオーバーフローに関する質問(http://stats.stackexchange.com/questions/78590/learning-curve-shows-decreasing-accuracy)で読んだこのコメントを説明できますか? (ほとんどの他のMLメソッドではない)トレーニングに間違いを見ている - user31264で述べたように、この数字は単なる無意味なもので、トレーニングセットに基づくエラー近似が必要な場合は、OOBエラーを使用してください。これが、私が、コスト関数をプロットする同じアプローチが、ランダムなフォレストにとって実行可能ではないと考えている理由です。 – user123959

関連する問題