答えて

76

私が説明しようとする試みがかかります。

は、私たちのトレーニングデータセットは、Tによって表されると仮定するデータセットは、M機能(または属性または変数)を持っていると仮定します。

T = {(X1,y1), (X2,y2), ... (Xn, yn)}

Xi is input vector {xi1, xi2, ... xiM} 

yi is the label (or output or class). 

RFの要約:

ランダムフォレストアルゴリズムは主に二つの方法に基づく分類である -

  • ランダム部分空間Mを袋詰め民法。

は、我々は、我々は最初の(各データセットに対してn回)ランダムで置換Tのデータのリサンプリングから作成"same size as original"Sデータセットを作成し、当社の森の中で木のS番号を持つことにしたとします。これにより、{T1, T2, ... TS}データセットになります。これらはそれぞれブートストラップデータセットと呼ばれます。 「置換え」により、すべてのデータセットTiは重複データレコードを持つことができ、Tiは元のデータセットからいくつかのデータレコードを失う可能性があります。これはBootstrappingと呼ばれます。 (en.wikipedia.org/wiki/Bootstrapping_(statistics))

バグは、ブートストラップを取得して各ブートストラップで学習したモデルを集約するプロセスです。

RFはSツリーを作成し、Mの任意のツリーを作成する機能のうち、m (=sqrt(M) or =floor(lnM+1))ランダムサブフィーチャを使用します。これをランダム部分空間法といいます。

したがって、Tiブートストラップデータセットごとに、ツリーを作成しますKi。いくつかの入力データを分類する場合は、と表示される出力(各ツリーに1つ)を生成し、各ツリーを通過させるようにします。最終的な予測はこのセットに対する多数決です。

アウトオブバッグエラー:

オリジナルトレーニング各(Xi,yi)ための分類器(S木)を作成した後、すなわちT(Xi,yi)を含まない全てTkを選択設定します。このサブセットは注目に値するもので、元のデータセットの特定のレコードを含まない一連のブーストラップデータセットです。このセットは、バッグ外の例と呼ばれます。 nのサブセット(元のデータセットTの各データレコードに1つ)があります。OOB分類器は、Tkを超える票のみの集計であり、(xi,yi)を含まない。

一般化エラーのアウトオブバッグ推定値は、トレーニングセットのアウトオブバッグ識別器のエラー率です(既知のyiと比較してください)。

なぜ重要ですか? Breiman [1996b]のバッグド分類器の誤差推定の研究は、バッグ外推定値がトレーニングセットと同じサイズのテストセットを使用する精度と同じであることを示す経験的証拠を提供します。したがって、アウトオブバッグ誤差推定値を使用すると、セットアサイドテストセットの必要性がなくなる。

(訂正してくれてありがとう@Rudolfは。以下の彼のコメント。)

+2

ワンダフル説明@Manoj Awasthi –

+0

ありがとう@RushdiShams –

+2

ニースexplantion、それが短くてもよかった – bourneli

28

ランダムフォレストアルゴリズムのBreiman独自の実装では、各ツリーは、トレーニングデータの約2/3でトレーニングされます。フォレストが構築されると、ツリーを構築するのに使用されていないサンプルに対して、各ツリーをテストすることができます(相互検証と同様)。これは、袋外エラー推定値で、ランダムフォレストが構築されているときの内部エラー推定値です。

+1

であなたの質問を投稿することができますいただきありがとうございます簡潔かつ明確な答え。 – ays0110

関連する問題