1

すべてのクラスについて、与えられたサンプルの予測スコア/確率を取得したいと思います。私はsklearnのRandomForestClassifierを使用しています。 .predict()を使用している場合、私のコードは正常に動作しています。しかし、確率を表示するには.predict_proba(X)を使用していて、Xが変更されても常に同じ値を返します。それはなぜそれをどうやって修正するのですか?RandomForestClassifier(sklearn)のpredict_proba(X)は静的であるようですか?

私が関わる部分に私のコードを壊しています:

# ... code ... feature generation/gets the feature data 
if rf is None: 
    rf = RandomForestClassifier(n_estimators=80) 
    rf.fit(featureData, classes) 
else: 
    prediction = rf.predict(featureData) # gets the right class/always different 
    proba = rf.predict_proba(featureData) 
    print proba # this prints always the same values for all my 40 classes 

興味深いことにmax(proba)は非常に最初の実行で.predict()リターンというクラスを取得します。 .predict()が期待どおりに動作しているため、エラーはsklearn側で発生すると考えられます。つまり、フラグを設定する必要があると思います。

アイデアはありますか?

答えて

1

あなたは、常に同じ引数をpredict_probaに渡していると思います。ここでは、虹彩データセットからの木の森を構築するために私のコードは次のとおりです。

from sklearn import datasets 
from sklearn.ensemble import RandomForestClassifier 
iris = datasets.load_iris() 
X = iris.data 
y = iris.target 
rf = RandomForestClassifier(n_estimators=80) 
rf.fit(X, y) 

私は方法predictpredict_proba呼び出すと、異なる引数のクラスとクラス対数確率の予測も異なっている、1が合理的に可能性として期待する。

サンプル実行:お時間を

In [82]: a, b = X[:3], X[-3:] 

In [83]: a 
Out[83]: 
array([[ 5.1, 3.5, 1.4, 0.2], 
     [ 4.9, 3. , 1.4, 0.2], 
     [ 4.7, 3.2, 1.3, 0.2]]) 

In [84]: b 
Out[84]: 
array([[ 6.5, 3. , 5.2, 2. ], 
     [ 6.2, 3.4, 5.4, 2.3], 
     [ 5.9, 3. , 5.1, 1.8]]) 

In [85]: rf.predict(a) 
Out[85]: array([0, 0, 0]) 

In [86]: rf.predict(b) 
Out[86]: array([2, 2, 2]) 

In [87]: rf.predict_proba(a) 
Out[87]: 
array([[ 1., 0., 0.], 
     [ 1., 0., 0.], 
     [ 1., 0., 0.]]) 

In [88]: rf.predict_proba(b) 
Out[88]: 
array([[ 0. , 0. , 1. ], 
     [ 0. , 0.0125, 0.9875], 
     [ 0. , 0.0375, 0.9625]]) 
+0

おかげで 'X'のエラーをロードするいくつかの種類がありました。しかし、私はまだ 'predict()'がうまくいかなかったのだろうと思っています。私に多くを助けてくれてありがとう – user3085931

関連する問題