2016-08-29 7 views
-2

私の仕事は、(Xデータセットの列にある)どの機能がターゲット変数yを予測するのに最適かを理解することです。私はRandomForestClassifierでfeature_importances_を使うことに決めました。 RandomForestClassifierは、max_depth = 10およびn_estimators = 50のときに最高のスコア(aucroc)を持ちます。最高のパラメータまたはデフォルトのパラメータでfeature_importances_を使用するのは正しいですか?どうして? feature_importances_はどのように機能しますか?Feature_importances in scikitは、どのように正しいパラメータを選択するか学習しますか?

たとえば、最高とデフォルトのパラメータを持つモデルがあります。

1)

model = RandomForestClassifier(max_depth=10,n_estimators = 50) 
model.fit(X, y) 
feature_imp = pd.DataFrame(model.feature_importances_, index=X.columns, columns=["importance"]) 

2)

model = RandomForestClassifier() 
model.fit(X, y) 
feature_imp = pd.DataFrame(model.feature_importances_, index=X.columns, columns=["importance"]) 
+1

フィーチャの高さは使用しません。これは、各機能があなたの予測にどれほど有益であるかを推定したものです。 – cel

+0

@celによると、 'feature_importances_'は各列の重要度を評価します。それで全部です。さらに、scikitsを学ぶだけのドキュメントがあれば、[ここ](http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html)で、どのように*「feature_importances_」を読むことができるかのデモンストレーションがあります。 –

答えて

-1

私はそれはあなたが使用しようとしているモデルであり、あなたが最良のパラメータでfeature_importances_使うべきだと思います。特別な扱いに値するデフォルトパラメータは特別なものはありません。 feature_importances_の仕組みについては、scikit-learnの著者の回答をここで参照できます。How are feature_importances in RandomForestClassifier determined?

関連する問題