私の仕事は、(Xデータセットの列にある)どの機能がターゲット変数yを予測するのに最適かを理解することです。私はRandomForestClassifierでfeature_importances_を使うことに決めました。 RandomForestClassifierは、max_depth = 10およびn_estimators = 50のときに最高のスコア(aucroc)を持ちます。最高のパラメータまたはデフォルトのパラメータでfeature_importances_を使用するのは正しいですか?どうして? feature_importances_はどのように機能しますか?Feature_importances in scikitは、どのように正しいパラメータを選択するか学習しますか?
たとえば、最高とデフォルトのパラメータを持つモデルがあります。
1)
model = RandomForestClassifier(max_depth=10,n_estimators = 50)
model.fit(X, y)
feature_imp = pd.DataFrame(model.feature_importances_, index=X.columns, columns=["importance"])
2)
model = RandomForestClassifier()
model.fit(X, y)
feature_imp = pd.DataFrame(model.feature_importances_, index=X.columns, columns=["importance"])
フィーチャの高さは使用しません。これは、各機能があなたの予測にどれほど有益であるかを推定したものです。 – cel
@celによると、 'feature_importances_'は各列の重要度を評価します。それで全部です。さらに、scikitsを学ぶだけのドキュメントがあれば、[ここ](http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html)で、どのように*「feature_importances_」を読むことができるかのデモンストレーションがあります。 –