0

私は181サンプルと10個のフィーチャと1つのターゲット変数で構成されるデータセットを持っています。 10の機能は数値で連続的な性質を持っています。バイナリ分類を実行する必要があります。私は、データセットのこのサイズのために最適なモデルを選択して、私のモデルが過剰適合されていないことを確認してください可能性がどのように私を導いてください小さなデータセット<200サンプルのバイナリ分類

I have performed 3 Fold cross validation and got following accuracy results using various models:- 

LinearSVC: 
0.873 
DecisionTreeClassifier: 
0.840 
Gaussian Naive Bayes: 
0.845 
Logistic Regression: 
0.867 
Gradient Boosting Classifier 
0.867 
Support vector classifier rbf: 
0.818 
Random forest: 
0.867 
K-nearest-neighbors: 
0.823 

- :私は、次の作業を行っていますか?私はsklearnの地図からの手順に従っていますhttp://scikit-learn.org/stable/tutorial/machine_learning_map/

+1

これはプログラミングに関するものではありません。 [cross-validated](http://stats.stackexchange.com/)または[data science](http://datascience.stackexchange.com/)に投稿してみてください。 – gobrewers14

答えて

1

このような小さなサンプルでは、​​完全に排除することはできません。

最初に相互検証しています。これは既に行っています。次に、デフォルトのパラメータを使用します。クロスバリデーションの出力を使用してパラメータを変更すると、オーバーフィットする可能性が高くなります。

最後に、精度よりもむしろf1など、これを要約する混乱行列またはメトリック全体を見てください。 99%の人々ががんにかかっていない場合、誰もがんを持っていないと予測するモデルは99%正確ですが、それほど有用ではありません。

関連する問題