2016-09-27 8 views
0

私は、LIBSVMを使用して悪性乳房腫瘍を分類するためのモデルを構築しています。ここに私が従っているアルゴリズムは次のとおりです。LIBSVMによる分類で100%の精度 - 何が間違っている可能性がありますか?

  1. 機能選択のために後方除外を使用してください。
  2. グリッド検索を使用して、フィーチャセットごとにCとガンマを計算します。
  3. 10倍交差検定を使用して最適なCおよびガンマを導出する。
  4. 上記の手順を使用して、機能の最適なサブセットと最大精度を見つけます。

問題は、LIBSVMを使用して80:20データセットで100%の精度が得られていることです。私はどんな特徴も除外していないし、私は同じデータについて訓練とテストをしているわけではない。私が間違っている可能性のあるヒント?その他の関連情報は次のとおりです。

cost = [2^-10, 2^-8, 2^-6, 2^-4, 2^-2, 0.5, 1, 
     2, 2^2, 2^3, 2^4, 2^5, 2^6, 2^7, 2^8, 2^9, 2^10]; 
g = [2^-10, 2^-8, 2^-6, 2^-4, 2^-2, 2^-1, 1, 
    2, 2^2, 2^3, 2^4, 2^5, 2^6, 2^7, 2^8, 2^9, 2^10]; 
most optimal C = 1; 
most optimal gamma = 9.7656e-04; 
Accuracy on 50:50 test:train dataset: 98.5337% 
Accuracy on 70:30 test:train dataset: 99.5122% 
Dataset used: University of Wisconsin breast cancer dataset (682 entries). 

答えて

3

要約:他の2つのデータセットについては不満はありませんでした。 100%の精度は、それらと合理的に一致しています。 の精度が低いと思いますか?

のは、誤分類の数を見てみましょう:

50:50 data set -- 5/341 errors 
70:30 data set -- 1/205 errors 
80:20 data set -- 0/136 errors 

80:20結果は、あなたの前の結果と十分に一致している:あなたの精度は(明らかに)に99.8%を超える何かが増加しています。

トレーニングの最大の正確さを要求すると、オーバーフィッティングの危険性があり、すべての機能を十分に保持できる可能性があります。しかし、明らかに最初の2つのデータセットが受け入れ可能であることが分かっているので、私はデータセットが非常に自己一貫性があることを知ります。私は自分の経験から一貫していないことが分かりましたが、データセットのプロパティを記述したり、サンプルや有用なリンクをチェックしたりすることさえありません。

+0

かなり標準的なデータセットです。遅くコメントして申し訳ありませんが、ここにリンクがあります:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data説明:https:/ /archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.names –

+0

"かなり標準的なデータセット"は疑問の言葉です。私はこれまでに会ったことはないと思う。 :-)間違って分類されていると思われるベクトルがありますか?モデルの複雑さをチェックしましたか? – Prune

+0

ねえ、私はかなりMLに新しいです。あなたはモデルの複雑さをどうやってチェックするのですか? –

関連する問題