私は、LIBSVMを使用して悪性乳房腫瘍を分類するためのモデルを構築しています。ここに私が従っているアルゴリズムは次のとおりです。LIBSVMによる分類で100%の精度 - 何が間違っている可能性がありますか?
- 機能選択のために後方除外を使用してください。
- グリッド検索を使用して、フィーチャセットごとにCとガンマを計算します。
- 10倍交差検定を使用して最適なCおよびガンマを導出する。
- 上記の手順を使用して、機能の最適なサブセットと最大精度を見つけます。
問題は、LIBSVMを使用して80:20データセットで100%の精度が得られていることです。私はどんな特徴も除外していないし、私は同じデータについて訓練とテストをしているわけではない。私が間違っている可能性のあるヒント?その他の関連情報は次のとおりです。
cost = [2^-10, 2^-8, 2^-6, 2^-4, 2^-2, 0.5, 1,
2, 2^2, 2^3, 2^4, 2^5, 2^6, 2^7, 2^8, 2^9, 2^10];
g = [2^-10, 2^-8, 2^-6, 2^-4, 2^-2, 2^-1, 1,
2, 2^2, 2^3, 2^4, 2^5, 2^6, 2^7, 2^8, 2^9, 2^10];
most optimal C = 1;
most optimal gamma = 9.7656e-04;
Accuracy on 50:50 test:train dataset: 98.5337%
Accuracy on 70:30 test:train dataset: 99.5122%
Dataset used: University of Wisconsin breast cancer dataset (682 entries).
かなり標準的なデータセットです。遅くコメントして申し訳ありませんが、ここにリンクがあります:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data説明:https:/ /archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.names –
"かなり標準的なデータセット"は疑問の言葉です。私はこれまでに会ったことはないと思う。 :-)間違って分類されていると思われるベクトルがありますか?モデルの複雑さをチェックしましたか? – Prune
ねえ、私はかなりMLに新しいです。あなたはモデルの複雑さをどうやってチェックするのですか? –