2017-06-17 4 views
0

私はSpark Mllib Linear SVMを使用していくつかのデータを分類するプロジェクトに取り組んでいます(12正則化)。私は、200のポジティブな観察と、150の(生成された)ネガティブな観察のように、それぞれ744の特徴を有し、これは家の異なる地域の人の活動レベルを表す。リニアSVMと非線形SVMの高次元データ

私はいくつかのテストを実行しました。 "areaUnderROC"メトリックは0.991でした。このモデルは、私が提供するデータを分類するのに非常に優れているようです。 私はいくつかの研究を行いましたが、線形SVMは高次元のデータには優れていることがわかりましたが、問題は線形のものがデータをうまく分割する方法を理解できないことです。

は私が2Dで考えると、多分これは問題があるが、下の画像を見て、私は私のデータをより非線形の問題のように見えることを90%確信しているenter image description here

だから、私は良い持っていることを普通ですテストの結果は?私は何か間違っているのですか?私はアプローチを変更する必要がありますか?私はあなたが疑問だと思う

答えて

2


「線形SVMは、よく私の絶頂寸法データをclassfyなかった理由も、データが非直線的でなければなりません」に関するいくつかのデータが右側にちょうどあなたのような低次元非線形のように見える例の画像を設定していますしかし、nD非線形が(n + 1)D空間で線形である可能性があるため、データセットが高次元では非線形であると言うのは文字通り難しいです。なぜあなたがデータセットを90%確信しているのか分かりません高次元のものであっても非線形である。
最終的には、データセットが高次元で線形またはほぼ線形であるか、それほどうまく動作しないことを示すため、テストサンプルでは良好なテスト結果が得られるのが普通だと思います。あなたのアプローチが適切かどうかを確認するのを手伝ってください。