2012-04-16 17 views
13

私はKNNを使用して手書き数字を分類しています。私は今も次元を減らすためにPCAを実装しました。 256から私は200に行きました。しかし、私は、〜0.10%の情報の損失のように通知します。私は56ディメンションを削除しました。損失は​​大きくないはずですか?私が5つの次元に落ちたときに限り、私は〜20%の損失を得る。これは正常ですか?PCAとKNNアルゴリズム

+0

このようなことは、多くの種類のアプリケーションで共通しています。これは、リターンの減少のポイントと呼ばれています。 –

答えて

6

あなたは56次元を削除した後、ほとんど情報が失われたと言っていますか?もちろん、それがPCAのポイントです! Principal Component Analysisは、名前の状態として、どの次元が情報を保持するかを判断するのに役立ちます。残りの部分は削除することができます

遺伝子分析では、PCAで次元を40,000から100に減らした論文を読んだ後、魔法のことをして、19次元の優れた分類子を持っています。これは暗黙のうちに、39'900次元を削除したときに情報がほとんど失われていないことを暗示しています。

+2

ありがとうございました。私は機械学習のためにちょっと新しい –

0

これは正常です(はい、あなたがしたことの点をFezvezが言ったように)。あなたのケースは、実際にはどのように可能かを見ることができる良い例です。

あなたのデータを見てください(機械学習では常に重要です)はあなたのデータを知っています)。白の黒い手書きの画像がある場合、いくつかのコーナーのピクセルはすべてのサンプルで白である可能性が高い(私は手書きの数字で機械を学習したときにそれを1つのコーナーに持っていた)。したがって、実際にはそのピクセルには何も情報がありません。それをKNNやANNなどの入力としてドロップすると、同じ結果になります。