2012-03-11 19 views
3

私は書かれたテキストに関する分類作業に取り組んでいます。分類結果を改善するために、ある種の「機能選択」手順を実行することがどれほど重要かと思います。Pythonマシンの学習、機能の選択

件名に関連した多数の機能(約40)を使用していますが、すべての機能が本当に関連しているかどうか、またどの組み合わせであるかはわかりません。私はSVM(scikits)とLDAC(mlpy)を使い果たしています。

関連する機能と関連性のない機能が混在している場合は、分類結果が悪くなると思われます。分類の前に「機能選択手順」を実行する必要がありますか?

Scikitsはan RFE procedure that is tree-based that is able to rank the featuresです。最も重要な機能を選択し、SVM(非線形)またはLDACで実際の分類を実行するために、ツリーベースのRFEでフィーチャをランク付けすることは意味がありますか?または、同じ分類子を使用して複数のラッパーメソッドを実装する必要があります(異なるグループの機能で分類しようとすると非常に時間がかかるでしょう)。

+0

進化的アルゴリズムを使用して選択して結果を改善してください。 –

+2

さて、あなたは確かに機能の選択を試みることができます。これはその使用目的です。あなたの問題の詳細がなければ、これは非常に答えにくいです。さまざまなフィーチャセットを手動で試すこともできます。 –

答えて

0

40個の機能を持つことはそれほど悪くありません。いくつかの機械学習は無関係の機能によって妨げられますが、多くのことはそれらにかなり堅牢です(例えば、ナイーブなベイズ、SVM、デシジョンツリー)。

役に立たない機能を捨てるのは悪いことではありませんが、あなたがそれを試してみるのにあなた自身の精神的な時間を無駄にしないようにしてください特別な動機を持っている。

関連する問題