2016-09-09 13 views
1

私は変数の大部分がカテゴリ変数であるデータセットに取り組んでいます。いくつかの変数には5つのカテゴリがあります。このような状況でknnアルゴリズムを実装することは可能ですか?もしそうなら、これらのカテゴリ変数をどのように進めることができますか?私はそれらを正規化しなければなりませんか?私はRを使用しています。誰かが私をソースに導くことができれば助けになります。KNNアルゴリズムはカテゴリ変数にどのように適用できますか?

+0

カテゴリ変数の距離関数をどのように定義しますか? – Matt

答えて

3

あなたの最初のステップは、あなたの観測値間の距離/相違度関数を決定することです。

1つのオプションは、カテゴリ変数をダミーバイナリ変数に変換し、各行ペア間のJaccard距離を計算することです。 Hereは、これらの手順の簡単なチュートリアルです。

距離を定義したら、通常どおりKNNアルゴリズムを進めることができます。私はすでにRでこれを実装しているパッケージがあるかどうか、またはあなた自身でプログラムする必要があるかどうかはわかりません。その複雑ではありません

関連する問題