2017-12-02 8 views
1

Giniインデックスに基づく特徴選択のためにランダムフォレストを使用したいと思います。私のデータセットには、数値(連続)とカテゴリ(文字列)のデータが混在しています。これは、データセットの例SklearnのRandomForestの連続変数の離散化

VAR1 VAR2
198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db

私は木が離散データ上で動作します知っている(カテゴリ)が、Sklearnでランダムフォレストはに連続する数値データを必要としないです最初に離散化するか、それを扱うことができますか?カテゴリ文字列変数のために私は0と1

pandas.get_dummies(X['Var2']) 

と数値列に文字列をエンコードするために、以下を使用し、それが動作しますが、数値のため、私は

pandas.qcut(X['Var1'], 2 , retbins=True) 

を離散化するには、以下のを試してみましたが、私は入れませんユニークでないビンのエラー!

離散化する必要はありますか?どうしたらいいですか?

+0

データの例が不明です。どうすればテーブルを投稿できますか? – Sara

答えて

0

ランダムフォレストは連続変数をサポートする必要があります。たとえば、this sampleを参照してください。

+0

これは意志決定木が連続変数をサポートすることを意味しますか? – Sara

+0

はい、そうです。実際には、それらを分類しない方が良いです。その木は、配分をどこでカットするのかを最適に選択できます。例えば。フィーチャが15未満か15以上であるかどうかを判断することを前提とします。ビン[0、10]、[10,20]、[20,30]などに離散化すると、その情報が失われます。 – Bennet

0

ツリーとフォレストは、カテゴリ値からダミーを作成すると悪化します。

あなたはカテゴリ機能にラベルを付ける必要があります。それだけです。

関連する問題