Giniインデックスに基づく特徴選択のためにランダムフォレストを使用したいと思います。私のデータセットには、数値(連続)とカテゴリ(文字列)のデータが混在しています。これは、データセットの例SklearnのRandomForestの連続変数の離散化
VAR1 VAR2
198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db
私は木が離散データ上で動作します知っている(カテゴリ)が、Sklearnでランダムフォレストはに連続する数値データを必要としないです最初に離散化するか、それを扱うことができますか?カテゴリ文字列変数のために私は0と1
pandas.get_dummies(X['Var2'])
と数値列に文字列をエンコードするために、以下を使用し、それが動作しますが、数値のため、私は
pandas.qcut(X['Var1'], 2 , retbins=True)
を離散化するには、以下のを試してみましたが、私は入れませんユニークでないビンのエラー!
離散化する必要はありますか?どうしたらいいですか?
データの例が不明です。どうすればテーブルを投稿できますか? – Sara