2017-09-13 1 views
0

Python/Scikit-learn GLMモデルでは、そのままカテゴリ変数を使用できますか?私はワンホットエンコーディングの代替を実現しています。このアプローチの私の問題は、変数全体を有意義にテストすることができなくなることです。私はエンコードされた変数(部分的です)だけをテストできます。Python/Scikitlearnのカテゴリ変数one-hotエンコーディングなし

なぜSASはPythonではなくそのような変数を処理できるのですか?お知らせ下さい。

+2

最終的には、SASが「ボンネットの下で」何をしているのかを理解する必要があります。コンピュータは、「カテゴリ」ではなく数値を扱います。 – dartdog

答えて

2

これは実際に所有しているデータによって異なります。たとえば、lowmediumhighなどのカテゴリ変数に順序を割り当てることができる場合は、1,2,3のような番号を割り当てることができます。ただし、順序がない場合は少し難解ですまったく。ワンホットエンコーディング以外にも、Helmert Coding Schemeを試すことができます。さらに分析するためにthis blog postを読むこともできます。様々な他の符号化方式は、カテゴリ変数のためsklearnでもあります。

あなたが他のCategorical Encoders in Sklearn hereについての詳細を読むことができます。

関連する問題