1
の最安分散のビンサイズ:Pythonの - 私はこのように、バイナリ分類の年齢範囲のカテゴリ変数に、連続変数から私の機能「年齢」を変更したい分類
df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90'])
しかし、Iデータが最も効率的に分類することができるように、最適な方法でそれを分割したいです。すなわち年齢範囲内のクラスの分散は過剰適合されていないが、最小化されます。
このようなデータを分割する際の分散を最小限に抑える方法があるパッケージがありますか、自分で書き込む必要がありますか?