Pythonの - 私はこのように、バイナリ分類の年齢範囲のカテゴリ変数に、連続変数から私の機能「年齢」を変更したい分類

df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90'])

しかし、Iデータが最も効率的に分類することができるように、最適な方法でそれを分割したいです。すなわち年齢範囲内のクラスの分散は過剰適合されていないが、最小化されます。

このようなデータを分割する際の分散を最小限に抑える方法があるパッケージがありますか、自分で書き込む必要がありますか？

たぶん、あなたはこれを行うにはsklearn.clusterを使用することができます。

2017-07-02 16:08:08 xiaoyi

答えて