私はKaggleから得たデータセットの意思決定ツリーを作ろうとしています。 実際のデータセットを扱う経験はありませんので、データのクリーニング、統合、スケーリング(主にスケーリング)にどう対処するかはわかりません。意思決定ツリー作成時のデータ処理方法
たとえば、実数を持つフィーチャがあるとします。だから私は、(デシジョンツリーを作るための)グループの特定の数にスケーリングすることによって、そのような機能をカテゴリデータのようなものにしたいと思っています。
この場合、デシジョンツリーの目的でどれくらいのデータグループが妥当かはわかりません。 私はそれが機能のデータの分布とターゲットデータセットのユニークな値の数に依存していると確信していますが、配布データセットとターゲットデータセットを調べることによってどのように推測されるのかわかりません。 私の推測では、フィーチャのデータをターゲットデータセットの一意の値の数と同じ数に分割します。 (これは意味があるかどうかわからない)
私は学校から学んだとき、私は心配する必要がないように、すべての機能について2-5のカテゴリデータをすでに与えられていたが、 - 生命は学校とはまったく異なります。
私を助けてください。
実生活の分類は本当に厳しいかもしれません。ラベルのない状況では、教師なし学習を考慮に入れることもできます。 – shane