機械学習の多次元空間から多様なデータセットのサブサンプルを選択する方法は？

できるだけ多様なトレーニングセットを作成しながら、（データセット内のデータポイントの類似性に応じて）データをより小さなサイズに圧縮することを考えていました。これは、データの比較的重要でない部分にあふれないようにするためです。説明は次のとおりです。機械学習の多次元空間から多様なデータセットのサブサンプルを選択する方法は？

問題の説明は次のとおりです。私はカーレースデータを訓練していますが、道路のかなりの部分は比較的まっすぐです。データのこの部分には比較的小さなばらつきがあり、比較的重要ではありません。ただ道にとどまり、スピードアップしてください。最も難しい部分は私の見解です。コーナーの予感、あなたがコーナーを取る速度/角度。

問題を簡素化し、この部分の学習を最大限にするために、大きく異なるデータポイントのみを選択したいと思います。したがって、コーナーの異なるタイプのデータを維持しながら、ストレートパーツのデータを大幅に（そして同じタイプのコーナーで）カットします。データは基本的に50次元のベクトルです。私は次元の数を保持したいだけで、この多次元空間のデータポイントの密度をより均等にしたいとします。私は、「もっと平等」を定量化する良い方法を知らない。したがって、この質問は基本的にデータの前処理に関する質問です。

すでにこれを行っているメソッドがありますか、同じ目的を達成する他のメソッドがありますか？

出典

2016-12-01 Joop

データセットが正しく理解されていれば、ベクトルを平滑化し、平滑化されたベクトルから最も大きな偏差を得る必要があります。 Savitzky–Golay filterは、配列（ベクトル）を通してデータを平滑化する一般的な方法です。 Pythonを使用することにした場合は、scipy.signal.savgol_filterの実装があなたの方法です。

A good answer related to the topic.

出典

2016-12-01 14:56:03 I159

機械学習の多次元空間から多様なデータセットのサブサンプルを選択する方法は？

答えて

関連する問題