2016-12-01 1 views
1

できるだけ多様なトレーニングセットを作成しながら、(データセット内のデータポイントの類似性に応じて)データをより小さなサイズに圧縮することを考えていました。これは、データの比較的重要でない部分にあふれないようにするためです。説明は次のとおりです。機械学習の多次元空間から多様なデータセットのサブサンプルを選択する方法は?

問題の説明は次のとおりです。私はカーレースデータを訓練していますが、道路のかなりの部分は比較的まっすぐです。データのこの部分には比較的小さなばらつきがあり、比較的重要ではありません。ただ道にとどまり、スピードアップしてください。最も難しい部分は私の見解です。コーナーの予感、あなたがコーナーを取る速度/角度。

問題を簡素化し、この部分の学習を最大限にするために、大きく異なるデータポイントのみを選択したいと思います。したがって、コーナーの異なるタイプのデータを維持しながら、ストレートパーツのデータを大幅に(そして同じタイプのコーナーで)カットします。データは基本的に50次元のベクトルです。私は次元の数を保持したいだけで、この多次元空間のデータポイントの密度をより均等にしたいとします。私は、「もっと平等」を定量化する良い方法を知らない。したがって、この質問は基本的にデータの前処理に関する質問です。

すでにこれを行っているメソッドがありますか、同じ目的を達成する他のメソッドがありますか?

答えて

1

データセットが正しく理解されていれば、ベクトルを平滑化し、平滑化されたベクトルから最も大きな偏差を得る必要があります。 Savitzky–Golay filterは、配列(ベクトル)を通してデータを平滑化する一般的な方法です。 Pythonを使用することにした場合は、scipy.signal.savgol_filterの実装があなたの方法です。

A good answer related to the topic.

関連する問題