Python：欠けているデータを代入せずにマシンを学習する

私は現在、非常に特定のデータセットで作業しています：約1000カラムと1M行ですが、値の約90％はNanです。これは、レコードが悪いためではなく、データが個人で測定されたものであり、およそ100のフィーチャだけが個人ごとに関連しているためです。このように、欠損値を代入すると、データ内の情報が完全に破壊されます。Python：欠けているデータを代入せずにマシンを学習する

同じ機能を持つ個人をグループ化して、各サブグループに関連する列のみを考慮するのは簡単ではありません。これは、実際には、各列のセット（ほとんどの場合、所与の個人にとって可能である）。

問題は、scikit learnディメンション削減方法で欠損値を処理できないことです。他の方法を使用し、次元削減をスキップするパッケージがありますか？ I

出典

2016-10-12 Anog

私は間違っている可能性がありますが、この質問は良いですがおそらくSOに属していません。 –

今日の終わりに何をしたいですか？何らかのクラスタリング/コミュニティ検出をしたいだけなら、あなたのデータを二部グラフとして考えることができ、グラフ内のモジュールを決定することができます。 – Paul

PCAは実際にはそのような種類のデータセットを意味します。私はそれを試してみることをお勧めします。欠損値を0に置き換え、結果のデータセットにPCAを適用します。 –

欠損値を処理し、ケースに最適なグラデーションブースティングパッケージを使用することができます.Rbのgbmパッケージとpythonのxgboostを使用することができます。欠損値の自動処理方法xgboostのセクション3.4のthis paperを参照して洞察を得てください。

出典

2016-10-13 11:16:17

あなたがそれを受け入れている場合は、あまりにも答えをupvoteしてください！ありがとう！ –

Python：欠けているデータを代入せずにマシンを学習する

答えて

関連する問題