2016-11-18 4 views
0

私は与えられた一連の入力トレーニングデータベクトルを使って訓練された分類器を持っています。トレーニングデータに欠損値があり、numpy.Nan値として入力され、欠損値を入力するために使用されます。予測のための入力ベクトルにNANを渡す

しかし、予測用の入力ベクトルの場合、値が入力されていない入力をどのように渡しますか?私はその値をナノとして渡すべきですか? imputerはこれで役割を果たしますか?

値を手動で入力する必要がある場合、そのような場合の値を入力するにはどうすればよいですか?既存のデータから平均/中央値/頻度を計算する必要があります。

注:私はsklearnを使用しています。

+0

あなたの入力を処理したときと同じように入力を処理します(値を代入します)。 – MMF

+0

入力ベクトルが1つあり、imputer戦略はどのように機能するのでしょうか?どのように私は平均/中央値/頻度を見つけるのですか? –

+0

サンプルのバッチ(少なくとも2つ)を持っている場合にのみ、これを行うことはできません。 このサンプルがない場合は使用しないでください。また、訓練セットの回帰者を訓練して欠損値を予測し、この回帰子を使用して欠損値を予測してください。 – MMF

答えて

0

たとえば、入力ベクトルに重み行列を乗算するため、NaN値を使用することはできません。そのような操作の結果を定義する必要があります。

入力データの隙間がある場合は、データの特定のタイプと構造によっては、「人為的な」値でギャップを埋めるのが一般的です。たとえば、残りのトレーニングデータインスタンスで同じ列の平均値または中央値を使用できます。

関連する問題