予測のための入力ベクトルにNANを渡す

私は与えられた一連の入力トレーニングデータベクトルを使って訓練された分類器を持っています。トレーニングデータに欠損値があり、numpy.Nan値として入力され、欠損値を入力するために使用されます。予測のための入力ベクトルにNANを渡す

しかし、予測用の入力ベクトルの場合、値が入力されていない入力をどのように渡しますか？私はその値をナノとして渡すべきですか？ imputerはこれで役割を果たしますか？

値を手動で入力する必要がある場合、そのような場合の値を入力するにはどうすればよいですか？既存のデータから平均/中央値/頻度を計算する必要があります。

注：私はsklearnを使用しています。

あなたの入力を処理したときと同じように入力を処理します（値を代入します）。 – MMF

入力ベクトルが1つあり、imputer戦略はどのように機能するのでしょうか？どのように私は平均/中央値/頻度を見つけるのですか？ –

サンプルのバッチ（少なくとも2つ）を持っている場合にのみ、これを行うことはできません。このサンプルがない場合は使用しないでください。また、訓練セットの回帰者を訓練して欠損値を予測し、この回帰子を使用して欠損値を予測してください。 – MMF

たとえば、入力ベクトルに重み行列を乗算するため、NaN値を使用することはできません。そのような操作の結果を定義する必要があります。

入力データの隙間がある場合は、データの特定のタイプと構造によっては、「人為的な」値でギャップを埋めるのが一般的です。たとえば、残りのトレーニングデータインスタンスで同じ列の平均値または中央値を使用できます。

2016-11-18 09:44:30 Carsten

答えて