私は航空会社の遅延を予測するためのWebアプリケーションを作成しようとしています。私は自分のコンピュータ上でモデルをオフラインで訓練しましたが、今はユーザーの入力に基づいて予測を行うFlaskアプリケーションを作成しようとしています。簡単にするために、私のモデルにUNIQUE_CARRIER、ORIGIN、DESTINATIONという3つのカテゴリ変数があるとします。トレーニングしながら、私はパンダを使用して、すべての3のダミー変数を作成します。ユーザー入力からの予測のためのダミー変数の作成方法(1つのレコードのみ)?
df = pd.concat([df, pd.get_dummies(df['UNIQUE_CARRIER'], drop_first=True, prefix="UNIQUE_CARRIER")], axis=1)
df = pd.concat([df, pd.get_dummies(df['ORIGIN'], drop_first=True, prefix="ORIGIN")], axis=1)
df = pd.concat([df, pd.get_dummies(df['DEST'], drop_first=True, prefix="DEST")], axis=1)
df.drop(['UNIQUE_CARRIER', 'ORIGIN', 'DEST'], axis=1, inplace=True)
はだから今、私の特徴ベクトルが297の長さである(100の異なるユニークなキャリアと私のデータでは100種類の空港があると仮定した場合)。私はpickleを使用してモデルを保存しましたが、今はユーザーの入力に基づいて予測しようとしています。これで、ユーザー入力は3つの変数(起点、宛先、キャリア)の形式になりました。
明らかに、各ユーザーの入力に対してpd.get_dummies
(3つのフィールドすべてに1つの固有の値があるため)を使用することはできません。モデルの特徴ベクトルにユーザ入力を変換する最も効率的な方法は何ですか?
を、あなたは上記のようにdf' 'の頭は、あなたが処理した後にどのように見えるかを投稿することができますか? – AlexG
'get_dummies'の代わりに[scikit-learnの' OneHotEncoder'(http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder)を使うことをお勧めします。このメソッドでは、新しいデータを変換するために使用できるオブジェクトを作成します。 – AlexG
提案をありがとう! – RRC