カテゴリ外情報は、サンプル外のカテゴリの予測を改善できますか？

予測しようとしているターゲット番号に関連するいくつかの機能を持つレコードがあるとします。すべてのレコードは、同じ一般的な基本パターンに従い、RandomForestRegressorによって非常によく学習されます。すべてのレコードにカテゴリの機能が追加され、モデルの予測能力を向上させるための追加情報としてエンコードできるとしましょう。ここまでは順調ですね。カテゴリ外情報は、サンプル外のカテゴリの予測を改善できますか？

しかし今のは、我々はトレーニングデータに示されていない新しいカテゴリを持つレコードを予測するためのカテゴリ機能を含むデータで訓練だった私たちの回帰を使用したいとしましょう。このコンテキストでは、カテゴリ化された情報が役に立たなくなる（または悪化する）かどうか。モデルは、（このデータセットにないカテゴリに以前は適合していたので）最良の汎化性能を得るためにまたは、トレーニングデータのカテゴリーメンバーシップを知っていることが、サンプル外のカテゴリーの予測能力を向上させる可能性がありますか？

出典

2016-11-07 Brian Bien

"すべてのレコードは、いくつかのグループのうちの1つに属し、追加情報としてエンコードすることができます"：どのように予測しますか？あなたがグループを予測し、あなたの訓練セットのための特徴としてグループを与えようとすると、実際には学習はありません。それはその特徴の投影であるため、見えないデータの予測は不可能になります... – MMF

私は私がグループと呼ぶカテゴリの特徴とは別の目標値を予測する。私は明確にするために言い換える。 –

例えば、トレーニングデータには値「[US、Canada]」の変数「country」があり、テストデータには国の変数には[[Mexico、Cuba]]という値が入ります。これらのセットに交差がない場合は、変数を含めないでください。テストデータの元の値のうちのいくつか**が表示されることが予想される場合は、それを使用する必要があります。 – maxymoo

これらのセットに交差がない場合は、変数を含めないでください。テストデータに元の値の一部が表示されることが予想される場合は、それを使用する必要があります。

出典

2016-11-07 22:44:42 maxymoo

カテゴリ外情報は、サンプル外のカテゴリの予測を改善できますか？

答えて

関連する問題