2016-11-07 5 views
0

予測しようとしているターゲット番号に関連するいくつかの機能を持つレコードがあるとします。すべてのレコードは、同じ一般的な基本パターンに従い、RandomForestRegressorによって非常によく学習されます。すべてのレコードにカテゴリの機能が追加され、モデルの予測能力を向上させるための追加情報としてエンコードできるとしましょう。ここまでは順調ですね。カテゴリ外情報は、サンプル外のカテゴリの予測を改善できますか?

しかしのは、我々はトレーニングデータに示されていない新しいカテゴリを持つレコードを予測するためのカテゴリ機能を含むデータで訓練だった私たちの回帰を使用したいとしましょう。このコンテキストでは、カテゴリ化された情報が役に立たなくなる(または悪化する)かどうか。モデルは、(このデータセットにないカテゴリに以前は適合していたので)最良の汎化性能を得るためにまたは、トレーニングデータのカテゴリーメンバーシップを知っていることが、サンプル外のカテゴリーの予測能力を向上させる可能性がありますか?

+0

"すべてのレコードは、いくつかのグループのうちの1つに属し、追加情報としてエンコードすることができます":どのように予測しますか?あなたがグループを予測し、あなたの訓練セットのための特徴としてグループを与えようとすると、実際には学習はありません。それはその特徴の投影であるため、見えないデータの予測は不可能になります... – MMF

+0

私は私がグループと呼ぶカテゴリの特徴とは別の目標値を予測する。私は明確にするために言い換える。 –

+1

例えば、トレーニングデータには値「[US、Canada]」の変数「country」があり、テストデータには国の変数には[[Mexico、Cuba]]という値が入ります。これらのセットに交差がない場合は、変数を含めないでください。テストデータの元の値のうちのいくつか**が表示されることが予想される場合は、それを使用する必要があります。 – maxymoo

答えて

1

これらのセットに交差がない場合は、変数を含めないでください。テストデータに元の値の一部が表示されることが予想される場合は、それを使用する必要があります。

関連する問題