異なるデータセットを予測するための既存の回帰係数のスケーリング

私は60ヶ月間、さまざまな顧客グループの顧客活動を予測する方法を検討する予定です。これらのグループは、プラン、取得チャネル、取得月など、エンドユーザーが使用する必要があるあらゆる基準に基づいています。私は勉強していますが、最良のアプローチは、回帰を使っていくつかの異なる顧客グループの60ヶ月の完成データに基づいてモデルを開発することだと考えました。モデルは、エンドユーザーが興味を持っている異なる顧客グループに適用することができます。異なるデータセットを予測するための既存の回帰係数のスケーリング

モデルはほとんどの場合うまくいくように見えますが、購入活動のレベルが異なるグループがあります。たとえば、私のモデルは、顧客が毎月平均$ 15を費やしているデータに基づいています。しかし、平均的な支出が5ドルとなる顧客グループがいくつかあり、そのために予測が途絶えている。通常、モデルは顧客グループの2〜3ヶ月のデータで実行されます。

さまざまな支出レベルの異なるグループに対して、モデルがかなり上手くいくように係数を「スケール」する方法はありますか？これは統計的な質問の多くです。どんな指導も高く評価されます。

出典

2016-04-04 bmehra

サンプルデータを投稿し、すでに行った分析の説明をする必要があります。それらの項目がなければ、私はあなたの質問が明確さの欠如のために閉鎖されると予測します。 –

あなたが問題を正しく理解している場合、平均費用が15ドルのデータを使用して回帰モデルを構築していますが、そのモデルを使用して平均費用が$ 5の別のグループの結果を予測しようとしています。これはあなたの予測を捨てているのですか？

この理由は、モデルの仕様が間違っているためです。これを処理する正しい方法は、回帰モデルを構築するとき（つまりすべてのデータを含む列車）に$ 15と$ 5の両方のグループを含めることです。 1人の人口を訓練するために回帰を使うべきではなく、あなたの目標人口（$ 5グループ）に間違ったモデルを適用するだけなので別の人をテストするべきではない

何らかの理由であなたが試してみることのできる別のものは、$ 15のグループだけで標準化されたモデルを構築することです。実際にどのようにうまく機能しているかわからない場合は、モデルを作成してテストする必要がありますが、次のようになります。

$ 15のグループデータをとり、その変数の平均を差し引いて標準偏差で除算します。X_standardized = (X - mean(X))/sd(X)

これらの標準化された予測子を使用して、新しい回帰モデルを構築します。

新しいモデルが作成され、$ 5グループの値を予測する場合は、予測のための$ 5値を渡すのではなく、まず変数を標準化し、標準化された値を渡す必要があります。

一度に1つの値を予測しようとしていて、平均値と標準偏差を計算するのに十分な大きさの$ 5グループメンバーにアクセスできない場合は、これはうまくいかないでしょう。

出典

2016-04-08 07:48:09 Simon

異なるデータセットを予測するための既存の回帰係数のスケーリング

答えて

関連する問題