2016-09-04 2 views
1

ファンがスポーツイベントに出るかどうかを予測しようとしています。私のデータ(pandas DataFrame)は、ファン情報(人口統計など)と過去10試合(g1_attend - g10_attend)に参加したかどうかで構成されています。 g11_attendは、データフレーム内に存在しないとき、彼らは、g11_attendに出席するつもりなら、私は予測することができますどのようにSVM;トレーニングデータにターゲットが含まれていません

fan_info age neighborhood g1_attend g2_attend ... g1_neigh_turnout 
2717  22 downtown  0   1    .47 
2219  67 east side  1   1    .78 

元々は、scikit-learnの基本モデルのいくつかを分類に適用し、DataFrameにg11_attendカラムを追加することにしました。これはすべて私が何らかの理由でかなり混乱しています。私は今、これを時系列として扱い、他のモデルを検討していたほうが適切だと考えています。

答えて

2

あなたは正しいです。新しいカテゴリ(出力クラス)をクラシファイアに追加するだけではできません。これには時系列を行うものが必要です。

しかし、時系列で分類子を使用するためのかなり標準的な手法があります。アサーション(条件付き)時間の独立性、およびウィンドウ処理の使用。

簡単に言えば、誰かがゲームに出席するかどうかは、キャプチャした変数だけに依存し、他の時間要素(またはその他の要因)には依存しません。 つまり、年間に出席したゲームの履歴を翻訳することができると仮定しても、それは同じ確率になります。 これは明らかに間違っていますが、機械学習のテクニックがデータの中の一部のノイズを処理するため、とにかく行います。 それは

など寒すぎるcosを何人かの人々は分類器にだから今、冬にゲームを避けるために行っているので、それは明らかに間違っている:

我々は入力を持っている、と我々はただ1つの出力をします。 だから、基本的な考え方は、我々は、彼らが最初の9試合に出席するかどうかを入力として与えられたモデル、 を育成しようとしているということである彼らは10日

のでアウト入力が出席するかどうかを予測 age,neighbourhoodg1_attendg2_attend、... g9_attend であり、出力はg10_attend - バイナリ値です。

これは私たちにトレーニングデータを与えます。 g2_attendためg1_attendを切り替えて、g3_attendと...とg10_attendためg9_attendためg2_attend:それはそれをテストする時間がITとき

はその後、我々はaccrossすべてを移動します。 そして、私たちの予測出力はg11_attendです。

異なるウィンドウサイズの複数のモデルを訓練することもできます。 例:最後の2試合のみを見て、3位の出席を予測します。 これで、できるだけ多くのトレーニングデータが得られます。 g1,g2 - >g3およびg2,g3 - >g4などがあります。

異なるウィンドウサイズのバンドルを訓練し、結果をいくつかのアンサンブル技術とマージすることができます。、>g9 し、それが動作しているかどうかを確認するためにg10(入力としてg2,...,g9を使用して) を予測するためにそれを使用 -

特に、g1,...,g8を訓練するために、良いアイデアです。

私は今後、これらの質問をCross Validatedにお寄せください。これはスタックオーバーフローの話題かもしれませんが、そこには話題が多く、統計学者や機械学習の専門家がもっといます。


私は、入力として、今のfan_idを破棄示唆しています。私はそれがあなたをどこにでも連れて行くとは思わないが、理由を説明するのはこの質問を超えている。

+0

詳細な説明ありがとうございます。私は、分類器がg11をg11のプロキシの一種として使用する必要があると感じていました。私はいくつかの分類手法を設定するためにこのメソッドを試してみます。 – srytoomanyquestions

+0

あなた自身の質問にフラグを立てて、それがCross Validatedに移行されるように頼んでみるとよいでしょう。 また、すぐに受け入れないでください。他の人からより良い回答を得るチャンスが減ります。 あなたは答えを試してみることをお待ちして、それを受け入れることができます。 –

+0

もう一度ありがとうございます。私はそれにフラグを立て、モッズが何を言っているかを見るでしょう。あなたの答えは実際にはかなり助けになったと思います。私はこれが多くの方法で処理され、さまざまな種類のモデルに適用できると考えていたので、かなり混乱していました。分類モデルをどのように進めるかを確認したので、私はそれを行うことができ、そして/または他のアプローチを見てみることができます(私はおそらく、例えばMCMCを使って考えていました) – srytoomanyquestions

関連する問題