あなたは正しいです。新しいカテゴリ(出力クラス)をクラシファイアに追加するだけではできません。これには時系列を行うものが必要です。
しかし、時系列で分類子を使用するためのかなり標準的な手法があります。アサーション(条件付き)時間の独立性、およびウィンドウ処理の使用。
簡単に言えば、誰かがゲームに出席するかどうかは、キャプチャした変数だけに依存し、他の時間要素(またはその他の要因)には依存しません。 つまり、年間に出席したゲームの履歴を翻訳することができると仮定しても、それは同じ確率になります。 これは明らかに間違っていますが、機械学習のテクニックがデータの中の一部のノイズを処理するため、とにかく行います。 それは
など寒すぎるcosを何人かの人々は分類器にだから今、冬にゲームを避けるために行っているので、それは明らかに間違っている:
我々は入力を持っている、と我々はただ1つの出力をします。 だから、基本的な考え方は、我々は、彼らが最初の9試合に出席するかどうかを入力として与えられたモデル、 を育成しようとしているということである彼らは10日
のでアウト入力が出席するかどうかを予測 age
,neighbourhood
、g1_attend
、g2_attend
、... g9_attend
であり、出力はg10_attend
- バイナリ値です。
これは私たちにトレーニングデータを与えます。 g2_attend
ためg1_attend
を切り替えて、g3_attend
と...とg10_attend
ためg9_attend
ためg2_attend
:それはそれをテストする時間がITとき
はその後、我々はaccrossすべてを移動します。 そして、私たちの予測出力はg11_attend
です。
異なるウィンドウサイズの複数のモデルを訓練することもできます。 例:最後の2試合のみを見て、3位の出席を予測します。 これで、できるだけ多くのトレーニングデータが得られます。 g1,g2
- >g3
およびg2,g3
- >g4
などがあります。
異なるウィンドウサイズのバンドルを訓練し、結果をいくつかのアンサンブル技術とマージすることができます。、>g9
し、それが動作しているかどうかを確認するためにg10
(入力としてg2,...,g9
を使用して) を予測するためにそれを使用 -
特に、g1,...,g8
を訓練するために、良いアイデアです。
私は今後、これらの質問をCross Validatedにお寄せください。これはスタックオーバーフローの話題かもしれませんが、そこには話題が多く、統計学者や機械学習の専門家がもっといます。
私は、入力として、今のfan_id
を破棄示唆しています。私はそれがあなたをどこにでも連れて行くとは思わないが、理由を説明するのはこの質問を超えている。
詳細な説明ありがとうございます。私は、分類器がg11をg11のプロキシの一種として使用する必要があると感じていました。私はいくつかの分類手法を設定するためにこのメソッドを試してみます。 – srytoomanyquestions
あなた自身の質問にフラグを立てて、それがCross Validatedに移行されるように頼んでみるとよいでしょう。 また、すぐに受け入れないでください。他の人からより良い回答を得るチャンスが減ります。 あなたは答えを試してみることをお待ちして、それを受け入れることができます。 –
もう一度ありがとうございます。私はそれにフラグを立て、モッズが何を言っているかを見るでしょう。あなたの答えは実際にはかなり助けになったと思います。私はこれが多くの方法で処理され、さまざまな種類のモデルに適用できると考えていたので、かなり混乱していました。分類モデルをどのように進めるかを確認したので、私はそれを行うことができ、そして/または他のアプローチを見てみることができます(私はおそらく、例えばMCMCを使って考えていました) – srytoomanyquestions