私はティックタックトゥを再生するニューラルネットワークを持っています。 (これには他にも優れた方法があると知っていますが、NNについて学びたい) NNはランダムなAIと対戦します。まず、許可された移動をすることを学ぶべきです。既に占有されているフィールドを選択しないでください。ニューラルネットワークの再生ティックタックトゥーは覚えていません
しかし、これで非常に遠く取得していません。 NNが違法な移動を選択すると、ランダムに選択された(法的な)フィールドまでの距離が最小になるように重みを最適化します。 (出力には1〜9の値が必要です)。
私の問題は、次のとおりです。重みを変えることで、以前は最適化された結果は今も変わっています。だから、私はこのような過大評価をしています。特定の状況に対して重みを最適化するために逆行するたびに、他のすべての状況の決定が悪化します。
私はおそらく9個の出力ニューロンの代わりに、1を持つべきであると私は、この缶混乱物事を想定すると、おそらく、ターゲットとしてランダムフィールドを使用しないでください知っています。私はこれを変更し始めています。
それでも、問題が残っているようです。明らかに。他のすべての状況を忘れることなく、1つの状況で決定を改善するにはどうすればよいですか? 私が思いついた解決策は、プレイしたすべてのゲームを「覚えて」、プレイしたすべてのゲームで同時に最適化することでした。
はしかし、しばらくすると、これは計算上非常に厳しいとなります。また、それはすべての可能なボード状況の完全なenumartionの方向に行くようです。これはTic Tac Toeで可能かもしれませんが、私が別のゲームに移動した場合、Goと言うと、これは実行不可能になります。
私の間違いはどこですか?どのように私はこの問題に一般的に取り組んでいますか?それともどこで読むことができますか?どうもありがとう!効率的にこの問題に取り組むために
感謝。 – Dan
私は1つの出力が理想的ではないのに、NNはいつも同じフィールドを選んではいけないと覚えていなければなりません。とにかく、私はあなたが推奨するように分類に切り替えました。 しかし、私は他の問題を発見しました。私はMatlabの最適化関数を使用しました。この関数は、初期の重みがゼロに設定されていたため、常にゼロに近い勾配を持っていました。そして、それは決して最適化を開始しませんでした。したがって、私はNNにバイアスを入れました。 まだそれはまだよく学ばないが、私はそれに取り組んでおり、進歩している。 私はQ-ラーニングについて読んでいます。 よろしくお願いいたします。 ダニエル – Dan