私はOthelloの時間差学習エージェントを構築しようとしています。残りの実装は意図したとおりに実行されているように見えますが、私のネットワークを訓練するために使用される損失機能が不思議です。 Suttonの著書「強化学習:はじめに」では、平均二乗誤差(MSVE)が標準損失関数として提示されていますが、これは基本的に平均二乗誤差にonポリシー分布を掛けたものです(すべての状態(onPolicyDistribution )* [V(s)-V '(s、w)]²))強化学習で損失関数(MSVE)を実装する
私の質問は今ですか:自分のポリシーが学習値関数のe-greedy関数であるときに、 ?それも必要であり、私はちょうど代わりにMSELossを使用する場合、問題は何でしょうか。
私はpytorchにこのすべてを実装していますので、そこに簡単に実装:)