3

私はOthelloの時間差学習エージェントを構築しようとしています。残りの実装は意図したとおりに実行されているように見えますが、私のネットワークを訓練するために使用される損失機能が不思議です。 Suttonの著書「強化学習:はじめに」では、平均二乗誤差(MSVE)が標準損失関数として提示されていますが、これは基本的に平均二乗誤差にonポリシー分布を掛けたものです(すべての状態(onPolicyDistribution )* [V(s)-V '(s、w)]²))強化学習で損失関数(MSVE)を実装する

私の質問は今ですか:自分のポリシーが学習値関数のe-greedy関数であるときに、 ?それも必要であり、私はちょうど代わりにMSELossを使用する場合、問題は何でしょうか。

私はpytorchにこのすべてを実装していますので、そこに簡単に実装:)

答えて

0

あなたが述べたように、中のためのボーナスポイントあなたの場合、それは鳴るあなたがQ-ラーニングをしているように、Suttonの本で説明されているようにポリシーのグラジエントを行う必要はありません。それはあなたが政策を学んでいるときに必要です。あなたは政策を学んでいない、あなたは価値の機能を学んでおり、それを行動に使用しています。

関連する問題