強化学習で損失関数（MSVE）を実装する

私はOthelloの時間差学習エージェントを構築しようとしています。残りの実装は意図したとおりに実行されているように見えますが、私のネットワークを訓練するために使用される損失機能が不思議です。 Suttonの著書「強化学習：はじめに」では、平均二乗誤差（MSVE）が標準損失関数として提示されていますが、これは基本的に平均二乗誤差にonポリシー分布を掛けたものです（すべての状態（onPolicyDistribution ）* [V（s）-V '（s、w）]²））強化学習で損失関数（MSVE）を実装する

私の質問は今ですか：自分のポリシーが学習値関数のe-greedy関数であるときに、？それも必要であり、私はちょうど代わりにMSELossを使用する場合、問題は何でしょうか。

私はpytorchにこのすべてを実装していますので、そこに簡単に実装:)

出典

2017-10-11 masus04

あなたが述べたように、中のためのボーナスポイントあなたの場合、それは鳴るあなたがQ-ラーニングをしているように、Suttonの本で説明されているようにポリシーのグラジエントを行う必要はありません。それはあなたが政策を学んでいるときに必要です。あなたは政策を学んでいない、あなたは価値の機能を学んでおり、それを行動に使用しています。

出典

2018-02-26 08:22:14

強化学習で損失関数（MSVE）を実装する

答えて

関連する問題