temporal-difference

0熱

1答えて

私が知る限り、特定のポリシー\ piについては、時間差を学習すると、そのポリシー\ piに続く期待値が計算されますが、特定のポリシーを知っていることの意味は何ですか？特定の環境に最適なポリシーを見つけてください。時間差学習を使って特定の\ piを行うのは何ですか？

3熱

1答えて

強化学習で損失関数（MSVE）を実装する

私はOthelloの時間差学習エージェントを構築しようとしています。残りの実装は意図したとおりに実行されているように見えますが、私のネットワークを訓練するために使用される損失機能が不思議です。 Suttonの著書「強化学習：はじめに」では、平均二乗誤差（MSVE）が標準損失関数として提示されていますが、これは基本的に平均二乗誤差にonポリシー分布を掛けたものです（すべての状態（onPolicyDi

2熱

1答えて

関数近似を持たない勾配時間差ラムダ

GTD（λ）の各形式では、関数近似の形で、θと何らかの重みベクトルwを使用して定義しているようです。勾配法の必要性は、線形関数近似器の収束特性から広く理解されていますが、重要度サンプリングにはGTDを使用したいと考えています。 GTDを関数近似なしで利用することはできますか？もしそうなら、更新方程式はどのように形式化されていますか？