temporal-difference

    0

    1答えて

    私が知る限り、特定のポリシー\ piについては、時間差を学習すると、そのポリシー\ piに続く期待値が計算されますが、特定のポリシーを知っていることの意味は何ですか? 特定の環境に最適なポリシーを見つけてください。時間差学習を使って特定の\ piを行うのは何ですか?

    3

    1答えて

    私はOthelloの時間差学習エージェントを構築しようとしています。残りの実装は意図したとおりに実行されているように見えますが、私のネットワークを訓練するために使用される損失機能が不思議です。 Suttonの著書「強化学習:はじめに」では、平均二乗誤差(MSVE)が標準損失関数として提示されていますが、これは基本的に平均二乗誤差にonポリシー分布を掛けたものです(すべての状態(onPolicyDi

    2

    1答えて

    GTD(λ)の各形式では、関数近似の形で、θと何らかの重みベクトルwを使用して定義しているようです。 勾配法の必要性は、線形関数近似器の収束特性から広く理解されていますが、重要度サンプリングにはGTDを使用したいと考えています。 GTDを関数近似なしで利用することはできますか?もしそうなら、更新方程式はどのように形式化されていますか?