VoidCC
タグリスト
temporal-difference
0
熱
1
答えて
時間差学習を使う点は何ですか?
私が知る限り、特定のポリシー\ piについては、時間差を学習すると、そのポリシー\ piに続く期待値が計算されますが、特定のポリシーを知っていることの意味は何ですか? 特定の環境に最適なポリシーを見つけてください。時間差学習を使って特定の\ piを行うのは何ですか?
reinforcement-learning
temporal-difference
2017-11-26
3
熱
1
答えて
強化学習で損失関数(MSVE)を実装する
私はOthelloの時間差学習エージェントを構築しようとしています。残りの実装は意図したとおりに実行されているように見えますが、私のネットワークを訓練するために使用される損失機能が不思議です。 Suttonの著書「強化学習:はじめに」では、平均二乗誤差(MSVE)が標準損失関数として提示されていますが、これは基本的に平均二乗誤差にonポリシー分布を掛けたものです(すべての状態(onPolicyDi
reinforcement-learning
pytorch
loss-function
temporal-difference
othello
2017-10-11
2
熱
1
答えて
関数近似を持たない勾配時間差ラムダ
GTD(λ)の各形式では、関数近似の形で、θと何らかの重みベクトルwを使用して定義しているようです。 勾配法の必要性は、線形関数近似器の収束特性から広く理解されていますが、重要度サンプリングにはGTDを使用したいと考えています。 GTDを関数近似なしで利用することはできますか?もしそうなら、更新方程式はどのように形式化されていますか?
machine-learning
reinforcement-learning
temporal-difference
2016-04-30
最新の質問
1.
現在の曲を表示Web API
2.
ユーザー名検索を実行しようとすると、特定のAD LDAPエラーが発生する
3.
コロナゲームエンジンのポップアップを扱う
4.
Microsoft.Build.Utilities.ToolLocationHelper :: GetPathToStandardLibraries(MonoAndroid) - これを解決するには?
5.
Visual StudioのXAMLエディタウィンドウにある「ライブ」データと実行中のアプリケーション
6.
API公開キーなしでAPI GETリクエストを作成する方法
7.
マルチプロセスで単一ファイルにログする方法.Pool.apply_async
8.
Segue Destination Callはいつ表示されますか?
9.
割り当てIDは、私はViz.jsに次のドットコード有しSVG要素
10.
Mxgraph getPrettyXmlがカスタム要素の値を取得しない