強化学習アルゴリズムで最も重要な課題は、探査と開発のバランスを取ることです。 私はおもちゃの問題で学習しているQを実行しようとしています。早いイプシロン崩壊が起こっていることに気づいています。 エージェントがより多くの探査を行い、イプシロンの減衰が約0.999になるように、イプシロンを高く(0.9または1)選択しました。 どのようにしてイプシロンの減衰を遅くするか、言い換えればエージェントが非常に欲張りになりたくないのですか?私の減衰パラメータは何ですか? ありがとう!Q学習におけるイプシロン崩壊
1
A
答えて
0
実行している反復回数、各エピソードごとに実行されたステップ数、およびそれをいつどのように減衰させたいかによって異なります。 私は、各反復で腐敗したイプシロン値をプロットし、あなたが望むように動いているかどうかを確認することをお勧めします。
0
減衰関数をどのように実装しましたか?
イプシロン=イプシロン*のepsilon_decay
時間をかけて自分のイプシロン値をプロットする提案は良いものです。このページのプロットもご覧ください: Exponential Decay
恐らく、減衰定数を配合に加える必要があります。
関連する問題
- 1. Q学習係数のオーバーフロー
- 2. ディープQ学習アルゴリズムのphiとは
- 3. LSTMにおける学習率の低下
- 4. パーセプトロン学習 - 重み更新における入力直観
- 5. ニューラルネットワークにおける学習曲線と検証曲線
- 6. ニューラルネットワークによるQ学習への古いシステムの更新
- 7. 線形関数近似によるQ学習
- 8. 崩壊カウントバブル、避ける方法?
- 9. 2DアクションとQ学習と2Dは、次のように
- 10. 崩壊ツリービュー
- 11. ブートストラップグリッドシステムが崩壊
- 12. ブートストラップ崩壊が
- 13. ブートストラップボタングループの崩壊
- 14. 崩壊日は
- 15. 崩壊がモーダル
- 16. アコーディオン崩壊jquery
- 17. Xamarin - 崩壊テキスト
- 18. 崩壊のフィールドセット
- 19. netbeans崩壊コメントブロック
- 20. マテリアライズボタン崩壊ブレークポイント
- 21. Q深い学習アルゴリズムがうまく動作しない
- 22. OracleおよびGeoSpatialシステムの学習
- 23. ブートストラップ3崩壊他
- 24. ブートストラップレスポンスナビ崩壊のトラブル
- 25. Htmlの崩壊フィールド
- 26. ブートストラップ - ロードパネルの崩壊
- 27. BootStrap 3.3崩壊ブロックラジオボタン
- 28. 崩壊時のアニメーションジャンプ
- 29. boostrap navbar崩壊ブレークポイント
- 30. ブートストラップ「パネル崩壊」「崩壊」がオンラインで動作しない