2017-03-03 5 views
1

強化学習アルゴリズムで最も重要な課題は、探査と開発のバランスを取ることです。 私はおもちゃの問題で学習しているQを実行しようとしています。早いイプシロン崩壊が起こっていることに気づいています。 エージェントがより多くの探査を行い、イプシロンの減衰が約0.999になるように、イプシロンを高く(0.9または1)選択しました。 どのようにしてイプシロンの減衰を遅くするか、言い換えればエージェントが非常に欲張りになりたくないのですか?私の減衰パラメータは何ですか? ありがとう!Q学習におけるイプシロン崩壊

答えて

0

実行している反復回数、各エピソードごとに実行されたステップ数、およびそれをいつどのように減衰させたいかによって異なります。 私は、各反復で腐敗したイプシロン値をプロットし、あなたが望むように動いているかどうかを確認することをお勧めします。

0

減衰関数をどのように実装しましたか?

イプシロン=イプシロン*のepsilon_decay

時間をかけて自分のイプシロン値をプロットする提案は良いものです。このページのプロットもご覧ください: Exponential Decay

恐らく、減衰定数を配合に加える必要があります。

関連する問題