状態全体を明らかにすることができないため、リカレントニューラルネットワークを強化して、ネットワークに過去の出来事の何らかの記憶があるようにする必要があります。わかりやすくするために、LSTMを使用しているとしましょう。PyTorchでLSTMを使って強化学習を行う方法は?
内蔵のPyTorch LSTMでは、形状Time x MiniBatch x Input D
の入力をフィードに入力する必要があり、形状テンソルTime x MiniBatch x Output D
を出力します。
しかし、強化学習では、時刻t+1
の入力を知るために、私は環境内でアクションを行っているので、時刻t
の出力を知る必要があります。
補強学習設定で内蔵PyTorch LSTMを使用してBPTTを実行することは可能ですか?それがあれば、どうすればいいのですか?