2DアクションとQ学習と2Dは、次のように

各状態で、発電所のボイラー用の水の流れとファン速度を調整する必要があり、エージェントが、二重の状態のフィードバックを受信します：現在の温度、排出量。

エージェントが1組のアクションと1組のタプルの状態を持っている場合、1つのエージェントが水温環境用のQとR行列を持ち、ファン速度/排出環境量のエージェント？あるいは、最初に記述されたエージェントのRとQ行列を表現する方法はありますか？

2016-10-18 Leb_Broth

すべての報酬についてです。つまり、両方の条件（温度と放射）からなる報酬を1つ作成する必要があります。これらはおそらく矛盾しているので、多目的最適化のように、いくつかのモデルを定義する必要があります。これらのどれがあなたにとってどれほど重要であるか/どのtemp/emの解決策が他に優先されるかを制御する必要があります。多次元状態を持つことは珍しいことではなく、Q関数に複数の入力があることを意味します。 – sascha

状態とアクションが多次元であることは正常です。あなたがするのは、現在の温度と排出量のすべての組み合わせについて、水流とファン速度のすべての組み合わせの値をあなたのエージェントが知るようにすることです。これによりテーブルが扱いにくい場合は、テーブルを近似する必要があります。

出典

2016-10-18 21:05:39

私の問題では、私は40×40のq行列を持っています。どのようにそれが扱いにくいことを知ることができますか？単純なNNでQを近似すると、より効率的になりますか？ –

@Leb_Broth、試して見てください。近似を使用しなければならない場合、神経回路網に頼る前に、粗いコーディングと線形関数近似を試みます。 –

2DアクションとQ学習と2Dは、次のように

答えて

関連する問題