0

私の問題がある状態:2DアクションとQ学習と2Dは、次のように

各状態で、発電所のボイラー用の水の流れとファン速度を調整する必要があり、エージェントが、二重の状態のフィードバックを受信します:現在の温度、排出量。

エージェントが1組のアクションと1組のタプルの状態を持っている場合、1つのエージェントが水温環境用のQとR行列を持ち、ファン速度/排出環境量のエージェント?あるいは、最初に記述されたエージェントのRとQ行列を表現する方法はありますか?

+1

すべての報酬についてです。つまり、両方の条件(温度と放射)からなる報酬を1つ作成する必要があります。これらはおそらく矛盾しているので、多目的最適化のように、いくつかのモデルを定義する必要があります。これらのどれがあなたにとってどれほど重要であるか/どのtemp/emの解決策が他に優先されるかを制御する必要があります。多次元状態を持つことは珍しいことではなく、Q関数に複数の入力があることを意味します。 – sascha

答えて

1

状態とアクションが多次元であることは正常です。あなたがするのは、現在の温度と排出量のすべての組み合わせについて、水流とファン速度のすべての組み合わせの値をあなたのエージェントが知るようにすることです。これによりテーブルが扱いにくい場合は、テーブルを近似する必要があります。

+0

私の問題では、私は40×40のq行列を持っています。どのようにそれが扱いにくいことを知ることができますか?単純なNNでQを近似すると、より効率的になりますか? –

+2

@Leb_Broth、試して見てください。近似を使用しなければならない場合、神経回路網に頼る前に、粗いコーディングと線形関数近似を試みます。 –