2017-02-17 8 views
2

MCTSの "ツリーポリシー"の実装方法について少し混乱します。私が読んだすべての論文や記事は、現在のゲーム状態(MCTS teminology:プレイヤーが動かすルート)からツリーを下って行くことについて話しています。私の質問は、私がMINのプレイヤーレベルにいても(私がMAXのプレーヤーであると仮定して)、最高の子供をどのように選ぶかです。 MINが取るかもしれない特定のアクションを選択しても、自分の探索ツリーがそのノードを通って深くなっても、MINのプレイヤーはちょうど別のノードを選ぶかもしれません(minプレーヤーがアマチュアの人間ならば必ずしもベストではないノードを選んでください)。このようにすると、MINが別のノードを選択して以来、そのノードを無駄に伝播するMAXの作業全体が無駄になります。 私が参照しているステップについて: https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/ ツリーポリシー:https://jeffbradberry.com/images/mcts_selection.png の種類は、彼らがシングルプレイヤーの観点からそれを実行していると信じさせます。モンテカルロツリー検索:2人のプレーヤーのゲームのツリーポリシー

+0

Iは、問題の任意のPythonが表示されないMです。 –

+0

エクスプロイトプレイには、相手モデリングが必要です。ほとんどのゲームでは、相手プレイが最適にプレーしていると仮定すれば十分です。ポーカーは例外かもしれません。 –

+0

申し訳ありませんピーターのタグ!私はSEに慣れていませんし、ほとんどがPythonでコーディングしています。今私はそれが無関係だったことを実感します。 –

答えて

0

MCTSの場合、可能な移動の確率分布の妥当な推定値を生成する方法が必要です。 AlphaGo [1]の場合、これは速い展開確率であり、状態をとり、すべての可能な移動にわたって大まかな確率分布を出力する、紙の中の$ p_ \ pi $である。 AlphaGoチームは、これを熟練したゲームで最初に訓練された浅いニューラルネットとして実装し、それから自分自身と対戦することで改善しました。

[1] http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

+0

それは、MINが別の動きをしたり、私の好みのゲームプレイ方向に動いたときに、私は再びMCTSをやっているので、ゲームプレイに影響しないということですか? –

+0

明らかに、相手のことを完全に知らなくても、MINのすべての動きを完全に予測することは不可能であるため、最良の候補のいくつかを推測し、どこに誘導するかを見ます。プレーンミニマックスの代わりにexpectimaxアルゴリズムを見ると、ここで直感に少し役立つかもしれません – user3080953

関連する問題