モンテカルロツリー検索：2人のプレーヤーのゲームのツリーポリシー

MCTSの "ツリーポリシー"の実装方法について少し混乱します。私が読んだすべての論文や記事は、現在のゲーム状態（MCTS teminology：プレイヤーが動かすルート）からツリーを下って行くことについて話しています。私の質問は、私がMINのプレイヤーレベルにいても（私がMAXのプレーヤーであると仮定して）、最高の子供をどのように選ぶかです。 MINが取るかもしれない特定のアクションを選択しても、自分の探索ツリーがそのノードを通って深くなっても、MINのプレイヤーはちょうど別のノードを選ぶかもしれません（minプレーヤーがアマチュアの人間ならば必ずしもベストではないノードを選んでください）。このようにすると、MINが別のノードを選択して以来、そのノードを無駄に伝播するMAXの作業全体が無駄になります。私が参照しているステップについて： https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/ ツリーポリシー：https://jeffbradberry.com/images/mcts_selection.png の種類は、彼らがシングルプレイヤーの観点からそれを実行していると信じさせます。モンテカルロツリー検索：2人のプレーヤーのゲームのツリーポリシー

出典

2017-02-17 Avisek Naug

Iは、問題の任意のPythonが表示されないMです。 –

エクスプロイトプレイには、相手モデリングが必要です。ほとんどのゲームでは、相手プレイが最適にプレーしていると仮定すれば十分です。ポーカーは例外かもしれません。 –

申し訳ありませんピーターのタグ！私はSEに慣れていませんし、ほとんどがPythonでコーディングしています。今私はそれが無関係だったことを実感します。 –

MCTSの場合、可能な移動の確率分布の妥当な推定値を生成する方法が必要です。 AlphaGo [1]の場合、これは速い展開確率であり、状態をとり、すべての可能な移動にわたって大まかな確率分布を出力する、紙の中の$ p_ \ pi $である。 AlphaGoチームは、これを熟練したゲームで最初に訓練された浅いニューラルネットとして実装し、それから自分自身と対戦することで改善しました。

[1] http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

出典

2017-02-17 17:26:00 user3080953

それは、MINが別の動きをしたり、私の好みのゲームプレイ方向に動いたときに、私は再びMCTSをやっているので、ゲームプレイに影響しないということですか？ –

明らかに、相手のことを完全に知らなくても、MINのすべての動きを完全に予測することは不可能であるため、最良の候補のいくつかを推測し、どこに誘導するかを見ます。プレーンミニマックスの代わりにexpectimaxアルゴリズムを見ると、ここで直感に少し役立つかもしれません – user3080953

モンテカルロツリー検索：2人のプレーヤーのゲームのツリーポリシー

答えて

関連する問題