部分観測モンテカルロ計画法
を用いたガイスターAI
2017-11-10
サイボウズ・ラボ 西尾泰和
このスライドの目的
2017年11月のGPWでのガイスターAI大会に
提出したAIの中身を簡単に解説することで、
不完全情報要素の推測が重要な状況での
AIの作り方に関する研究を促進する。
2
http://www2.matsue-ct.ac.jp/home/hashimoto/geister/
部分観測マルコフ決定過程
ガイスターは状態のすべてが観測されない
「部分観測マルコフ決定過程」(POMDP)である。
その中でも、状態遷移確率が
明示的に与えられない厄介な問題である。
3
部分観測モンテカルロ計画法
そういう状況で使えるのが部分観測モンテカルロ
計画法。
これは状態遷移確率の代わりに、繰り返し実行で
きるブラックボックスシミュレータを与え、それ
に対するモンテカルロで確率を陽に与えることな
く問題を解く。
4
https://papers.nips.cc/paper/4031-monte-carlo-planning-in-large-pomdps
部分観測モンテカルロ計画法
パーティクルフィルタ(aka 逐次モンテカルロ)
とモンテカルロ木探索の組み合わせである。
5
パーティクルフィルタ部分
観測できない状態を適当な分布(信念)からサンプ
リングして決める。
その状態からシミュレータで相手手番を一手進め
どんな手を打つか観察する。
シミュレータの出した手が、現実の手と一致する
物だけを残す。これが新しい信念。相手の手を観
察するたびに信念が更新される。
6
モンテカルロ木探索部分
信念状態からのサンプリングで状態が定まる。
その状態から適当なRollout Policyに従って手を選
び対戦することでどの手の勝率が高いかの情報を
集める。これを木の形で溜めていく。
ある程度情報の集まっている局面についてはTree
Policyで手を選択する。(有名なのはUCB1)
7
現状
今回のコンテスト参加プログラムはGithubで
公開しているが、ローカルの実験用のリポジトリ
とサーバ接続用クライアントのリポジトリを
締め切り間際にくっつけて無理やりつじつまを合
わせたコードなので、これをベースにするのはお
すすめしない。
またParticle Reinvigorationを実装していないので
「思い込みの激しい性格」になっている。
8

部分観測モンテカルロ計画法を用いたガイスターAI