SlideShare a Scribd company logo
部分観測モンテカルロ計画法
を用いたガイスターAI
2017-11-10
サイボウズ・ラボ 西尾泰和
このスライドの目的
2017年11月のGPWでのガイスターAI大会に
提出したAIの中身を簡単に解説することで、
不完全情報要素の推測が重要な状況での
AIの作り方に関する研究を促進する。
2
http://www2.matsue-ct.ac.jp/home/hashimoto/geister/
部分観測マルコフ決定過程
ガイスターは状態のすべてが観測されない
「部分観測マルコフ決定過程」(POMDP)である。
その中でも、状態遷移確率が
明示的に与えられない厄介な問題である。
3
部分観測モンテカルロ計画法
そういう状況で使えるのが部分観測モンテカルロ
計画法。
これは状態遷移確率の代わりに、繰り返し実行で
きるブラックボックスシミュレータを与え、それ
に対するモンテカルロで確率を陽に与えることな
く問題を解く。
4
https://papers.nips.cc/paper/4031-monte-carlo-planning-in-large-pomdps
部分観測モンテカルロ計画法
パーティクルフィルタ(aka 逐次モンテカルロ)
とモンテカルロ木探索の組み合わせである。
5
パーティクルフィルタ部分
観測できない状態を適当な分布(信念)からサンプ
リングして決める。
その状態からシミュレータで相手手番を一手進め
どんな手を打つか観察する。
シミュレータの出した手が、現実の手と一致する
物だけを残す。これが新しい信念。相手の手を観
察するたびに信念が更新される。
6
モンテカルロ木探索部分
信念状態からのサンプリングで状態が定まる。
その状態から適当なRollout Policyに従って手を選
び対戦することでどの手の勝率が高いかの情報を
集める。これを木の形で溜めていく。
ある程度情報の集まっている局面についてはTree
Policyで手を選択する。(有名なのはUCB1)
7
現状
今回のコンテスト参加プログラムはGithubで
公開しているが、ローカルの実験用のリポジトリ
とサーバ接続用クライアントのリポジトリを
締め切り間際にくっつけて無理やりつじつまを合
わせたコードなので、これをベースにするのはお
すすめしない。
またParticle Reinvigorationを実装していないので
「思い込みの激しい性格」になっている。
8

More Related Content

More from nishio

良いアイデアを出すための方法
良いアイデアを出すための方法良いアイデアを出すための方法
良いアイデアを出すための方法
nishio
 
強化学習その4
強化学習その4強化学習その4
強化学習その4
nishio
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
nishio
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
nishio
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
nishio
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?
nishio
 
機械学習キャンバス0.1
機械学習キャンバス0.1機械学習キャンバス0.1
機械学習キャンバス0.1
nishio
 
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
nishio
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio
 
Wifiで位置推定
Wifiで位置推定Wifiで位置推定
Wifiで位置推定
nishio
 
ESP8266EXで位置推定
ESP8266EXで位置推定ESP8266EXで位置推定
ESP8266EXで位置推定
nishio
 
Raspberry Piで Wifiルータを作る
Raspberry PiでWifiルータを作るRaspberry PiでWifiルータを作る
Raspberry Piで Wifiルータを作る
nishio
 
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
nishio
 
「ネットワークを作る」 ってどういうこと?
「ネットワークを作る」ってどういうこと?「ネットワークを作る」ってどういうこと?
「ネットワークを作る」 ってどういうこと?
nishio
 
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
nishio
 
未踏社団でのkintoneの活用
未踏社団でのkintoneの活用未踏社団でのkintoneの活用
未踏社団でのkintoneの活用
nishio
 
創造的人材のための知財LT
創造的人材のための知財LT創造的人材のための知財LT
創造的人材のための知財LT
nishio
 
コミュニティによる生産性向上のすすめ
コミュニティによる生産性向上のすすめコミュニティによる生産性向上のすすめ
コミュニティによる生産性向上のすすめ
nishio
 
エンジニアのための学ぶ技術
エンジニアのための学ぶ技術エンジニアのための学ぶ技術
エンジニアのための学ぶ技術
nishio
 
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
nishio
 

More from nishio (20)

良いアイデアを出すための方法
良いアイデアを出すための方法良いアイデアを出すための方法
良いアイデアを出すための方法
 
強化学習その4
強化学習その4強化学習その4
強化学習その4
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?
 
機械学習キャンバス0.1
機械学習キャンバス0.1機械学習キャンバス0.1
機械学習キャンバス0.1
 
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
Wifiで位置推定
Wifiで位置推定Wifiで位置推定
Wifiで位置推定
 
ESP8266EXで位置推定
ESP8266EXで位置推定ESP8266EXで位置推定
ESP8266EXで位置推定
 
Raspberry Piで Wifiルータを作る
Raspberry PiでWifiルータを作るRaspberry PiでWifiルータを作る
Raspberry Piで Wifiルータを作る
 
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
 
「ネットワークを作る」 ってどういうこと?
「ネットワークを作る」ってどういうこと?「ネットワークを作る」ってどういうこと?
「ネットワークを作る」 ってどういうこと?
 
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
 
未踏社団でのkintoneの活用
未踏社団でのkintoneの活用未踏社団でのkintoneの活用
未踏社団でのkintoneの活用
 
創造的人材のための知財LT
創造的人材のための知財LT創造的人材のための知財LT
創造的人材のための知財LT
 
コミュニティによる生産性向上のすすめ
コミュニティによる生産性向上のすすめコミュニティによる生産性向上のすすめ
コミュニティによる生産性向上のすすめ
 
エンジニアのための学ぶ技術
エンジニアのための学ぶ技術エンジニアのための学ぶ技術
エンジニアのための学ぶ技術
 
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
 

部分観測モンテカルロ計画法を用いたガイスターAI