1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
マルチエージェント強化学習と⼼の理論
〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント
強化学習⼿法〜
9/17 今井翔太 えるエル@ImAI_Eruel Matsuo Lab
書誌情報
マルチエージェント強化学習で「⼼の理論」と関連する(と主張する)研究の⼀部を紹介
1. The Hanabi Challenge: A New Frontier for AI Research
- 著者:Nolan Bard, , Jakob N. Foerster et al.
- arXiv:1902.00506
2. Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning
- 著者:Jakob N. Foerster, H. Francis Song et al.
- ICML2019
3. Simplified Action Decoder for Deep Multi-Agent Reinforcement Learning
- 著者:Hengyuan Hu, Jakob N Foerster
- ICLR2020
Shota Imai | The University of Tokyo
2
今⽇の発表について
n 「⼼の理論」という若⼲⼼理学・⼈⼀般の知能論っぽいタイトルがついていますが、今
回の発表で紹介する論⽂はベイズ推論でゴリゴリ計算する内容
n 時間の都合上、全ての話題を⼊れる余地がないので、メインの3論⽂以外は概要に触れ
る程度
n 数式はきれいに書く時間がなかったので、論⽂中の式の他、発表中に限り論⽂の著者の
講演スライドのものを⼀部借りています(あとで訂正します)
- 出典:https://www.youtube.com/watch?v=9qPhrEYIRF4&t=1988s
n ベンチマークのゲーム含め、聴き慣れない概念が多数登場しますが、「こんな話題があ
るのか」くらいに思ってもらえれば
Shota Imai | The University of Tokyo
3
発表者本⼈は
ベイズ弱者です
マルチエージェント強化学習(MARL; Multi-Agent Reinforcement
Learning)
n マルチエージェント分野の研究分野全体はマルチエージェントシステム(MAS)とよば
れる
n MASの中でもエージェントの「学習(機械学習)」に興味があるものはマルチエージェ
ント学習と呼ばれる分野
n マルチエージェント強化学習はマルチエージェント学習の中でもエージェントの学習ア
ルゴリズムとして強化学習を使っている⼿法
n 端的に⾔うと、環境中に学習するエージェントが複数いる環境における強化学習
- 囲碁や将棋などのボードゲームもMARLの⼀部
- 最近の例ではStarCraftのAlphaStarが有名
- なお、エージェントして⼈間を含んでも良い
Shota Imai | The University of Tokyo
4
注意 / MARLに特有の概念
(CTDE; Centralized Learning Distributed Execution 中央集権型学習分散型実⾏)
n 現在のMARLの最重要概念(だが、今回の発表の本質ではない)
n 後ほど、「学習中はお互いの⽅策は既知」、「2種類の⾏動のうち⼀つを他のエージェ
ントに送信」など、普通の設定では⾮現実的な概念が出てくるが、MARLではこのCTDE
の仮定を置いて許容している
n 中央集権型学習:学習時のみ,勾配を計算する時に全体のエージェントの情報を含む環
境の「中央の状態」を使う
n 分散型実⾏:テスト時には,各エージェントは⾃⾝の部分観測のみを⼊⼒として⽅策を
実⾏
n COMA[Foerster+ 2017]以降,特に⽤いられるアプローチで,
“in many cases, learning can take place in a simulator or a laboratory in which extra
state information is available and agents can communicate freely”(Foerster+ 2016)
つまり,「マルチエージェントの学習は,研究的な環境でシミュレータ等を使えるため,
学習を促進するために追加の状態の情報を使ってもよい」という仮定によるアプローチ
n 当然,本来エージェントが動作するテスト環境は,基本的に各エージェントが個別の観
測だけを受け取って強調しているため,状態の追加情報は使えない
Shota Imai | The University of Tokyo
5
マルチエージェント強化学習の課題
n 学習時の⾮定常性
- ⾃分以外のエージェントも⽅策を学習するので、普通に⽅策を更新しても最適⽅策への収束が
⾒込めない(他のエージェントの学習によって環境の挙動が変化)
n 不完全情報性
- ⾃分以外のエージェントに関して⾒えない情報が多く、エージェントが利⽤できる観測だけで
は学習の情報が不⾜
→学習時 or テスト時の推論で、⾃分以外のエージェントの意図を読むことができれば、こ
の辺の問題を軽減できる
Shota Imai | The University of Tokyo
6
他のエージェントの意図を「読む」⼿法の研究
n 他者モデリング(Opponent Modeling)
- 学習時の⾮定常性を解決するために使⽤されるのが主
- ⾃分以外のエージェントの⽅策をモデリングし、それを⾃分のモデルの⼊⼒とすることで、⾮
定常性を緩和
n ⼼の理論(Theory of Mind)
- 不完全情報ゲームなどで、推論時に相⼿がどのような意図を持っているか推定
Shota Imai | The University of Tokyo
7
⼼の理論
n 1978年霊⻑類学者David Premackが「チンパンジーは⼼の理論を持つか」という論⽂で
提唱した概念で、⾃分以外の他者の意図を適切に推測する能⼒
- ⾼度な知能を持ち、集団⽣活をするチンパンジーは他の仲間の⼼の状態を推測できるかもしれ
ないと考え、他者の⽬的、意図などが適切に推測できれば「⼼の理論を持つ」とした
- 「理論」という表現は、⼼の状態は直接⾒る(魔法!)ことができず、何らかの基礎的な法則、
経験則から物理法則のように推論に基づいて構成されることから
n 1983年のWimmer&Pernerは誤信念課題(後述)を⽤いて、⼈間の⼦供が、4~7歳にかけ
て⼼の理論を持つようになることを⽰した
n 最近、機械学習、特に複数エージェントが存在するマルチエージェント強化学習の分野
でこの概念と絡めた研究が複数発表されている
Shota Imai | The University of Tokyo
8
誤信念課題
n 通称「サリーとアン課題」と呼ばれる、
被験者に以下の展開を⾒せる
1. サリーがカゴにボールを⼊れる
2. サリーが部屋を去る
3. アンがサリーがいない間にカゴから箱の中にボールを移動させる
4. アンが帰ってくる
被験者に対し「このときアンはボールがどこにあると思っているか」
を問う
n アンが「カゴの中にボールがある」という誤った信念を持っている
ことを、被験者⾃⾝の知識と切り離して、アンの⼼を推論して
答える必要がある
n 4歳〜7歳にかけて正答率が向上
Shota Imai | The University of Tokyo
9
出典:https://en.wikipedia.org/wiki/File:Sally-Anne_test.jpg
機械学習の世界における⼼の理論
n 定義は完全に混沌としている
n 強化学習のみならず、⾃然⾔語処理、画像認識など様々な場⾯で⼿法を「⼼の理論」と関連
づけた例が多数
n マルチエージェント強化学習だけで⾒ても、⾮常に多様な⼿法に分類可能
n ⾃分以外のエージェントに関する、
- ⽅策
- 次の⾏動
- 以前の⾏動の意味
- RNN、LSTMなどの内部状態
- 相⼿の信念
- 不完全情報で隠されている特徴
を推論し、他のエージェントとの協調・競争に役⽴てる⼿法で、
学習時のみに興味がある→Opponent Modeling
テスト時にも興味あり→Theory of Mind
n かなり適当に⼈間の知能と結び付けて、論⽂の貢献のアピールに使われているっぽい例があ
るので、知能論と関連づけて考えすぎるのはNG
Shota Imai | The University of Tokyo
10
余談 /「⼼の理論」を安易に使って燃えた例
Shota Imai | The University of Tokyo
11
⼼の理論を適⽤する場合の問題点(⼈間の思考例)
n お互いに「相⼿の意図を読む」機能があることが既知だとした場合、無限に再起的な読
み合いが発⽣する
n 普通の場合(アリスだけが読む能⼒を持ち、ボブにはできないことを知っている)
- ボブ「(Aという⾏動をしよう)」
- アリス「(ボブはAという⾏動をするだろうからそれに強いBをしよう)」
n お互いに相⼿の⾏動を予測できる場合
- ボブ「(アリスは僕がAをすると思っているだろうからBを選ぶだろう。だからそれに強いCを
しよう」
- ボブ「いやだけど、アリスは僕がこんなことを考えているのも読んでいるだろうからCに強い
Dをしてくるかもしれない。Dに強いEをしよう」
- ボブ「それすらもアリスは読んでいるかもしれないから、Eを読んでFをしてくるかもしれな
い。やっぱりFに強いGで・・・」
- 以後、相⼿の推論能⼒の仮定をどこかでストップさせない限り、無限に続く(アリス側の思考
も同じ)
Shota Imai | The University of Tokyo
12
⼼の理論を適⽤する場合の問題点(MARL)
n シングルエージェントでPOMDPを扱う場合、LSTMやRNNをナイーブに適⽤し、環境に
対する信念を獲得すれば、部分的な観測から⼤体正しい⾏動が可能
n MARLの場合、他のエージェントの⽅策モデルのパラメータ(これは既知という仮定も
多い)、相⼿のRNNやLSTMの内部状態、さらに「相⼿が⾃分に対して推論している何
らかの機構」のモデルも信念として持つ必要がある
→再起的な推論が発⽣し、計算不可能
※MARLにおいてどの程度の読みが有効か実験的に⽰している例も
Shota Imai | The University of Tokyo
13
参考/レベルK理論
n 相⼿が何段階読むかを、レベル0(まったく読まない)、レベル1(⼀⼿先を読む)などと
いうKレベルで表現し、どれくらいの合理性を持った相⼿なのか予測する
n 予測した相⼿のレベルに応じて⾏動を実⾏する
- レベル0(相⼿が何も読まない)なら、⼀⼿先を読めば勝てる
- レベル1(相⼿も⼀⼿先を読む)なら、2⼿先を読めば勝てる
n ここでの相⼿に対するKの値はあくまでも推測であり、現実的には相⼿の合理性を完璧に
は評価できないが、ゲームのトッププレイヤーや理系の⼈間などは⼀般的に⾼い
(例)数当てゲーム
- 複数の被験者に、1~100のどれかの数字を書かせ、全員の書いた数字の平均の2/3に最も近い
数字を書いたものが勝利というゲームをさせる
- 簡単に推論すると、全員がランダムに数字を選ぶとして平均50。その2/3の33周辺がよさそう
- ここで、推論のレベルを⼀つあげると「他のみんなも同じことを考えて33と書いてきそうだか
ら、平均は33近くなる。その2/3の22がよさそう」となる
- 以降、推論のレベルをあげるたびに数値は⼩さくなり、全員が合理的なプレイヤーという予測
では、0になるまでレベルが上がる
- 実験的には、ほとんどのプレイヤーがレベル1で、⾃分はレベル2の推論で⼗分なことが多い
Shota Imai | The University of Tokyo
14
Hanabi
MARLにおける⼼の理論系研究の主要ベンチマーク
n 2〜5⼈の協⼒ゲーム
n RLで頻繁にベンチマークとなる主要なボードゲームなどと異なり、ゲーム⽊探索による
必勝法やナッシュ均衡など、ゲーム情報学的な解を持たない
n 相⼿の意図によって、理想的な⾏動が異なる&理想的な⾏動ではなく、メッセージ的な
⾏動をも要求されるなど、相⼿の意図をモデリングして積極的に利⽤する必要
n ⼼の理論系(相⼿の⾏動を読んで⾃分の⽅策のinputとして使う等)の主要ベンチマーク
Shota Imai | The University of Tokyo
15
Hanabiのルール 1/2
n 各プレイヤーは⼿札として、4枚(プレイヤー数が2 or 3名の場合は5枚)のカードを持
つ
n 各カードは⾚緑⻘⽩の5⾊と1~5の数字の組み合わせ(例:⾚の5など)で分類され、全
50枚、各⾊10枚のカードがある(各⾊について1は3枚、2, 3, 4は2枚、5は1枚)
n プレイヤーは⾃分の⼿番に、⾃分の⼿札を場に出す(プレイ)、⼿札を捨てる、他のプ
レイヤーにヒントを与える、のいずれかの⾏動を選択
n ゲームの最終⽬的は、各⾊について1から順番に場に出して5まで揃えること(各⾊につ
いて5枚揃うことを”花⽕を打ち上げる”と表現)
n ⾃分の⼿札は⾒えないが、他のプレイヤーの⼿札は全て⾒える
Shota Imai | The University of Tokyo
16
プレイヤー0(P0)視点のHanabi
Hanabiのルール 2/2
n 他のプレイヤーに与えるヒントは、ある個⼈プレイヤーに対し、「そのプレイヤーが持
つ同じ数字のカードを全て教える(⾊は教えてはいけない)」、「そのプレイヤーが持
つ同じ⾊のカードを全て教える(数は教えてはいけない) 」のどちらかで、⼀部だけ教
える等は不可能
- 例:P2に対して「1枚⽬と3枚⽬は⾚⾊」
n ヒントを与えるとトークンを1つ消費するが、カードを捨てる⾏動を選択するとトーク
ンが1つ回復する(MAXは8つ)
- 捨てられたカードは全プレイヤーが⾒れるようになる
- カードを捨てた後、1枚カードを引いて補充する
n 各⾊について、必ず数字順にプレイしなければならない
- 例えば、⽩1、⽩2が揃っている時に⽩4を出したら1ミス
n 3回ミスするか、5⾊全て揃えるとゲーム終了
- 終了時点で場に正しくプレイされていたカードの総数が得点になる(MAX25点)
Shota Imai | The University of Tokyo
17
この場⾯では、プレイすることを許さ
れるカードはG2、B1、W2、Y2、R1
Hanabiの戦略・駆け引き的な部分
n ⾏動による暗黙のコミュニケーション
- ヒントの与え⽅によって、ヒントで陽に⽰している以上の情報を与えることが可能
- 例:右下図の状況でP0が、P1に対し、「4枚⽬は⾚」のヒントを与える
- P1視点だと4枚⽬のカードが⾚以外の情報はないので、本来はプレイする情報が⾜りていないが、逆に考
えると「わざわざ不完全なヒントを与えたということは⾚は1なのでは」という発想につながる
n Finesse(もう少し⾼度な暗黙コミュニケーション)
- P0がP2に対し「3枚⽬は2」のヒントを与える
- P2視点だと、このヒントをもらった場合に考えることは「おそらくこの2は⽩」(場にG1とW1がある
が、緑2はすでに2枚とも捨てられているため⽩2以外あり得ない)
- これは間違いで、実際は⾚2なので、このままいくとP2はミスする
- P0の次の⼿番のP1視点だと「このままだとP2は失敗する。だが、P0があのようなヒントを出したからに
は理由があるはずで、おそらくそれは⾃分が最近引いたカードが⾚2でそれをプレイしろということか」
Shota Imai | The University of Tokyo
18
Hanabiの難しさ
n 今回発表する⼿法以前は、機械的な⼿法では⼈間の知識を⼤量に⼊れたbotが主流で、学
習ベースのアプローチはこれらの⼿法に勝てなかった
- ⼈間に特有の⾮⾔語的なコミュニケーションを読み取れない
- テスト環境で学習時と別のエージェントとプレイすると、学習した⽅策が機能しない
n 今回紹介する⼿法についても、⼆⼈以上のプレイではスコアが極端に下がる
Shota Imai | The University of Tokyo
19
BAD; Bayesian Action Decoder
n マルチエージェント強化学習(ここではHanabi)において、相⼿の⾏動から⾒えない情
報について何らかの推測ができれば、適切な⾏動と協調が可能
n 相⼿の信念の推論はベイズ推論により、割と簡単に定式化可能だが、再起的に信念を推
論する部分で計算が爆発する
n BADでは全てのエージェントに公開されている情報(public features)を⽤いて、全て
のエージェントに共通の信念(public belief)を推論し、適切な決定論的⽅策を実⾏する
⼿法を提案
Shota Imai | The University of Tokyo
20
記号定義
n 𝑎 ∈ 1. . 𝑁:エージェント
n 𝑢!
"
:時刻tにおけるエージェントaの⾏動
n 𝑜!
"
:時刻tにおけるエージェントaの観測
n 𝑠!:時刻tにおける環境の真の状態
n 𝑂(𝑎, 𝑠!):観測関数
n 𝜏!
"
=(𝑜#
"
, 𝑢#
"
, … , 𝑜!
"
):エージェントaの⾏動観測の履歴
n 𝜋"(𝑢!
"|𝜏!
"):エージェントaの⽅策
n 𝐮! = (𝑢!
$
, . . , 𝑢!
%
):共同⾏動
n 𝑃 𝑠!&$ 𝑠!, 𝐮!):遷移関数
n 𝑟!&$(𝑠!, 𝐮!):チーム報酬
n 𝐵!:信念(これまでの履歴などからどんな隠れ状態にあるか確率的に表す)
Shota Imai | The University of Tokyo
21
Hanabiでベイズ推論を⽤い,⾃分の⼿札を予測する場合
n ℎ!:エージェントの⼿札
n ボブの⾃分の⼿札に関する信念 𝐵" = 𝑃(ℎ"|𝑢#)
n ここでは、アリス(ボブの⼿札ℎ"を知っている)が、アリスのターンであるカードを捨てる
⾏動𝑢#を選択した場合、ボブの⼿札が何かを推論
n 𝑃(𝑢#|ℎ")は普通のRLの⽅策とみなせる
Shota Imai | The University of Tokyo
22
お互いが何らかの信念を持っており、環境の公開情報も利⽤する場合(⾒
えない情報に対して何らかの「読み」を⾏っている場合)
n アリスの⽅策は、アリスの信念𝐵%と公開情報𝑃𝑢𝑏に条件づけられているとみなせる
n 信念は⾃分の⾒えていない⼿札の予測(B' = 𝑃(ℎ%))
n 𝐵%はどのように推論する?
→お互いに同じ推論を⾏っていると考えると、再起的に推論が爆発
Shota Imai | The University of Tokyo
23
BADのアイディア
n 全てのエージェントに公開されている情報で条件づけて、全エージェントの信念をまと
めて推測した信念をPublic	beliefとすれば、全エージェントで共通の信念を共有できそう
𝐵% = 𝑃 ℎ% ℎ(, 𝑓)*+
𝐵( = 𝑃(ℎ(|ℎ%, 𝑓)*+)
→ 𝐵! = 𝑃(ℎ%, ℎ(|𝑓)*+)
n Public beliefを利⽤する⽅策𝜋(%,(Public agent)を導⼊し、𝜋(%,によって、ある時刻に
おける個別エージェントの決定論的⽅策を選択、privateな観測から⾏動を決定する
(上記より、各エージェントが共通の⽅策パラメータを持つことは既知とする)
Shota Imai | The University of Tokyo
24
BADで登場する概念と記号定義
n 𝑓!
)*+
:全てのエージェントに公開されている特徴 (public features)
→テーブル上に置かれていて全プレイヤーが⾒れるカード、⼭札の残りなど
n 𝑓!
)-.
:⼀部のエージェントのみが⾒れる情報 (private features)
- 𝑓!
"
:エージェントaのみが参照できるprivate feature
- ⾃分だけが⾒れる⼿札、ℎ#など
n Public belief 𝐵! = 𝑃(𝑓!
)-.
|𝑓/!
)*+
)
- 𝑓!"
#$%
=( 𝑓&
#$%
, . . , 𝑓"
#$%
)
n 𝜋(%, :Public agentの⽅策
n D
𝜋 ∶ {𝑓"} → 𝒰:個別エージェントの決定論的⽅策(Partial Policy)
n 𝑠(%,: 𝐵!と𝑓)*+を⼀まとめにした概念
n D
𝜋 ~ 𝜋(%,(D
𝜋 |𝑠(%,)
Shota Imai | The University of Tokyo
25
PuB-MDP(Public belief MDP)
Shota Imai | The University of Tokyo
26
Public Belief
n 全てのエージェントの可能な𝑓)-.の組み合わせに確率を割り振った⾏列
(例)
Shota Imai | The University of Tokyo
27
アリスの⼿札ℎ'、ボブの⼿札ℎ(、𝑃(ℎ', ℎ()
23344, 11122, 0.000
23344, 11123, 0.002
・
・
・
44444, 55555, 0.001
𝐵! =
{ }
Partial PolicyとPublic Policy
n Partial Policy D
𝜋は特定の𝑓)に対応する⾏動リスト、Public Policy 𝜋(%,はいくつかあるD
𝜋
を選択するための確率分布
Shota Imai | The University of Tokyo
28
23344→5のカードをプレイ
23344→⻘のカードに関するヒント
・
・
55555→3のカードを捨てる
{ }
#
𝜋 =
Public Policyの更新
n プレイヤーが⾏動する各時間ステップごとに、その時刻のプレイヤーの⾏動𝑢!
"
、信念
𝐵!、選択されたpartial policy D
𝜋、その他の公開情報𝑓0)*+(残りのカード枚数など)を⽤
いて、次の時刻の信念𝐵!&$を得る
Shota Imai | The University of Tokyo
29
その他
n 実際には、Public belief⾏列はかなり⼤きいので、いくつか計算上の⼯夫を⾏って⼩さく
している(論⽂中”Factorised Belief Updates”, Self-Consistent Beliefsの部分)
n 実装上は、 D
𝜋 ~ 𝜋(%,(D
𝜋 |𝑠(%,) = 𝜋(%,(D
𝜋 |𝐵!, 𝑓)*+)の部分については、パラメータθを持
つMLPネットワーク 𝜋1(𝑢|𝑓", 𝑠(%,) を使って近似している(出⼒の𝑢は全ての⾏動候補)
Shota Imai | The University of Tokyo
30
実験:定量評価
n 異なる公開情報をベースにした⼊⼒を⾏うLSTMベースのエージェントと、既存の最強の
BotとHanabiにおける平均スコアを⽐較(マックスは25点)
n ⽅策更新のRL⼿法としてはActor-Criticの⽅策オフ⼿法(IMPALA)を使⽤
n 注意として、ここでは2⼈のHanabiしか評価していないため、BADの強さは限定的
Shota Imai | The University of Tokyo
31
実験:定性的な部分
n テスト時に、エージェント間で、特定の⾏動が暗黙的なメッセージになっているプレイ
が複数⾒られた
- 例えば、⾚⾊or⻩⾊のカードに関するヒントを与えた場合には、「⼀番新しいカードをプレイ
しろ」の意味、⻘か⽩の場合は「⼀番新しいカードを捨てろ」の意味を持っている
n 論⽂Appendixにおいて、過去のHanabiの最強botの作者がテスト時のBADエージェント
のプレイを分析したコメントを載せている
Shota Imai | The University of Tokyo
32
BADの問題点
n テスト環境が2⼈のHanabiで⽐較的簡単(⼈間の普通のゲームなら普通もっと多⼈数)
n Public Agent、⽅策パラメータが同じという仮定が⾮現実的
n 公開情報がドメイン依存で、汎⽤性が低い
n 計算コストが⼤きい(𝑓)*+が膨⼤)
Shota Imai | The University of Tokyo
33
SAD; Simplified Action Decoder
n 公開情報をベイズ推論に組み込むBADの⼿法は、⼆⼈プレイHanabiで⾼パフォーマンス
だったが、公開情報の利⽤が計算コストの増⼤と汎⽤性の低さにつながる
n SADでは公開情報を必要とする部分(Public Policy、決定論的Partial Policy)を廃し個
別の信念を持つRNNエージェントが個別の⽅策を表現
- 個別エージェントはε-greedy探索を採⽤して学習時に探索を⾏う
- BADでは探索の部分を、Public policyが公開情報で条件づけて確率的に選択するpartial policy
で代替していた
※ここでの公開情報とは、普通にプレイして観測できる他エージェントの⾏動𝑢)などではなく、⼭札
中の残りのカード数や、ヒントから推論できるカードの詳細情報など、利⽤にコストがかかるもの
n 個別のエージェントの確率的な探索の導⼊により、不安定になった信念のベイズ推論を
解決するため、学習中に環境に対して実⾏される⾏動と単に他のエージェントの⼊⼒と
なる⾏動の⼆つを利⽤
n 「Simplified」の名の通り、⼿法は⾮常にシンプルで簡潔な発想
Shota Imai | The University of Tokyo
34
SADで登場する概念と記号定義
n 𝜏!:環境の⾏動-状態履歴
n 𝜏!
":エージェントaの⾏動-観測履歴
※SADのエージェントにはRNNを使⽤
n 𝐵(𝜏!)環境の履歴に関する信念
n SADにおける推論
n BADの時と同じく、⾃分の参照できる情報(⾃分の履歴)と相⼿の⾏動を観測したと
き、⾃分が⾒えない環境の情報𝜏を推論する機構(⼼の理論部分)を表現
Shota Imai | The University of Tokyo
35
公開情報を使わないことによる問題
n 個別のRNNエージェントは学習中に、ε-greedy探索を採⽤
n 各エージェントの⾏動は、確率εでランダムに実⾏された⾏動かもしれず、信念状態の
更新に利⽤するのは妥当ではない
(ランダムな⾏動は環境の状態に関する情報を含まない)
n ε-greedy探索を⾏う場合の⽅策の表現
n 𝑢∗(𝜏!)はgreedyな⾏動、 𝑢∗ 𝜏! = 𝑎𝑟𝑔𝑚𝑎𝑥 * 𝑄""
(𝑢, 𝑂(𝑎0, 𝜏!))、𝑰は指⽰関数
n 上記を信念の推論に適⽤すると、計算困難
Shota Imai | The University of Tokyo
36
SADのアイディア
n 学習中に、エージェントは2種類の⾏動を実⾏する
- 𝒖𝒂:実際に環境に対して実⾏されるアクション(greedyかランダム選択かは問わない)
→ベイズ推論・更新にとっては邪魔だが、探索のため必要
- 𝒖∗
:greedy(⾏動価値が最も⾼い)な⾏動。ε-greedy探索だとεの確率で実⾏されない
→これのみを実⾏すると探索が進まないが、本来はベイズ推論・更新に必要なアクション
上記のうち𝒖𝒂はそのまま環境に対して実⾏。そして、 𝒖∗については環境に対して実⾏せず、他
のエージェントの観測の⼊⼒のみに使⽤
n 本来は最適でなかった⾏動𝒖𝒂を実⾏した後「俺は本当は⾏動𝒖∗ をやりたかった」とメッセー
ジを送るイメージ
n テスト時はεの値が0で、 𝒖𝒂と𝒖∗ は常に⼀致するため、⾏動を送信する必要はない
Shota Imai | The University of Tokyo
37
実験
n SADと他のMARLのRNNを使う⼿法を、⼆⼈以上のプレイヤーによるHanabiで評価
n 強化学習はDQNベース
n BADより⾼パフォーマンス&⼆⼈以上のゲームでもほぼSOTA
Shota Imai | The University of Tokyo
38
その他の⼼の理論周りの話題
n ロボット&Visual observation✖⼼の理論
Visual behavior modelling for robotic theory of mind
- 実機ロボットの軌道の観測から別の時間の観測を予測できるか
n ⾔語✖⼼の理論
Few-shot Language Coordination by Modeling Theory of Mind
- 指⽰ゲームで、相⼿の⾔語認識レベルに応じた指⽰を⾏えるか
n 実験的な⼈間の知能との関連性
Negotiating with other minds: the role of recursive theory of mind in negotiation with
incomplete information
- ⼈間のレベルK理論では、レベル2の寿司論を⾏うのがちょうどいいとされているが、機械的
なエージェントではどの程度のレベルが最適か実験的に明らかに
- 機械的なエージェントのシミュレーションでもレベル2程度を採⽤すると⼀番効率がよい
Shota Imai | The University of Tokyo
39

[DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜