Open-ended Learning in Symmetric Zero-sum Games @ ICML19

Copyright © 2019 Deep Learning Japan. All Rights Reserved. 1
Presenter: Shohei Ohsawa | 2019.6.16
David Balduzzi, Marta Garnelo, Yoram Bachrach, Wojciech M. Czarnecki, Julien Perolat,
Max Jaderberg, Thore Graepel
Deep Learning Japan
www.facebook.com/deeplearning
Open-ended Learning in Symmetric Zero-sum Games @ ICML19
＊Deep Learning Japan は、2013 年に東京大学で立ち上がった、
日本初の AI・深層学習コミュニティです。

この論文について
• ICML19 採録
• マルチエージェント強化学習
– 常勝戦略がないジャンケンのようなゲームにおいて、戦略空間の構造を解明する
• Related Work のセクションはない
– Introduction のセクションに簡潔に記載
• 色々伏線が盛り込まれている
– すごくロジカル
元論文：https://arxiv.org/pdf/1901.08106.pdf
注意：これは論文の翻訳ではありません
（作り手の解釈をかなり含みます）

Index.
Introduction1.
Functional and Empirical Gamescapes3.
Algorithms4.
Experiment5.
Conclusion6.
Functional Games2.

1. Introduction
・セルフプレイはゲームが推移的であることを前提としている
A ＜ B かつ B ＜ C ならば A ＜ C
・ジャンケンのようなゲームの場合はどういったアルゴリズムがあり得る？
・ここでは PSROrN というセルフプレイの一般化を提案
・実験でもうまくいっている
＝
？

2. Functional Games
関数形式ゲーム(FFG)：ゲームを対称な関数として表現
ゼロサム：引数を入れ替えると符号が反転す
ることの要請
二つのパラメータから実数への写像
𝜙(𝑣, 𝑤) が大きい方が 𝑣 が強い

2. Functional Games
以下の二つの前提を置いてる
・FFG の戦略はパラメータ
・FFG は環境だけでなく、エージェントの構
造も内包
𝜙 は勝率も反映できる
1. 素朴に勝率を利用
2. オッズ形式

2. Functional Games
幾つかの道具を導入
①カリー化
２変数関数を高階関数に変換
②近似最適反応オラクル
ざっくり言うとパラメータの更新のこと
SGD・強化学習・遺伝的アルゴリズム
カリー化は関数型プログラミング言語で使
われる作用

2. Functional Games
③評価行列
・𝜙 をエージェントごとに対戦表形式で整理
・反対称行列になる（ゼロサムなので）
𝑛
𝑛

2. Functional Games
④ナッシュ均衡
⑤ゲーム分解
定理１
FFG は推移ゲームと循環ゲームの二つに分解
できる

2. Functional Games | 2.1 Transitive Games
𝜙 が二つのレート関数 𝑓 の差に分解できると
き、「推移的である」という。
𝜙 が推移的であるとき、最適戦略は敵が誰で
あるかに関係なく定まる（𝑓 に対して最適化
すればよいため）
最もシンプルなアルゴリズムは、敵パラメー
タ 𝑤 を一つ固定して、自パラメータ 𝑣 の更新
を繰り返す

イロレーティングの概念を内包
Elo のモデルだと、戦力差が十分大きい場
合に勾配消失が起こる

セルフプレイは自分自身を敵だと考えて更新
を実施する
→ Elo の勾配消失が発生しない
ここが変わってる
ことに注意
多分どこまでも強くなるとい
う意味だと思う
セルフプレイはゲームが推移的で
あることを暗黙の前提としてる

2. Functional Games | 2.2 Cyclic Games
𝜙 を全体にわたって積分すると 0 になるよう
なゲームを「循環ゲーム」という。
得意な敵もいればそう
でない敵もいる
𝑣
𝜙 < 0 (𝑣 loses)
𝜙 > 0 (𝑣 wins)
𝑊

2. Functional Games | 2.2 Cyclic Games
・ジャンケン（グー・チョキ・パー）は円盤
ゲーム上に自然に埋め込まれる
・ただし強さ(ε)の概念があることに注意

3. Functional and Empirical Gamescapes
ゼロサムゲームの支配戦略を見つける代わり
に、「戦略空間」を見つけることはできない
だろうか
ゲームスケープの提案
以下の二つを計算する
①集団性能
②実効ダイバーシティ

①関数的ゲームスケープ(FGS)
あり得るすべての 𝒘 に対する 𝜙 𝒘 の線形結合
・関数集合になる
・計算不可能
②経験的ゲームスケープ(EGS)
対戦表に基づくゲームスケープ

③最適化ランドスケープ
ゲームスケープの特殊例
・推移的ゲームの最適化空間
・敵エージェントに依存せず、自機のみで評
価可能

冗長性
・二つの行列は実はどちらも正三角形
・じゃんけんの関係を表現
・しかしパッと見はよくわからない
命題２
・自己以外のエージェントで構成される凸包
に含まれるエージェントを「冗長」という。
・EGS は冗長なエージェントに対して不変

・実際は、ゲームスケープの次元はエージェ
ントの数よりも小さい

命題3
評価行列のランクが 𝑟 であるなら、EGS は 𝐑 𝒓
上で表現できる
Schur 分解を行い低次元空間で表現
𝑛 体のエージェントがサイクルを内している
とき、ランクは 𝑛 − 2 𝑛: 𝑒𝑣𝑒𝑛 , 𝑛 − 1 (𝑛: 𝑜𝑑𝑑)
になる。

ナッシュ均衡とは、他のエージェントに対し
て勝つか引き分けになるエージェントこと。
FGS に対してナッシュ均衡は計算不可能
命題4
経験的ナッシュ均衡は以下で与えられる。

EGS と FGS の違い
・じゃんけんで「グー・チョキ・パー」で勝
負するのと、「グー・パー」で勝負する場合
では帰結が異なる
・有限のエージェントからなる EGS から FGS
の内容に対して何か強い知見を得ることは不
可能
・これは、通常の強化学習でも同じことは言
える
・観測されていない次元を見つけるためには、
𝑊 から乱択するなどの方法が考えられる

3. Functional and Empirical Gamescapes | 3.1 Population Performance
・推移ゲームでは、𝑓(𝒗) の最適化で十分
・循環ゲームでは、個々のエージェントの性
能に意味はない（一部のエージェントには勝
つが、一部のエージェントは負ける）
・そこで、新たに「集団性能」を指標として
定義する
定義３
二つの集団 P, Q の間の強さを比較したい
それぞれのナッシュ均衡を (𝑝, 𝑞) とする
・自分は確率 𝑝 で混合戦略を取る
・相手は確率 𝑞 で混合戦略を取る
このとき、相対集団性能は 𝐴 の 𝑝, 𝑞 の同時分
布上の期待値として定義
・正の場合：集団 P が強い
・負の場合：集団 Q が強い

命題５
i) 性能 𝑣 はナッシュ均衡の選択に対して不変
ii) もし𝜙が単調(monotonic)なら、性能は最良の
エージェント同士を比較することで得られる
iii) hull(P) が hull(Q) に含まれる場合、
・v(P, Q) は必ず非正になる（Qが強いか引き
分け）
・v(P, R) < v(Q, R) が任意の R に対して成立
重要なのは (iii) で、大きな凸包(hull)ほど他の
集団に対して有利になることを意味する。

・円盤ゲームのナッシュ均衡は (0, 0)
・しかし、内部の集団よりも外部の集団の方
が強い
・ナッシュ均衡を含む集団を探索することは、
FFG を解くために必要だが十分ではない。
・たとえば FFG に対して引き分けを追加した
ものを考える。引き分け部分は明らかにナッ
シュ均衡だが、それ以外にもより豊かな戦略
や反撃戦略は考えることが可能である。

3. Functional and Empirical Gamescapes | 3.2 Effective Diversity
3.2 有効多様性
・多様性は、性能を無視した場合のエージェ
ントの重みや行動の違いを定量化する
・有効多様性は、有効なエージェント（ナッ
シュ均衡に存在するエージェント）の多様性
を評価する。
定義4
所与の集団 P に対して、評価行列 𝐴P のナッ
シュ均衡を 𝐩 とする。
集団 P の有効多様性は、均衡 𝐩 で混合戦略を
取るエージェント同士が戦った場合の、非負
の 𝜙 の期待値である。
支配戦略が存在する場合、有効多様性は 0 に
なる（常に引き分けだから）
𝑛
𝑛
赤い部分は無視
して平均

3. Functional and Empirical Gamescapes | 3.2 Effective Diversity
・有効多様性は𝑙1,1行列ノルムになる。
・円盤ゲームの場合は、(0, 0), グー・チョキ・
パーの 4 つがナッシュになる。

4. Algorithms
4. アルゴリズム（提案手法っぽいこと）
・新しく有効なエージェントを作るという目
的に立ち返る
・ここでは 2 つのアルゴリズムを提案する
・どちらも推移的に集団のレベルを向上させ
るような、豊かな配列を生成する
・アルゴリズムでは、経験的ゲームスケープ
(EGS)を活用する
・前提として、FFG の線形結合に対して、近
似的に最良の反応を探索する関数（oracle 又は
サブルーチン）にアクセスすることを考える
・これは複数の学習結果を 𝑝 でミックスした
パラメータを返す
・しかし、多くの学習結果を混合すればいい
というわけではない。一部のベクトルは冗長
であったり、弱いエージェントであったりす
るためだ。
oracle(v, w2)
oracle(v, w3)
oracle(v, w1)
p1
p2
p3

4. Algorithms | 4.1 Response to the Nash (PSRON)
4.1 対ナッシュ反応(PSRON)
・「最良のエージェント」という表現を非推
移ゲームに対して使う必要はない
・代わりに、直近の集団 𝐏𝑡 のナッシュ混合戦
略を考える
対ナッシュ反応方策空間(policy space response
to the Nash; PSRON)
・ナッシュ混合に対する近似的最適反応を逐
次的に生成
・セルフプレイの一般化
・ゲームが推移的である場合は、セルフ
プレイと一致
・FFG における二重オラクル [McMahan, 2003]
と捉えることが可能。
最適反応(best response): 【ゲーム理論】自己の効用を最
大化する行動
oracle(v, w2)
oracle(v, w3)
oracle(v, w1)
p1
p2
p3

・命題６は、PSRON が厳密に EGS を拡大する
ことを主張
PSRON の問題点
・集団 P がゲーム全体のナッシュ均衡を含む
場合には、適切な更新が行われない
・円盤ゲームのナッシュ均衡は (0, 0) だが、も
しこのエージェントを含む場合には、それ以
降更新が行われないことになる
→ 改良版 PSROrN はそんな場合でも更新を行え
る

（おまけ）
対一様分布反応(PSROU)
ナッシュ混合ではなく、一様な混合戦略を
使って学習する方法も考えることができる。
(cf.) 架空セルフプレイ [Brown, 1951]+
・PSROUも、PSRONと同様に実験的にはうまく
いく
・ナッシュ均衡を探すとか面倒なことを
しなくていい
・理論的な把握は今後の課題

4. Algorithms | 4.2 Response to the rectified Nash (PSROrN)
4.2 対整流化ナッシュ反応(PSROrN)
・ゲーム理論におけるニッチ戦略を導入
・有効なエージェント（ナッシュ均衡の凸法
を支える）は、勝ちか引き分けの場合にのみ
学習する
・直感的に、この考え方は「強みを伸ばし、
弱みを無視する」ことと等しい
・PSROrNの特殊例は、支配的エージェントが
存在する場合に生じる。
・この場合、ナッシュ均衡は支配的エージェ
ントに集中し、 PSROrNは集団における最良の
エージェントと戦うセルフプレイと等しいこ
とになる

命題７
PSROrNの目的関数は、有効多様性に等しい。
（→ PSROrNは集団の多様性を最大化する！）
・すなわち、 PSROrNはナッシュ均衡を支持す
るエージェントの、評価行列における正の面
を強調するように学習する
・PSROrNの病的なケースは、極端に局所的
ニッチが多い場合である。この場合には、ほ
かのエージェントの情報を活用しようとしな
い

PSROrNを円盤ゲームで行う（例１）
・円盤ゲームは微分可能
・勾配法を PSROrN のオラクルとして利用可能
自分が有利な状況のみから学習するとゲーム
スケープが広がり、多様性が向上
・パー(Paper) → グー(Rock)のみから学習
・グー(Rock) → チョキ(Scissors)のみから学習
・チョキ(Scissors) → パー(Paper)のみから学習

なぜ弱みを無視するのか
・弱みから学習を行うと、ゲームスケープが
縮小する方向に勾配が得られる
・直感的には、エージェントの弱みから目的
関数を作ることは、多様性を許容しないこと
に等しい
自分が不利な状況のみから学習するとゲーム
スケープが縮小し、多様性が減少
・パー(Paper) → チョキ(Scissors)のみから学習
・グー(Rock) → パー(Paper)のみから学習
・チョキ(Scissors) → グー(Rock)のみから学習

5. Experiment
・二つのゲーム（Blotto, Differentiable Lotto）で実験
・四つの手法（セルフプレイ、rN、N、U）でそれぞれ対戦
・PSROrN が相対的集団性能で他の手法を上回る

5. Experiment
多様性の評価
こちらも PSROrN が有効多様性を最大化していることがわかる

6. Conclusion
対称ゼロサムゲームにおける「開かれた学
習」を行う方法を提案した
ゴール
i) ゲームの戦略要素を抽出すること
ii) 抽出した戦略をマスターすること
成果
PSROrN というアルゴリズム

Deep Learning Japan
Join Us!: http://facebook.com/deeplearning
EOF

Open-ended Learning in Symmetric Zero-sum Games @ ICML19

Recommended

Recommended

More Related Content

Recently uploaded

Recently uploaded (10)

Featured

Featured (20)

Open-ended Learning in Symmetric Zero-sum Games @ ICML19