SlideShare a Scribd company logo
Copyright © 2019 Deep Learning Japan. All Rights Reserved. 1
Presenter: Shohei Ohsawa | 2019.6.16
David Balduzzi, Marta Garnelo, Yoram Bachrach, Wojciech M. Czarnecki, Julien Perolat,
Max Jaderberg, Thore Graepel
Deep Learning Japan
www.facebook.com/deeplearning
Open-ended Learning in Symmetric Zero-sum Games @ ICML19
*Deep Learning Japan は、2013 年に東京大学で立ち上がった、
日本初の AI・深層学習コミュニティです。
この論文について
• ICML19 採録
• マルチエージェント強化学習
– 常勝戦略がないジャンケンのようなゲームにおいて、戦略空間の構造を解明する
• Related Work のセクションはない
– Introduction のセクションに簡潔に記載
• 色々伏線が盛り込まれている
– すごくロジカル
元論文:https://arxiv.org/pdf/1901.08106.pdf
注意:これは論文の翻訳ではありません
(作り手の解釈をかなり含みます)
Index.
Introduction1.
Functional and Empirical Gamescapes3.
Algorithms4.
Experiment5.
Conclusion6.
Copyright © 2019 Deep Learning Japan. All Rights Reserved. 3
Functional Games2.
1. Introduction
・セルフプレイはゲームが推移的であることを前提としている
A < B かつ B < C ならば A < C
・ジャンケンのようなゲームの場合はどういったアルゴリズムがあり得る?
・ここでは PSROrN というセルフプレイの一般化を提案
・実験でもうまくいっている
=
?
2. Functional Games
関数形式ゲーム(FFG):ゲームを対称な関数として表現
ゼロサム:引数を入れ替えると符号が反転す
ることの要請
二つのパラメータから実数への写像
𝜙(𝑣, 𝑤) が大きい方が 𝑣 が強い
2. Functional Games
以下の二つの前提を置いてる
・FFG の戦略はパラメータ
・FFG は環境だけでなく、エージェントの構
造も内包
𝜙 は勝率も反映できる
1. 素朴に勝率を利用
2. オッズ形式
2. Functional Games
幾つかの道具を導入
①カリー化
2変数関数を高階関数に変換
②近似最適反応オラクル
ざっくり言うとパラメータの更新のこと
SGD・強化学習・遺伝的アルゴリズム
カリー化は関数型プログラミング言語で使
われる作用
2. Functional Games
③評価行列
・𝜙 をエージェントごとに対戦表形式で整理
・反対称行列になる(ゼロサムなので)
𝑛
𝑛
2. Functional Games
④ナッシュ均衡
⑤ゲーム分解
定理1
FFG は推移ゲームと循環ゲームの二つに分解
できる
2. Functional Games | 2.1 Transitive Games
𝜙 が二つのレート関数 𝑓 の差に分解できると
き、「推移的である」という。
𝜙 が推移的であるとき、最適戦略は敵が誰で
あるかに関係なく定まる(𝑓 に対して最適化
すればよいため)
最もシンプルなアルゴリズムは、敵パラメー
タ 𝑤 を一つ固定して、自パラメータ 𝑣 の更新
を繰り返す
2. Functional Games | 2.1 Transitive Games
イロレーティングの概念を内包
Elo のモデルだと、戦力差が十分大きい場
合に勾配消失が起こる
2. Functional Games | 2.1 Transitive Games
セルフプレイは自分自身を敵だと考えて更新
を実施する
→ Elo の勾配消失が発生しない
ここが変わってる
ことに注意
多分どこまでも強くなるとい
う意味だと思う
セルフプレイはゲームが推移的で
あることを暗黙の前提としてる
2. Functional Games | 2.2 Cyclic Games
𝜙 を全体にわたって積分すると 0 になるよう
なゲームを「循環ゲーム」という。
得意な敵もいればそう
でない敵もいる
𝑣
𝜙 < 0 (𝑣 loses)
𝜙 > 0 (𝑣 wins)
𝑊
2. Functional Games | 2.2 Cyclic Games
・ジャンケン(グー・チョキ・パー)は円盤
ゲーム上に自然に埋め込まれる
・ただし強さ(ε)の概念があることに注意
3. Functional and Empirical Gamescapes
ゼロサムゲームの支配戦略を見つける代わり
に、「戦略空間」を見つけることはできない
だろうか
ゲームスケープの提案
以下の二つを計算する
①集団性能
②実効ダイバーシティ
3. Functional and Empirical Gamescapes
①関数的ゲームスケープ(FGS)
あり得るすべての 𝒘 に対する 𝜙 𝒘 の線形結合
・関数集合になる
・計算不可能
②経験的ゲームスケープ(EGS)
対戦表に基づくゲームスケープ
3. Functional and Empirical Gamescapes
③最適化ランドスケープ
ゲームスケープの特殊例
・推移的ゲームの最適化空間
・敵エージェントに依存せず、自機のみで評
価可能
3. Functional and Empirical Gamescapes
冗長性
・二つの行列は実はどちらも正三角形
・じゃんけんの関係を表現
・しかしパッと見はよくわからない
命題2
・自己以外のエージェントで構成される凸包
に含まれるエージェントを「冗長」という。
・EGS は冗長なエージェントに対して不変
3. Functional and Empirical Gamescapes
・実際は、ゲームスケープの次元はエージェ
ントの数よりも小さい
3. Functional and Empirical Gamescapes
命題3
評価行列のランクが 𝑟 であるなら、EGS は 𝐑 𝒓
上で表現できる
Schur 分解を行い低次元空間で表現
𝑛 体のエージェントがサイクルを内している
とき、ランクは 𝑛 − 2 𝑛: 𝑒𝑣𝑒𝑛 , 𝑛 − 1 (𝑛: 𝑜𝑑𝑑)
になる。
3. Functional and Empirical Gamescapes
ナッシュ均衡とは、他のエージェントに対し
て勝つか引き分けになるエージェントこと。
FGS に対してナッシュ均衡は計算不可能
命題4
経験的ナッシュ均衡は以下で与えられる。
3. Functional and Empirical Gamescapes
EGS と FGS の違い
・じゃんけんで「グー・チョキ・パー」で勝
負するのと、「グー・パー」で勝負する場合
では帰結が異なる
・有限のエージェントからなる EGS から FGS
の内容に対して何か強い知見を得ることは不
可能
・これは、通常の強化学習でも同じことは言
える
・観測されていない次元を見つけるためには、
𝑊 から乱択するなどの方法が考えられる
3. Functional and Empirical Gamescapes | 3.1 Population Performance
・推移ゲームでは、𝑓(𝒗) の最適化で十分
・循環ゲームでは、個々のエージェントの性
能に意味はない(一部のエージェントには勝
つが、一部のエージェントは負ける)
・そこで、新たに「集団性能」を指標として
定義する
定義3
二つの集団 P, Q の間の強さを比較したい
それぞれのナッシュ均衡を (𝑝, 𝑞) とする
・自分は確率 𝑝 で混合戦略を取る
・相手は確率 𝑞 で混合戦略を取る
このとき、相対集団性能は 𝐴 の 𝑝, 𝑞 の同時分
布上の期待値として定義
・正の場合:集団 P が強い
・負の場合:集団 Q が強い
3. Functional and Empirical Gamescapes | 3.1 Population Performance
命題5
i) 性能 𝑣 はナッシュ均衡の選択に対して不変
ii) もし𝜙が単調(monotonic)なら、性能は最良の
エージェント同士を比較することで得られる
iii) hull(P) が hull(Q) に含まれる場合、
・v(P, Q) は必ず非正になる(Qが強いか引き
分け)
・v(P, R) < v(Q, R) が任意の R に対して成立
重要なのは (iii) で、大きな凸包(hull)ほど他の
集団に対して有利になることを意味する。
3. Functional and Empirical Gamescapes | 3.1 Population Performance
・円盤ゲームのナッシュ均衡は (0, 0)
・しかし、内部の集団よりも外部の集団の方
が強い
・ナッシュ均衡を含む集団を探索することは、
FFG を解くために必要だが十分ではない。
・たとえば FFG に対して引き分けを追加した
ものを考える。引き分け部分は明らかにナッ
シュ均衡だが、それ以外にもより豊かな戦略
や反撃戦略は考えることが可能である。
3. Functional and Empirical Gamescapes | 3.2 Effective Diversity
3.2 有効多様性
・多様性は、性能を無視した場合のエージェ
ントの重みや行動の違いを定量化する
・有効多様性は、有効なエージェント(ナッ
シュ均衡に存在するエージェント)の多様性
を評価する。
定義4
所与の集団 P に対して、評価行列 𝐴P のナッ
シュ均衡を 𝐩 とする。
集団 P の有効多様性は、均衡 𝐩 で混合戦略を
取るエージェント同士が戦った場合の、非負
の 𝜙 の期待値である。
支配戦略が存在する場合、有効多様性は 0 に
なる(常に引き分けだから)
𝑛
𝑛
赤い部分は無視
して平均
3. Functional and Empirical Gamescapes | 3.2 Effective Diversity
・有効多様性は𝑙1,1行列ノルムになる。
・円盤ゲームの場合は、(0, 0), グー・チョキ・
パーの 4 つがナッシュになる。
4. Algorithms
4. アルゴリズム(提案手法っぽいこと)
・新しく有効なエージェントを作るという目
的に立ち返る
・ここでは 2 つのアルゴリズムを提案する
・どちらも推移的に集団のレベルを向上させ
るような、豊かな配列を生成する
・アルゴリズムでは、経験的ゲームスケープ
(EGS)を活用する
・前提として、FFG の線形結合に対して、近
似的に最良の反応を探索する関数(oracle 又は
サブルーチン)にアクセスすることを考える
・これは複数の学習結果を 𝑝 でミックスした
パラメータを返す
・しかし、多くの学習結果を混合すればいい
というわけではない。一部のベクトルは冗長
であったり、弱いエージェントであったりす
るためだ。
oracle(v, w2)
oracle(v, w3)
oracle(v, w1)
p1
p2
p3
4. Algorithms | 4.1 Response to the Nash (PSRON)
4.1 対ナッシュ反応(PSRON)
・「最良のエージェント」という表現を非推
移ゲームに対して使う必要はない
・代わりに、直近の集団 𝐏𝑡 のナッシュ混合戦
略を考える
対ナッシュ反応方策空間(policy space response
to the Nash; PSRON)
・ナッシュ混合に対する近似的最適反応を逐
次的に生成
・セルフプレイの一般化
・ゲームが推移的である場合は、セルフ
プレイと一致
・FFG における二重オラクル [McMahan, 2003]
と捉えることが可能。
最適反応(best response): 【ゲーム理論】自己の効用を最
大化する行動
oracle(v, w2)
oracle(v, w3)
oracle(v, w1)
p1
p2
p3
4. Algorithms | 4.1 Response to the Nash (PSRON)
・命題6は、PSRON が厳密に EGS を拡大する
ことを主張
PSRON の問題点
・集団 P がゲーム全体のナッシュ均衡を含む
場合には、適切な更新が行われない
・円盤ゲームのナッシュ均衡は (0, 0) だが、も
しこのエージェントを含む場合には、それ以
降更新が行われないことになる
→ 改良版 PSROrN はそんな場合でも更新を行え
る
4. Algorithms | 4.1 Response to the Nash (PSRON)
(おまけ)
対一様分布反応(PSROU)
ナッシュ混合ではなく、一様な混合戦略を
使って学習する方法も考えることができる。
(cf.) 架空セルフプレイ [Brown, 1951]+
・PSROUも、PSRONと同様に実験的にはうまく
いく
・ナッシュ均衡を探すとか面倒なことを
しなくていい
・理論的な把握は今後の課題
4. Algorithms | 4.2 Response to the rectified Nash (PSROrN)
4.2 対整流化ナッシュ反応(PSROrN)
・ゲーム理論におけるニッチ戦略を導入
・有効なエージェント(ナッシュ均衡の凸法
を支える)は、勝ちか引き分けの場合にのみ
学習する
・直感的に、この考え方は「強みを伸ばし、
弱みを無視する」ことと等しい
・PSROrNの特殊例は、支配的エージェントが
存在する場合に生じる。
・この場合、ナッシュ均衡は支配的エージェ
ントに集中し、 PSROrNは集団における最良の
エージェントと戦うセルフプレイと等しいこ
とになる
4. Algorithms | 4.2 Response to the rectified Nash (PSROrN)
命題7
PSROrNの目的関数は、有効多様性に等しい。
(→ PSROrNは集団の多様性を最大化する!)
・すなわち、 PSROrNはナッシュ均衡を支持す
るエージェントの、評価行列における正の面
を強調するように学習する
・PSROrNの病的なケースは、極端に局所的
ニッチが多い場合である。この場合には、ほ
かのエージェントの情報を活用しようとしな
い
4. Algorithms | 4.2 Response to the rectified Nash (PSROrN)
PSROrNを円盤ゲームで行う(例1)
・円盤ゲームは微分可能
・勾配法を PSROrN のオラクルとして利用可能
自分が有利な状況のみから学習するとゲーム
スケープが広がり、多様性が向上
・パー(Paper) → グー(Rock)のみから学習
・グー(Rock) → チョキ(Scissors)のみから学習
・チョキ(Scissors) → パー(Paper)のみから学習
4. Algorithms | 4.2 Response to the rectified Nash (PSROrN)
なぜ弱みを無視するのか
・弱みから学習を行うと、ゲームスケープが
縮小する方向に勾配が得られる
・直感的には、エージェントの弱みから目的
関数を作ることは、多様性を許容しないこと
に等しい
自分が不利な状況のみから学習するとゲーム
スケープが縮小し、多様性が減少
・パー(Paper) → チョキ(Scissors)のみから学習
・グー(Rock) → パー(Paper)のみから学習
・チョキ(Scissors) → グー(Rock)のみから学習
5. Experiment
・二つのゲーム(Blotto, Differentiable Lotto)で実験
・四つの手法(セルフプレイ、rN、N、U)でそれぞれ対戦
・PSROrN が相対的集団性能で他の手法を上回る
5. Experiment
多様性の評価
こちらも PSROrN が有効多様性を最大化していることがわかる
6. Conclusion
対称ゼロサムゲームにおける「開かれた学
習」を行う方法を提案した
ゴール
i) ゲームの戦略要素を抽出すること
ii) 抽出した戦略をマスターすること
成果
PSROrN というアルゴリズム
Copyright © 2019 Deep Learning Japan. All Rights Reserved. 41
Deep Learning Japan
Join Us!: http://facebook.com/deeplearning
EOF

More Related Content

Recently uploaded

Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 

Recently uploaded (10)

Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Open-ended Learning in Symmetric Zero-sum Games @ ICML19

  • 1. Copyright © 2019 Deep Learning Japan. All Rights Reserved. 1 Presenter: Shohei Ohsawa | 2019.6.16 David Balduzzi, Marta Garnelo, Yoram Bachrach, Wojciech M. Czarnecki, Julien Perolat, Max Jaderberg, Thore Graepel Deep Learning Japan www.facebook.com/deeplearning Open-ended Learning in Symmetric Zero-sum Games @ ICML19 *Deep Learning Japan は、2013 年に東京大学で立ち上がった、 日本初の AI・深層学習コミュニティです。
  • 2. この論文について • ICML19 採録 • マルチエージェント強化学習 – 常勝戦略がないジャンケンのようなゲームにおいて、戦略空間の構造を解明する • Related Work のセクションはない – Introduction のセクションに簡潔に記載 • 色々伏線が盛り込まれている – すごくロジカル 元論文:https://arxiv.org/pdf/1901.08106.pdf 注意:これは論文の翻訳ではありません (作り手の解釈をかなり含みます)
  • 3. Index. Introduction1. Functional and Empirical Gamescapes3. Algorithms4. Experiment5. Conclusion6. Copyright © 2019 Deep Learning Japan. All Rights Reserved. 3 Functional Games2.
  • 4. 1. Introduction ・セルフプレイはゲームが推移的であることを前提としている A < B かつ B < C ならば A < C ・ジャンケンのようなゲームの場合はどういったアルゴリズムがあり得る? ・ここでは PSROrN というセルフプレイの一般化を提案 ・実験でもうまくいっている = ?
  • 6. 2. Functional Games 以下の二つの前提を置いてる ・FFG の戦略はパラメータ ・FFG は環境だけでなく、エージェントの構 造も内包 𝜙 は勝率も反映できる 1. 素朴に勝率を利用 2. オッズ形式
  • 8. 2. Functional Games ③評価行列 ・𝜙 をエージェントごとに対戦表形式で整理 ・反対称行列になる(ゼロサムなので) 𝑛 𝑛
  • 9. 2. Functional Games ④ナッシュ均衡 ⑤ゲーム分解 定理1 FFG は推移ゲームと循環ゲームの二つに分解 できる
  • 10. 2. Functional Games | 2.1 Transitive Games 𝜙 が二つのレート関数 𝑓 の差に分解できると き、「推移的である」という。 𝜙 が推移的であるとき、最適戦略は敵が誰で あるかに関係なく定まる(𝑓 に対して最適化 すればよいため) 最もシンプルなアルゴリズムは、敵パラメー タ 𝑤 を一つ固定して、自パラメータ 𝑣 の更新 を繰り返す
  • 11. 2. Functional Games | 2.1 Transitive Games イロレーティングの概念を内包 Elo のモデルだと、戦力差が十分大きい場 合に勾配消失が起こる
  • 12. 2. Functional Games | 2.1 Transitive Games セルフプレイは自分自身を敵だと考えて更新 を実施する → Elo の勾配消失が発生しない ここが変わってる ことに注意 多分どこまでも強くなるとい う意味だと思う セルフプレイはゲームが推移的で あることを暗黙の前提としてる
  • 13. 2. Functional Games | 2.2 Cyclic Games 𝜙 を全体にわたって積分すると 0 になるよう なゲームを「循環ゲーム」という。 得意な敵もいればそう でない敵もいる 𝑣 𝜙 < 0 (𝑣 loses) 𝜙 > 0 (𝑣 wins) 𝑊
  • 14. 2. Functional Games | 2.2 Cyclic Games ・ジャンケン(グー・チョキ・パー)は円盤 ゲーム上に自然に埋め込まれる ・ただし強さ(ε)の概念があることに注意
  • 15. 3. Functional and Empirical Gamescapes ゼロサムゲームの支配戦略を見つける代わり に、「戦略空間」を見つけることはできない だろうか ゲームスケープの提案 以下の二つを計算する ①集団性能 ②実効ダイバーシティ
  • 16. 3. Functional and Empirical Gamescapes ①関数的ゲームスケープ(FGS) あり得るすべての 𝒘 に対する 𝜙 𝒘 の線形結合 ・関数集合になる ・計算不可能 ②経験的ゲームスケープ(EGS) 対戦表に基づくゲームスケープ
  • 17. 3. Functional and Empirical Gamescapes ③最適化ランドスケープ ゲームスケープの特殊例 ・推移的ゲームの最適化空間 ・敵エージェントに依存せず、自機のみで評 価可能
  • 18. 3. Functional and Empirical Gamescapes 冗長性 ・二つの行列は実はどちらも正三角形 ・じゃんけんの関係を表現 ・しかしパッと見はよくわからない 命題2 ・自己以外のエージェントで構成される凸包 に含まれるエージェントを「冗長」という。 ・EGS は冗長なエージェントに対して不変
  • 19. 3. Functional and Empirical Gamescapes ・実際は、ゲームスケープの次元はエージェ ントの数よりも小さい
  • 20. 3. Functional and Empirical Gamescapes 命題3 評価行列のランクが 𝑟 であるなら、EGS は 𝐑 𝒓 上で表現できる Schur 分解を行い低次元空間で表現 𝑛 体のエージェントがサイクルを内している とき、ランクは 𝑛 − 2 𝑛: 𝑒𝑣𝑒𝑛 , 𝑛 − 1 (𝑛: 𝑜𝑑𝑑) になる。
  • 21. 3. Functional and Empirical Gamescapes ナッシュ均衡とは、他のエージェントに対し て勝つか引き分けになるエージェントこと。 FGS に対してナッシュ均衡は計算不可能 命題4 経験的ナッシュ均衡は以下で与えられる。
  • 22. 3. Functional and Empirical Gamescapes EGS と FGS の違い ・じゃんけんで「グー・チョキ・パー」で勝 負するのと、「グー・パー」で勝負する場合 では帰結が異なる ・有限のエージェントからなる EGS から FGS の内容に対して何か強い知見を得ることは不 可能 ・これは、通常の強化学習でも同じことは言 える ・観測されていない次元を見つけるためには、 𝑊 から乱択するなどの方法が考えられる
  • 23. 3. Functional and Empirical Gamescapes | 3.1 Population Performance ・推移ゲームでは、𝑓(𝒗) の最適化で十分 ・循環ゲームでは、個々のエージェントの性 能に意味はない(一部のエージェントには勝 つが、一部のエージェントは負ける) ・そこで、新たに「集団性能」を指標として 定義する 定義3 二つの集団 P, Q の間の強さを比較したい それぞれのナッシュ均衡を (𝑝, 𝑞) とする ・自分は確率 𝑝 で混合戦略を取る ・相手は確率 𝑞 で混合戦略を取る このとき、相対集団性能は 𝐴 の 𝑝, 𝑞 の同時分 布上の期待値として定義 ・正の場合:集団 P が強い ・負の場合:集団 Q が強い
  • 24. 3. Functional and Empirical Gamescapes | 3.1 Population Performance 命題5 i) 性能 𝑣 はナッシュ均衡の選択に対して不変 ii) もし𝜙が単調(monotonic)なら、性能は最良の エージェント同士を比較することで得られる iii) hull(P) が hull(Q) に含まれる場合、 ・v(P, Q) は必ず非正になる(Qが強いか引き 分け) ・v(P, R) < v(Q, R) が任意の R に対して成立 重要なのは (iii) で、大きな凸包(hull)ほど他の 集団に対して有利になることを意味する。
  • 25. 3. Functional and Empirical Gamescapes | 3.1 Population Performance ・円盤ゲームのナッシュ均衡は (0, 0) ・しかし、内部の集団よりも外部の集団の方 が強い ・ナッシュ均衡を含む集団を探索することは、 FFG を解くために必要だが十分ではない。 ・たとえば FFG に対して引き分けを追加した ものを考える。引き分け部分は明らかにナッ シュ均衡だが、それ以外にもより豊かな戦略 や反撃戦略は考えることが可能である。
  • 26. 3. Functional and Empirical Gamescapes | 3.2 Effective Diversity 3.2 有効多様性 ・多様性は、性能を無視した場合のエージェ ントの重みや行動の違いを定量化する ・有効多様性は、有効なエージェント(ナッ シュ均衡に存在するエージェント)の多様性 を評価する。 定義4 所与の集団 P に対して、評価行列 𝐴P のナッ シュ均衡を 𝐩 とする。 集団 P の有効多様性は、均衡 𝐩 で混合戦略を 取るエージェント同士が戦った場合の、非負 の 𝜙 の期待値である。 支配戦略が存在する場合、有効多様性は 0 に なる(常に引き分けだから) 𝑛 𝑛 赤い部分は無視 して平均
  • 27. 3. Functional and Empirical Gamescapes | 3.2 Effective Diversity ・有効多様性は𝑙1,1行列ノルムになる。 ・円盤ゲームの場合は、(0, 0), グー・チョキ・ パーの 4 つがナッシュになる。
  • 28. 4. Algorithms 4. アルゴリズム(提案手法っぽいこと) ・新しく有効なエージェントを作るという目 的に立ち返る ・ここでは 2 つのアルゴリズムを提案する ・どちらも推移的に集団のレベルを向上させ るような、豊かな配列を生成する ・アルゴリズムでは、経験的ゲームスケープ (EGS)を活用する ・前提として、FFG の線形結合に対して、近 似的に最良の反応を探索する関数(oracle 又は サブルーチン)にアクセスすることを考える ・これは複数の学習結果を 𝑝 でミックスした パラメータを返す ・しかし、多くの学習結果を混合すればいい というわけではない。一部のベクトルは冗長 であったり、弱いエージェントであったりす るためだ。 oracle(v, w2) oracle(v, w3) oracle(v, w1) p1 p2 p3
  • 29. 4. Algorithms | 4.1 Response to the Nash (PSRON) 4.1 対ナッシュ反応(PSRON) ・「最良のエージェント」という表現を非推 移ゲームに対して使う必要はない ・代わりに、直近の集団 𝐏𝑡 のナッシュ混合戦 略を考える 対ナッシュ反応方策空間(policy space response to the Nash; PSRON) ・ナッシュ混合に対する近似的最適反応を逐 次的に生成 ・セルフプレイの一般化 ・ゲームが推移的である場合は、セルフ プレイと一致 ・FFG における二重オラクル [McMahan, 2003] と捉えることが可能。 最適反応(best response): 【ゲーム理論】自己の効用を最 大化する行動 oracle(v, w2) oracle(v, w3) oracle(v, w1) p1 p2 p3
  • 30. 4. Algorithms | 4.1 Response to the Nash (PSRON) ・命題6は、PSRON が厳密に EGS を拡大する ことを主張 PSRON の問題点 ・集団 P がゲーム全体のナッシュ均衡を含む 場合には、適切な更新が行われない ・円盤ゲームのナッシュ均衡は (0, 0) だが、も しこのエージェントを含む場合には、それ以 降更新が行われないことになる → 改良版 PSROrN はそんな場合でも更新を行え る
  • 31. 4. Algorithms | 4.1 Response to the Nash (PSRON) (おまけ) 対一様分布反応(PSROU) ナッシュ混合ではなく、一様な混合戦略を 使って学習する方法も考えることができる。 (cf.) 架空セルフプレイ [Brown, 1951]+ ・PSROUも、PSRONと同様に実験的にはうまく いく ・ナッシュ均衡を探すとか面倒なことを しなくていい ・理論的な把握は今後の課題
  • 32. 4. Algorithms | 4.2 Response to the rectified Nash (PSROrN) 4.2 対整流化ナッシュ反応(PSROrN) ・ゲーム理論におけるニッチ戦略を導入 ・有効なエージェント(ナッシュ均衡の凸法 を支える)は、勝ちか引き分けの場合にのみ 学習する ・直感的に、この考え方は「強みを伸ばし、 弱みを無視する」ことと等しい ・PSROrNの特殊例は、支配的エージェントが 存在する場合に生じる。 ・この場合、ナッシュ均衡は支配的エージェ ントに集中し、 PSROrNは集団における最良の エージェントと戦うセルフプレイと等しいこ とになる
  • 33. 4. Algorithms | 4.2 Response to the rectified Nash (PSROrN) 命題7 PSROrNの目的関数は、有効多様性に等しい。 (→ PSROrNは集団の多様性を最大化する!) ・すなわち、 PSROrNはナッシュ均衡を支持す るエージェントの、評価行列における正の面 を強調するように学習する ・PSROrNの病的なケースは、極端に局所的 ニッチが多い場合である。この場合には、ほ かのエージェントの情報を活用しようとしな い
  • 34. 4. Algorithms | 4.2 Response to the rectified Nash (PSROrN) PSROrNを円盤ゲームで行う(例1) ・円盤ゲームは微分可能 ・勾配法を PSROrN のオラクルとして利用可能 自分が有利な状況のみから学習するとゲーム スケープが広がり、多様性が向上 ・パー(Paper) → グー(Rock)のみから学習 ・グー(Rock) → チョキ(Scissors)のみから学習 ・チョキ(Scissors) → パー(Paper)のみから学習
  • 35. 4. Algorithms | 4.2 Response to the rectified Nash (PSROrN) なぜ弱みを無視するのか ・弱みから学習を行うと、ゲームスケープが 縮小する方向に勾配が得られる ・直感的には、エージェントの弱みから目的 関数を作ることは、多様性を許容しないこと に等しい 自分が不利な状況のみから学習するとゲーム スケープが縮小し、多様性が減少 ・パー(Paper) → チョキ(Scissors)のみから学習 ・グー(Rock) → パー(Paper)のみから学習 ・チョキ(Scissors) → グー(Rock)のみから学習
  • 36. 5. Experiment ・二つのゲーム(Blotto, Differentiable Lotto)で実験 ・四つの手法(セルフプレイ、rN、N、U)でそれぞれ対戦 ・PSROrN が相対的集団性能で他の手法を上回る
  • 37. 5. Experiment 多様性の評価 こちらも PSROrN が有効多様性を最大化していることがわかる
  • 39.
  • 40.
  • 41. Copyright © 2019 Deep Learning Japan. All Rights Reserved. 41 Deep Learning Japan Join Us!: http://facebook.com/deeplearning EOF