マルチエージェント強化学習 (MARL) と M^3RL

マルチエージェント強化学習
(MARL)とM^3RL論文紹介
東京工業大学経営工学系
清原明加
2020/5/15
MARLとM^3RL@総合ゼミ
清原明加
1

話すこと
• 論文までの道のり
• 読んだ論文の紹介
2020/5/15
清原明加
2

論文までの道のり-強化学習の位置づけ-
教師あり学習/教師無し学習/強化学習
2020/5/15
清原明加
3
machine learning
reinforcement
supervised unsupervised
Cartpole
Atari breakout
碁(Go)

論文までの道のり-強化学習とは？-
2020/5/15
清原明加
4
状態ｓ
報酬ｒ
行動 a
エージェント環境
将来的に得られる報酬を最大化するよう，エージェント
が行動価値/行動方策を学習し，最適化する．

論文までの道のり-MARLについて-
MARL.. Multi-Agent Reinforcement Learning
マルチエージェント強化学習
• 文字通り，強化学習をマルチエージェントにして，
個別最適化や全体最適化などを議論．
• シングルエージェントの場合と比べると，MDP(マルコフ決
定過程)を相互影響により達成できなくなるなど，収束性
が一つの課題と言われる．
• マルチエージェントならではの多様な問題設定が存在．
(次のスライドから一部紹介)
2020/5/15
清原明加
5

論文までの道のり-MARLの場面設定-
• 協力
エージェント同士が協力して行動しなければ良い報酬
が得られない，全体での報酬を大きくしたい場合．
• 敵対
zero-sumゲームなどの，一方が得をすれば他方が損を
する状況で敵対的にエージェントを学習させたい場合．
• 影響
必ずしもエージェント間で協力して何かを達成したい
訳ではないが，他のエージェントの行動も考慮に入れ
た上で最適化をしなければならない場合．
2020/5/15
清原明加
6

論文までの道のり-MARLならではの設定-
• Consensus
予め人間の手によって共有する情報と範囲を決めてお
き(その意味で”合意”という)，共有された情報と自分
の見れる範囲の観測を基にエージェントは意思決定す
る．また，全体最適の場合エージェント間の重みにつ
いても取り決められていたりする．
• Communication
エージェントに，”いつ” ”誰と” ”どのようにして”情報
を共有したり，シグナルを発信したりするのかまでも
学習・決定させる．ここで送られるメッセージは環境
を変化させないものと仮定．
2020/5/15
清原明加
7

論文までの道のり- MARLには階層も-
2020/5/15
清原明加
8
Centralized Decentralized
中央集権型
エージェントを統括して
全体を見る仮想エージェ
ントがいるイメージ．
サブグループ型のさらに
上のエージェントなども．
サブグループ型
近傍のエージェントとな
どサブグループを生成し，
その中を統括するリーダ
ーエージェントが存在し
ているイメージ．
自律分散型
各エージェントが個別に
意思決定を行い，全体を
統括するエージェントが
存在しないイメージ．

読んだ論文
• M^3RL: Mind-aware Multi-agent Management
Reinforcement Learning,
Shu, Tianmin, and Yuandong Tian, ICLR 2019
https://openreview.net/forum?id=BkzeUiRcY7
(論文までの道のりの参考文献)
• A Review of Cooperative Multi-Agent Deep Reinforcement
Learning,
Oroojlooyjadid, Afshin, and Davood Hajinezhad, 2019
https://arxiv.org/abs/1908.03963
2020/5/15
清原明加
9

内容
• 場面設定と概要
• この論文のすごいところ
• モデルの概要
MDPの仮定/契約/Worker’s Mind/Managerの目標/
チーム編成
• ネットワーク
概要/Performance History/Mind Tracker/Manager
• 学習時の工夫
• 結果
2020/5/15
清原明加
10

場面設定と概要
2020/5/15
清原明加
11
• 各Workerが個性(好み，スキルなど)を個別に持つ．
• Managerは前提での目標を達成できるようWorkerに仕
事を配分していくタスクを学習．
• ただし，各Workerは自分の利益最適化しか興味がない
ので，インセンティブ設計(ボーナス)が必要．
論文より

この論文はここがすごい
• マルチエージェントの設定の中でも，各エージェント
が異なった性質を持つ(Heterogeneous)最適化に成功．
• 今までは各エージェントの重みづけ和の最大化を学習
などしていたが，Managerを導入し，報酬設計を学習．
• 不完全情報でもManagerが方策を学習．
• ManagerがWorkerの気持ちを考慮できるように．
⇒今までは個々のエージェントによる最適化だったが，
メカニズムデザイン(インセンティブ設計)ができた！
2020/5/15
清原明加
12

モデル概要-MDPの仮定-
• : 目標集合
• : Workerの集合 (Heterogeneous, Self-interestedの仮定)
• 独立MDP
• : 状態空間
• : 行動空間
• : 報酬
• : 遷移確率
• : 方策
2020/5/15
清原明加
13

モデル概要-契約-
• 契約ベース
• 各Workerに対しSelf-interestedの仮定を置いたので，
ManagerとWorkerは契約に基づき仕事を行う．
• 契約は各期毎に更新され，ボーナスは離散的な設定．
• : 契約
• : Worker
• : 時間
• : 個人目標
• : ボーナス
2020/5/15
清原明加
14
Manager Worker

モデル概要-Worker’s Mind/好み-
• Worker’s Mindの導入(1)
• Managerにとって不完全情報な場合もある．
• 今回は，好み，意思，スキルの3つを特徴に．
• 信念の導入についてはFuture Workとされている．
• 好み :
この時の各Workerの報酬は，以下で与えられる．
2020/5/15
清原明加
15
好みに合っていたかゴール達成ボーナスゴール状態に到達したか

モデルの概要-Worker’s Mind/意思(概念)-
• 意思 : (直観的には，意思=Workerが個人的に達成したい目標)
• ゲーム理論的な仮定として，ManagerがWorker
の好みやスキルを正確に把握していない場合を
考える．
• この時，Managerから提示される契約がその
Workerにとって最適とは限らないので，純粋な
報酬最大化ではなく，効用の最大化を考える．
• 効用最大化の観点から，WorkerはManagerに提
示された契約にサインするか決定．
2020/5/15
清原明加
16

モデルの概要-Worker’s Mind/意思(定式化)-
• 意思 : (直観的には，意思=Workerが個人的に達成したい目標)
• スキルが完全情報である場合
• スキルが不完全情報である場合(将来の見通しがない？)
• Workerの意思決定 : (確率的でない)
2020/5/15
清原明加
17
(割引率)
報酬の割引現在価値
今期に得られる効用

モデルの概要-Worker’s Mind/スキル-
• スキル :
• 状態集合の一部として組み込み，遷移確率を全
状態と意思に条件づけて決定する．
• 例えば，新しい仕事をする決断をすれば，スキ
ルアップしていくことが可能で，スキルアップ
も方策に組み込める．
• 定式化 :
2020/5/15
清原明加
18

モデルの概要-Managerの目標-
• Managerの最適化
• 効用関数 :
全体での目標を達成すると効用が得られる．
• 報酬 :
• 最適化問題 :
2020/5/15
清原明加
19
効用からコスト(支払ったボーナス)を引いた差分全体の総和

モデルの概要-チーム編成-
• ManagerとWorkerのチーム編成
• 優秀なManagerはどんなチームを率いても優秀だと
いう仮定を置く．
• 普遍的なマネジメント能力を持たせるため，
Managerは毎エピソード毎にランダムサンプリング
されたWorkerによるチームを率いる．
• なお，(会社内)全体のWorkerに変動はないとする．
2020/5/15
清原明加
20
Manager
Worker
Sampling

ネットワーク-概要-
• 方策決定には，A2C(Mnih et al, 2016)を使用(Appendix1)．
• Performance History Module
• Mind Tracker Module の3つから成る．
• Manager Module ※すべてmanagerの学習に関する．
2020/5/15
清原明加
21

ネットワーク-Performance History-
• Performance History Module
• Workerは個性がある(Heterogeneousな)ので，識別す
る必要がある．
• ここでは，Workerの契約後tステップ以内に契約を
完遂する確率の経験的推定量から同定を行う．
• 定式化 : Performance History
• これを図のようにエンコードして，
履歴の集約を得る．
2020/5/15
清原明加
22

ネットワーク-Mind Tracker-
• Mind Tracker Module
• 履歴の集約と，Workerの行動や契約の状況の軌跡を
踏まえて，ManagerはWorkerのMindに対する信念を
更新する．
• 定式化 :
2020/5/15
清原明加
23

ネットワーク-Manager-
• Manager Module
• ManagerはWorkerを集約し，コンテクストを作る．
• Managerはコンテクストを基に，ゴール達成方策と
ボーナス配分方策の2つを学習する．
• 内部状態 :
• ゴール達成方策 :
• ボーナス配分方策 :
2020/5/15
清原明加
24

学習時の工夫
• Mind Trackerの性能の向上のために，模倣学習を導入し
ている(Appendix2)．
• Manager Moduleには，Successor Representation (Kulkarni et
al., 2016; Zhu et al., 2017; Barreto et al., 2017; Ma et al., 2018) なるものを採用
している(Appendix3)．
• 各エージェントが気ままに -貪欲的に探索してしまう
と，MDPが達成されなかったり，Managerの学習を困
難にしてしまう．
そのため，Worker毎に -貪欲探索を行うエピソードを
決定し，そのエピソードの間は同じWorkerが探索だけ
を行うことにより，ManagerがWorkerを理解するのを
手助けする．
2020/5/15
清原明加
25

結果-評価指標-
• 評価指標のタスクは，資源の収集/鉱山の発掘
2020/5/15
清原明加
26

結果-学習効率-
• 種々の結果から，M^3RLにおける提案手法は，他の手
法と比べて学習の効率が良い．
2020/5/15
清原明加
27

結果-適応力-
• 種々の結果から，M^3RLにおける提案手法を用いると，
通常の -貪欲法と比べて，Workerのスキルの変化に対
する高い適応力が得られる．
2020/5/15
清原明加
28

結果-柔軟性-
• 種々の結果から，M^3RLにおける提案手法を用いると，
通常の -貪欲法と比べて，チームの再編に対する
Managerの高い柔軟性が得られる．
2020/5/15
清原明加
29

この論文はここがすごい(再掲)
• マルチエージェントの設定の中でも，各エージェント
が異なった性質を持つ(Heterogeneous)最適化に成功．
• 今までは各エージェントの重みづけ和の最大化を学習
などしていたが，Managerを導入し，報酬設計を学習．
• 不完全情報でもManagerが方策を学習．
• ManagerがWorkerの気持ちを考慮できるように．
⇒今までは個々のエージェントによる最適化だったが，
メカニズムデザイン(インセンティブ設計)ができた！
2020/5/15
清原明加
30

Appendix1: A2C-概要-
• 論文
Asynchronous Methods for Deep Reinforcement Learning,
Mnih, Volodymyr, et al., ICML2016,
https://arxiv.org/abs/1602.01783
• 特徴
• 複数エージェントによる分散学習
• 方策ベースでの学習のため，経験再生を利用しない
• Actor-Critic + Advantage + Synchronous
2020/5/15
清原明加
31

Appendix1: A2C-Advantage Actor-Critic-
• Actor-Criticに，ある状態における行動の相対的な良さ
を示すアドバンテージ関数を導入し，方策を改善．
2020/5/15
清原明加
32
参考：MLP機械学習プロフェッショナルシリーズ強化学習
方策評価
(critic)
環境
(system)
方策改善
方策
(actor)
エージェント
行動
状態
報酬

Appendix1: A2C-同期分散学習-
2020/5/15
清原明加
33
In a single CPU
(multi-threading)
π V
Network
Input
π V
Network
Input
π V
Network
Input
π V
Network
Input
Synchronizer
Global Parameters
gradients
Updating
parameters
distributed learning
with multi agents

Appendix1: A3C-非同期分散学習(A2Cとの比較)-
2020/5/15
清原明加
34
In a single CPU
(multi-threading)
π V
Network
Input
π V
Network
Input
π V
Network
Input
π V
Network
Input
Global Parameters
gradients
Updating
parameters
distributed learning
with multi agents

Appendix2: 模倣学習
通常は方策により得られた履歴からMindを予測するが，
反対に仮定したMindから方策の予測を学習させることに
より，Mindの特徴を学習する．
2020/5/15
清原明加
35
方策 Mind Tracker
各Worker Manager
Mind Tracker方策予測
Manager
Cross-Entropy Lossの導入
通常
模倣

Appendix3: SR(Successor Representation)(1)
• 概要
• もともとは神経科学分野で，海馬という部分が将来
の到達予測位置を表現している，というモデリング
らしく，RLにも近年応用されている．
• 将来において，
(1)どれくらい全体目標を達成できそうか．
(2)どのくらいのボーナス支払いが生じそうか．
を予測し，これらの情報を基に価値を推定．
2020/5/15
清原明加
36
Deep Successor Reinforcement Learning, Kulkarni, Tejas D., et al.,
2016, https://arxiv.org/abs/1606.02396など

• 定式化(1)～t期におけるモデリング
• Managerの効用:
• Bonusの重みづけ:
• t期に達成された目標:
• t期に支払ったボーナス:
• t期のManagerの報酬:
2020/5/15
清原明加
37

• 定式化(2)～将来のモデリング
• 将来の目標達成見込み:
• 将来のボーナス支払い見込み:
• 現在のManagerの状態価値:
2020/5/15
清原明加
38
結果的に，期待報酬の現在割引和の形に．

マルチエージェント強化学習 (MARL) と M^3RL

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to マルチエージェント強化学習 (MARL) と M^3RL

Similar to マルチエージェント強化学習 (MARL) と M^3RL (20)

マルチエージェント強化学習 (MARL) と M^3RL