MARL communication (CommNet, TarMAC 論文紹介)

MARL Communication
- CommNet, TarMAC 論文紹介 -
東京工業大学経営工学系
清原明加
2020.07.16
CommNet&TarMAC論文紹介
清原明加
1

内容
• 導入
強化学習からMARL Communicationの問題設定まで
• 論文紹介
CommNet, TarMAC
• まとめ
2020.07.16
清原明加
2

導入 -強化学習の復習-
2020.07.16
清原明加
3
状態ｓ
報酬ｒ
行動 a
エージェント環境
将来的に得られる報酬を最大化するよう，エージェント
が行動価値/行動方策を学習し，最適化する．

導入 -MARLの復習-
MARL.. Multi-Agent Reinforcement Learning
マルチエージェント強化学習
• 文字通り，強化学習をマルチエージェントにして，
個別最適化や全体最適化などを議論．
• シングルエージェントの場合と比べると，MDP(マルコフ決定過
程)を相互影響により達成できなくなるなど，収束性が一つの課題
と言われる．
• マルチエージェントならではの多様な問題設定が存在．
2020.07.16
清原明加
4

導入 -各エージェントの観測範囲-
2020.07.16
清原明加
5
Fully Observable
(すべてのエージェントが)
すべての状態や報酬を観測できる．
Partially Observable
各エージェントは，自分の周りの
近くの状態や報酬のみ観測できる．
今回はココに注目☟

導入 -MARLの場面設定-
• 協力
エージェント同士が協力して行動しなければ良い報酬が得られ
ない，全体での報酬を大きくしたい場合．
• 敵対
zero-sumゲームなどの，一方が得をすれば他方が損をする状況で
敵対的にエージェントを学習させたい場合．
• 影響
必ずしもエージェント間で協力して何かを達成したい訳ではない
が，他のエージェントの行動も考慮に入れた上で最適化をしなけ
ればならない場合．
2020.07.16
清原明加
6
報酬設計で
帰着可能

導入 - MARLにおける意思決定-
2020.07.16
清原明加
7
Centralized Decentralized
中央集権型
エージェントを統括して
全体を見る仮想エージェ
ントがいるイメージ．
サブグループ型のさらに
上のエージェントなども．
サブグループ型
近傍のエージェントとな
どサブグループを生成し，
その中を統括するリーダ
ーエージェントが存在し
ているイメージ．
自律分散型
各エージェントが個別に
意思決定を行い，全体を
統括するエージェントが
存在しないイメージ．

自律分散に意思決定を行うエージェント同士に，
協力をさせたい！
⇓
そのためには，他のエージェントの状況を知る必要性
導入 -考えたいこと-
2020.07.16
清原明加
8
⇓
情報共有をどのように行うか？

Partially Observable
各エージェントは，自分の周りの近くの
状態や報酬のみ観測できる．
予め観測の共有範囲をConsensusで決定．
・観測を全エージェント間で共有
・観測を近傍のエージェントや，サブグ
ループ内でのみ共有
・エージェント間の共有は行わない
導入 -従来の方法-
2020.07.16
清原明加
9
Share? or not?
globally locally individually
問題提起
Consensusとして予め情報の共有範囲を決めておくのではなく，
エージェントに学習させて情報共有(Communication)を行わせる
ことはできないか？
⇓

導入 -注意点-
• ここでいうCommunicationは，単なる情報(観測される状
態)の共有を指していることが多い．
• つまり一般的に想起される高次のコミュニケーション
(役割分担など)ではない．
• 相手に何かを行わせるためのシグナルを送る研究も
あるみたいだが，今回は触れない．
ex) Emergence of Grounded Compositional Language in Multi-Agent Populations,
Mordatch, Igor, and Pieter Abbeel., AAAI’18
https://arxiv.org/abs/1703.04908
https://openai.com/blog/learning-to-communicate/
2020.07.16
清原明加
10

紹介論文
• Learning Multiagent Communication with Backpropagation,
Sukhbaatar, Sainbayar, et al., NeurIPS’16 (以下CommNet)
• TarMAC: Targeted Multi-Agent Communication,
Das, Abhishek, et al., ICML’19 (以下TarMAC)
2020.07.16
清原明加
11

CommNet -概要-
• 各エージェントに行動選択の前に情報共有を行わせる．
• Communicationはdeep feed-forward neural networkで制御
し，back propagationで学習していく．
• あるエージェントのメッセージはnetworkを通じて全体
のエージェントに届くので，実質アナウンスメントに
なっている．(つまり，相手のノードは選択していない．)
2020.07.16
清原明加
12

CommNet -具体的な状況設定-
• ：エージェント数(可変長)
• ：全体の報酬 (目的関数)
簡単化のため，各エージェントの貢献度によらず，
各エージェントはを報酬として受け取る．
(つまり，今回は個別最適と全体最適の結果が一致．)
• POMDP：エージェントは環境を部分的に観測．
• Centralized learning and decentralized execution：
学習は全体で行い，意思決定は個別のエージェントが行う．
2020.07.16
清原明加
13

CommNet -提案手法の詳細①-
各タイムステップにおいて，
• 各エージェントの観測可能な状態を入力として，
各エージェントの行動を出力とするCommNet を活用．
(CommNetの内部で情報の共有が行われていると言える．)
• CommNetは層のNN．
2020.07.16
清原明加
14

CommNet -提案手法の詳細②-
各エージェントの計算は，(エージェント，層目の場合)
ひとつ前の層でのエージェントの隠れ状態を，
他のエージェントからの情報をとして，以下で与えられる．
2020.07.16
清原明加
15
ちなみに，attentionしたバージョンはVAIN[*]
[*] VAIN: Attentional Multi-Agent Predictive Modeling,
Hoshen, Yedid., NeurIPS’17

CommNet -提案手法の詳細③-
最終層から行動の出力への計算は，
• ソフトマックス関数で各行動をとる確率(0,1)を算出し，
• 確率分布に従い行動をサンプリング
2020.07.16
清原明加
16

CommNet -提案手法の詳細④-
学習上の工夫として，以下が行われている．
• 情報の共有範囲を予め定めた近傍エージェントのみ
にすることも可能．
• ネットワークにskip connection(最初の層から)を入れる．
• ネットワークをLSTMにし，時系列性を持たせる．
2020.07.16
清原明加
17
⇓

CommNet -実験と考察(一部抜粋)①-
タスクの紹介 - Traffic Junction
• 自動運転車での交差点での動きを制御するイメージ．
• 車がぶつかるのは最悪だが，かといって渋滞にもしたくない．
2020.07.16
清原明加
18
衝突による罰則交差点での待機時間による罰則
：時刻の報酬
：時刻に衝突した回数
：交差点に到着してから時刻までの経過時間
：車(エージェント)の数
：衝突による罰則 (= -10)
：経過時間による罰則 (= -0.01)

CommNet -実験と考察(一部抜粋)②-
比較対象
• Independent controller: 情報共有は一切なし．
• Fully-connected:
エージェント同士が完全に結合されたネットワークの場合．
(CommNetではに情報が集約が行われる点が異なる．)
• Discrete communication:
コミュニケーションを離散化した場合．
コミュニケーションの種類を示すインデックスを計算し，
one-hot化 ( ) してコミュニケーションベクトルを求める．
2020.07.16
清原明加
19

結果
• シミュレーションで40ステップ行い，衝突が起こったら失敗と
定義．失敗率を指標に評価している．
• CommNetが普通にSOTA．特に，ネットワークをMLPよりもLSTM
など時系列性を加味できるモデルにした方が良い結果に．
CommNet -実験と考察(一部抜粋)③-
2020.07.16
清原明加
20

コミュニケーションに関する考察
• コミュニケーションにおけるエージェントの重要度を測る
communication vectorを導入．
• 交差点に差し掛かるあたりで，communication vector
のノルムが大きくなっている．
⇒普段は静かにしているが，交差点に突入する時
(=必要な時)のみコミュニケーションを活性化．
CommNet -実験と考察(一部抜粋)③-
2020.07.16
清原明加
21
式の意味
・ステップにおいて，エージェントの
隠れ状態がどれくらい重要視されたか．
・より直観的には，そのエージェントの状態が
重要なら隠れ状態のノルムも大きくなりそう．

TarMAC -概要-
• CommNetでは，全てのエージェントが同じ情報を受け
取っていた．
• TarMACではメッセージを受け取る側が重要度を決める
だけでなく，送信側にも，どのエージェントにどのく
らい送りたいかを決定させ，情報の重みづけを行う．
• 行動をとる前のメッセージのやり取りを複数ラウンド
にし，より意思決定のための材料を増やしている．
2020.07.16
清原明加
22

設定は基本的にはCommNetと同じ
TarMAC -具体的な状況設定-
定式化
• ：エージェント数
• ：状態
• ：行動
• ：観測可能な状態
• 行動方策
• 状態遷移確率
• 次状態の観測確率
• 報酬
• 目的関数
2020.07.16
清原明加
23

TarMAC -提案手法の概観-
• あ
2020.07.16
清原明加
24
①情報共有の設定
②各エージェント
の意思決定

TarMAC -提案手法①-
①情報共有の設定
• 送る側..message を送信
messageはsignature とvalue に分解される．
• 受け取る側
①重視したい情報を示すquery を準備．
②signatureとqueryの行列積を次元数で正規化し，全てのエージェ
ントの情報に対しsoftmaxを取ることでattention weightを作成．
③attention weightに基づき，各エージェントから重みづけて情報
を受け取る．
2020.07.16
清原明加
25
signatureとqueryは
エージェントの状況依存
でつくられるので，似た
状況にあるほど情報が
受け取られやすくなる．
※self-attentionも加味

TarMAC -提案手法②-
②各エージェントの意思決定
• GRUを用いて時系列性を加味．
内部状態を計算し，方策はとする．
また，先述のmessageとqueryも内部状態を基に計算．
• 方策パラメータはエージェント間で共有．
これにより，効率的な学習が可能．
• communicationは，actionの前に複数回行うことも可能．
(事前にラウンド数は設定しておく必要がある．)
2020.07.16
清原明加
26

TarMAC -提案手法の概観(再掲)-
• あ
2020.07.16
清原明加
27

TarMAC -実験と考察(一部抜粋)①-
CommNetと同じTraffic Junctionの実験結果
• 成功率で評価，失敗の定義はCommNet同様．
• Hardタスクについては右図を参照．
• TarMAC，特に2-roundの場合が良い結果に．
• また，メッセージのサイズを増やすよりコミュニケーションの
ラウンド数を増やす方が精度が向上．
2020.07.16
清原明加
28
(CommNetより)

TarMAC -実験と考察(一部抜粋)②-
コミュニケーションに関する考察
• Hardタスクにおいてattentionで重みづけられる確率
は，一つ目の交差点を通り過ぎてから二つ目に差し
掛かるまでが大きくなっている．
• シミュレータ上の車の台数とattentionで重みづけられる車の台数
には正の相関があり，車の台数の変動に対応できることが分かる．
また，attentionが状況に適応するまでは少しタイムラグがあるこ
とが分かる．
2020.07.16
清原明加
29

まとめ
• CommNetとTarMACではどちらもコミュニケーションが
数学的に記述され，エージェントにコミュニケーショ
ンを学習させることができた．
• また，実験結果からMARLにおけるコミュニケーション
に関する考察がなされており，必要な情報を取捨選択
することが重要であることが分かった．
2020.07.16
清原明加
30

MARL communication (CommNet, TarMAC 論文紹介)

Recommended

Recommended

More Related Content

Featured

Featured (20)

MARL communication (CommNet, TarMAC 論文紹介)