SlideShare a Scribd company logo
1 of 30
MARL Communication
- CommNet, TarMAC 論文紹介 -
東京工業大学 経営工学系
清原 明加
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
1
内容
• 導入
強化学習からMARL Communicationの問題設定まで
• 論文紹介
CommNet, TarMAC
• まとめ
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
2
導入 -強化学習の復習-
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
3
状態s
報酬r
行動 a
エージェント 環境
将来的に得られる報酬を最大化するよう,エージェント
が行動価値/行動方策を学習し,最適化する.
導入 -MARLの復習-
MARL.. Multi-Agent Reinforcement Learning
マルチエージェント強化学習
• 文字通り,強化学習をマルチエージェントにして,
個別最適化や全体最適化などを議論.
• シングルエージェントの場合と比べると,MDP(マルコフ決定過
程)を相互影響により達成できなくなるなど,収束性が一つの課題
と言われる.
• マルチエージェントならではの多様な問題設定が存在.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
4
導入 -各エージェントの観測範囲-
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
5
Fully Observable
(すべてのエージェントが)
すべての状態や報酬を観測できる.
Partially Observable
各エージェントは,自分の周りの
近くの状態や報酬のみ観測できる.
今回はココに注目☟
導入 -MARLの場面設定-
• 協力
エージェント同士が協力して行動しなければ良い報酬が得られ
ない,全体での報酬を大きくしたい場合.
• 敵対
zero-sumゲームなどの,一方が得をすれば他方が損をする状況で
敵対的にエージェントを学習させたい場合.
• 影響
必ずしもエージェント間で協力して何かを達成したい訳ではない
が,他のエージェントの行動も考慮に入れた上で最適化をしなけ
ればならない場合.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
6
今回はココに注目☟
報酬設計で
帰着可能
導入 - MARLにおける意思決定-
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
7
Centralized Decentralized
中央集権型
エージェントを統括して
全体を見る仮想エージェ
ントがいるイメージ.
サブグループ型のさらに
上のエージェントなども.
サブグループ型
近傍のエージェントとな
どサブグループを生成し,
その中を統括するリーダ
ーエージェントが存在し
ているイメージ.
自律分散型
各エージェントが個別に
意思決定を行い,全体を
統括するエージェントが
存在しないイメージ.
今回はココに注目☟
自律分散に意思決定を行うエージェント同士に,
協力をさせたい!
⇓
そのためには,他のエージェントの状況を知る必要性
導入 -考えたいこと-
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
8
⇓
情報共有をどのように行うか?
Partially Observable
各エージェントは,自分の周りの近くの
状態や報酬のみ観測できる.
予め観測の共有範囲をConsensusで決定.
・観測を全エージェント間で共有
・観測を近傍のエージェントや,サブグ
ループ内でのみ共有
・エージェント間の共有は行わない
導入 -従来の方法-
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
9
Share? or not?
globally locally individually
問題提起
Consensusとして予め情報の共有範囲を決めておくのではなく,
エージェントに学習させて情報共有(Communication)を行わせる
ことはできないか?
⇓
導入 -注意点-
• ここでいうCommunicationは,単なる情報(観測される状
態)の共有を指していることが多い.
• つまり一般的に想起される高次のコミュニケーション
(役割分担など)ではない.
• 相手に何かを行わせるためのシグナルを送る研究も
あるみたいだが,今回は触れない.
ex) Emergence of Grounded Compositional Language in Multi-Agent Populations,
Mordatch, Igor, and Pieter Abbeel., AAAI’18
https://arxiv.org/abs/1703.04908
https://openai.com/blog/learning-to-communicate/
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
10
紹介論文
• Learning Multiagent Communication with Backpropagation,
Sukhbaatar, Sainbayar, et al., NeurIPS’16 (以下CommNet)
https://arxiv.org/abs/1605.07736
• TarMAC: Targeted Multi-Agent Communication,
Das, Abhishek, et al., ICML’19 (以下TarMAC)
https://arxiv.org/abs/1810.11187
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
11
CommNet -概要-
• 各エージェントに行動選択の前に情報共有を行わせる.
• Communicationはdeep feed-forward neural networkで制御
し,back propagationで学習していく.
• あるエージェントのメッセージはnetworkを通じて全体
のエージェントに届くので,実質アナウンスメントに
なっている.(つまり,相手のノードは選択していない.)
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
12
CommNet -具体的な状況設定-
• :エージェント数(可変長)
• :全体の報酬 (目的関数)
簡単化のため,各エージェントの貢献度によらず,
各エージェントは を報酬として受け取る.
(つまり,今回は個別最適と全体最適の結果が一致.)
• POMDP:エージェントは環境を部分的に観測.
• Centralized learning and decentralized execution:
学習は全体で行い,意思決定は個別のエージェントが行う.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
13
CommNet -提案手法の詳細①-
各タイムステップ において,
• 各エージェントの観測可能な状態を入力として,
各エージェントの行動を出力とするCommNet を活用.
(CommNetの内部で情報の共有が行われていると言える.)
• CommNetは 層のNN.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
14
CommNet -提案手法の詳細②-
各エージェントの計算は,(エージェント , 層目の場合)
ひとつ前の層でのエージェントの隠れ状態を ,
他のエージェントからの情報を として,以下で与えられる.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
15
ちなみに,attentionしたバージョンはVAIN[*]
[*] VAIN: Attentional Multi-Agent Predictive Modeling,
Hoshen, Yedid., NeurIPS’17
CommNet -提案手法の詳細③-
最終層から行動の出力への計算は,
• ソフトマックス関数で各行動をとる確率(0,1)を算出し,
• 確率分布に従い行動をサンプリング
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
16
CommNet -提案手法の詳細④-
学習上の工夫として,以下が行われている.
• 情報の共有範囲を予め定めた近傍エージェントのみ
にすることも可能.
• ネットワークにskip connection(最初の層から)を入れる.
• ネットワークをLSTMにし,時系列性を持たせる.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
17
⇓
CommNet -実験と考察(一部抜粋)①-
タスクの紹介 - Traffic Junction
• 自動運転車での交差点での動きを制御するイメージ.
• 車がぶつかるのは最悪だが,かといって渋滞にもしたくない.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
18
衝突による罰則 交差点での待機時間による罰則
:時刻 の報酬
:時刻 に衝突した回数
:交差点に到着してから時刻 までの経過時間
:車(エージェント)の数
:衝突による罰則 (= -10)
:経過時間による罰則 (= -0.01)
CommNet -実験と考察(一部抜粋)②-
比較対象
• Independent controller: 情報共有は一切なし.
• Fully-connected:
エージェント同士が完全に結合されたネットワークの場合.
(CommNetでは に情報が集約が行われる点が異なる.)
• Discrete communication:
コミュニケーションを離散化した場合.
コミュニケーションの種類を示すインデックス を計算し,
one-hot化 ( ) してコミュニケーションベクトルを求める.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
19
結果
• シミュレーションで40ステップ行い,衝突が起こったら失敗と
定義.失敗率を指標に評価している.
• CommNetが普通にSOTA.特に,ネットワークをMLPよりもLSTM
など時系列性を加味できるモデルにした方が良い結果に.
CommNet -実験と考察(一部抜粋)③-
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
20
コミュニケーションに関する考察
• コミュニケーションにおけるエージェントの重要度を測る
communication vectorを導入.
• 交差点に差し掛かるあたりで,communication vector
のノルムが大きくなっている.
⇒普段は静かにしているが,交差点に突入する時
(=必要な時)のみコミュニケーションを活性化.
CommNet -実験と考察(一部抜粋)③-
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
21
式の意味
・ステップ において,エージェント の
隠れ状態がどれくらい重要視されたか.
・より直観的には,そのエージェントの状態が
重要なら隠れ状態のノルムも大きくなりそう.
TarMAC -概要-
• CommNetでは,全てのエージェントが同じ情報を受け
取っていた.
• TarMACではメッセージを受け取る側が重要度を決める
だけでなく,送信側にも,どのエージェントにどのく
らい送りたいかを決定させ,情報の重みづけを行う.
• 行動をとる前のメッセージのやり取りを複数ラウンド
にし,より意思決定のための材料を増やしている.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
22
設定は基本的にはCommNetと同じ
TarMAC -具体的な状況設定-
定式化
• :エージェント数
• :状態
• :行動
• :観測可能な状態
• 行動方策
• 状態遷移確率
• 次状態の観測確率
• 報酬
• 目的関数
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
23
TarMAC -提案手法の概観-
• あ
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
24
①情報共有の設定
②各エージェント
の意思決定
TarMAC -提案手法①-
①情報共有の設定
• 送る側..message を送信
messageはsignature とvalue に分解される.
• 受け取る側
①重視したい情報を示すquery を準備.
②signatureとqueryの行列積を次元数で正規化し,全てのエージェ
ントの情報に対しsoftmaxを取ることでattention weightを作成.
③attention weightに基づき,各エージェントから重みづけて情報
を受け取る.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
25
signatureとqueryは
エージェントの状況依存
でつくられるので,似た
状況にあるほど情報が
受け取られやすくなる.
※self-attentionも加味
TarMAC -提案手法②-
②各エージェントの意思決定
• GRUを用いて時系列性を加味.
内部状態 を計算し,方策は とする.
また,先述のmessageとqueryも内部状態を基に計算.
• 方策パラメータ はエージェント間で共有.
これにより,効率的な学習が可能.
• communicationは,actionの前に複数回行うことも可能.
(事前にラウンド数は設定しておく必要がある.)
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
26
TarMAC -提案手法の概観(再掲)-
• あ
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
27
TarMAC -実験と考察(一部抜粋)①-
CommNetと同じTraffic Junctionの実験結果
• 成功率で評価,失敗の定義はCommNet同様.
• Hardタスクについては右図を参照.
• TarMAC,特に2-roundの場合が良い結果に.
• また,メッセージのサイズを増やすよりコミュニケーションの
ラウンド数を増やす方が精度が向上.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
28
(CommNetより)
TarMAC -実験と考察(一部抜粋)②-
コミュニケーションに関する考察
• Hardタスクにおいてattentionで重みづけられる確率
は,一つ目の交差点を通り過ぎてから二つ目に差し
掛かるまでが大きくなっている.
• シミュレータ上の車の台数とattentionで重みづけられる車の台数
には正の相関があり,車の台数の変動に対応できることが分かる.
また,attentionが状況に適応するまでは少しタイムラグがあるこ
とが分かる.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
29
まとめ
• CommNetとTarMACではどちらもコミュニケーションが
数学的に記述され,エージェントにコミュニケーショ
ンを学習させることができた.
• また,実験結果からMARLにおけるコミュニケーション
に関する考察がなされており,必要な情報を取捨選択
することが重要であることが分かった.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
30

More Related Content

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

MARL communication (CommNet, TarMAC 論文紹介)