MARL communication (CommNet, TarMAC 論文紹介)
- 4. 導入 -MARLの復習-
MARL.. Multi-Agent Reinforcement Learning
マルチエージェント強化学習
• 文字通り,強化学習をマルチエージェントにして,
個別最適化や全体最適化などを議論.
• シングルエージェントの場合と比べると,MDP(マルコフ決定過
程)を相互影響により達成できなくなるなど,収束性が一つの課題
と言われる.
• マルチエージェントならではの多様な問題設定が存在.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
4
- 7. 導入 - MARLにおける意思決定-
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
7
Centralized Decentralized
中央集権型
エージェントを統括して
全体を見る仮想エージェ
ントがいるイメージ.
サブグループ型のさらに
上のエージェントなども.
サブグループ型
近傍のエージェントとな
どサブグループを生成し,
その中を統括するリーダ
ーエージェントが存在し
ているイメージ.
自律分散型
各エージェントが個別に
意思決定を行い,全体を
統括するエージェントが
存在しないイメージ.
今回はココに注目☟
- 10. 導入 -注意点-
• ここでいうCommunicationは,単なる情報(観測される状
態)の共有を指していることが多い.
• つまり一般的に想起される高次のコミュニケーション
(役割分担など)ではない.
• 相手に何かを行わせるためのシグナルを送る研究も
あるみたいだが,今回は触れない.
ex) Emergence of Grounded Compositional Language in Multi-Agent Populations,
Mordatch, Igor, and Pieter Abbeel., AAAI’18
https://arxiv.org/abs/1703.04908
https://openai.com/blog/learning-to-communicate/
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
10
- 11. 紹介論文
• Learning Multiagent Communication with Backpropagation,
Sukhbaatar, Sainbayar, et al., NeurIPS’16 (以下CommNet)
https://arxiv.org/abs/1605.07736
• TarMAC: Targeted Multi-Agent Communication,
Das, Abhishek, et al., ICML’19 (以下TarMAC)
https://arxiv.org/abs/1810.11187
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
11
- 12. CommNet -概要-
• 各エージェントに行動選択の前に情報共有を行わせる.
• Communicationはdeep feed-forward neural networkで制御
し,back propagationで学習していく.
• あるエージェントのメッセージはnetworkを通じて全体
のエージェントに届くので,実質アナウンスメントに
なっている.(つまり,相手のノードは選択していない.)
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
12
- 13. CommNet -具体的な状況設定-
• :エージェント数(可変長)
• :全体の報酬 (目的関数)
簡単化のため,各エージェントの貢献度によらず,
各エージェントは を報酬として受け取る.
(つまり,今回は個別最適と全体最適の結果が一致.)
• POMDP:エージェントは環境を部分的に観測.
• Centralized learning and decentralized execution:
学習は全体で行い,意思決定は個別のエージェントが行う.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
13
- 14. CommNet -提案手法の詳細①-
各タイムステップ において,
• 各エージェントの観測可能な状態を入力として,
各エージェントの行動を出力とするCommNet を活用.
(CommNetの内部で情報の共有が行われていると言える.)
• CommNetは 層のNN.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
14
- 15. CommNet -提案手法の詳細②-
各エージェントの計算は,(エージェント , 層目の場合)
ひとつ前の層でのエージェントの隠れ状態を ,
他のエージェントからの情報を として,以下で与えられる.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
15
ちなみに,attentionしたバージョンはVAIN[*]
[*] VAIN: Attentional Multi-Agent Predictive Modeling,
Hoshen, Yedid., NeurIPS’17
- 18. CommNet -実験と考察(一部抜粋)①-
タスクの紹介 - Traffic Junction
• 自動運転車での交差点での動きを制御するイメージ.
• 車がぶつかるのは最悪だが,かといって渋滞にもしたくない.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
18
衝突による罰則 交差点での待機時間による罰則
:時刻 の報酬
:時刻 に衝突した回数
:交差点に到着してから時刻 までの経過時間
:車(エージェント)の数
:衝突による罰則 (= -10)
:経過時間による罰則 (= -0.01)
- 19. CommNet -実験と考察(一部抜粋)②-
比較対象
• Independent controller: 情報共有は一切なし.
• Fully-connected:
エージェント同士が完全に結合されたネットワークの場合.
(CommNetでは に情報が集約が行われる点が異なる.)
• Discrete communication:
コミュニケーションを離散化した場合.
コミュニケーションの種類を示すインデックス を計算し,
one-hot化 ( ) してコミュニケーションベクトルを求める.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
19
- 25. TarMAC -提案手法①-
①情報共有の設定
• 送る側..message を送信
messageはsignature とvalue に分解される.
• 受け取る側
①重視したい情報を示すquery を準備.
②signatureとqueryの行列積を次元数で正規化し,全てのエージェ
ントの情報に対しsoftmaxを取ることでattention weightを作成.
③attention weightに基づき,各エージェントから重みづけて情報
を受け取る.
2020.07.16
CommNet&TarMAC論文紹介
清原 明加
25
signatureとqueryは
エージェントの状況依存
でつくられるので,似た
状況にあるほど情報が
受け取られやすくなる.
※self-attentionも加味