Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control

Efficient Communication in
Multi-Agent Reinforcement
Learning
via Variance Based Control
北海道大学大学院情報科学院
調和系工学研究室
M1 大江弘峻
2020年6月3日

論文の情報
• Sai Qian Zhang、Qi Zhang、Jieyu Lin
• Advances in Neural Information Processing Systems 32
(NIPS 2019)
• 論文のpdf
https://arxiv.org/abs/1909.02682
• 実装コード
https://github.com/saizhang0218/VBC
1

マルチエージェント強化学習（MARL）
のアプローチ
1. エージェントを個別に学習させる手法：Independent Q-
Learning（IQL）
2. 各エージェントの行動価値を一元的に収集したもの（結合
行動価値）を使用して学習を行う手法
3. エージェント間のコミュニケーションを考慮して学習を行
う手法
2
提案手法は2と3を合わせた手法

結合行動価値を学習するモデル
• 代表的なモデル
• Value Decomposition Network (VDN)（Sunehag et al. 2017）
• QMIX（Sukhbaatar et al. 2016）
• VDNでは単純に各エージェントからの行動価値の総和を結合
行動価値として定義
• QMIXでは新たなニューラルネットワークを使用し、
各エージェントからの行動価値を入力とした結合行動価値ネッ
トワークを学習
3

コミュニケーションの効率性について
• リアルタイム性を求める場合には、コミュニケーションがオー
バーヘッドが動作に影響する
• 無駄なコミュニケーションによって、学習が阻害されてしまう
場合もある（Jiang et al. 2018）
4
効率の良いエージェント間の
コミュニケーションが重要となる

提案手法：Variance Based Control
• 効率の良いコミュニケーションを行わせるために、2つの条件
を設定した手法
• エージェントは自身の行動に自信がないときだけ、他のエー
ジェントとコミュニケーションを要求（条件1）
• コミュニケーション要求を受け取ったエージェントは返信する
データの分散が高い（返信するデータが与える影響が大きい）
ときだけ応答（条件2）
5

VBCのモデル構成
• エージェントは3つの部分から構成
• Local Action Generator
• Message Encoder
• Combiner
6

VBCのモデル構成：
Local Action Generator
• Message Encoder
• Combiner
7
𝑐 𝑡はMessage Encoder
の入力に使用する
エージェント1が観測した状態𝑜1
𝑡
を入力とする

VBCのモデル構成：Message Encoder
• Message Encoder
• Combiner
8
合計でN個エンコーダが存在する
ローカルな価値関数から得られた
𝑐 𝑡
を入力とする
𝑓𝑒𝑛𝑐は行動空間と同じ次元を出力する

VBCのモデル構成：Combiner
• Message Encoder
• Combiner
9
コミュニケーションが成立したエンコーダの値と
ローカルな行動価値を足し合わせる
ε-greedyを方策として選択

VBCのモデル構成: Mixing Network
• 各エージェントからの行動価値をまとめるネットワーク
• VDN
• QMIX
10
結合行動価値𝑄𝑡𝑜𝑡を出力
VDNかQMIXの
どちらかを使用

VBCの損失関数
• 各エージェントからの行動価値をまとめ上げる𝑄𝑡𝑜𝑡を定義
• 返信するメッセージの分散を抑えるために、損失関数に項を追
加
11
分散を抑えるための項TD誤差

コミュニケーションの手順 #1
• エージェントは行動価値を計算し、
一番大きい行動価値と二番目に大きい行動価値の差を求める
• 閾値:𝛿1よりも小さい場合にエージェントはコミュニケーション
の開始要求を送信する
12

コミュニケーションの手順 #2
• コミュニケーションのリクエストを受け取ったエージェントは
エンコーダの値について分散を計算する
• 閾値:𝛿2よりも得られた分散が大きい場合にのみエージェントに
返信する
13

コミュニケーション後の行動価値と
エンコーダの学習
• エージェントはコミュニケーションを行ったメッセージの値の
みを行動価値に加算する
• メッセージ（エンコーダの値）は行動価値の一部として計算さ
れる
• エンコーダの値は結合行動価値の一部となり、
エンコーダのパラメータはTD誤差の項からも学習される
• エンコーダは最適な行動価値を求めつつ、分散を抑えるように
学習される
14

実験で使用するMARLのベンチマーク
1. StarCraft Multi-Agent Challenge (SMAC)
2. Corporative Navigation (CN)
3. Predator Prey (PP)
15

StarCraft Multi-Agent Challenge
• RTS (Real-time Strategy)のゲームであるStraCraft2を学習す
ることができるベンチマーク
• この論文では、StarCraftのビルトインAIと対戦させるタスク
を選択
• 報酬は、受けるダメージを最小にしつつ敵を全滅させることを
目的に設定
16

SMACを使用した実験の内容：比較手法
• 6つの手法を使用して結果を比較
• 提案手法はVDN+VBC、QMIX+VBC
• FC(full communication)はVDN+VBCからエンコーダの分散の
学習を取り除き、常にコミュニケーションをとる手法
• SchedNet(Kim et al. 2019)はTop(k)スケジューリングポリシーに
よってコミュニケーションを行うエージェントを選択する手法
17
VDN QMIX VDN+VBC QMIX+VBC FC SchedNet
コミュニケー
ション
なしなしありありありあり

SMACを使用した実験の内容：タスク
• 6つの戦闘状況を考える
• 3つは敵軍と自軍が同じユニットの状況（対称）
• 残りの3つは敵のユニットが多く有利な状況（非対称）
18
MMM 2s3z 3s5z 3s_vs_4z 6h_vs_8z 6z_vs_24zerg
対称/非対称対称対称対称非対称非対称非対称
味方ユニット 1 Medivac
2 Marauders
7 Marines
2 Stalkers
3 Zealots
3 Stalkers
5 Zealots
3 Stalkers 6 Hydralisks 6 Zealots
敵ユニット 1 Medivac
2 Marauders
7 Marines
2 Stalkers
3 Zealots
3 Stalkers
5 Zealots
4 Zealots 8 Zealots 24 Zerglings

SMACを使用した実験の結果：勝率
19

SMACを使用した実験の結果：
オーバーヘッド
• 全エージェント数に対して、実際にコミュニケーションを行っ
たエージェントの割合をβとして設定
• 2~10倍オーバーヘッドが改善
20

Corporative Navigationの実験内容
• エージェントは他のエージェントとの衝突を回避しながら
目的地を推測し、そこへ移動する
• エージェントは相対的な他のエージェントの位置と目的地を観
測できる
• エージェントは目的地との近さに基づいて報酬を獲得でき、
エージェント同士で衝突した場合はペナルティを受ける
21

Predator Prey実験の内容
• 2つのマルチエージェントモデルがそれぞれ、PredatorかPrey
として学習していく
• PredatorはPreyよりも移動速度が遅い
• PredatorはPreyに追いつくと報酬を獲得でき、Preyはペナル
ティを受ける
• 空間には障害物が存在しており、それを避けながらPreyを追い
かける必要がある
22

CNとPPの実験結果
• コミュニケーションを使用するモデルは全体的に成績が良い
• VBCはほかのモデルよりもコミュニケーション時のオーバヘッ
ドが2~6倍少ない
23

まとめ
• コミュニケーションの効率を改善する手法としてVBCを提案
• 3種類のベンチマークにおいて高いスコアを獲得しつつ、
コミュニケーションのオーバーヘッドも大幅に改善
24

Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control

Similar to Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control (15)

More from harmonylab

More from harmonylab (20)

Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control