Submit Search
Upload
Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control
•
Download as PPTX, PDF
•
0 likes
•
3,629 views
H
harmonylab
Follow
Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control
Read less
Read more
Technology
Report
Share
Report
Share
1 of 25
Download now
Recommended
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
harmonylab
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
harmonylab
修士論文
修士論文
harmonylab
Calorie Estimation in a Real-World Recipe Service
Calorie Estimation in a Real-World Recipe Service
harmonylab
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
harmonylab
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
harmonylab
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
2021 haizoku
2021 haizoku
harmonylab
Recommended
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
harmonylab
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
harmonylab
修士論文
修士論文
harmonylab
Calorie Estimation in a Real-World Recipe Service
Calorie Estimation in a Real-World Recipe Service
harmonylab
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
harmonylab
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
harmonylab
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
2021 haizoku
2021 haizoku
harmonylab
RAPiD
RAPiD
harmonylab
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
harmonylab
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...
harmonylab
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
harmonylab
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究
harmonylab
2021 haizoku
2021 haizoku
harmonylab
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
言語モデルを用いた俳句評価器の構築と性能評価に関する研究
言語モデルを用いた俳句評価器の構築と性能評価に関する研究
harmonylab
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
harmonylab
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
harmonylab
2019 08 20_dl
2019 08 20_dl
harmonylab
Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedback
harmonylab
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
harmonylab
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
harmonylab
2021 09 29_dl_hirata
2021 09 29_dl_hirata
harmonylab
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
harmonylab
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
harmonylab
2020年 研究室配属説明会 スライド資料
2020年 研究室配属説明会 スライド資料
harmonylab
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...
harmonylab
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?
harmonylab
オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及
オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及
Katsusuke Shigeta
PBL as a Service
PBL as a Service
Hiroshi Igaki
More Related Content
What's hot
RAPiD
RAPiD
harmonylab
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
harmonylab
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...
harmonylab
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
harmonylab
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究
harmonylab
2021 haizoku
2021 haizoku
harmonylab
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
言語モデルを用いた俳句評価器の構築と性能評価に関する研究
言語モデルを用いた俳句評価器の構築と性能評価に関する研究
harmonylab
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
harmonylab
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
harmonylab
2019 08 20_dl
2019 08 20_dl
harmonylab
Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedback
harmonylab
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
harmonylab
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
harmonylab
2021 09 29_dl_hirata
2021 09 29_dl_hirata
harmonylab
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
harmonylab
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
harmonylab
2020年 研究室配属説明会 スライド資料
2020年 研究室配属説明会 スライド資料
harmonylab
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...
harmonylab
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?
harmonylab
What's hot
(20)
RAPiD
RAPiD
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究
2021 haizoku
2021 haizoku
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
言語モデルを用いた俳句評価器の構築と性能評価に関する研究
言語モデルを用いた俳句評価器の構築と性能評価に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
2019 08 20_dl
2019 08 20_dl
Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedback
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
2021 09 29_dl_hirata
2021 09 29_dl_hirata
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
2020年 研究室配属説明会 スライド資料
2020年 研究室配属説明会 スライド資料
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?
Similar to Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control
オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及
オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及
Katsusuke Shigeta
PBL as a Service
PBL as a Service
Hiroshi Igaki
NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)
真 岡本
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化
saireya _
2017年度 河野ゼミ スタートアップ資料
2017年度 河野ゼミ スタートアップ資料
義広 河野
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
MILab
20181119_ICON技術セミナー7_石坂
20181119_ICON技術セミナー7_石坂
ICT_CONNECT_21
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
DeepEyeVision, Inc.
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
Deep Learning JP
20141024 情報処理学会cle-google apps-open
20141024 情報処理学会cle-google apps-open
Norio Toyama
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)”
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)”
Deep Learning JP
20040930 ku librarians勉強会 #60:オンライン・チュートリアル(『電子図書館の新たな潮流シリーズ』第3回)
20040930 ku librarians勉強会 #60:オンライン・チュートリアル(『電子図書館の新たな潮流シリーズ』第3回)
kulibrarians
学習分析学会ミートアップ:マイクロクレデンシャルとラーイングアナリティクス
学習分析学会ミートアップ:マイクロクレデンシャルとラーイングアナリティクス
Keiko Tanaka
Similar to Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control
(15)
オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及
オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及
PBL as a Service
PBL as a Service
NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化
2017年度 河野ゼミ スタートアップ資料
2017年度 河野ゼミ スタートアップ資料
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
20181119_ICON技術セミナー7_石坂
20181119_ICON技術セミナー7_石坂
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
20141024 情報処理学会cle-google apps-open
20141024 情報処理学会cle-google apps-open
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)”
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)”
20040930 ku librarians勉強会 #60:オンライン・チュートリアル(『電子図書館の新たな潮流シリーズ』第3回)
20040930 ku librarians勉強会 #60:オンライン・チュートリアル(『電子図書館の新たな潮流シリーズ』第3回)
学習分析学会ミートアップ:マイクロクレデンシャルとラーイングアナリティクス
学習分析学会ミートアップ:マイクロクレデンシャルとラーイングアナリティクス
More from harmonylab
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
harmonylab
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
harmonylab
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
harmonylab
More from harmonylab
(20)
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control
1.
Efficient Communication in Multi-Agent
Reinforcement Learning via Variance Based Control 北海道大学大学院情報科学院 調和系工学研究室 M1 大江 弘峻 2020年6月3日
2.
論文の情報 • Sai Qian
Zhang、Qi Zhang、Jieyu Lin • Advances in Neural Information Processing Systems 32 (NIPS 2019) • 論文のpdf https://arxiv.org/abs/1909.02682 • 実装コード https://github.com/saizhang0218/VBC 1
3.
マルチエージェント強化学習(MARL) のアプローチ 1. エージェントを個別に学習させる手法:Independent Q- Learning(IQL) 2.
各エージェントの行動価値を一元的に収集したもの(結合 行動価値)を使用して学習を行う手法 3. エージェント間のコミュニケーションを考慮して学習を行 う手法 2 提案手法は2と3を合わせた手法
4.
結合行動価値を学習するモデル • 代表的なモデル • Value
Decomposition Network (VDN)(Sunehag et al. 2017) • QMIX(Sukhbaatar et al. 2016) • VDNでは単純に各エージェントからの行動価値の総和を結合 行動価値として定義 • QMIXでは新たなニューラルネットワークを使用し、 各エージェントからの行動価値を入力とした結合行動価値ネッ トワークを学習 3
5.
コミュニケーションの効率性について • リアルタイム性を求める場合には、コミュニケーションがオー バーヘッドが動作に影響する • 無駄なコミュニケーションによって、学習が阻害されてしまう 場合もある(Jiang
et al. 2018) 4 効率の良いエージェント間の コミュニケーションが重要となる
6.
提案手法:Variance Based Control •
効率の良いコミュニケーションを行わせるために、2つの条件 を設定した手法 • エージェントは自身の行動に自信がないときだけ、他のエー ジェントとコミュニケーションを要求(条件1) • コミュニケーション要求を受け取ったエージェントは返信する データの分散が高い(返信するデータが与える影響が大きい) ときだけ応答(条件2) 5
7.
VBCのモデル構成 • エージェントは3つの部分から構成 • Local
Action Generator • Message Encoder • Combiner 6
8.
VBCのモデル構成: Local Action Generator •
エージェントは3つの部分から構成 • Local Action Generator • Message Encoder • Combiner 7 𝑐 𝑡はMessage Encoder の入力に使用する エージェント1が観測した状態𝑜1 𝑡 を入力とする
9.
VBCのモデル構成:Message Encoder • エージェントは3つの部分から構成 •
Local Action Generator • Message Encoder • Combiner 8 合計でN個エンコーダが存在する ローカルな価値関数から得られた 𝑐 𝑡 を入力とする 𝑓𝑒𝑛𝑐は行動空間と同じ次元を出力する
10.
VBCのモデル構成:Combiner • エージェントは3つの部分から構成 • Local
Action Generator • Message Encoder • Combiner 9 コミュニケーションが成立したエンコーダの値と ローカルな行動価値を足し合わせる ε-greedyを方策として選択
11.
VBCのモデル構成: Mixing Network •
各エージェントからの行動価値をまとめるネットワーク • VDN • QMIX 10 結合行動価値𝑄𝑡𝑜𝑡を出力 VDNかQMIXの どちらかを使用
12.
VBCの損失関数 • 各エージェントからの行動価値をまとめ上げる𝑄𝑡𝑜𝑡を定義 • 返信するメッセージの分散を抑えるために、損失関数に項を追 加 11 分散を抑えるための項TD誤差
13.
コミュニケーションの手順 #1 • エージェントは行動価値を計算し、 一番大きい行動価値と二番目に大きい行動価値の差を求める •
閾値:𝛿1よりも小さい場合にエージェントはコミュニケーション の開始要求を送信する 12
14.
コミュニケーションの手順 #2 • コミュニケーションのリクエストを受け取ったエージェントは エンコーダの値について分散を計算する •
閾値:𝛿2よりも得られた分散が大きい場合にのみエージェントに 返信する 13
15.
コミュニケーション後の行動価値と エンコーダの学習 • エージェントはコミュニケーションを行ったメッセージの値の みを行動価値に加算する • メッセージ(エンコーダの値)は行動価値の一部として計算さ れる •
エンコーダの値は結合行動価値の一部となり、 エンコーダのパラメータはTD誤差の項からも学習される • エンコーダは最適な行動価値を求めつつ、分散を抑えるように 学習される 14
16.
実験で使用するMARLのベンチマーク 1. StarCraft Multi-Agent
Challenge (SMAC) 2. Corporative Navigation (CN) 3. Predator Prey (PP) 15
17.
StarCraft Multi-Agent Challenge •
RTS (Real-time Strategy)のゲームであるStraCraft2を学習す ることができるベンチマーク • この論文では、StarCraftのビルトインAIと対戦させるタスク を選択 • 報酬は、受けるダメージを最小にしつつ敵を全滅させることを 目的に設定 16
18.
SMACを使用した実験の内容:比較手法 • 6つの手法を使用して結果を比較 • 提案手法はVDN+VBC、QMIX+VBC •
FC(full communication)はVDN+VBCからエンコーダの分散の 学習を取り除き、常にコミュニケーションをとる手法 • SchedNet(Kim et al. 2019)はTop(k)スケジューリングポリシーに よってコミュニケーションを行うエージェントを選択する手法 17 VDN QMIX VDN+VBC QMIX+VBC FC SchedNet コミュニケー ション なし なし あり あり あり あり
19.
SMACを使用した実験の内容:タスク • 6つの戦闘状況を考える • 3つは敵軍と自軍が同じユニットの状況(対称) •
残りの3つは敵のユニットが多く有利な状況(非対称) 18 MMM 2s3z 3s5z 3s_vs_4z 6h_vs_8z 6z_vs_24zerg 対称/非対称 対称 対称 対称 非対称 非対称 非対称 味方ユニット 1 Medivac 2 Marauders 7 Marines 2 Stalkers 3 Zealots 3 Stalkers 5 Zealots 3 Stalkers 6 Hydralisks 6 Zealots 敵ユニット 1 Medivac 2 Marauders 7 Marines 2 Stalkers 3 Zealots 3 Stalkers 5 Zealots 4 Zealots 8 Zealots 24 Zerglings
20.
SMACを使用した実験の結果:勝率 19
21.
SMACを使用した実験の結果: オーバーヘッド • 全エージェント数に対して、実際にコミュニケーションを行っ たエージェントの割合をβとして設定 • 2~10倍オーバーヘッドが改善 20
22.
Corporative Navigationの実験内容 • エージェントは他のエージェントとの衝突を回避しながら 目的地を推測し、そこへ移動する •
エージェントは相対的な他のエージェントの位置と目的地を観 測できる • エージェントは目的地との近さに基づいて報酬を獲得でき、 エージェント同士で衝突した場合はペナルティを受ける 21
23.
Predator Prey実験の内容 • 2つのマルチエージェントモデルがそれぞれ、PredatorかPrey として学習していく •
PredatorはPreyよりも移動速度が遅い • PredatorはPreyに追いつくと報酬を獲得でき、Preyはペナル ティを受ける • 空間には障害物が存在しており、それを避けながらPreyを追い かける必要がある 22
24.
CNとPPの実験結果 • コミュニケーションを使用するモデルは全体的に成績が良い • VBCはほかのモデルよりもコミュニケーション時のオーバヘッ ドが2~6倍少ない 23
25.
まとめ • コミュニケーションの効率を改善する手法としてVBCを提案 • 3種類のベンチマークにおいて高いスコアを獲得しつつ、 コミュニケーションのオーバーヘッドも大幅に改善 24
Download now