SlideShare a Scribd company logo
1 of 38
マルチエージェント強化学習
(MARL)とM^3RL論文紹介
東京工業大学 経営工学系
清原 明加
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
1
話すこと
• 論文までの道のり
• 読んだ論文の紹介
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
2
論文までの道のり-強化学習の位置づけ-
教師あり学習/教師無し学習/強化学習
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
3
machine learning
reinforcement
supervised unsupervised
Cartpole
Atari breakout
碁(Go)
論文までの道のり-強化学習とは?-
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
4
状態s
報酬r
行動 a
エージェント 環境
将来的に得られる報酬を最大化するよう,エージェント
が行動価値/行動方策を学習し,最適化する.
論文までの道のり-MARLについて-
MARL.. Multi-Agent Reinforcement Learning
マルチエージェント強化学習
• 文字通り,強化学習をマルチエージェントにして,
個別最適化や全体最適化などを議論.
• シングルエージェントの場合と比べると,MDP(マルコフ決
定過程)を相互影響により達成できなくなるなど,収束性
が一つの課題と言われる.
• マルチエージェントならではの多様な問題設定が存在.
(次のスライドから一部紹介)
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
5
論文までの道のり-MARLの場面設定-
• 協力
エージェント同士が協力して行動しなければ良い報酬
が得られない,全体での報酬を大きくしたい場合.
• 敵対
zero-sumゲームなどの,一方が得をすれば他方が損を
する状況で敵対的にエージェントを学習させたい場合.
• 影響
必ずしもエージェント間で協力して何かを達成したい
訳ではないが,他のエージェントの行動も考慮に入れ
た上で最適化をしなければならない場合.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
6
論文までの道のり-MARLならではの設定-
• Consensus
予め人間の手によって共有する情報と範囲を決めてお
き(その意味で”合意”という),共有された情報と自分
の見れる範囲の観測を基にエージェントは意思決定す
る.また,全体最適の場合エージェント間の重みにつ
いても取り決められていたりする.
• Communication
エージェントに,”いつ” ”誰と” ”どのようにして”情報
を共有したり,シグナルを発信したりするのかまでも
学習・決定させる.ここで送られるメッセージは環境
を変化させないものと仮定.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
7
論文までの道のり- MARLには階層も-
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
8
Centralized Decentralized
中央集権型
エージェントを統括して
全体を見る仮想エージェ
ントがいるイメージ.
サブグループ型のさらに
上のエージェントなども.
サブグループ型
近傍のエージェントとな
どサブグループを生成し,
その中を統括するリーダ
ーエージェントが存在し
ているイメージ.
自律分散型
各エージェントが個別に
意思決定を行い,全体を
統括するエージェントが
存在しないイメージ.
読んだ論文
• M^3RL: Mind-aware Multi-agent Management
Reinforcement Learning,
Shu, Tianmin, and Yuandong Tian, ICLR 2019
https://openreview.net/forum?id=BkzeUiRcY7
(論文までの道のりの参考文献)
• A Review of Cooperative Multi-Agent Deep Reinforcement
Learning,
Oroojlooyjadid, Afshin, and Davood Hajinezhad, 2019
https://arxiv.org/abs/1908.03963
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
9
内容
• 場面設定と概要
• この論文のすごいところ
• モデルの概要
MDPの仮定/契約/Worker’s Mind/Managerの目標/
チーム編成
• ネットワーク
概要/Performance History/Mind Tracker/Manager
• 学習時の工夫
• 結果
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
10
場面設定と概要
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
11
• 各Workerが個性(好み,スキルなど)を個別に持つ.
• Managerは前提での目標を達成できるようWorkerに仕
事を配分していくタスクを学習.
• ただし,各Workerは自分の利益最適化しか興味がない
ので,インセンティブ設計(ボーナス)が必要.
論文より
この論文はここがすごい
• マルチエージェントの設定の中でも,各エージェント
が異なった性質を持つ(Heterogeneous)最適化に成功.
• 今までは各エージェントの重みづけ和の最大化を学習
などしていたが,Managerを導入し,報酬設計を学習.
• 不完全情報でもManagerが方策を学習.
• ManagerがWorkerの気持ちを考慮できるように.
⇒今までは個々のエージェントによる最適化だったが,
メカニズムデザイン(インセンティブ設計)ができた!
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
12
モデル概要-MDPの仮定-
• : 目標集合
• : Workerの集合 (Heterogeneous, Self-interestedの仮定)
• 独立MDP
• : 状態空間
• : 行動空間
• : 報酬
• : 遷移確率
• : 方策
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
13
モデル概要-契約-
• 契約ベース
• 各Workerに対しSelf-interestedの仮定を置いたので,
ManagerとWorkerは契約に基づき仕事を行う.
• 契約は各期毎に更新され,ボーナスは離散的な設定.
• : 契約
• : Worker
• : 時間
• : 個人目標
• : ボーナス
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
14
Manager Worker
モデル概要-Worker’s Mind/好み-
• Worker’s Mindの導入(1)
• Managerにとって不完全情報な場合もある.
• 今回は,好み,意思,スキルの3つを特徴に.
• 信念の導入についてはFuture Workとされている.
• 好み :
この時の各Workerの報酬は,以下で与えられる.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
15
好みに合っていたか ゴール達成ボーナス ゴール状態に到達したか
モデルの概要-Worker’s Mind/意思(概念)-
• Worker’s Mindの導入(2)
• 意思 : (直観的には,意思=Workerが個人的に達成したい目標)
• ゲーム理論的な仮定として,ManagerがWorker
の好みやスキルを正確に把握していない場合を
考える.
• この時,Managerから提示される契約がその
Workerにとって最適とは限らないので,純粋な
報酬最大化ではなく,効用の最大化を考える.
• 効用最大化の観点から,WorkerはManagerに提
示された契約にサインするか決定.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
16
モデルの概要-Worker’s Mind/意思(定式化)-
• Worker’s Mindの導入(3)
• 意思 : (直観的には,意思=Workerが個人的に達成したい目標)
• スキルが完全情報である場合
• スキルが不完全情報である場合(将来の見通しがない?)
• Workerの意思決定 : (確率的でない)
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
17
(割引率)
報酬の割引現在価値
今期に得られる効用
モデルの概要-Worker’s Mind/スキル-
• Worker’s Mindの導入(4)
• スキル :
• 状態集合の一部として組み込み,遷移確率を全
状態と意思に条件づけて決定する.
• 例えば,新しい仕事をする決断をすれば,スキ
ルアップしていくことが可能で,スキルアップ
も方策に組み込める.
• 定式化 :
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
18
モデルの概要-Managerの目標-
• Managerの最適化
• 効用関数 :
全体での目標を達成すると効用が得られる.
• 報酬 :
• 最適化問題 :
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
19
効用からコスト(支払ったボーナス)を引いた差分全体の総和
モデルの概要-チーム編成-
• ManagerとWorkerのチーム編成
• 優秀なManagerはどんなチームを率いても優秀だと
いう仮定を置く.
• 普遍的なマネジメント能力を持たせるため,
Managerは毎エピソード毎にランダムサンプリング
されたWorkerによるチームを率いる.
• なお,(会社内)全体のWorkerに変動はないとする.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
20
Manager
Worker
Sampling
ネットワーク-概要-
• 方策決定には,A2C(Mnih et al, 2016)を使用(Appendix1).
• Performance History Module
• Mind Tracker Module の3つから成る.
• Manager Module ※すべてmanagerの学習に関する.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
21
ネットワーク-Performance History-
• Performance History Module
• Workerは個性がある(Heterogeneousな)ので,識別す
る必要がある.
• ここでは,Workerの契約後tステップ以内に契約を
完遂する確率の経験的推定量から同定を行う.
• 定式化 : Performance History
• これを図のようにエンコードして,
履歴の集約 を得る.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
22
ネットワーク-Mind Tracker-
• Mind Tracker Module
• 履歴の集約と,Workerの行動や契約の状況の軌跡を
踏まえて,ManagerはWorkerのMindに対する信念を
更新する.
• 定式化 :
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
23
ネットワーク-Manager-
• Manager Module
• ManagerはWorkerを集約し,コンテクストを作る.
• Managerはコンテクストを基に,ゴール達成方策と
ボーナス配分方策の2つを学習する.
• 内部状態 :
• ゴール達成方策 :
• ボーナス配分方策 :
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
24
学習時の工夫
• Mind Trackerの性能の向上のために,模倣学習を導入し
ている(Appendix2).
• Manager Moduleには,Successor Representation (Kulkarni et
al., 2016; Zhu et al., 2017; Barreto et al., 2017; Ma et al., 2018) なるものを採用
している(Appendix3).
• 各エージェントが気ままに -貪欲的に探索してしまう
と,MDPが達成されなかったり,Managerの学習を困
難にしてしまう.
そのため,Worker毎に -貪欲探索を行うエピソードを
決定し,そのエピソードの間は同じWorkerが探索だけ
を行うことにより,ManagerがWorkerを理解するのを
手助けする.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
25
結果-評価指標-
• 評価指標のタスクは,資源の収集/鉱山の発掘
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
26
結果-学習効率-
• 種々の結果から,M^3RLにおける提案手法は,他の手
法と比べて学習の効率が良い.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
27
結果-適応力-
• 種々の結果から,M^3RLにおける提案手法を用いると,
通常の -貪欲法と比べて,Workerのスキルの変化に対
する高い適応力が得られる.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
28
結果-柔軟性-
• 種々の結果から,M^3RLにおける提案手法を用いると,
通常の -貪欲法と比べて,チームの再編に対する
Managerの高い柔軟性が得られる.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
29
この論文はここがすごい(再掲)
• マルチエージェントの設定の中でも,各エージェント
が異なった性質を持つ(Heterogeneous)最適化に成功.
• 今までは各エージェントの重みづけ和の最大化を学習
などしていたが,Managerを導入し,報酬設計を学習.
• 不完全情報でもManagerが方策を学習.
• ManagerがWorkerの気持ちを考慮できるように.
⇒今までは個々のエージェントによる最適化だったが,
メカニズムデザイン(インセンティブ設計)ができた!
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
30
Appendix1: A2C-概要-
• 論文
Asynchronous Methods for Deep Reinforcement Learning,
Mnih, Volodymyr, et al., ICML2016,
https://arxiv.org/abs/1602.01783
• 特徴
• 複数エージェントによる分散学習
• 方策ベースでの学習のため,経験再生を利用しない
• Actor-Critic + Advantage + Synchronous
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
31
Appendix1: A2C-Advantage Actor-Critic-
• Actor-Criticに,ある状態における行動の相対的な良さ
を示すアドバンテージ関数を導入し,方策を改善.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
32
参考:MLP機械学習プロフェッショナルシリーズ強化学習
方策評価
(critic)
環境
(system)
方策改善
方策
(actor)
エージェント
行動
状態
報酬
Appendix1: A2C-同期分散学習-
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
33
In a single CPU
(multi-threading)
π V
Network
Input
π V
Network
Input
π V
Network
Input
π V
Network
Input
Synchronizer
Global Parameters
gradients
Updating
parameters
distributed learning
with multi agents
Appendix1: A3C-非同期分散学習(A2Cとの比較)-
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
34
In a single CPU
(multi-threading)
π V
Network
Input
π V
Network
Input
π V
Network
Input
π V
Network
Input
Global Parameters
gradients
Updating
parameters
distributed learning
with multi agents
Appendix2: 模倣学習
通常は方策により得られた履歴からMindを予測するが,
反対に仮定したMindから方策の予測を学習させることに
より,Mindの特徴を学習する.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
35
方策 Mind Tracker
各Worker Manager
Mind Tracker方策予測
Manager
Cross-Entropy Lossの導入
通常
模倣
Appendix3: SR(Successor Representation)(1)
• 概要
• もともとは神経科学分野で,海馬という部分が将来
の到達予測位置を表現している,というモデリング
らしく,RLにも近年応用されている.
• 将来において,
(1)どれくらい全体目標を達成できそうか.
(2)どのくらいのボーナス支払いが生じそうか.
を予測し,これらの情報を基に価値を推定.
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
36
Deep Successor Reinforcement Learning, Kulkarni, Tejas D., et al.,
2016, https://arxiv.org/abs/1606.02396など
Appendix3: SR(Successor Representation)(2)
• 定式化(1)~t期におけるモデリング
• Managerの効用:
• Bonusの重みづけ:
• t期に達成された目標:
• t期に支払ったボーナス:
• t期のManagerの報酬:
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
37
Appendix3: SR(Successor Representation)(3)
• 定式化(2)~将来のモデリング
• 将来の目標達成見込み:
• 将来のボーナス支払い見込み:
• 現在のManagerの状態価値:
2020/5/15
MARLとM^3RL@総合ゼミ
清原 明加
38
結果的に,期待報酬の現在割引和の形に.

More Related Content

What's hot

モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習Mitsuhisa Ohta
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)Shota Imai
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類佑 甲野
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...Deep Learning JP
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
[DL輪読会]AlphaStarとその関連技術
[DL輪読会]AlphaStarとその関連技術[DL輪読会]AlphaStarとその関連技術
[DL輪読会]AlphaStarとその関連技術Deep Learning JP
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだことnishio
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法Hirokatsu Kataoka
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 

What's hot (20)

モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
[DL輪読会]AlphaStarとその関連技術
[DL輪読会]AlphaStarとその関連技術[DL輪読会]AlphaStarとその関連技術
[DL輪読会]AlphaStarとその関連技術
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 

Similar to マルチエージェント強化学習 (MARL) と M^3RL

MARL communication (CommNet, TarMAC 論文紹介)
MARL communication (CommNet, TarMAC 論文紹介)MARL communication (CommNet, TarMAC 論文紹介)
MARL communication (CommNet, TarMAC 論文紹介)HarukaKiyohara
 
MLOps Yearning ~ 実運用システムを構築する前にデータサイエンティストが考えておきたいこと
MLOps Yearning ~ 実運用システムを構築する前にデータサイエンティストが考えておきたいことMLOps Yearning ~ 実運用システムを構築する前にデータサイエンティストが考えておきたいこと
MLOps Yearning ~ 実運用システムを構築する前にデータサイエンティストが考えておきたいことRakuten Group, Inc.
 
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めてデータサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めてRecruit Lifestyle Co., Ltd.
 
要注意!?効果の出ない技術研修に共通する3つのこと
要注意!?効果の出ない技術研修に共通する3つのこと要注意!?効果の出ない技術研修に共通する3つのこと
要注意!?効果の出ない技術研修に共通する3つのことcodecampJP
 
Reladomoを使ったトランザクション履歴管理をプロダクトに適用した際のメリット/デメリット/課題など
Reladomoを使ったトランザクション履歴管理をプロダクトに適用した際のメリット/デメリット/課題などReladomoを使ったトランザクション履歴管理をプロダクトに適用した際のメリット/デメリット/課題など
Reladomoを使ったトランザクション履歴管理をプロダクトに適用した際のメリット/デメリット/課題などなべ
 
[セミナー資料]攻めのIT経営中小企業に学ぶビジネスモデル変革
[セミナー資料]攻めのIT経営中小企業に学ぶビジネスモデル変革[セミナー資料]攻めのIT経営中小企業に学ぶビジネスモデル変革
[セミナー資料]攻めのIT経営中小企業に学ぶビジネスモデル変革Katsuyuki Watanabe
 
ITサービス運営におけるアーキテクチャ設計 - 要求開発アライアンス 4月定例会
ITサービス運営におけるアーキテクチャ設計 - 要求開発アライアンス 4月定例会ITサービス運営におけるアーキテクチャ設計 - 要求開発アライアンス 4月定例会
ITサービス運営におけるアーキテクチャ設計 - 要求開発アライアンス 4月定例会Yusuke Suzuki
 
Smartmat cloud service instruction for saleshub
Smartmat cloud service instruction for saleshubSmartmat cloud service instruction for saleshub
Smartmat cloud service instruction for saleshubkmatsumoto5
 
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?ブレークスルーパートナーズ 赤羽雄二
 
大阪市南港ATC イメディオ IoT・ M2Mセミナ2016資料(web公開用) 3つの手探り〜技術・マネタイズ・セキュリティ・・・
大阪市南港ATC イメディオ IoT・ M2Mセミナ2016資料(web公開用) 3つの手探り〜技術・マネタイズ・セキュリティ・・・大阪市南港ATC イメディオ IoT・ M2Mセミナ2016資料(web公開用) 3つの手探り〜技術・マネタイズ・セキュリティ・・・
大阪市南港ATC イメディオ IoT・ M2Mセミナ2016資料(web公開用) 3つの手探り〜技術・マネタイズ・セキュリティ・・・Yukio Kubo
 
機械学習をScrumで組織的に学習する (RSGT2022)
機械学習をScrumで組織的に学習する (RSGT2022)機械学習をScrumで組織的に学習する (RSGT2022)
機械学習をScrumで組織的に学習する (RSGT2022)Yukio Okajima
 
Teams + Power Platform でチームメンバーの状況報告を圧倒的効率化!
Teams + Power Platform でチームメンバーの状況報告を圧倒的効率化!Teams + Power Platform でチームメンバーの状況報告を圧倒的効率化!
Teams + Power Platform でチームメンバーの状況報告を圧倒的効率化!Teruchika Yamada
 
RPAドキュメントのレビュー観点について
RPAドキュメントのレビュー観点についてRPAドキュメントのレビュー観点について
RPAドキュメントのレビュー観点についてzin jin
 
金融業界における人工知能 2022/1/17
金融業界における人工知能 2022/1/17金融業界における人工知能 2022/1/17
金融業界における人工知能 2022/1/17Takanobu Mizuta
 
電通、リクルート、サントリーショッピングクラブ、有名企業がいち早く選んだ kintone を徹底解説
電通、リクルート、サントリーショッピングクラブ、有名企業がいち早く選んだ kintone を徹底解説電通、リクルート、サントリーショッピングクラブ、有名企業がいち早く選んだ kintone を徹底解説
電通、リクルート、サントリーショッピングクラブ、有名企業がいち早く選んだ kintone を徹底解説Cybozucommunity
 
チケットの棚卸し ウチではこうしてます
チケットの棚卸し ウチではこうしてますチケットの棚卸し ウチではこうしてます
チケットの棚卸し ウチではこうしてます靖宏 田中
 
IAチャンネル:自社サイト最適化講座 vol.1
IAチャンネル:自社サイト最適化講座 vol.1IAチャンネル:自社サイト最適化講座 vol.1
IAチャンネル:自社サイト最適化講座 vol.1Makoto Shimizu
 
サイトオーナーが片手間で実践できる効果測定と改善メソッド
サイトオーナーが片手間で実践できる効果測定と改善メソッドサイトオーナーが片手間で実践できる効果測定と改善メソッド
サイトオーナーが片手間で実践できる効果測定と改善メソッドMakoto Shimizu
 

Similar to マルチエージェント強化学習 (MARL) と M^3RL (20)

MARL communication (CommNet, TarMAC 論文紹介)
MARL communication (CommNet, TarMAC 論文紹介)MARL communication (CommNet, TarMAC 論文紹介)
MARL communication (CommNet, TarMAC 論文紹介)
 
MLOps Yearning ~ 実運用システムを構築する前にデータサイエンティストが考えておきたいこと
MLOps Yearning ~ 実運用システムを構築する前にデータサイエンティストが考えておきたいことMLOps Yearning ~ 実運用システムを構築する前にデータサイエンティストが考えておきたいこと
MLOps Yearning ~ 実運用システムを構築する前にデータサイエンティストが考えておきたいこと
 
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めてデータサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
 
要注意!?効果の出ない技術研修に共通する3つのこと
要注意!?効果の出ない技術研修に共通する3つのこと要注意!?効果の出ない技術研修に共通する3つのこと
要注意!?効果の出ない技術研修に共通する3つのこと
 
Tin Can Moodle(j)
Tin Can Moodle(j)Tin Can Moodle(j)
Tin Can Moodle(j)
 
M5 sinchir0
M5 sinchir0M5 sinchir0
M5 sinchir0
 
Reladomoを使ったトランザクション履歴管理をプロダクトに適用した際のメリット/デメリット/課題など
Reladomoを使ったトランザクション履歴管理をプロダクトに適用した際のメリット/デメリット/課題などReladomoを使ったトランザクション履歴管理をプロダクトに適用した際のメリット/デメリット/課題など
Reladomoを使ったトランザクション履歴管理をプロダクトに適用した際のメリット/デメリット/課題など
 
[セミナー資料]攻めのIT経営中小企業に学ぶビジネスモデル変革
[セミナー資料]攻めのIT経営中小企業に学ぶビジネスモデル変革[セミナー資料]攻めのIT経営中小企業に学ぶビジネスモデル変革
[セミナー資料]攻めのIT経営中小企業に学ぶビジネスモデル変革
 
ITサービス運営におけるアーキテクチャ設計 - 要求開発アライアンス 4月定例会
ITサービス運営におけるアーキテクチャ設計 - 要求開発アライアンス 4月定例会ITサービス運営におけるアーキテクチャ設計 - 要求開発アライアンス 4月定例会
ITサービス運営におけるアーキテクチャ設計 - 要求開発アライアンス 4月定例会
 
Smartmat cloud service instruction for saleshub
Smartmat cloud service instruction for saleshubSmartmat cloud service instruction for saleshub
Smartmat cloud service instruction for saleshub
 
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
 
大阪市南港ATC イメディオ IoT・ M2Mセミナ2016資料(web公開用) 3つの手探り〜技術・マネタイズ・セキュリティ・・・
大阪市南港ATC イメディオ IoT・ M2Mセミナ2016資料(web公開用) 3つの手探り〜技術・マネタイズ・セキュリティ・・・大阪市南港ATC イメディオ IoT・ M2Mセミナ2016資料(web公開用) 3つの手探り〜技術・マネタイズ・セキュリティ・・・
大阪市南港ATC イメディオ IoT・ M2Mセミナ2016資料(web公開用) 3つの手探り〜技術・マネタイズ・セキュリティ・・・
 
機械学習をScrumで組織的に学習する (RSGT2022)
機械学習をScrumで組織的に学習する (RSGT2022)機械学習をScrumで組織的に学習する (RSGT2022)
機械学習をScrumで組織的に学習する (RSGT2022)
 
Teams + Power Platform でチームメンバーの状況報告を圧倒的効率化!
Teams + Power Platform でチームメンバーの状況報告を圧倒的効率化!Teams + Power Platform でチームメンバーの状況報告を圧倒的効率化!
Teams + Power Platform でチームメンバーの状況報告を圧倒的効率化!
 
RPAドキュメントのレビュー観点について
RPAドキュメントのレビュー観点についてRPAドキュメントのレビュー観点について
RPAドキュメントのレビュー観点について
 
金融業界における人工知能 2022/1/17
金融業界における人工知能 2022/1/17金融業界における人工知能 2022/1/17
金融業界における人工知能 2022/1/17
 
電通、リクルート、サントリーショッピングクラブ、有名企業がいち早く選んだ kintone を徹底解説
電通、リクルート、サントリーショッピングクラブ、有名企業がいち早く選んだ kintone を徹底解説電通、リクルート、サントリーショッピングクラブ、有名企業がいち早く選んだ kintone を徹底解説
電通、リクルート、サントリーショッピングクラブ、有名企業がいち早く選んだ kintone を徹底解説
 
チケットの棚卸し ウチではこうしてます
チケットの棚卸し ウチではこうしてますチケットの棚卸し ウチではこうしてます
チケットの棚卸し ウチではこうしてます
 
IAチャンネル:自社サイト最適化講座 vol.1
IAチャンネル:自社サイト最適化講座 vol.1IAチャンネル:自社サイト最適化講座 vol.1
IAチャンネル:自社サイト最適化講座 vol.1
 
サイトオーナーが片手間で実践できる効果測定と改善メソッド
サイトオーナーが片手間で実践できる効果測定と改善メソッドサイトオーナーが片手間で実践できる効果測定と改善メソッド
サイトオーナーが片手間で実践できる効果測定と改善メソッド
 

マルチエージェント強化学習 (MARL) と M^3RL