SlideShare a Scribd company logo
強化学習とゲーム理論 (MARL)
Reinforcement Learning x Game Theory
東京工業大学 経営工学系
清原 明加 Haruka Kiyohara
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
1
目次
• 強化学習とは?
• ゲーム理論について
• マルチエージェント強化学習
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
2
強化学習とは?
教師あり学習/教師無し学習/強化学習
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
3
machine learning
reinforcement
supervised unsupervised
Cartpole
Atari breakout
碁(Go)
強化学習とは?
歴史的には,動物の餌付け
が起源とされる
ボタンを踏むと確率的に餌
が落ちてくる
⇒鶏はせかせかとボタンを
踏み続けるように
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
4
https://www.reddit.com/r/aww/comments/f
1akqn/parrots_playing_basketball/
強化学習とは?
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
5
状態s
報酬r
行動 a
エージェント 環境
将来的に得られる報酬を最大化するよう,エージェント
が行動価値/行動方策を学習し,最適化する.
強化学習とは?-前提-
• エージェントが,環境のなかで得られる報酬を最大化
する最適化問題.
• ただし,報酬を得るためにどうしたらよいかというの
は非自明な場合が多く,また,報酬のみではスパース
で扱いにくいので,途中の過程ででてくる状態や,
エージェントの行動に価値を付与し,その価値を最大
化する問題に置き換える.
• 状態や行動の価値に関しても一概に決まるものではな
いため,まずは価値を推測するところから始め,推測
した価値の最大化までをひとまとめで行うことを目標
とする.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
6
強化学習とは?-方策ベース・価値ベース-
• 方策ベース
状態価値Vを推測し,以降の状態価値の現在割引和を
最大化する方策π(s,a)を決定
• 価値ベース
エージェントの行動価値Qを推測し,以降の行動価値
の現在割引和を最大化する行動aを決定
• モデルベース
環境が分かっているという仮定のもと,価値最大化を
プランニング
現在割引和..同じ報酬が得られるならなるべく早く得られる方が良い,という考え方.
数学的には,割り引くことで和を発散させたくない,という意味も.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
7
強化学習とは?-最適化問題の解き方-
• 動的計画法
選択肢をひとつづつ増やしていき,逐次的に最適化
問題を解いていく方法で,厳密的な解法.
• モンテカルロ法
方策ベースなどで用いられ,ロールアウトによって
疑似体験的にいくつかの選択肢を比較し,方策を選択.
• TD法
価値ベースなどで用いられ,tステップ先の行動価値
まで考えた上での行動選択の最適化を行う.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
8
強化学習とは?-探索と活用-
• 探索
現時点で持っている知識では最適とは限らない方策を
選択し,周辺の環境や行動価値を学習する.
• 活用
探索で得られた情報を基に,考えられる内で最適な
行動(方策)を選択する.
上記の探索と活用にはトレードオフが存在
⇒学習初期には探索を重視し,後半では活用を重視.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
9
活用
探索
exploration
exploitation
強化学習とは?-観測範囲と報酬-
• Fully Observable
エージェントがすべての環境や状態を観測できる場合.
• Partially Observable
エージェントが環境や状態を部分的にしか観測できな
い場合.例えば,一人称視点など.
• Sparse Reward
報酬が一番最後だけなど,連続的に得られない場合.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
10
強化学習とは?-最近のトレンド-
• 2014年頃から再び波が来ている.(ex. AlphaGo)
• 強化学習の価値関数の推論に深層学習を組み込んだ,
深層強化学習で適応可能性が広がる.
• 分散学習による効率的かつ精度の高い学習.
• 一人称視点など,環境を部分的にしか観測できない
エージェントの行動(方策)最適化の研究.
• 環境に複数のエージェントが存在するマルチエージェ
ント環境での挙動の研究.
• 近年,実応用がますます注目される.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
11
強化学習とは?-マルチエージェント化と最適-
最適化の3つの視点とトレードオフ
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
12
自律分散型最適化 個別最適化全体最適化
全体での利益が最大に
なるよう設計.
格差が存在することも.
全体/個別での利益が両方
ともそこそこ大きい.
バランス型と言える.
各個人が自分の利益を
最大化するよう行動.
過剰競争などが発生.
ゲーム理論について-概要-
• ゲーム理論の定義 (from Wikipedia)
社会や自然界における複数主体が関わる意思決定の
問題や行動の相互依存的状況を数学的なモデルを用
いて研究する学問である.
• 起源
1944年「ゲームの理論と経済活動」
著者:数学者 ジョン・フォン・ノイマン
経済学者 オスカー・モルゲンシュテルン
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
13
ゲーム理論について-協力/非協力-
• 非協力ゲーム理論
戦略的ゲームの参加者が互いにコミュニケーションを
取れない状況で,それぞれが自分の利益を最大化する
行動をとる.戦略形ゲームと展開ゲーム.
• 協力ゲーム理論
プレーヤー間の連携が可能で,連携を含めた戦略を各
参加者が検討し,自分の利益を最大化する行動をとる.
一般的に,コミュニケーションや事前協議が可能.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
14
ゲーム理論について-対称/非対称-
• 対称ゲーム
全てのプレーヤーが同じ状況下で同じ選択肢のもとで
行動選択を行う場合.厳密な意味での対称ゲームは社
会にはあまり存在しないが,問題の簡略化として.
• 非対称ゲーム
プレーヤー毎に置かれた状況や選考,選択肢が異なる
場合を考えたゲーム.特に,相手の状況が部分的にし
か把握できない場合,不完全情報ゲームと呼ばれる.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
15
ゲーム理論について-完全/不完全-
• 完全情報ゲーム
ゲームへの参加者が,他者のことも含めて全ての情報
を知っているという仮定が置かれている.
• 不完全情報ゲーム
ある人のみが知っている情報など,情報の非対称性が
生じるゲーム.実社会での状況は不完全情報ゲームに
該当するが,この時意思決定者は既に知っている情報
を基に,知らない情報に対する信念を形成する.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
16
ゲーム理論について-囚人のジレンマ-
対称ゲームにおいて,最適は実現されない
2人の共犯の強盗がいたとします.2人とも黙秘であれば物証が得られていないので,
2人は1年の懲役,2人とも自供すれば,立証により2人は3年の懲役を受けます.ただ
し,警察は自供させたいので,片方が自供し,もう片方が自供しなかった場合,自
供した方は懲役0年,しなかった方は懲役5年とすることにしました.2人は別々に尋
問を受けていますが,あなたが強盗だとしたら自供するでしょうか?・・
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
17
囚人A / 囚人B 自供 黙秘
自供 (-3,-3) (0,-5)
黙秘 (-5,0) (-1,-1)
ゲーム理論について-非対称のジレンマ-
非対称ゲームにおける意思決定は悩ましい
Aさん(彼)とBさん(彼女)は付き合っています.2人は週末デートに行くことになってい
て,カラオケか映画館のどちらかに行く予定で,10時に入口で待ち合わせをしまし
た.ところが困ったことに,2人はカラオケか映画館のどちらにするか決め忘れてい
たことに家を出てから気づきました.スマホは持っていません.2人は,落ち合えな
ければ最悪の気持ちですが,もし落ち合えるならば,彼の方はどちらかというとカ
ラオケに,彼女の方はどちらかというと映画館にいきたいと思っており,お互いに
そのことは分かっています.さあ,あなたが彼/彼女ならどちらへいきますか?・・
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
18
彼A / 彼女B カラオケ 映画館
カラオケ (3,2) (0,0)
映画館 (0,0) (2,3)
ゲーム理論について-共有地の悲劇-
個別最適と全体最適は一致しない
村全体で飼うなら3頭が適切な(利益が最大となる)牛の放牧.しかし,村の農家一人
ひとりが自分自身の利益を最大化しようとすると,3人の農家は一人2頭牛を飼い始
め,村全体では計6頭になってしまいました.・・
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
19
too much
6cow/village
appropriate
3cow/village
ゲーム理論について-ジレンマの回避-
互いの意思を確認できる場合と,できない場合.
あなたの意思決定は変わりますか?
A国では国民10人全員に,ひとりあたり10万円が与えられることになりました.10万
円は国民それぞれのものですので,どんな使い方をするかは国民の自由です.今,
国が投資のための資金を国民から集めることにしました.この投資は成功が保障さ
れていて,国民から集まったお金の3倍を税金として10人に均等に再分配することが
できます.あなたはいくら国に投資資金として渡すでしょうか?また,その決断は
他の住民と話し合いの上行う場合と,自分一人で行う場合,変わりますか?・・
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
20
協力する 出し抜く話し合い
あり?なし?
マルチエージェント強化学習
Multi-Agent Reinforcement Learning (MARL)
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
21
問題提起
• ゲーム的状況において,個別学習させた
エージェントは周囲との協調を考えた行動
を選択できるのか?
• つまり,自律分散型最適化をマルチエー
ジェント環境において学習させることはで
きるのか?
• 人間の行うコミュニケーションの代わりと
なるものを,どのように観測環境や情報と
して組み込めるか?
また,コミュニケーションなく協調は可能
なのか?
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
22
場面設定
• 協力
エージェント同士が協力して行動しなければ良い報酬
が得られない,全体での報酬を大きくしたい場合.
• 敵対
zero-sumゲームなどの,一方が得をすれば他方が損を
する状況で敵対的にエージェントを学習させたい場合.
• 影響
必ずしもエージェント間で協力して何かを達成したい
訳ではないが,他のエージェントの行動も考慮に入れ
た上で最適化をしなければならない場合.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
23
以下での参考文献
• A Review of Cooperative Multi-Agent Deep Reinforcement
Learning,
Oroojlooyjadid, Afshin, and Davood Hajinezhad , 2019
https://arxiv.org/abs/1908.03963
• Paper Collection of Multi-Agent Reinforcement Learning
(MARL), https://github.com/LantaoYu/MARL-Papers
と,上記紹介論文のAbstractをいくつか.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
24
主要課題
• MDPが達成されない⇒定常性がない,収束性に問題.
(つまり,経験再生が利用しづらい)
• 情報共有を規定すると,情報過多になり次元の呪いが
問題に.
• どうやって協力することをを学ばせるか.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
25
研究分野
• Framework
• Joint Action Learning
• Cooperation and
Competition
• Coordination
• Security
• Self-Play
• Learning to Communicate
• Transfer Learning
• Imitation and Inverse
Reinforcement Learning
• Meta Learning
• Application
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
26
研究分野の概観-Framework/Joint Action-
• Framework
あるシチュエーションを仮定して,どのような枠組み
の中で収束性を担保できるかなど,アルゴリズムの話.
• Joint Action Learning
エージェントが同時に意思決定するシチュエーション
を考えて,マルコフ性など収束性に関する問題への考
察を行う.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
27
研究分野の概観-3C-
• Cooperation and Competition
マルチエージェント環境において,エージェント同士
に協力したり,競い合ったりする状況での方策や行動
の最適化を学習させる.
• Coordination
上記Cooperationタスクにおいて,同じタイミングで
エージェントがそれぞれ適切な行動を起こさないとい
けない状況設定において,探索の困難性などについて
議論する.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
28
研究分野の概観-Security/Self-Play-
• Security
サイバーセキュリティの状況設定において,attacker
とdefenderの間のzero-sumゲームを考えている.ここ
で,defender側をマルチエージェントにして,パト
ロールの最適化をしたいらしい.
• Self-Play
AlphaGoなど,正解を人間が知らない∧ゲームなどの
閉じた設定∧対戦相手が明確な場合に,エージェント
同士を戦わせて,自己対戦によって最適方策(行動)を
学習していく.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
29
研究分野の概観-Communicate/Transfer-
• Learn to Communicate(詳しくは次ページ)
マルチエージェントの特にCooperativeな場面において,
情報共有や意思伝達の機能をエージェントに学習させ
る.個人的には,Competitiveな状況でCommunication
によって駆け引きが学習できると面白そうと思うけど,
収束性に問題があるのかあまり研究されていなさそう.
• Transfer Learning
他のエージェントが異なる/同じ状況で学習した記録
を,別のエージェントの学習に転用できないだろう
か?という発想.学習効率の向上について議論.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
30
意思疎通・情報共有の設定
• Consensus
予め人間の手によって共有する情報と範囲を決めてお
き(その意味で”合意”という),共有された情報と自分
の見れる範囲の観測を基にエージェントは意思決定す
る.また,全体最適の場合エージェント間の重みにつ
いても取り決められていたりする.
• Communication
エージェントに,”いつ” ”誰と” ”どのようにして”情報
を共有したり,シグナルを発信したりするのかまでも
学習・決定させる.ここで送られるメッセージはあく
まで環境を変化させないものと仮定されている.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
31
研究分野の概観-Imitation/Inverse/Meta-
• Imitation and Inverse Reinforcement Learning
通常は報酬を最大化するようエージェントが最適方策
(行動)を学習するが,対して,最適な方策(行動)を天下
り的に与えて,そこから報酬の推定を行う,という意
味で逆強化学習.状態数が多く探索が困難な場合に,
優秀な人間のデータを最適方策として与えることも.
• Meta Learning
学習の仕方を学習する.マルチエージェントの
Competitiveな状況において,メタ学習を使って変化し
ていく状況に対応し,収束性課題に取り組むなど.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
32
研究分野の概観-Application-
• multiple traffic signals
交通量を最大化するように,信号機の切り替えを都市
全体で調整.
• bike rebalancing
貸し自転車の店舗間移送を効率化する.
• distributed resource allocation
流通システムにおいて在庫を抱えないよう資源を分配.
• liquidation of stock
株の流動性の予測やポートフォリオ最適化など.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
33
モデル選択の自由度
• 使用するモデル
方策ベース?価値ベース?
• 観測範囲
state, action, rewardについて,
各々local, neighbor, globalのどの範囲で観察できるか?
• ConsensusとCommunication
どの範囲での情報共有を設定するか?
• 階層(ヒエラルキー)
中央集権的に行うか?どこまで自主性に任せるか?
• その他
RNN, GNN, Attention, Importance Sampling, Distributed, etc.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
34
補足-観測範囲について-
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
35
Fully Observable
(すべてのエージェントが)
すべての状態や報酬を観測できる.
Partially Observable
各エージェントは,自分の周りの近くの
状態や報酬のみ観測できる.
観測の共有をConsensusで決定.
・観測を全エージェント間で共有
・観測を近傍のエージェントや,サブグ
ループ内でのみ共有
・エージェント間の共有は行わない
Share? or not?
globally locally individually
補足-階層について-
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
36
Centralized Decentralized
中央集権型
エージェントを統括して
全体を見る仮想エージェ
ントがいるイメージ.
サブグループ型のさらに
上のエージェントなども.
サブグループ型
近傍のエージェントとな
どサブグループを生成し,
その中を統括するリーダ
ーエージェントが存在し
ているイメージ.
自律分散型
各エージェントが個別に
意思決定を行い,全体を
統括するエージェントが
存在しないイメージ.
補足-その他(1)-
• RNN..
価値の推定に,自身の時系列の過去経験から内部状態
を保持・使用する.LSTM, GRUなど.
• GNN..
エージェントをノード,エージェント間の関係をエッ
ジとみるとグラフとして全体を把握できる.
• Attention..
全体でのpolicy, Qの決定を行う際に,各エージェント
の持つ予測モデルの重みづけができる.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
37
補足-その他(2)-
• Importance Sampling..
重みづけをした場合など,重みに応じてSampling Rate
を変えることで,優先付けしてサンプリングできる.
• Distributed Learning..
あるエージェントで学習した結果を他のエージェント
でも活用できるようにすることで,分散的に学習を行
うことができ,学習効率が向上する.ただし,基本的
に他のエージェントの行動を観測できないようにして
いる場合などは,経験をどこまで他のエージェントが
活用できるようにするかは議論がある.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
38
ホットトピック
• Off-policy MARL
他のエージェントも含めた状況で,行動方策から最適
な方策を学習する.
• Safe MARL
長期的利益を最大化しつつ,決定的な打撃をさけるた
めのリスク回避を行いたい.
• Heterogeneous MARL
一様なエージェントではなく,技能などに個性を持っ
たエージェントでの最適化.
• Optimization in MARL
マルチエージェント環境での最適化問題を解く数学.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
39
問題提起(再掲)
• ゲーム的状況において,個別学習させた
エージェントは周囲との協調を考えた行動
を選択できるのか?⇒できる
• つまり,自律分散型最適化をマルチエー
ジェント環境において学習させることはで
きるのか?⇒できそう
• 人間の行うコミュニケーションの代わりと
なるものを,どのように観測環境や情報と
して組み込めるか?
また,コミュニケーションなく協調は可能
なのか?
⇒ConsensusとCommunicationを導入できる
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
40
まとめ
• MARLはゲーム理論的な課題に対し,Communicationの
導入などにより解決できそうだった.
• ただし,MARLでは収束性や学習の安定性が課題となる
ので,工夫が必要そうだった.
• これからのMARLは,適用範囲を増やしていくことや,
一人一人違う個性を持ったエージェントにおける最適
化などがおもしろそうだった.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
41
Appendix. 強化学習ライブラリ
• OpenAI Gym
Atariゲームなど,強化学習の一般的なタスクについて
実装されているライブラリ.
https://gym.openai.com/
• OpenSpiel
バックギャモンや囲碁など,幅広く対戦型のゲームの
タスクについて実装されているライブラリ.
https://deepmind.com/research/open-source/openspiel
• Arena
多くのMARLの実行環境を備え,MARLのベースライン
タスクを作ろうというモチベでつくられたライブラリ.
https://sites.google.com/view/arena-unity/
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加
42

More Related Content

What's hot

報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
nishio
 
二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価
Kenshi Abe
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
Deep Learning JP
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
SusumuOTA
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
佑 甲野
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
 
[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms
Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Katsuya Ito
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
 
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Hideki Tsunashima
 

What's hot (20)

報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
 

強化学習 と ゲーム理論 (MARL)