Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
Uploaded by
Deep Learning JP
PPTX, PDF
9,400 views
[DL輪読会]逆強化学習とGANs
2017/8/24 Deep Learning JP: http://deeplearning.jp/seminar-2/
Technology
◦
Related topics:
Deep Learning
•
Read more
19
Save
Share
Embed
Embed presentation
Download
Downloaded 160 times
1
/ 50
2
/ 50
3
/ 50
4
/ 50
5
/ 50
6
/ 50
Most read
7
/ 50
Most read
8
/ 50
9
/ 50
10
/ 50
11
/ 50
12
/ 50
13
/ 50
14
/ 50
15
/ 50
16
/ 50
Most read
17
/ 50
18
/ 50
19
/ 50
20
/ 50
21
/ 50
22
/ 50
23
/ 50
24
/ 50
25
/ 50
26
/ 50
27
/ 50
28
/ 50
29
/ 50
30
/ 50
31
/ 50
32
/ 50
33
/ 50
34
/ 50
35
/ 50
36
/ 50
37
/ 50
38
/ 50
39
/ 50
40
/ 50
41
/ 50
42
/ 50
43
/ 50
44
/ 50
45
/ 50
46
/ 50
47
/ 50
48
/ 50
49
/ 50
50
/ 50
More Related Content
PDF
強化学習と逆強化学習を組み合わせた模倣学習
by
Eiji Uchibe
PPTX
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
by
Yusuke Nakata
PPTX
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
by
Yusuke Nakata
PDF
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
by
Jun Okumura
PDF
GAN(と強化学習との関係)
by
Masahiro Suzuki
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
by
Deep Learning JP
PDF
方策勾配型強化学習の基礎と応用
by
Ryo Iwaki
PPTX
強化学習 DQNからPPOまで
by
harmonylab
強化学習と逆強化学習を組み合わせた模倣学習
by
Eiji Uchibe
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
by
Yusuke Nakata
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
by
Yusuke Nakata
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
by
Jun Okumura
GAN(と強化学習との関係)
by
Masahiro Suzuki
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
by
Deep Learning JP
方策勾配型強化学習の基礎と応用
by
Ryo Iwaki
強化学習 DQNからPPOまで
by
harmonylab
What's hot
PPTX
強化学習における好奇心
by
Shota Imai
PDF
[DL輪読会]Control as Inferenceと発展
by
Deep Learning JP
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
by
Deep Learning JP
PDF
PRML学習者から入る深層生成モデル入門
by
tmtm otm
PDF
多様な強化学習の概念と課題認識
by
佑 甲野
PDF
Decision Transformer: Reinforcement Learning via Sequence Modeling
by
Yasunori Ozaki
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
by
Deep Learning JP
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
by
Deep Learning JP
PDF
DQNからRainbowまで 〜深層強化学習の最新動向〜
by
Jun Okumura
PDF
Transformerを多層にする際の勾配消失問題と解決法について
by
Sho Takase
PDF
機械学習モデルのハイパパラメータ最適化
by
gree_tech
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
by
Deep Learning JP
PDF
機械学習モデルの判断根拠の説明(Ver.2)
by
Satoshi Hara
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
by
SSII
PDF
POMDP下での強化学習の基礎と応用
by
Yasunori Ozaki
PDF
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
by
Deep Learning JP
PPTX
[DL輪読会]相互情報量最大化による表現学習
by
Deep Learning JP
PDF
HiPPO/S4解説
by
Morpho, Inc.
PDF
モデルではなく、データセットを蒸留する
by
Takahiro Kubo
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
by
Deep Learning JP
強化学習における好奇心
by
Shota Imai
[DL輪読会]Control as Inferenceと発展
by
Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
by
Deep Learning JP
PRML学習者から入る深層生成モデル入門
by
tmtm otm
多様な強化学習の概念と課題認識
by
佑 甲野
Decision Transformer: Reinforcement Learning via Sequence Modeling
by
Yasunori Ozaki
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
by
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
by
Deep Learning JP
DQNからRainbowまで 〜深層強化学習の最新動向〜
by
Jun Okumura
Transformerを多層にする際の勾配消失問題と解決法について
by
Sho Takase
機械学習モデルのハイパパラメータ最適化
by
gree_tech
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
by
Deep Learning JP
機械学習モデルの判断根拠の説明(Ver.2)
by
Satoshi Hara
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
by
SSII
POMDP下での強化学習の基礎と応用
by
Yasunori Ozaki
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
by
Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習
by
Deep Learning JP
HiPPO/S4解説
by
Morpho, Inc.
モデルではなく、データセットを蒸留する
by
Takahiro Kubo
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
by
Deep Learning JP
Similar to [DL輪読会]逆強化学習とGANs
PDF
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
by
Deep Learning JP
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
by
Shota Imai
PDF
第3回NIPS読み会・関西発表資料
by
Takato Horii
PPTX
ノンパラメトリックベイズを用いた逆強化学習
by
Shota Ishikawa
PDF
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
by
Toru Fujino
PPTX
1017 論文紹介第四回
by
Kohei Wakamatsu
PDF
強化学習とは (MIJS 分科会資料 2016/10/11)
by
Akihiro HATANAKA
PDF
グラフニューラルネットワークとグラフ組合せ問題
by
joisino
PDF
[Dl輪読会]introduction of reinforcement learning
by
Deep Learning JP
PPTX
海鳥の経路予測のための逆強化学習
by
Tsubasa Hirakawa
PPTX
0728 論文紹介第三回
by
Kohei Wakamatsu
PDF
20160329.dnn講演
by
Hayaru SHOUNO
PPTX
RBMを応用した事前学習とDNN学習
by
Masayuki Tanaka
PDF
Inverse Reward Design の紹介
by
Chihiro Kusunoki
PDF
Deep Learning技術の今
by
Seiya Tokui
PDF
強化学習その2
by
nishio
PDF
論文紹介:”Playing hard exploration games by watching YouTube“
by
Jun Okumura
PDF
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
by
Deep Learning JP
PDF
Gunosy2015-08-05
by
Yuta Kashino
PDF
Contrastive learning 20200607
by
ぱんいち すみもと
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
by
Deep Learning JP
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
by
Shota Imai
第3回NIPS読み会・関西発表資料
by
Takato Horii
ノンパラメトリックベイズを用いた逆強化学習
by
Shota Ishikawa
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
by
Toru Fujino
1017 論文紹介第四回
by
Kohei Wakamatsu
強化学習とは (MIJS 分科会資料 2016/10/11)
by
Akihiro HATANAKA
グラフニューラルネットワークとグラフ組合せ問題
by
joisino
[Dl輪読会]introduction of reinforcement learning
by
Deep Learning JP
海鳥の経路予測のための逆強化学習
by
Tsubasa Hirakawa
0728 論文紹介第三回
by
Kohei Wakamatsu
20160329.dnn講演
by
Hayaru SHOUNO
RBMを応用した事前学習とDNN学習
by
Masayuki Tanaka
Inverse Reward Design の紹介
by
Chihiro Kusunoki
Deep Learning技術の今
by
Seiya Tokui
強化学習その2
by
nishio
論文紹介:”Playing hard exploration games by watching YouTube“
by
Jun Okumura
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
by
Deep Learning JP
Gunosy2015-08-05
by
Yuta Kashino
Contrastive learning 20200607
by
ぱんいち すみもと
More from Deep Learning JP
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
by
Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
by
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
by
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
by
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
by
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
by
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
by
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
by
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
by
Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
by
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
by
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
by
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
by
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
by
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
by
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
by
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
by
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
by
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
by
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
by
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
by
Deep Learning JP
【DL輪読会】事前学習用データセットについて
by
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
by
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
by
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
by
Deep Learning JP
【DL輪読会】マルチモーダル LLM
by
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
by
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
by
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
by
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
by
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
by
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
by
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
by
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
by
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
by
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
by
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
by
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
by
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
by
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
by
Deep Learning JP
[DL輪読会]逆強化学習とGANs
1.
逆強化学習とGANs 冨山 翔司 2017/08/24 東京大学松尾研究室,株式会社DeepX
2.
2017/11/28 2 自己紹介 • 冨山翔司 •
東京大学松尾研究室修士2年 • 株式会社DeepX • 趣味:ボルダリング • 興味:系列モデリング
3.
今日の話 • Guided Cost
Learning – 今日の中心 • Guided Cost Learning and GANs • Generative Adversarial Imitation Learning 2017/11/28 3
4.
報酬関数の定義は実世界では難しいことがある [0] 2017/11/28 4
5.
逆強化学習の枠組み [0] 2017/11/28 5
6.
Behavior Cloning VS
Inverse RL • Behavior Cloning – デモンストレーションのデータで教師あり学習(尤度最大 化) – 行動空間が大きい場合に,全てを網羅するようなデモンスト レーションを確保するのが困難 – 仮に十分なデモンストレーションを確保できても,良いポリ シーを獲得できない • 尤度最大化による学習は.全てのモードをカバーするような分 布になってしまう – e.g. 理解不能な画像の生成 • Inverse RL – 少量のデモンストレーションからでも方策を学習できる – Behavior Cloningに比べ良い方策を獲得する • 尤度ではなくコストの最適化をしているから – モードとモードの間に確率密度を置かない – あれGANっぽい 2017/11/28 6
7.
エントロピー最大逆強化学習 [0] 2017/11/28 7
8.
アルゴリズム ・ダイナミクスがわからない ・コスト関数が複雑(e.g. NN) な場合は,このアルゴリズムを適用できない [0] 2017/11/28
8
9.
分配関数Zの計算が最大の問題 分配関数Zは状態が連続だったりすると計算できない サンプリングでどうにか回避する(Guided Cost Learning) 2017/11/28
9
10.
Guided Cost Learning [1] 2017/11/28
10
11.
Guided Cost Learning [1] 2017/11/28
11
12.
コスト関数のパラメータに関する勾配 • 𝑝(𝜏)の負の対数尤度 • 上の,コスト関数のパラメータ𝜃に関する勾配 𝑞(𝜏)からの重点サンプリングでZを近似 𝑤𝑗とする ※この𝑍は
𝑍 = 𝑗 𝑤𝑗 2017/11/28 12
13.
𝑞(𝜏)はどうすればいい??? • 理想的な𝑞(𝜏)は求めたい分配関数が exp
−𝑐 𝜃 𝜏 𝑑𝜏 なので明らかに • 𝑞(𝜏)を,その時点でのコスト関数 𝑐 𝜃 𝜏 に関して毎回 最適化. – 𝑞(𝜏)がより(現在の)コストの低い軌道を生成するようにな る – 𝑚𝑖𝑚 𝑞 𝐸 𝑞 𝑐 𝜃 𝜏 − 𝐻(𝜏)を目的関数にすることで 𝑞(𝜏) ∝ exp −𝑐 𝜃 𝜏 を復元可能 [Ziebart, 2010] • どうやって𝑞(𝜏)を現在のコスト関数に関して最適 化? – Guided Policy Search • ダイナミクスが未知でもオッケー • サンプルが少量で済む 𝑞(𝜏) ∝ exp −𝑐 𝜃 𝜏 2017/11/28 13
14.
(エントロピー正則での強化学習の目的関数) 𝐿 𝑅𝐿 𝜃;
𝜏, 𝐷 = 𝑥,𝑦∗ ∈𝐷 {−𝜏ℍ 𝑝 𝜃 − 𝑦∈𝑌 𝑝 𝜃 𝑦 𝑥 𝑟 𝑦, 𝑦∗ } ℍ 𝑝 𝜃 ・・・エントロピー 𝑟 𝑦, 𝑦∗ ・・・報酬関数 RL objective Energy-based model for behavior 𝑞 𝑦 𝑦∗ : 𝜏 = 1 𝑍(𝑦∗, 𝜏) exp{𝑟(𝑦, 𝑦∗ )/𝜏} where 𝑍 𝑦∗ , 𝜏 = 𝑦∈𝑌 exp{ 𝑟 𝑦,𝑦∗ 𝜏 } 𝑥,𝑦∗ ∈𝐷 𝐷 𝐾𝐿( 𝑝 𝜃 𝑦 𝑥) || 𝑞(𝑦|𝑦∗ ; 𝜏)) = 1 𝜏 𝐿 𝑅𝐿 𝜃; 𝜏 + 𝑐𝑜𝑛𝑠𝑡 Re-expressed RL objective 2017/11/28 14
15.
(証明) 2017/11/28 15
16.
(おまけ) [0] 2017/11/28 16
17.
Guided Policy Search
(Trajectory Optimization) 𝑞 𝑢 𝑡 𝑥 𝑡) = 𝑁(𝑘 𝑡 + 𝐾𝑡 𝑥 𝑡, Σ 𝑡) 𝑙𝑜𝑐𝑎𝑙𝑙𝑦 𝑞𝑢𝑎𝑑𝑟𝑎𝑡𝑖𝑐 𝑐𝑜𝑠𝑡 𝑙𝑖𝑛𝑒𝑎𝑟 𝐺𝑎𝑢𝑠𝑠𝑖𝑎𝑛 𝑝(𝑥 𝑡+1|𝑥 𝑡, 𝑢 𝑡 ) [2] 2017/11/28 17
18.
Guided Cost Learning 2017/11/28
18
19.
𝑞(𝜏)はGPSで最適化をしているが・・・ • とはいえ分配関数Zは不安定になりがち – 特に𝑞(𝜏)からのサンプル数が少ない時 •
ロボットとかだとサンプル数はできるだけ少なくありたい 𝑤𝑗 2017/11/28 19
20.
工夫1:𝐷𝑠𝑎𝑚𝑝にデモンストレーションを加える • 分配関数が小さくなりすぎる(= 𝑙𝑜𝑔𝑍が発散)ことを 防ぐことができる –
デモンストレーションの𝑤𝑗は基本大きい 𝑤𝑗 2017/11/28 20
21.
工夫2:過去の𝑞(𝜏)の平均を使う • 𝑞(𝜏)は毎イテレーションで更新されるので,過去の 𝑞 𝑘(𝜏)をつかって,𝜏に対する𝑞
𝑘(𝜏)の平均を重点重み とする – (𝐷𝑠𝑎𝑚𝑝は今まで生成した軌道全てを含んでます) 元の目的関数 重点重みを のように置くと 2017/11/28 21
22.
Guided Cost Learning
(over all algorithm) [1] 2017/11/28 22
23.
実験結果 [1] 2017/11/28 23
24.
2017/11/28 24 動画
25.
ちょっと休憩 • ここまでがGCL • 質問ある方今のタイミングでした方がいいと思いま す! •
つぎに,GCLとGANの関係について説明 2017/11/28 25
26.
逆強化学習とGANsはなんか似てる [0] 2017/11/28 26
27.
ここからの話は少しややこしいです. • GANsとGuided Cost
Learning(GCL)は色々な条件を 揃えると完全に同じことをしていますっていう話です. • まず,その色々な条件について説明します. 2017/11/28 27
28.
Special Form of
Generative Adversarial Network Optimal Discriminator 通常のGANはDを[0,1]の値を出すNNとするのでpもqも確率密度を 評価する必要が無い.しかし,qを確率密度を評価できる関数とし, 更にpθ = 1 Z exp(−cθ τ )とすると, ※ qが確率密度が評価可能なのに尤度最大化をしない理由は冒頭の通り 2017/11/28 28
29.
Guided Cost Learning再訪 工夫1を思い出す.つまりZの推定にデモンストレーションpからの サンプリングを使う.今,pからの軌道とqからの軌道を半々ずつ使うとすると, where 𝜇
= 1 2 𝑝 𝜏 + 1 2 𝑞 𝜏 𝑝 𝜏 はデモンストレーションの密度推定器 e.g.) 𝑝 𝜃 = 1 𝑍 exp(−𝑐 𝜃 𝜏 ) (GANと揃えるため) ※前述のGuided Cost Learningの時は,デモンストレーションのτは qによって密度計算している 2017/11/28 29
30.
確認 • GANsもGCLも,リアル(デモンストレーション) データ分布𝑝(𝜏)の推定を 𝑝
𝜃 = 1 𝑍 exp(−𝑐 𝜃 𝜏 ) によって 行う • GANsにおけるGenerator(=GCLにおけるポリシー) 𝑞 𝜏 は密度計算可能なモデル – ガウシアンとか出力にSoftmaxかけたRNNとか • GCLは分配関数𝑍の推定に際し𝑝,𝑞から半々ずつ軌道を 重点サンプリング • GANsのGの目的関数をBCEとする 2017/11/28 30
31.
DとCの目的関数 ・Dの目的関数を最小化するZは,重点サンプリングによるCostのZの推定器 ・上のZのとき,Dの勾配はCの勾配と一致 ・Gの目的関数は,エントロピー正則化の元での方策の目的関数と一致 以下の三つを証明 2017/11/28 31
32.
Dの目的関数を最小化するZは,CのZを推定する 𝜇 [3] 2017/11/28 32
33.
Dの勾配はCの勾配と一致 𝜇 [3] 2017/11/28 33
34.
Gの目的関数は,エントロピー正則化の元での方策の目的関数 [3] 2017/11/28 34
35.
結論 • 色々な条件を揃えると,GANのDとGの目的関数に GCLの目的関数が一致する 2017/11/28 35
36.
ちょっと休憩 • 質問があれば • 次にGAILについて軽く説明します 2017/11/28
36
37.
Generative Adversarial Imitation
Learning(GAIL) • Inverse RLによるコスト関数推定と,RLによる方策 の学習を交互に行っていたが,お互いの関係性は不明 だった.それらの関係を明らかにし,IRLとRLを統一 的に見るフレームワークを提案 – GANみたいなアルゴリズムが有名だが,こっちの方が理論 的貢献として重要 • 上のフレームワークの中から,特定のΨ正則化がGAN とほぼ同一の学習アルゴリズムを導く • わかりにくいですこの論文... – 間違ったこと言っている可能性大アリ 2017/11/28 37
38.
2つのモチベーション • RLとIRLを統一的に見たい – コスト関数の更新と方策の更新を交互にやるのはめんどくさ い.エキスパートからそのまま方策を獲得できないか •
っていってるのに結局GAN • (NNのような)表現力が高いコスト関数を最適化した い – 表現力の高いコスト関数を少量のエキスパートから推定する と過学習してしまうが,頑張る. 2017/11/28 38
39.
通常のIRLとRL IRLによるコスト推定 RLによる方策学習 2017/11/28 39
40.
凸関数Ψ付きIRL IRLによるコスト推定 RLによる方策学習 ψ付きIRLによるコスト推定 Ψをかける理由はひとまず置いておく. 2017/11/28 40
41.
凸関数Ψ付きIRLでのRL • – occupancy measureと呼ぶ。 –
方策πの元でstateとactionのペアがどれだけ発生するか • 一般に凸関数fに対して – ψ付きIRLによるコスト推定 RLによる方策学習 2017/11/28 41
42.
つまりどういうことかというと • ΨIRLでのRLは凸共役関数𝜓∗ のもとでエキスパートの occupancy measureとマッチするように方策を学習 –
Ψ=constantのとき(=正則化が無い),IRLによるコスト 関数の推定はoccupancy measureのマッチングと双対問題で あることが示されている – 確かに式を見るとコスト関数を求める必要がなくなっている ように見える ψ付きIRLによるコスト推定 RLによる方策学習 2017/11/28 42
43.
整理 IRLによるコスト推定 RLによるポリシー学習 ψ付きIRLによるコスト推定 RLによるポリシー学習 2017/11/28 43
44.
Ψをかける実用的な理由 • 𝑐 ∈
𝑅 𝑆∗𝐴で表現力の高いコスト関数を使うとすぐに過 学習する – それを防ぐための正則化Ψ – 従来のIRLは方策最適化を行えるようにコスト関数を線形関 数に限定 – うまくΨを設定すれば表現力が高いコスト関数の元でエキス パートに過学習しない方策が獲得できる→GAIL ψ付きIRLによるコスト推定 RLによる方策学習 2017/11/28 44
45.
GAIL • 上のようにψを設定する。と、これは – コストがいたるところで負であるような任意のコスト関数を 表現可能 –
このψの凸共役関数は – エキスパートとのoccupancy measureのJSDを最小化する • 方策はエキスパートを完全に模倣可能 – Discriminatorはコスト関数のように振る舞う • RLIRLからGANが出てきた(!) 2017/11/28 45
46.
GAIL [4] 2017/11/28 46
47.
GAILとGCLの関係 • GAILはDをそのまま出す – pやqの密度を計算しない –
logDをコストとして方策勾配法(TRPO) • GAILのほうがコスト関数の表現力は高い – GCLはNNによって特徴抽出した状態と行動の二次形式 • GAILはコスト関数がDの中に隠蔽されており,取り出 すことができない(?) – と[3]論文内に書いてあったが本当なのか? • (GAILはそもそも方策学習のために大量のサンプリ ングをすることを厭わないという点でGCLと大きく異 なる) 2017/11/28 47
48.
まとめ [0] 2017/11/28 48
49.
まとめ [0] 2017/11/28 49
50.
2017/11/28 50 References • [0]
ICML 2017 Deep RL Tutorial (https://sites.google.com/view/icml17deeprl) • [1] Finn, Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization • [2] Levine, Talk: Sergey Levine, UC Berkeley - Learning Dynamic Manipulation Skills (https://www.youtube.com/watch?v=CW1s6psByxk&t=921s) • [3] Finn & Christiano, A Connection Between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models • [4] Ho, Generative Adversarial Imitation Learning
Download