Submit Search
Upload
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
•
1 like
•
2,463 views
Deep Learning JP
Follow
2018/2/2 Deep Learning JP: http://deeplearning.jp/seminar-2/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 11
Download now
Download to read offline
Recommended
第5回NIPS読み会・関西発表資料
第5回NIPS読み会・関西発表資料
Kyoichiro Kobayashi
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
Trust Region Policy Optimization
Trust Region Policy Optimization
mooopan
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
佑 甲野
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
Recommended
第5回NIPS読み会・関西発表資料
第5回NIPS読み会・関西発表資料
Kyoichiro Kobayashi
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
Trust Region Policy Optimization
Trust Region Policy Optimization
mooopan
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
佑 甲野
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
Eiji Uchibe
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
Soft Actor Critic 解説
Soft Actor Critic 解説
KCS Keio Computer Society
[DL輪読会]Deep Learning 第18章 分配関数との対峙
[DL輪読会]Deep Learning 第18章 分配関数との対峙
Deep Learning JP
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Deep Learning JP
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
Deep Learning JP
強化学習その3
強化学習その3
nishio
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
Deep Learning JP
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較
gree_tech
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
More Related Content
What's hot
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
Eiji Uchibe
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
Soft Actor Critic 解説
Soft Actor Critic 解説
KCS Keio Computer Society
[DL輪読会]Deep Learning 第18章 分配関数との対峙
[DL輪読会]Deep Learning 第18章 分配関数との対峙
Deep Learning JP
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Deep Learning JP
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
Deep Learning JP
強化学習その3
強化学習その3
nishio
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
Deep Learning JP
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較
gree_tech
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
What's hot
(20)
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
報酬設計と逆強化学習
報酬設計と逆強化学習
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
TensorFlowで逆強化学習
TensorFlowで逆強化学習
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Soft Actor Critic 解説
Soft Actor Critic 解説
[DL輪読会]Deep Learning 第18章 分配関数との対峙
[DL輪読会]Deep Learning 第18章 分配関数との対峙
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
強化学習その3
強化学習その3
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
More from Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
More from Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Recently uploaded
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
Recently uploaded
(9)
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
1.
1 DEEPLEARNINGJP [DLPapers] http://deeplearning.jp/ “Learning Robust Rewards
with Adversarial Inverse Reinforcement Learning (ICLR2018)” 吉田 岳人, 國吉新山研 DL輪読会2018/02/02発表
2.
書誌情報 •https://openreview.net/forum?id=rkHywl-A- •著者:Justin Fu, Katie
Luo, Sergey Levine –UC Berkeley –Chelsea Finn氏による、Guided Cost Learning[Finn+, 2016]とA connection between GANs , IRL and EBM[Finn+, 2016]を引き継ぐ形 •ICLR 2018 accepted –Score: 7,6,6 2
3.
•RL •IRL 3 •Maximum Entropy IRL •
IRLの基本アルゴリズム • (1)式は以下の仮定から求まる • 𝑎𝑟𝑔𝑚𝑎𝑥 𝜋(𝑎|𝑠) 𝐸 𝜏~𝜋 [𝑅 𝜏 − log 𝜋 𝜏 ] • 第一項のみでは対応する方策が複数存 • エントロピー最大化の制約項を入れて 対応する方策を一意に定める 逆強化学習(IRL)とは エキスパートが従っている報酬関数を推定 報酬関数 𝑟(𝑠, 𝑎, 𝑠′) 最適方策 𝜋∗ (𝑎|𝑠) 軌道{𝑠𝑡, 𝑎 𝑡 ; 𝑡 = 0, … , 𝑇} 環境 𝑃(𝑠′ |𝑠, 𝑎) Task解決 報酬関数 𝑟(𝑠, 𝑎, 𝑠′) エキスパート軌道 [{𝑠𝑡, 𝑎 𝑡 ; 𝑡 = 0, … , 𝑇} 𝑖 ; 𝑖 = 1, . . , 𝑛] 𝜋∗ 𝜏 = exp 𝑅 𝜏 𝑍 が成立し、…(1) 𝑎𝑟𝑔𝑚𝑎𝑥 𝑟 𝑠,𝑎 𝐸 𝜏∈𝐸𝑥𝑝𝑒𝑟𝑡 [ exp 𝑅 𝜏 𝑍 ] で最適な報酬関数を推定 𝜏 = {𝑠𝑡, 𝑎 𝑡 ; 𝑡 = 0, … , 𝑇} 𝜋∗ 𝜏 :最適方策により𝜏が生成される確率 𝑅(𝜏):軌道𝜏により得られる累積報酬 学習 実行 学習 𝜋1 ∗ 𝜋2 ∗ 𝜋3 ∗ エントロピー 中 大 小
4.
•Direct –Generative Adversarial Imitation
Learning (GAIL) [Ho & Erman, NIPS2016] –GANのGeneratorをエージェントの方策と する –Discriminatorは状態sで行動aを取るエー ジェントがエキスパートかどうかを見分 ける –学習が収束すると𝜋 𝑎𝑔𝑒𝑛𝑡 = 𝜋 𝑒𝑥𝑝𝑒𝑟𝑡となる 「GAILの問題点」 –報酬関数は陰に求めつつ方策を直接πを 最適化していく →報酬関数がDiscriminatorに埋もれる *Dは報酬関数を表しているように思える が、学習が収束すると、Generator 𝜋 𝑎𝑔𝑒𝑛𝑡 が出す軌道のどのs,aに対してもD(s,a)=0.5 となり報酬関数として不適 4 •Indirect –陽に報酬関数を求めた後、もしくは求め ながら、最適方策を求める –本論文は陽に報酬を求めながら最適方策 を求める –具体的には以下のようにDiscriminatorを工 夫したGANを使うと報酬関数を取り出せる GAN-GCL[Finn+, 2016] Imitation Learning(IL)とは 報酬を陽に扱うか陰に扱うか 𝑟(𝑠, 𝑎, 𝑠′)IRL RL 最適方策 𝜋∗ (𝑎|𝑠)
5.
本論文の概要 •問題意識 –同じ軌道を生成する方策が複数ある問題→Max Ent IRLで解決 –同じ最適方策が生じる報酬関数も複数ある ⇓ •
状態遷移モデルが変化する転移学習を考える際、複数ある報酬のうち一部し かうまく機能しない •アプローチ –同じ最適方策を生じる報酬関数のクラスの性質を分析 –転移学習に耐えうる報酬を学習するアルゴリズムの考案 5
6.
•最適方策が一致する報酬のク ラスは以下のもののみであるこ とが知られている[Ng+, 1999] ∵ 𝑡=0 ∞ 𝛾
𝑡 𝑟 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1 + 𝛾Φ 𝑠𝑡+1 − Φ 𝑠𝑡 = 𝑡=0 ∞ 𝛾 𝑡 𝑟 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1 + 𝛾∞ Φ 𝑠∞ − Φ 𝑠0 = 𝑡=0 ∞ 𝛾 𝑡 𝑟 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1 − Φ 𝑠0 –このような報酬の変形があると、 状態遷移モデルが変わったときにr^ によって得られる最適方策が解きた いタスクの最適方策でなくなる。 •s’やaに依存すると状態遷移モ デル変化に対してロバストでな くなる 6 •状態sにのみ依存するように Discriminatorの構造を決める –すると最適値では –となり 報酬関数の曖昧性 状態sにのみ依存する報酬のみが環境変化にロバスト
7.
アルゴリズム 7
8.
•離散状態行動空間 –state0で行動を何か行えば報酬1 –初期状態はstate1 8 •連続状態行動空間 実験・結果 学習済みの方策が生成する軌道から報酬学習、テスト時 は変化した環境モデル下で再学習した方策の性能を見る c)では Adavantage Functionが 復元される 外界が変わる 身体が変わる
9.
結果(2) 9 Pointmass-mazeで得られた報酬 環境変化にロバストになっている。
10.
実験・結果(3) •AIRLが普通のImitationタスクにも使えるのか検証 –GAILに匹敵。Indirect Imitationでも高自由度の連続行動 空間に使えることを示した。 –ただし、必要なInteractionの数が書いてないので、効 率性はわからない。 10
11.
まとめ •転移タスクまとめ –小さい環境では、方策を再学習しないで成功 –大きい環境では、訓練環境でエージェントが試行錯誤 して状態sにのみ依存する報酬と方策を最適化⇒テスト 環境で方策を再学習するとそれなりの性能を出せた •Imitationタスクまとめ –GAILに性能は匹敵、効率は不明 11
Download now