Submit Search
Upload
論文紹介 No-Reward Meta Learning (RL architecture勉強会)
•
Download as PPTX, PDF
•
2 likes
•
1,540 views
Y
Yusuke Nakata
Follow
RL architecture勉強会での発表資料
Read less
Read more
Technology
Report
Share
Report
Share
1 of 44
Download now
Recommended
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
Recommended
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
Tsubasa Hirakawa
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
gree_tech
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
強化学習その3
強化学習その3
nishio
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
SusumuOTA
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
gree_tech
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
強化学習を可視化する chainerrl-visualizerを動かしてみた
強化学習を可視化する chainerrl-visualizerを動かしてみた
mogamin
More Related Content
What's hot
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
Tsubasa Hirakawa
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
gree_tech
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
強化学習その3
強化学習その3
nishio
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
SusumuOTA
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
gree_tech
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
What's hot
(20)
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
Optimizer入門&最新動向
Optimizer入門&最新動向
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
GAN(と強化学習との関係)
GAN(と強化学習との関係)
強化学習その3
強化学習その3
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
変分ベイズ法の説明
変分ベイズ法の説明
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
報酬設計と逆強化学習
報酬設計と逆強化学習
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Similar to 論文紹介 No-Reward Meta Learning (RL architecture勉強会)
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
強化学習を可視化する chainerrl-visualizerを動かしてみた
強化学習を可視化する chainerrl-visualizerを動かしてみた
mogamin
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
Deep Learning JP
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
MILab
C# から java へのプログラム移植で体験したtddの効果は?
C# から java へのプログラム移植で体験したtddの効果は?
Shinichi Hirauchi
ビジネス的に高価値なアジャイルテスト
ビジネス的に高価値なアジャイルテスト
Tsutomu Chikuba
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
Akisato Kimura
オブジェクト指向プログラミング教育法序説
オブジェクト指向プログラミング教育法序説
seastar orion
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習
Masato Nakai
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
Masahiro Yasumoto
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks
Similar to 論文紹介 No-Reward Meta Learning (RL architecture勉強会)
(11)
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
強化学習を可視化する chainerrl-visualizerを動かしてみた
強化学習を可視化する chainerrl-visualizerを動かしてみた
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
C# から java へのプログラム移植で体験したtddの効果は?
C# から java へのプログラム移植で体験したtddの効果は?
ビジネス的に高価値なアジャイルテスト
ビジネス的に高価値なアジャイルテスト
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
オブジェクト指向プログラミング教育法序説
オブジェクト指向プログラミング教育法序説
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Recently uploaded
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
Hiroshi Tomioka
Recently uploaded
(9)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
論文紹介 No-Reward Meta Learning (RL architecture勉強会)
1.
論文紹介 NoRML: No-Reward Meta
Learning D1 中田勇介 2019/05/21 強化学習アーキテクチャ勉強会
2.
002 / 実環境で実行可能な方策を学習するためのMeta-Learning手法を提案 ・シミュレータで学習 ->
実環境で方策を適応 ・特徴:実環境への適応時に報酬不要 ・MAML, Domain Randomizationと比較して優れた性能 ・著者:Yuxiang Yang, Ken Caluwaerts, Atil Iscen, Jie Tan, Chelsea Finn ・実装:https://github.com/google-research/google-research/tree/master/norml どんな論文?
3.
003 / 1. Introduction 2.
Preliminaries 3. NO-REWARD META LEARNING (提案法) 4. Experiments 5. Related Work 6. まとめ Outline
4.
004 / ・(モデルフリー)強化学習には多くの試行錯誤が必要 ・実環境では試行錯誤するのは困難 ・シミュレータで実環境のダイナミクスを再現するのは困難 ・シミュレータで学習させた方策を実環境に適応 Introduction
5.
005 / 想定している状況 [Tan+, 2018]
6.
006 / Notation 状態集合 行動集合 状態遷移確率 報酬関数 軌跡 方策 Preliminaries
7.
007 / Model-free Reinforcement
Learning ・Loss function Preliminaries
8.
008 / Model-free Reinforcement
Learning ・Loss function ・Policy Gradient ・Advantage function Preliminaries
9.
009 / 学習タスク〜 を用いてテストタスク〜
に適応可能な パラメータを学習する方法 仮定:タスク間には共通の構造(使いまわせる知識)が存在する. Meta Learningとは
10.
0010 / 学習タスク〜 を用いてテストタスク〜
に適応可能な パラメータを学習する方法 仮定:タスク間には共通の構造(使いまわせる知識)が存在する. ・NoRMLにおける仮定 タスク間で共通 : , , タスク間で異なる: Meta Learningとは
11.
0011 / Model-Agnostic Meta
Learning (MAML)
12.
0012 / Model-Agnostic Meta
Learning (MAML)
13.
0013 / MAML on
Model-free RL Policy Gradient
14.
0014 / ・Policy Gradient ・Update
Rule MAML on Model-free RL
15.
0015 / MAML on
Model-free RL
16.
0016 / MAML on
Model-free RL
17.
0017 / MAML on
Model-free RL
18.
0018 / ・Learned Advantage
Function ・Offset NO-REWARD META LEARNING (提案法)
19.
0019 / ・Learned Advantage
Function ・Offset NO-REWARD META LEARNING (提案法)
20.
0020 / ・Learned Advantage
Function ・Offset NO-REWARD META LEARNING (提案法) 全タスクで共通
21.
0021 / NO-REWARD META
LEARNING (提案法)
22.
0022 / NO-REWARD META
LEARNING (提案法)
23.
0023 / NO-REWARD META
LEARNING (提案法)
24.
0024 / 比較対象 ・MAML ・Domain Randomization Experiments
25.
0025 / Domain Randomization
26.
0026 / 実験環境 ・Point Agent
with Rotation Bias ・Cartpole with Sensor Bias ・Half Cheetah with Swapped Actions Experiments
27.
0027 / Point Agent
with Rotation Bias (-2, 2) (2, 2) (2, -2)(-2, -2) x Goal (1, 0) action Rotation bias Next state State(0, 0)
28.
0028 / Point Agent
with Rotation Bias
29.
0029 / Point Agent
with Rotation Bias
30.
0030 / Point Agent
with Rotation Bias
31.
0031 / Cartpole with
Sensor Bias
32.
0032 / Cartpole with
Sensor Bias
33.
0033 / Half Cheetah
with Swapped Actions
34.
0034 / Half Cheetah
with Swapped Actions
35.
0035 / https://sites.google.com/view/noreward-meta-rl/ Half Cheetah
with Swapped Actions
36.
0036 / Meta reinforcement
learningの分類 - Recurrent based: RL2, Attentive meta learner, etc. - エピソードを記憶させることで環境の違いを認識 - Gradient-based: NoRML(this work), MAML, etc. - 勾配法でパラメータを更新し環境に適応 - Hybrid-based: Evolved Policy Gradient, Meta-critic network, etc - 上の二つのハイブリッド Related Work
37.
0037 / ダイナミクスの変化に対する他のアプローチ - Adaptive
inverse control - Self-modeling - Bayesian optimization - Online system identification Related Work
38.
0038 / 実環境で実行可能な方策を学習するNoRMLを提案 提案内容:Learned Advantage
Function, Offset ・シミュレータで学習 -> 実環境で方策を適応 ・実環境への適応時に報酬不要 ・MAML, Domain Randomizationと比較して優れた性能 まとめ
39.
0039 / おまけ:AAMAS2019参加報告 http://www.kamishima.net/archive/MLDMAImap.pdf
40.
0040 / おまけ:AAMAS2019参加報告
41.
0041 / おまけ:AAMAS2019参加報告
42.
0042 / おまけ:AAMAS2019参加報告
43.
0043 / おまけ:AAMAS2019参加報告
44.
0044 / おまけ:AAMAS2019参加報告
Editor's Notes
この論文ではないが,Learning to
Download now