Submit Search
Upload
[DL輪読会]Self-Supervised Policy Adaptation during Deployment
•
0 likes
•
337 views
Deep Learning JP
Follow
2021/03/05 Deep Learning JP: http://deeplearning.jp/seminar-2/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 22
Download now
Download to read offline
Recommended
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
Deep Learning JP
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
Deep Learning JP
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
Takumi Ohkuma
[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer
Deep Learning JP
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
Deep Learning JP
改訂版:開発現場で役立つ論文の書き方のお話
改訂版:開発現場で役立つ論文の書き方のお話
Makoto SAKAI
(講演資料)開発現場で役立つ論文の書き方のお話
(講演資料)開発現場で役立つ論文の書き方のお話
Makoto SAKAI
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
Recommended
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
Deep Learning JP
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
Deep Learning JP
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
Takumi Ohkuma
[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer
Deep Learning JP
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
Deep Learning JP
改訂版:開発現場で役立つ論文の書き方のお話
改訂版:開発現場で役立つ論文の書き方のお話
Makoto SAKAI
(講演資料)開発現場で役立つ論文の書き方のお話
(講演資料)開発現場で役立つ論文の書き方のお話
Makoto SAKAI
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
DeNA QA night #2 presentation
DeNA QA night #2 presentation
Yasuharu Nishi
Survey of Scientific Publication Analysis by NLP and CV
Survey of Scientific Publication Analysis by NLP and CV
Shintaro Yamamoto
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
Hironori Washizaki
2012-08-01_平成24年度学術ポータル担当者研修LT
2012-08-01_平成24年度学術ポータル担当者研修LT
Yuka Egusa
AHA ECCインストラクターのためのデブリーフィング
AHA ECCインストラクターのためのデブリーフィング
Takahiro Matsumoto
PBL as a Service
PBL as a Service
Hiroshi Igaki
20121218 cc open_edu
20121218 cc open_edu
Tomoaki Watanabe
卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平
純平 伊東
[DL輪読会]Weight Agnostic Neural Networks
[DL輪読会]Weight Agnostic Neural Networks
Deep Learning JP
Id説明資料20130107Ver1.1
Id説明資料20130107Ver1.1
Norihiro Oku
ID説明資料20130107ver1.0
ID説明資料20130107ver1.0
Norihiro Oku
探索的テスト入門
探索的テスト入門
H Iseri
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
Deep Learning JP
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model
Deep Learning JP
20181030 JPCOAR@図書館総合展「オープンサイエンスに向けた具体的活動2:研究データ」
20181030 JPCOAR@図書館総合展「オープンサイエンスに向けた具体的活動2:研究データ」
Chihiro (千裕) Kunimoto (國本)
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
Deep Learning JP
知識創造型学習支援システムと開発と研究活動への適用
知識創造型学習支援システムと開発と研究活動への適用
Kotaro Miura
実践のためのスクラムガイド
実践のためのスクラムガイド
TaigaMatsunaga
A PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep Networks
harmonylab
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回「ネットワーク分析の方法+WSシリーズまとめ」
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回「ネットワーク分析の方法+WSシリーズまとめ」
Yasushi Hara
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
More Related Content
Similar to [DL輪読会]Self-Supervised Policy Adaptation during Deployment
DeNA QA night #2 presentation
DeNA QA night #2 presentation
Yasuharu Nishi
Survey of Scientific Publication Analysis by NLP and CV
Survey of Scientific Publication Analysis by NLP and CV
Shintaro Yamamoto
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
Hironori Washizaki
2012-08-01_平成24年度学術ポータル担当者研修LT
2012-08-01_平成24年度学術ポータル担当者研修LT
Yuka Egusa
AHA ECCインストラクターのためのデブリーフィング
AHA ECCインストラクターのためのデブリーフィング
Takahiro Matsumoto
PBL as a Service
PBL as a Service
Hiroshi Igaki
20121218 cc open_edu
20121218 cc open_edu
Tomoaki Watanabe
卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平
純平 伊東
[DL輪読会]Weight Agnostic Neural Networks
[DL輪読会]Weight Agnostic Neural Networks
Deep Learning JP
Id説明資料20130107Ver1.1
Id説明資料20130107Ver1.1
Norihiro Oku
ID説明資料20130107ver1.0
ID説明資料20130107ver1.0
Norihiro Oku
探索的テスト入門
探索的テスト入門
H Iseri
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
Deep Learning JP
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model
Deep Learning JP
20181030 JPCOAR@図書館総合展「オープンサイエンスに向けた具体的活動2:研究データ」
20181030 JPCOAR@図書館総合展「オープンサイエンスに向けた具体的活動2:研究データ」
Chihiro (千裕) Kunimoto (國本)
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
Deep Learning JP
知識創造型学習支援システムと開発と研究活動への適用
知識創造型学習支援システムと開発と研究活動への適用
Kotaro Miura
実践のためのスクラムガイド
実践のためのスクラムガイド
TaigaMatsunaga
A PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep Networks
harmonylab
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回「ネットワーク分析の方法+WSシリーズまとめ」
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回「ネットワーク分析の方法+WSシリーズまとめ」
Yasushi Hara
Similar to [DL輪読会]Self-Supervised Policy Adaptation during Deployment
(20)
DeNA QA night #2 presentation
DeNA QA night #2 presentation
Survey of Scientific Publication Analysis by NLP and CV
Survey of Scientific Publication Analysis by NLP and CV
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
2012-08-01_平成24年度学術ポータル担当者研修LT
2012-08-01_平成24年度学術ポータル担当者研修LT
AHA ECCインストラクターのためのデブリーフィング
AHA ECCインストラクターのためのデブリーフィング
PBL as a Service
PBL as a Service
20121218 cc open_edu
20121218 cc open_edu
卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平
[DL輪読会]Weight Agnostic Neural Networks
[DL輪読会]Weight Agnostic Neural Networks
Id説明資料20130107Ver1.1
Id説明資料20130107Ver1.1
ID説明資料20130107ver1.0
ID説明資料20130107ver1.0
探索的テスト入門
探索的テスト入門
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model
20181030 JPCOAR@図書館総合展「オープンサイエンスに向けた具体的活動2:研究データ」
20181030 JPCOAR@図書館総合展「オープンサイエンスに向けた具体的活動2:研究データ」
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
知識創造型学習支援システムと開発と研究活動への適用
知識創造型学習支援システムと開発と研究活動への適用
実践のためのスクラムガイド
実践のためのスクラムガイド
A PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep Networks
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回「ネットワーク分析の方法+WSシリーズまとめ」
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回「ネットワーク分析の方法+WSシリーズまとめ」
More from Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
More from Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Recently uploaded
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
Recently uploaded
(9)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
[DL輪読会]Self-Supervised Policy Adaptation during Deployment
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ Self-Supervised Policy Adaptation during Deployment Kohei Nishimura
2.
書誌情報 • タイトル – Self-Supervised
Policy Adaptation during Deployment • 著者 – Nicklas Hansen, Rishabh Jangir, Yu Sun, Guillem Alenyà, Pieter Abbeel, Alexei A. Efros, Lerrel Pinto, Xiaolong Wang • 所属 – UC San Diego, Technical University of Denmark, IRI, CSIC-UPC, UC Berkeley, NYU • 発表会議 – ICLR 2020(評価7, 7, 7, 7) • リンク – プロジェクトページ: https://nicklashansen.github.io/PAD/ – 論文: https://openreview.net/forum?id=o_V-MjyyGV_ – コード: https://github.com/nicklashansen/policy-adaptation-during- deployment • ※注釈がない場合は、本論文からの引用 2
3.
概要 • 強化学習方策の汎化性能を向上させる方法として、学習時および適用 時の両方で自己教示学習をする方法を提案した。 • 画像入力の問題設定において、ダイナミクスの推定と入力画像の回転 を推論する2つのタスクを自己教示学習方法として用いて、性能を確 認した。 •
シミュレーターおよび実世界の複数の問題設定において手法を検証し た。 3
4.
概要動画 • https://youtu.be/a9DwLg0nRUQ 4
5.
目次 • 背景 • 先行研究 •
提案手法 • 結果 • まとめ 5
6.
背景 • 未知の環境に対する汎化性能は機械学習全般で重要である • 強化学習を用いた制御方策の学習においては、テスト環境への汎化性 能が特に重要である。 –
実機でのサンプリングや報酬の獲得が難しいため。 6
7.
先行研究 • これまで制御方策の汎化性能を向上させる ために様々な研究が行われてきた。 • 多くの手法は、ターゲットドメインのデー タを見れることを仮定していた。 •
本論文では、完全に見たことがない環境で も動作する手法が必要だと主張している。 7 Adversarial Discriminative Domain Adaptation https://arxiv.org/pdf/1702.05464.pdf
8.
提案手法の概要 • 手法の概要図 8
9.
提案手法の肝 • 論点 – 環境に対する汎化性能が高い制御方策をどうやって獲得するか •
打ち手 1. 自己教示学習を用いたアーキテクチャ • 適⽤時にも学習が可能なフレームワーク 2. ダイナミクスを用いた自己教示学習 • ダイナミクスに対する汎化性能を向上させるためのタスク 3. 入力画像を用いた自己教示学習 • ⼊⼒画像に対する汎化性能を向上させるためのタスク 9
10.
1. 制御アーキテクチャ • 学習時 –
報酬を用いた強化学習 + 自己教示学習 • テスト時 – 自己教示学習 10
11.
1.の詳細 アーキテクチャの詳細 • ネットワークアーキテクチャ 11
12.
2.ダイナミクスを用いた自己教示学習 • 収集した!", !"$%,
&"を用いて自己教示学習を行う。 – 入力が!", !"$%、出力が&" – 目的関数は以下の式 – 行動空間が連続値の場合'はMSE、離散値の場合の'はクロスエントロピー • s"$%を学習するタスクだと、常に0を学習するダイナミクスが学習さ れる可能性があり、うまくいかない。 12
13.
3.入力画像を用いた自己教示学習 • 入力画像を0 ,
90 , 180 , 270 に 回転させ、回転角度4クラスに分 類するタスクを行う。 • 過去の画像認識タスクにおいて有 効であることを確認された手法。 13 UNSUPERVISED REPRESENTATION LEARNING BY PREDICTING IMAGE ROTATIONS https://arxiv.org/pdf/1803.07728.pdf
14.
比較手法 • SAC/A2C • +
DR – Domain Randomization • + IDM – Inverse Dynamics Model • + IDM(PAD) – Inverse Dynamics Model + Policy Adaptation Deployment 14
15.
実験設定 • Simulator – DeepMind
Control suite, CRLMaze 15
16.
実験結果 定量評価 DeepMind
Control Suite • ベースラインよりも高い報酬を得られることを確認した。 – DeepMind Control Suite 16
17.
実験結果 定量評価 CRLMaze •
ベースラインよりも高い報酬を得られることを確認した。 – CRLMaze 17
18.
実験設定 • ロボットのマニピュレーション 18
19.
実験結果 定量評価 • ベースラインよりも高い成功率であることを確認した。 19
20.
まとめ • 強化学習方策の汎化性能を向上させる方法として、学習時および適用 時の両方で自己教示学習をする方法を提案した。 • 画像入力の問題設定において、逆ダイナミクスの推定と入力画像の回 転を推論する2つのタスクを自己教示学習方法として用いて、性能を 確認した。 •
シミュレーターおよび実世界の複数の問題設定において手法を検証し た。 20
21.
所感 • シンプルな手法の組み合わせで、高い性能をあげているのは素晴らし いと感じた。 • 適用時の自己教示学習は、計算量が増えるので実機制御では計算速度 が問題になる場合がありそう 21
22.
参考文献 • Self-Supervised Policy
Adaptation during Deployment – https://nicklashansen.github.io/PAD/ • UNSUPERVISED REPRESENTATION LEARNING BY PREDICTING IMAGE ROTATIONS – https://arxiv.org/pdf/1803.07728.pdf 22
Download now