[DL輪読会]Self-Supervised Policy Adaptation during Deployment

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Self-Supervised Policy Adaptation during
Deployment
Kohei Nishimura

書誌情報
• タイトル
– Self-Supervised Policy Adaptation during Deployment
• 著者
– Nicklas Hansen, Rishabh Jangir, Yu Sun, Guillem Alenyà, Pieter Abbeel, Alexei
A. Efros, Lerrel Pinto, Xiaolong Wang
• 所属
– UC San Diego, Technical University of Denmark, IRI, CSIC-UPC, UC Berkeley,
NYU
• 発表会議
– ICLR 2020(評価7, 7, 7, 7)
• リンク
– プロジェクトページ: https://nicklashansen.github.io/PAD/
– 論文: https://openreview.net/forum?id=o_V-MjyyGV_
– コード: https://github.com/nicklashansen/policy-adaptation-during-
deployment
• ※注釈がない場合は、本論文からの引用
2

概要
• 強化学習方策の汎化性能を向上させる方法として、学習時および適用
時の両方で自己教示学習をする方法を提案した。
• 画像入力の問題設定において、ダイナミクスの推定と入力画像の回転
を推論する2つのタスクを自己教示学習方法として用いて、性能を確
認した。
• シミュレーターおよび実世界の複数の問題設定において手法を検証し
た。
3

概要動画
• https://youtu.be/a9DwLg0nRUQ
4

目次
• 背景
• 先行研究
• 提案手法
• 結果
• まとめ
5

背景
• 未知の環境に対する汎化性能は機械学習全般で重要である
• 強化学習を用いた制御方策の学習においては、テスト環境への汎化性
能が特に重要である。
– 実機でのサンプリングや報酬の獲得が難しいため。
6

先行研究
• これまで制御方策の汎化性能を向上させる
ために様々な研究が行われてきた。
• 多くの手法は、ターゲットドメインのデー
タを見れることを仮定していた。
• 本論文では、完全に見たことがない環境で
も動作する手法が必要だと主張している。
7
Adversarial Discriminative Domain Adaptation
https://arxiv.org/pdf/1702.05464.pdf

提案手法の概要
• 手法の概要図
8

提案手法の肝
• 論点
– 環境に対する汎化性能が高い制御方策をどうやって獲得するか
• 打ち手
1. 自己教示学習を用いたアーキテクチャ
• 適⽤時にも学習が可能なフレームワーク
2. ダイナミクスを用いた自己教示学習
• ダイナミクスに対する汎化性能を向上させるためのタスク
3. 入力画像を用いた自己教示学習
• ⼊⼒画像に対する汎化性能を向上させるためのタスク
9

1. 制御アーキテクチャ
• 学習時
– 報酬を用いた強化学習 + 自己教示学習
• テスト時
– 自己教示学習
10

1.の詳細アーキテクチャの詳細
• ネットワークアーキテクチャ
11

2.ダイナミクスを用いた自己教示学習
• 収集した!", !"$%, &"を用いて自己教示学習を行う。
– 入力が!", !"$%、出力が&"
– 目的関数は以下の式
– 行動空間が連続値の場合'はMSE、離散値の場合の'はクロスエントロピー
• s"$%を学習するタスクだと、常に0を学習するダイナミクスが学習さ
れる可能性があり、うまくいかない。
12

3.入力画像を用いた自己教示学習
• 入力画像を0 , 90 , 180 , 270 に
回転させ、回転角度4クラスに分
類するタスクを行う。
• 過去の画像認識タスクにおいて有
効であることを確認された手法。
13
UNSUPERVISED REPRESENTATION LEARNING BY PREDICTING IMAGE ROTATIONS
https://arxiv.org/pdf/1803.07728.pdf

比較手法
• SAC/A2C
• + DR
– Domain Randomization
• + IDM
– Inverse Dynamics Model
• + IDM(PAD)
– Inverse Dynamics Model + Policy Adaptation Deployment
14

実験設定
• Simulator
– DeepMind Control suite, CRLMaze
15

実験結果定量評価 DeepMind Control Suite
• ベースラインよりも高い報酬を得られることを確認した。
– DeepMind Control Suite
16

実験結果定量評価 CRLMaze
• ベースラインよりも高い報酬を得られることを確認した。
– CRLMaze
17

実験設定
• ロボットのマニピュレーション
18

実験結果定量評価
• ベースラインよりも高い成功率であることを確認した。
19

まとめ
• 強化学習方策の汎化性能を向上させる方法として、学習時および適用
時の両方で自己教示学習をする方法を提案した。
• 画像入力の問題設定において、逆ダイナミクスの推定と入力画像の回
転を推論する2つのタスクを自己教示学習方法として用いて、性能を
確認した。
• シミュレーターおよび実世界の複数の問題設定において手法を検証し
た。
20

所感
• シンプルな手法の組み合わせで、高い性能をあげているのは素晴らし
いと感じた。
• 適用時の自己教示学習は、計算量が増えるので実機制御では計算速度
が問題になる場合がありそう
21

参考文献
• Self-Supervised Policy Adaptation during Deployment
– https://nicklashansen.github.io/PAD/
• UNSUPERVISED REPRESENTATION LEARNING BY
PREDICTING IMAGE ROTATIONS
– https://arxiv.org/pdf/1803.07728.pdf
22

[DL輪読会]Self-Supervised Policy Adaptation during Deployment

Recommended

Recommended

More Related Content

Similar to [DL輪読会]Self-Supervised Policy Adaptation during Deployment

Similar to [DL輪読会]Self-Supervised Policy Adaptation during Deployment (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (9)

[DL輪読会]Self-Supervised Policy Adaptation during Deployment