DEEP LEARNING JP
[DL Papers]
LEARNING AN EMBEDDING SPACE FOR TRANSFERABLE
ROBOT SKILLS (ICLR 2018 )
Hiroaki Shioya, Matsuo Lab
http://deeplearning.jp/
1
���話 = skill embedding + transfer(hierarchical) RL
● �となるスキル�潜在空間へ�埋め込みを学習する
● �しいタスクを潜在空間上�スキルをうまく�み��せて解く
2
skill embedding space (z)
pre-train task
target task
transfer(hierarchical) RL ���ベー��ン
● 毎��ロからタスクを学習する���効率 → ���スキルを�活用したい�
● ��なタスクを解く�にトルク�ような��的な�ベル�行動を��していて��
しい
○ �え����を走�ながら���えるタスクをときたい�、
■ 「���を走�ながら���える」トルク���法を学習する���� RL�よ��
■ まず「走る」と 「���える」を学習して、目的�タスク���使い分�を学習する
��が���う(�に、��に��していて�����る��にた���かない��に�効 )
3
skill embedding ���ベー��ン
● 1task 1 policy(�え�、タスクを示すone-hot vectorを入力するとか)で�なく
1. 同じタスク�色々な解を��したい (い�んな解を�っていた�が����に�� )
2. skillとskill���とかして�しい
4
skill embedding space (z)
pre-train task
1. 2.
関連研究
STOCHASTIC NEURAL NETWORKS FOR HIERARCHICAL REINFORCEMENT
LEARNING [Florensa+, ICLR2017]
● スキルを�す潜在変数と状態������を使って多様なスキル獲得
○ InfoGAN[Chen+ , NIPS 2016]みたいな
● 獲得したスキルを使って階層的強化学習
5
�研究����関連研究と��分�
● スキル�潜在空間へ�埋め込みを学習 ← こっち中心に話します
● off-policyなアルゴリズムへ�拡張
6
こ����れ
1. 手法
1.1. スキルを埋め込んだ潜在空間に望まれる性質
1.2. 望ましい埋め込みを得るアルゴリズム
1.3. (off-policyへ�拡張)
2. 実験
2.1. 得られた潜在空間�性質���
2.2. 獲得したスキルを別タスクに活用
7
notation
● s : 状態
● a : 行動
● t : タスクを示すベクトル
● z : スキルを埋め込む潜在変数
8
スキルを埋め込んだ空間に望まれる性質
● generality : 広く色々なスキルが埋め込める
● versatility : 同じスキル�多様な解が��い�くに埋め込まれている
● identifiability : スキル�軌道から潜在変数を��できる
9
望ましい埋め込みを得るアルゴリズム
● タスク毎に多様な解が得られるように、エントロピー正則化項を加える
10
● しかし、タスク�潜在変数を�入したために、となっ
て��ままで��えない
→ 変分推論でエントロピー正則化項�下�を�める
エントロピー正則化項�下����
11
エントロピー正則化項�下����(1行目→2行目�変�)
Theorem 1. を適用する
12
← q���分�(なんでも良い)
←Jensen����
エントロピー正則化項�下����(2行目→3行目�変�)
多分こんな感じ。。。
13
��された下����
● 第1項 : 軌道から潜在変数zが推論しやすいように(identifiability)
● 第2項 : タスクが潜在変数�広い空間を�めるように(generality?)
● 第3項 : 得られるスキルがなる�く多様性��るも�になるように(versatility ?)
14
目的関数
��、エントロピー正則化項を��した下�に�き�えると、目的関数�
15
推論��ト�ーク��適化
埋め込み��ト�ーク��適化
��手法����
16
off-policyへ�拡張
● 得られた��、��ままだとon-policy
● サンプル効率を向上させるために、off-policyへ�拡張を行う
○ Retrace [Munos+ ,2016], SVG [Heess+, 2015]をつかって拡張
17
実験�得られた潜在空間�望ましい性質���
● 潜在変数を軌道からうまく推論できるように多様なスキルが学習されている
● 実�に潜在変数�推論��がよ���している
18
実験�得られた潜在空間�望ましい性質���
異なるタスクベクトルが与えられても、同じスキルなら同じ潜在変数へ埋め込む
19
実験�得られたスキルを活用して�しいタスク�学習
● タスク�様�(左)。左2�をつかって右1���れらをくみ��せたようなタスクを学
習
● 潜在変数��いが多様なスキルに(右上), �手法と�性���(右下)
20
感想
● 潜在変数が異なるスキルに��するように学習する手法�い�んなとこ�で使え�
う
● 連��タスク�����うなる�
21

[DL輪読会]Learning an Embedding Space for Transferable Robot Skills