More Related Content
More from Deep Learning JP (20)
[DL輪読会]Active Domain Randomization
- 1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Active Domain Randomization
DeepX 吉田岳人
DL輪読会2019/05/17
- 2. 2
書誌情報
• 著者
– Bhairav Mehta, Manfred Diaz, Florian Golemo, Christopher J. Pal, Liam Paull
– モントリオール大学の修士の学生
• ステータス
– Arxive, Preprint
• 投稿日
– 2019/04/09
- 3. 3
概要
• 思想:
– Domainを一様にサンプリングするDomain Randomization(UDR)より、
– 難しいDomainにフォーカスしてサンプリングするDR(ADR)の方が、
– Domainに対する汎化性能が高い
• 手法:
– Domainをサンプリングする方策を用意して強化学習する
• サンプリングされたDomainに置いてタスクを解くためにも強化学習する(2種類のRLを回
す)
• 結果:
– ADRで訓練したタスク方策の性能はUDRと比べて分散が小さかった
– ADRで得られたサンプリング方策はより難しいDomainを選ぶことができていた
- 4. 4
背景:Domain Randomization
• Domain Randomization(DR)は、機械学習モデルをRandomizeしたDomainで
訓練し、汎化させ、Target Domainにzero-shotで転移する手法
– 強化学習の文脈では、
• RandomizeしたDomain= RandomizeしたDomain、
• Target Domain=実機、
• として、Sim2Realすることが多い
• 通常のDR考えうるDomain群から一様にサンプリングしてモデルを学習する
• UDRは、Target Domainのみで訓練することに比べて、過剰に難しい条件で訓
練してしまい、結果として、性能が低くなってしまう問題点がある
→重要なDomainに絞って訓練したい
- 6. 6
参考:Stein Variational Policy Gradient
• 複数の方策が、収益を最大化しつつ、互いに異なるパラメータ空間に分布する
よう学習する手法
• 右辺第一項は近い方策の勾配も利用してExploitation, 第二項はなるべく他の方
策から離れるExploration
– 第二項のKernelには∇ 𝜃 𝑗
𝑘(𝜃𝑗, 𝜃𝑖) = − ∇ 𝜃 𝑖
𝑘(𝜃𝑗, 𝜃𝑖)となるものを使用
• KernelにはRBF kernelを用いる
- 10. 10
結果: Pusher-3DOF
• タスク方策の性能
– UDRより摩擦・減衰に対してロバストなタスク方策が得られた(右
(a))
• 学習していない領域に対してUDRよりいい結果が得られた
– UDRでは破滅的忘却が生じている(下)
• サンプリング方策の挙動
– サンプリング方策により、より難しい左したの領域に着目している
(右(b))
ピンク、紫、水色の順で難しい
黒枠で囲った部分が学習に用いた箇所