8. State Representation with Rewards (in Robotics)
• [Lange+2012] “Autonomous reinforcement learning on raw visual
input data in real world application”
• [Jonschowski+2015] “Learning state representations with robotic
priors”
• [Higgins+2017] “DARLA: Improving Zero-Shot Transfer in
Reinforcement Learning ”
• [Bruin+2018] ”Integrating State Representation Learning Into
Deep Reinforcement Learning”
8
9. Problem of Reward Based Approach
• モデルミスマッチに敏感、タスクの転移ができない
– 例:迷路のゴールがかわる
– 例:モデルミスマッチ
• 上記の問題を解く場合、
• 1) 報酬を各タスクに設計する必要がある
• 2) 各タスクでサンプルを大量に集める必要がある
• =>厳しい
9
35. その他の実験
• 4.7. Transfer from Point Robot to Humanoid
– ポイントロボットで学習したUPNのfをより複雑なロボットに使う
– Antへの転移のより複雑版
– 定量評価はないが動いている(いろいろ工夫はしているっぽい)
• 4.8. Using UPN rewards for long horizon tasks
– より長い系列が必要なタスク
– 定量評価はないが動く
• See: https://sites.google.com/view/upn-public/home
35