【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills

DeepMimic: Example-Guided
Deep Reinforcement Learning of
Physics-Based Character Skills
XUE BIN PENG,
UC Berkeley
PIETER ABBEEL,
UC Berkeley
SERGEY LEVINE,
UC Berkeley
MICHIEL VAN DE
PANNE,
University of British
Columbia
arXiv:1804.02717
SIGGRAPH 2018

シミュレーション問題
受動現象の物理ベースシミュレーション(ex. 流体、布 etc)
ほぼ普及
⼈間や動物の動きをモデル化したシミュレーション
依然として困難
永続的な課題として⼀般化と指向性がある
1
背景

⼀般化と指向性とは
⼀般化…⼈間が⼿動で設計したコントローラでは指定の状況下ではうまく
機能するが、新しいスキルや状況を⼀般化することは設計により制限
⼈間は幅広いスキルを⾝につけることを熟知しているが、その能⼒の
下にある内部戦略(the internal strategies)を明確に表現(設計)できない
2
背景

⼀般化と指向性とは
指向性…キャラクターシミュレーションを困難にするもう⼀つの障害
シミュレートされた3D環境下での、キャラクターに所望のモーションを
⾃動⽣成するのは現在のインターフェースでは困難
3
背景

Yin et al. 2007
Coros et al. 2010
Wang et al. 2009
Kwon et al. 2010
Mordatch et al. 2010
Sok et al. 2007
Lee et al. 2010
Related Work - ⼆⾜歩⾏
Lasa et al. 2010
Wu et al. 2010
Muico et al. 2009
Liu et al. 2012
Brown et al. 2013
Al Borno et al. 2013
背景
コンピュターグラフィックによる歩⾏制御は数⼗年に渡り研究されてきた
4

Yin et al. 2007
Lasa et al. 2010
Wu et al. 2010
Coros et al. 2010
Wang et al. 2009
Kwon et al. 2010
Mordatch et al. 2010
Sok et al. 2007
Muico et al. 2009
Lee et al. 2010
Motion Capture Data
FSM / Simple Models
Optimization
Liu et al. 2012
Al Borno et al. 2013
Brown et al. 2013
有限ステートマシン(FSM)/
倒⽴振り⼦モデル(Simple)
Related Work - ⼆⾜歩⾏
背景 5

6
深層強化学習の応⽤
Duan et al. 2016 :Benchmarking Deep Reinforcement Learning for Continuous Control
Heess et al. 2016 :Continuous control with deep reinforcement learning
深層強化学習によりスキルを習得し,⼀連のモーション⽣成に成功したが,
最先端のkinematic(運動学的)⼿法や⼿動で設計されたモーションには品質が劣る
Heess et al. 2017 :Emergence of Locomotion Behaviours in Rich Environments
深層強化学習の場合、体部運動や特殊な歩⾏状況では不⾃然なモーションをとる

7
深層強化学習の応⽤
Da Silva et al. 2008 :Simulation of Human Motion Data using Short-Horizon
Model-Predictive Control
Lee et al. 2010a :Data-driven Biped Control
従来はKinematic⼿法で、システム上に物理ベースのトラッキングコントローラを
重ねて設計
実際の動きをデータ(Motion Capture Data)に取り込むことで品質を改善できた
深層強化学習エージェントに、モーションキャプチャまたは⼿作業による
アニメーションデータを組み込むことで学習の品質を改善したい

8
提案型深層強化学習⼿法
モーションキャプチャデータなどを報酬デザインに取り⼊れることで
⾃然な動きでかつタスクを達成できる強化学習⼿法を提案
従来の⼿法では困難だった不⾃然な動きを排除しつつダイナミックな
動作（回し蹴りなど）の⽣成を強化学習で達成
実験に使われたキャラクターモデル

9
本フレームワークを使⽤すると、⾏動を細かく計画するのではなく、
⽬的の⾏動を与えることでキャラクタに練習を通して熟達させることが
できる
また、スキルを別のキャラクタ、別の環境、別のタスクにリターゲットする
ことも可能。さらに、組み合わせて複数のスキルを実⾏することも可能

10
⽅策⽅策の⽬的はシミュレートされた環境で所望のモーションを
再現することであり、追加のタスク⽬標も満たす
⽅策勾配法(PPO:Proximal Policy Optimization)で⽅策パラメータ θ* を最適化する
基準動作によって運動学的情報を提供し、⽅策は所望の軌道を実現するために
各タイムステップでどの動作を適⽤すべきかを決定する
dθ(st) ：⽅策の元での状態分布
πθ.：⽅策
At ：状態stで⾏動at をとることで得られる得点

11
状態
・相対座標情報、関節⾓度・関節速度情報
・位相変数φ∈[0,1]：ϕは歩⾏などの周期的なタスクを1周期ごとに区切る
・ゴール：複数あるタスクのうちのどのタスクを実⾏しているかを表すベクトル
⾏動
各関節のPDコントローラ（⽐例微分調節器）の⽬標⽅向を指定する

12
⽅策Network
⽅策と価値の推定に別々のニューラルネットワークを⽤いる
⽅策はPPOを使⽤して更新され、価値関数はTD（λ）を使⽤して更新される
Actor-Criticで連続空間の⾏動を扱い、⾏動の⽣成には
proximal policy optimization algorithm(PPO)⽤いる
⾼さマップHは、Height Map(地⾯の⾼さをグリッドに区切って表現したもの)を
⼊⼒するものでタスクに画像⼊⼒のような情報が必要かどうかにより有無が決まる
すべての隠れ層にReLUが使⽤される
状態
⽬標
⾼さマップ
⽅策⽤のニューラルネット

報酬
各ステップtでの報酬関数
r I
t：模倣⽬的（関節⾓度,関節速度,重⼼位置が基準動作にどれくらいうまく従うか）
r G
t：タスク⽬標（どのくらいうまくそのタスクを完了するか）
ω I, ω G：重み（スカラー）
報酬は事前に⽤意した基準動作とエージェントによって制御されたキャラクター
動作とのズレの少なさと，タスクの達成度
模倣⽬的r I
tは、さらに以下のように分解できる：
姿勢報酬r p
t：関節姿勢が基準動作とどれほど⼀致するか
速度報酬r v
t：キャラクタと基準運動の関節速度の差
エンドエフェクタ報酬r e
t：キャラクタの⼿⾜の位置が基準動作に対してどれほど⼀致するか
r c
t：キャラクタの重⼼質量の偏差を基準動作の質量から出⼒
13

報酬
模倣⽬的r I
tは、さらに以下のように分解できる
姿勢報酬r p
t：関節姿勢が基準動作とどれほど⼀致するか
速度報酬r v
t：キャラクタと基準運動の関節速度の差
エンドエフェクタ報酬r e
t：キャラクタの⼿⾜の位置が基準動作に対してどれほど⼀致するか
r c
t：キャラクタの重⼼質量の偏差を基準動作の質量から出⼒
14

学習
本論⽂では２つの重要な学習ポイントがある
Reference State Initialization （RSI）/ Early Termination (ET)
Reference State Initialization （RSI）：初期状態の与え⽅
エピソードごとの初期状態は、基準動作のいずれかからランダムに選ぶ
既存⼿法では初期姿勢が固定だったが、提案⼿法では模倣対象となるデータからラ
ンダムに取り出して初期姿勢として使う
例えば、バックフリップなら空中で回転している状態や、着地する直前の状態を初
期状態として与えることもある
バックフリップは、回転した”後に”着地をうまくすることがタスクの報酬に⼤きく関
わってくるが、毎回初期姿勢から始めると、動作の後半に到達できないまま学習が
収束してしまう
15

学習
Early Termination (ET)：早期打切り
不⾃然な動きを学習させないために、胴体や頭などのいずれかの部位が
地⾯に着いたり、胴体の⾼さが⼀定より低くなったりしたときに、
報酬を0のままそのエピソードでの学習は打ち切る
16
左：RSI + ET Middle：RSIなし右：ETなし

結果
17

結論
RSIは幅広いタスクに適⽤され、特にエピソードの最後に1つの最終的な
報酬しか得られない問題に役⽴つ
ETはすでに普及しており、本論⽂で有効性が確かめられた
1つのポリシーでどのくらい多くの動作を学習できるかは不明
模倣報酬は、異なる動きの間で共有されるパラメータを有するため、特定の
⾏動に対する特定の価値は各⾏動で相関関係があるかもしれない
18
模擬ライオン

【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Tomoyuki Hioki

More from Tomoyuki Hioki (18)

【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills