DeepLoco

DeepLoco : Dynamic Locomotion Skills Using
Hierarchical Deep Reinforcement Learning
Transactions on Graphics (Proc. ACM SIGGRAPH 2017)
XUE BIN PENG and GLEN BERSETH,University of British Columbia
KANGKANG YIN,National University of Singapore
MICHIEL VAN DE PANNE,University of British Columbia
URL：http://www.cs.ubc.ca/~van/papers/2017-TOG-deepLoco/
1Deep Learning ゼミ論文紹介 2017/05/22 発表者 B4 吉田拓海

Abstruct
• 限られた量の事前知識を持つ環境に配慮した歩行技術を学習する
• 2レベルの階層的制御フレームワークを採用
• コントローラはどちらもdeep reinforcement learningで訓練される
2

Overview
• HLC(High-level controller)
• 𝑠 𝐻:状態
• 𝑔 𝐻: 目標
• 𝑟 𝐻: 報酬
• 𝑎 𝐻: 行動
• LLC(Low-level controller)
• 𝑠 𝐿: 状態
• 𝑔 𝐿: 目標
• 𝑟𝐿: 報酬
• 𝑎 𝐿: 行動
HLCが高レベル目標𝑔 𝐻を処理し、LLCに低レベル目標𝑔 𝐿を提供する
LLCからの行動𝑎 𝐿はシミュレーションに適用され、状態𝑠 𝐻, 𝑠 𝐿が更新される
3目標 LLC：歩く、HLC：障害物を避ける等

LLC (LOW-LEVEL CONTROLLER)
𝑠 𝐿: ルート(赤点) に対する各関節の位置(赤矢印)、
回転、線速度(緑矢印)、角速度、位相、接地
位相：歩行サイクルにあった位相(φ∈[0,1])
接地：各足が接地しているかどうか
𝑎 𝐿=各関節のPD目標角
4

Reference Motion
Mocap clip は下のサイトから収集
http://animation.comp.nus.edu.sg/nusmocap.html
5
Reference Motion を模倣するように報酬を設定
LLCの目的はReference Motionを正確に追跡するのではなく、
全体的なスタイルを模倣すること

LLC Reward
6
Reference Motion を模倣するように報酬を設定
ෝ𝑞𝑖(𝑡) : Reference Motion の関節iの位置
𝑞𝑖 : 関節iの位置
(𝑤 𝑝𝑜𝑠𝑒, 𝑤 𝑣𝑒𝑙, 𝑤 𝑟𝑜𝑜𝑡, 𝑤𝑐𝑜𝑚, 𝑤 𝑒𝑛𝑑, 𝑤ℎ𝑒𝑎𝑑𝑖𝑛𝑔) =(0.5, 0.05, 0.1, 0.1, 0.2, 0.1)

Style Modification
7
𝑤𝑠𝑡𝑦𝑙𝑒, 𝑐 𝑠𝑡𝑦𝑙𝑒を変更することでスタイル(歩き方)を変更可能
Straight Legs High-Knees

LLC Network
位相φ
0≤φ<0.25・・・Φ0 = 1 , Φ1~3 = 0
0.25≤φ<0.5・・・Φ1 = 1 , Φ0,2,3 = 0
…
ネットワークがモーションの異なる
フェーズをより区別できる
活性化関数:ReLU
512,256:全結合層
8

HLC (HIGH-LEVEL CONTROLLER)
C：𝑠 𝐿から位相と接地を除いたもの
T：キャラクタ周り32×32の高さマップ
(11×11m,キャラクタの前10m,後ろ1m)
𝑔 𝐻:タスクによって異なる
𝑎 𝐻=
9

HLC Network
10
畳み込み層
16 5×5
32 4×4
32 3×3
128,512,256 :全結合層
活性化関数：ReLU

HLC Task
・Path Following
目標位置は、経路に沿ってランダムに配置され、キャラクタが目標の
1m以内にあるときに経路に沿って進む
11
𝑔 𝐻 = (θ 𝑡𝑎𝑟, 𝑑 𝑡𝑎𝑟) 目標までの方向と距離
𝑢 𝑡𝑎𝑟:キャラクタから目標へ向く水平面上の単位ベクトル
𝑣𝑐𝑜𝑚:キャラクタの水平面上の質量速度の中心
ො𝑣𝑐𝑜𝑚:キャラクタが目標に向かって移動する必要のある速度
・Soccer Dribbling

Training
• 各エピソード開始時にキャラクタがデフォルトポーズに初期化される
• エピソードは最大200秒シミュレートされる
• キャラクターが転倒するとエピソード終了、残りの報酬は0
• キャラクターの胴体が地面に接触すると、転倒が検出される
• LLCは約600万回訓練
• HLCは約100万回訓練
12

LLC Performance
14
・10個のmocap clipsを使用して訓練
・1個のhand-authored clipを使用して訓練
・Motion clip なし
Reference Motion の豊富さは学習速度、最終性能に影響を与える
Reference Motion がなければLLCは歩行技術を学習できない
NCR:正規化された累積報酬

LLC Performance
15
ロバスト性
Forward,Side : キャラクタが許容できる最大の摂動力
Incline,Decline : キャラクタが20秒間移動することができる最も急な傾斜
Nominal Walk のロバスト性はSIMBICONで報告された手作業で作成されたバランス戦略
を活用するものと同等[Yin et al.2007]
LLCのロバスト性は探査ノイズが原因かもしれない

HLC Performance
16
学習曲線

HLC Performance
17
階層の有無の比較
制御階層(HLC)がなければ、LLCはタスクを実行できない
No Hierarchy
LLCの入力に𝑔 𝐻が追加され、畳み込み層+地形マップTも追加
このLLCはReference Motionを模倣し、高水準タスクを実行するように訓練される

Transfer Learning
18
Nominal Wallk LCC に対して訓練されたHLCを使用して20万回fine tuningを適用
再初期化はランダム初期化から100万回
再学習する場合に比べて、トレーニング時間を大幅に短縮できる

Conclusion
• 階層分解によって、LLCとHLCを再利用することができる
• モーションスタイルを容易に変更可能
• ロバスト性の高いコントローラを生成
19

DeepLoco

Recommended

Recommended

More Related Content

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (7)

DeepLoco