SlideShare a Scribd company logo
1 of 19
Download to read offline
DeepLoco : Dynamic Locomotion Skills Using
Hierarchical Deep Reinforcement Learning
Transactions on Graphics (Proc. ACM SIGGRAPH 2017)
XUE BIN PENG and GLEN BERSETH,University of British Columbia
KANGKANG YIN,National University of Singapore
MICHIEL VAN DE PANNE,University of British Columbia
URL:http://www.cs.ubc.ca/~van/papers/2017-TOG-deepLoco/
1Deep Learning ゼミ 論文紹介 2017/05/22 発表者 B4 吉田拓海
Abstruct
• 限られた量の事前知識を持つ環境に配慮した歩行技術を学習する
• 2レベルの階層的制御フレームワークを採用
• コントローラはどちらもdeep reinforcement learningで訓練される
2
Overview
• HLC(High-level controller)
• 𝑠 𝐻:状態
• 𝑔 𝐻: 目標
• 𝑟 𝐻: 報酬
• 𝑎 𝐻: 行動
• LLC(Low-level controller)
• 𝑠 𝐿: 状態
• 𝑔 𝐿: 目標
• 𝑟𝐿: 報酬
• 𝑎 𝐿: 行動
HLCが高レベル目標𝑔 𝐻を処理し、LLCに低レベル目標𝑔 𝐿を提供する
LLCからの行動𝑎 𝐿はシミュレーションに適用され、状態𝑠 𝐻, 𝑠 𝐿が更新される
3目標 LLC:歩く 、HLC:障害物を避ける 等
LLC (LOW-LEVEL CONTROLLER)
𝑠 𝐿: ルート(赤点) に対する各関節の位置(赤矢印)、
回転、線速度(緑矢印)、角速度、位相、接地
位相:歩行サイクルにあった位相(φ∈[0,1])
接地:各足が接地しているかどうか
𝑎 𝐿=各関節のPD目標角
4
Reference Motion
Mocap clip は下のサイトから収集
http://animation.comp.nus.edu.sg/nusmocap.html
5
Reference Motion を模倣するように報酬を設定
LLCの目的はReference Motionを正確に追跡するのではなく、
全体的なスタイルを模倣すること
LLC Reward
6
Reference Motion を模倣するように報酬を設定
ෝ𝑞𝑖(𝑡) : Reference Motion の関節iの位置
𝑞𝑖 : 関節iの位置
(𝑤 𝑝𝑜𝑠𝑒, 𝑤 𝑣𝑒𝑙, 𝑤 𝑟𝑜𝑜𝑡, 𝑤𝑐𝑜𝑚, 𝑤 𝑒𝑛𝑑, 𝑤ℎ𝑒𝑎𝑑𝑖𝑛𝑔) =(0.5, 0.05, 0.1, 0.1, 0.2, 0.1)
Style Modification
7
𝑤𝑠𝑡𝑦𝑙𝑒, 𝑐 𝑠𝑡𝑦𝑙𝑒を変更することでスタイル(歩き方)を変更可能
Straight Legs High-Knees
LLC Network
位相φ
0≤φ<0.25・・・Φ0 = 1 , Φ1~3 = 0
0.25≤φ<0.5・・・Φ1 = 1 , Φ0,2,3 = 0
…
ネットワークがモーションの異なる
フェーズをより区別できる
活性化関数:ReLU
512,256:全結合層
8
HLC (HIGH-LEVEL CONTROLLER)
C:𝑠 𝐿から位相と接地を除いたもの
T:キャラクタ周り32×32の高さマップ
(11×11m,キャラクタの前10m,後ろ1m)
𝑔 𝐻:タスクによって異なる
𝑎 𝐻=
9
HLC Network
10
畳み込み層
16 5×5
32 4×4
32 3×3
128,512,256 :全結合層
活性化関数:ReLU
HLC Task
・Path Following
目標位置は、経路に沿ってランダムに配置され、キャラクタが目標の
1m以内にあるときに経路に沿って進む
11
𝑔 𝐻 = (θ 𝑡𝑎𝑟, 𝑑 𝑡𝑎𝑟) 目標までの方向と距離
𝑢 𝑡𝑎𝑟:キャラクタから目標へ向く水平面上の単位ベクトル
𝑣𝑐𝑜𝑚:キャラクタの水平面上の質量速度の中心
ො𝑣𝑐𝑜𝑚:キャラクタが目標に向かって移動する必要のある速度
・Soccer Dribbling
Training
• 各エピソード開始時にキャラクタがデフォルトポーズに初期化される
• エピソードは最大200秒シミュレートされる
• キャラクターが転倒するとエピソード終了、残りの報酬は0
• キャラクターの胴体が地面に接触すると、転倒が検出される
• LLCは約600万回 訓練
• HLCは約100万回 訓練
12
Result
13
LLC Performance
14
・10個のmocap clipsを使用して訓練
・1個のhand-authored clipを使用して訓練
・Motion clip なし
Reference Motion の豊富さは学習速度、最終性能に影響を与える
Reference Motion がなければLLCは歩行技術を学習できない
NCR:正規化された累積報酬
LLC Performance
15
ロバスト性
Forward,Side : キャラクタが許容できる最大の摂動力
Incline,Decline : キャラクタが20秒間移動することができる最も急な傾斜
Nominal Walk のロバスト性はSIMBICONで報告された手作業で作成されたバランス戦略
を活用するものと同等[Yin et al.2007]
LLCのロバスト性は探査ノイズが原因かもしれない
HLC Performance
16
学習曲線
HLC Performance
17
階層の有無の比較
制御階層(HLC)がなければ、LLCはタスクを実行できない
No Hierarchy
LLCの入力に𝑔 𝐻が追加され、畳み込み層+地形マップTも追加
このLLCはReference Motionを模倣し、高水準タスクを実行するように訓練される
Transfer Learning
18
Nominal Wallk LCC に対して訓練されたHLCを使用して20万回fine tuningを適用
再初期化はランダム初期化から100万回
再学習する場合に比べて、トレーニング時間を大幅に短縮できる
Conclusion
• 階層分解によって、LLCとHLCを再利用することができる
• モーションスタイルを容易に変更可能
• ロバスト性の高いコントローラを生成
19

More Related Content

More from harmonylab

形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

More from harmonylab (20)

DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 

Recently uploaded

Recently uploaded (7)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 

DeepLoco