SlideShare a Scribd company logo
DeepMimic: Example-Guided
Deep Reinforcement Learning of
Physics-Based Character Skills
XUE BIN PENG,
UC Berkeley
PIETER ABBEEL,
UC Berkeley
SERGEY LEVINE,
UC Berkeley
MICHIEL VAN DE
PANNE,
University of British
Columbia
arXiv:1804.02717
SIGGRAPH 2018
シミュレーション問題
受動現象の物理ベースシミュレーション(ex. 流体、布 etc)
ほぼ普及
⼈間や動物の動きをモデル化したシミュレーション
依然として困難
永続的な課題として⼀般化と指向性がある
1
背景
⼀般化と指向性とは
⼀般化…⼈間が⼿動で設計したコントローラでは指定の状況下ではうまく
機能するが、新しいスキルや状況を⼀般化することは設計により制限
⼈間は幅広いスキルを⾝につけることを熟知しているが、その能⼒の
下にある内部戦略(the internal strategies)を明確に表現(設計)できない
2
背景
⼀般化と指向性とは
指向性…キャラクターシミュレーションを困難にするもう⼀つの障害
シミュレートされた3D環境下での、キャラクターに所望のモーションを
⾃動⽣成するのは現在のインターフェースでは困難
3
背景
Yin	et	al.	2007
Coros et	al.	2010
Wang	et	al.	2009
Kwon	et	al.	2010
Mordatch et	al.	2010
Sok et	al.	2007
Lee	et	al.	2010
Related Work - ⼆⾜歩⾏
Lasa et	al.	2010
Wu	et	al.	2010
Muico et	al.	2009
Liu	et	al.	2012
Brown	et	al.	2013
Al	Borno et	al.	2013
背景
コンピュターグラフィックによる歩⾏制御は数⼗年に渡り研究されてきた
4
Yin	et	al.	2007
Lasa et	al.	2010
Wu	et	al.	2010
Coros et	al.	2010
Wang	et	al.	2009
Kwon	et	al.	2010
Mordatch et	al.	2010
Sok et	al.	2007
Muico et	al.	2009
Lee	et	al.	2010
Motion	Capture	Data
FSM	/	Simple	Models
Optimization
Liu	et	al.	2012
Al	Borno et	al.	2013
Brown	et	al.	2013
有限ステートマシン(FSM)/
倒⽴振り⼦モデル(Simple)
Related Work - ⼆⾜歩⾏
背景 5
6
深層強化学習の応⽤
Duan et al. 2016 :Benchmarking Deep Reinforcement Learning for Continuous Control
Heess et al. 2016 :Continuous control with deep reinforcement learning
深層強化学習によりスキルを習得し,⼀連のモーション⽣成に成功したが,
最先端のkinematic(運動学的)⼿法や⼿動で設計されたモーションには品質が劣る
Heess et al. 2017 :Emergence of Locomotion Behaviours in Rich Environments
深層強化学習の場合、体部運動や特殊な歩⾏状況では不⾃然なモーションをとる
7
深層強化学習の応⽤
Da Silva et al. 2008 :Simulation of Human Motion Data using Short-Horizon
Model-Predictive Control
Lee et al. 2010a :Data-driven Biped Control
従来はKinematic⼿法で、システム上に物理ベースのトラッキングコントローラを
重ねて設計
実際の動きをデータ(Motion Capture Data)に取り込むことで品質を改善できた
深層強化学習エージェントに、モーションキャプチャまたは⼿作業による
アニメーションデータを組み込むことで学習の品質を改善したい
8
提案型深層強化学習⼿法
モーションキャプチャデータなどを報酬デザインに取り⼊れることで
⾃然な動きでかつタスクを達成できる強化学習⼿法を提案
従来の⼿法では困難だった不⾃然な動きを排除しつつダイナミックな
動作(回し蹴りなど)の⽣成を強化学習で達成
深層強化学習エージェントに、モーションキャプチャまたは⼿作業による
アニメーションデータを組み込むことで学習の品質を改善したい
実験に使われたキャラクターモデル
9
提案型深層強化学習⼿法
本フレームワークを使⽤すると、⾏動を細かく計画するのではなく、
⽬的の⾏動を与えることでキャラクタに練習を通して熟達させることが
できる
また、スキルを別のキャラクタ、別の環境、別のタスクにリターゲットする
ことも可能。さらに、組み合わせて複数のスキルを実⾏することも可能
深層強化学習エージェントに、モーションキャプチャまたは⼿作業による
アニメーションデータを組み込むことで学習の品質を改善したい
10
提案型深層強化学習⼿法
⽅策 ⽅策の⽬的はシミュレートされた環境で所望のモーションを
再現することであり、追加のタスク⽬標も満たす
⽅策勾配法(PPO:Proximal Policy Optimization)で⽅策パラメータ θ* を最適化する
基準動作によって運動学的情報を提供し、⽅策は所望の軌道を実現するために
各タイムステップでどの動作を適⽤すべきかを決定する
dθ(st) :⽅策の元での状態分布
πθ.:⽅策
At :状態stで⾏動at をとることで得られる得点
11
提案型深層強化学習⼿法
状態
・相対座標情報、関節⾓度・関節速度情報
・位相変数φ∈[0,1]:ϕは歩⾏などの周期的なタスクを1周期ごとに区切る
・ゴール :複数あるタスクのうちのどのタスクを実⾏しているかを表すベクトル
⾏動
各関節のPDコントローラ(⽐例微分調節器)の⽬標⽅向を指定する
12
提案型深層強化学習⼿法
⽅策Network
⽅策と価値の推定に別々のニューラルネットワークを⽤いる
⽅策はPPOを使⽤して更新され、価値関数はTD(λ)を使⽤して更新される
Actor-Criticで連続空間の⾏動を扱い、⾏動の⽣成には
proximal policy optimization algorithm(PPO)⽤いる
⾼さマップHは、Height Map(地⾯の⾼さをグリッドに区切って表現したもの)を
⼊⼒するものでタスクに画像⼊⼒のような情報が必要かどうかにより有無が決まる
すべての隠れ層にReLUが使⽤される
状態
⽬標
⾼さマップ
⽅策⽤のニューラルネット
報酬
各ステップtでの報酬関数
r I
t:模倣⽬的(関節⾓度,関節速度,重⼼位置が基準動作にどれくらいうまく従うか)
r G
t:タスク⽬標(どのくらいうまくそのタスクを完了するか)
ω I, ω G:重み(スカラー)
報酬は事前に⽤意した基準動作とエージェントによって制御されたキャラクター
動作とのズレの少なさと,タスクの達成度
模倣⽬的r I
tは、さらに以下のように分解できる:
姿勢報酬r p
t:関節姿勢が基準動作とどれほど⼀致するか
速度報酬r v
t:キャラクタと基準運動の関節速度の差
エンドエフェクタ報酬r e
t:キャラクタの⼿⾜の位置が基準動作に対してどれほど⼀致するか
r c
t:キャラクタの重⼼質量の偏差を基準動作の質量から出⼒
13
提案型深層強化学習⼿法
報酬
模倣⽬的r I
tは、さらに以下のように分解できる
姿勢報酬r p
t:関節姿勢が基準動作とどれほど⼀致するか
速度報酬r v
t:キャラクタと基準運動の関節速度の差
エンドエフェクタ報酬r e
t:キャラクタの⼿⾜の位置が基準動作に対してどれほど⼀致するか
r c
t:キャラクタの重⼼質量の偏差を基準動作の質量から出⼒
14
提案型深層強化学習⼿法
学習
本論⽂では2つの重要な学習ポイントがある
Reference State Initialization (RSI)/ Early Termination (ET)
Reference State Initialization (RSI): 初期状態の与え⽅
エピソードごとの初期状態は、基準動作のいずれかからランダムに選ぶ
既存⼿法では初期姿勢が固定だったが、提案⼿法では模倣対象となるデータからラ
ンダムに取り出して初期姿勢として使う
例えば、バックフリップなら空中で回転している状態や、着地する直前の状態を初
期状態として与えることもある
バックフリップは、回転した”後に”着地をうまくすることがタスクの報酬に⼤きく関
わってくるが、毎回初期姿勢から始めると、動作の後半に到達できないまま学習が
収束してしまう
15
提案型深層強化学習⼿法
学習
Early Termination (ET):早期打切り
不⾃然な動きを学習させないために、胴体や頭などのいずれかの部位が
地⾯に着いたり、胴体の⾼さが⼀定より低くなったりしたときに、
報酬を0のままそのエピソードでの学習は打ち切る
16
提案型深層強化学習⼿法
左:RSI + ET Middle:RSIなし 右:ETなし
結果
17
提案型深層強化学習⼿法
結論
RSIは幅広いタスクに適⽤され、特にエピソードの最後に1つの最終的な
報酬しか得られない問題に役⽴つ
ETはすでに普及しており、本論⽂で有効性が確かめられた
1つのポリシーでどのくらい多くの動作を学習できるかは不明
模倣報酬は、異なる動きの間で共有されるパラメータを有するため、特定の
⾏動に対する特定の価値は各⾏動で相関関係があるかもしれない
18
提案型深層強化学習⼿法
模擬ライオン

More Related Content

What's hot

Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
Deep Learning JP
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
Kota Nagasato
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
 
[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション
Deep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
 

What's hot (20)

Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
 
[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 

More from Tomoyuki Hioki

Analysis of cancer by structural equation
Analysis of cancer by structural equationAnalysis of cancer by structural equation
Analysis of cancer by structural equation
Tomoyuki Hioki
 
Analysis of cancer and health in each prefecture
 Analysis of cancer and health in each prefecture Analysis of cancer and health in each prefecture
Analysis of cancer and health in each prefecture
Tomoyuki Hioki
 
Marketing Strategy by American Express
Marketing Strategy by American ExpressMarketing Strategy by American Express
Marketing Strategy by American Express
Tomoyuki Hioki
 
製品改良と満足度との関係:多属性モデルに基づくシミュレーション
製品改良と満足度との関係:多属性モデルに基づくシミュレーション製品改良と満足度との関係:多属性モデルに基づくシミュレーション
製品改良と満足度との関係:多属性モデルに基づくシミュレーション
Tomoyuki Hioki
 
Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...
Tomoyuki Hioki
 
Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...
Tomoyuki Hioki
 
【論文紹介】Understanding Back-Translation at Scale
【論文紹介】Understanding Back-Translation at Scale【論文紹介】Understanding Back-Translation at Scale
【論文紹介】Understanding Back-Translation at Scale
Tomoyuki Hioki
 
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Tomoyuki Hioki
 
【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)
Tomoyuki Hioki
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
Tomoyuki Hioki
 
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

Tomoyuki Hioki
 
Prml1.2.5~1.2.6
Prml1.2.5~1.2.6Prml1.2.5~1.2.6
Prml1.2.5~1.2.6
Tomoyuki Hioki
 
Prml1.2.4
Prml1.2.4Prml1.2.4
Prml1.2.4
Tomoyuki Hioki
 
Prml1.2.3
Prml1.2.3Prml1.2.3
Prml1.2.3
Tomoyuki Hioki
 
Prml1.2.1~1.2.2
Prml1.2.1~1.2.2Prml1.2.1~1.2.2
Prml1.2.1~1.2.2
Tomoyuki Hioki
 
PRML1.1
PRML1.1PRML1.1
PRML1.2
PRML1.2PRML1.2
PRML1.1
PRML1.1PRML1.1

More from Tomoyuki Hioki (18)

Analysis of cancer by structural equation
Analysis of cancer by structural equationAnalysis of cancer by structural equation
Analysis of cancer by structural equation
 
Analysis of cancer and health in each prefecture
 Analysis of cancer and health in each prefecture Analysis of cancer and health in each prefecture
Analysis of cancer and health in each prefecture
 
Marketing Strategy by American Express
Marketing Strategy by American ExpressMarketing Strategy by American Express
Marketing Strategy by American Express
 
製品改良と満足度との関係:多属性モデルに基づくシミュレーション
製品改良と満足度との関係:多属性モデルに基づくシミュレーション製品改良と満足度との関係:多属性モデルに基づくシミュレーション
製品改良と満足度との関係:多属性モデルに基づくシミュレーション
 
Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...
 
Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...
 
【論文紹介】Understanding Back-Translation at Scale
【論文紹介】Understanding Back-Translation at Scale【論文紹介】Understanding Back-Translation at Scale
【論文紹介】Understanding Back-Translation at Scale
 
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
 
【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
 
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

 
Prml1.2.5~1.2.6
Prml1.2.5~1.2.6Prml1.2.5~1.2.6
Prml1.2.5~1.2.6
 
Prml1.2.4
Prml1.2.4Prml1.2.4
Prml1.2.4
 
Prml1.2.3
Prml1.2.3Prml1.2.3
Prml1.2.3
 
Prml1.2.1~1.2.2
Prml1.2.1~1.2.2Prml1.2.1~1.2.2
Prml1.2.1~1.2.2
 
PRML1.1
PRML1.1PRML1.1
PRML1.1
 
PRML1.2
PRML1.2PRML1.2
PRML1.2
 
PRML1.1
PRML1.1PRML1.1
PRML1.1
 

【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills