SlideShare a Scribd company logo
高橋研Model Based RL勉強会
第一回
- PILCO -
2019/04/27
高橋研究室
Mendy Sekiguchi
Twitter : https://twitter.com/ShunichiSekigu1
Github : https://github.com/Shunichi09
Qiita : https://qiita.com/MENDY
本日の流れ
• 勉強会の目的とルール,日程の確認
• PILCO
• Goal
– 勉強会の事務連絡の共有
– PILCOのメインアイディアの理解
• Vanilla Policy gradientとの違いモデルがあることのメリット
2019/4/27 2
目的
• 「最適制御」×「強化学習」という分野の
最先端の研究を理解
– Model based RLの大枠の理解
– Model based RLの代表手法の理解
• GPS, PILCO, iLQR, IOC, …
– その他の手法の理解
• TRPO
2019/4/27 3
日程
• 4/27, 5/6, 5/11, 5/27, 6/5, 6/28..
– Google driveのカレンダー参照
• 基本的には7月までぐらい
(継続の可能性あり)
2019/4/27 4
PILCOの概要
• Probabilistic Inference for Learning Control
– 元URL : https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf
– 博士論文: https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
• 一言でいうと…
– 確率的なモデルを用いた
モデルベース強化学習法の提案
2019/4/27 5
ガウス過程(近似)
のモデルと方策評価
解析的な方策勾配を使用
すべて(評価関数+モデル+状態)
を確率的に取り扱う解析的な方策勾配
[1]
[1] http://rail.eecs.berkeley.edu/deeprlcourse/
背景
• Model free な強化学習
– 大量のサンプルが必要
• 課題解決のために
– 逆強化学習
expertなdemonstrationが必要
– Task specificな知識でpre-shapedな方策を準備
いつも入手できない
– Model based な強化学習
正確なモデルが必要とされる
2019/4/27 6
不正確なモデルでやりませんか??
従来研究
• モデルの不確定要素にアプローチしている研究
– 確率的適応制御(Stochastic Adaptive control)
– Dual Control
 Parametricな環境モデルを使用するため,汎用性なし
2019/4/27 7
Nonparametricなモデルを使用しませんか?
従来研究
• Nonparametricな環境モデルを使用したもの
– 価値関数を推定ために利用
 方策を直接的に算出できない(Sergeyの講義参考)
 行動空間が離散
2019/4/27 8
方策勾配を算出して,連続空間で直接更新しませんか?
※PILCOはエピソードがあるもののみに適用可能です
前置き
• かなり数式がたくさんでてきます...重いです
• 理論的な論文なのでそこはご了承ください
• 数式を追いすぎるのではなく,
エッセンスベースで行きます
• 止めたくなったらすぐ止めてください!!
• 眠くなったら休憩をはさみます
2019/4/27 9
手法概要
2019/4/27 10
ガウス過程(近似)
のモデルと方策評価
解析的な方策勾配を使用
STEP 1
STEP 2
STEP 3
方策実行
[1]
[1] http://rail.eecs.berkeley.edu/deeprlcourse/
STEP1 : モデル
• モデルは非線形+ノイズを仮定
• 状態差分をガウス過程で学習
よって次の状態は,
2019/4/27 11
※状態差分にすると基本的には時間による
積分値がのらないので(マルコフ過程)
 1 ,t t tf   x x u  ~ 0,N  
GP
   1 1 1 1| , | ,t t t t t tp N   x x u x μ Σ
 
 
1
1
t t f
t f
x E t
Var t
 

  
  
 fE t :期待値(ガウス過程の)
:分散(ガウス過程の) fVar t
,
TT T
t t t
   x x u
 t ty  
ここは1変量
※入力する は決まっている(分散0)tx
Eq. (1)
Eq. (5)
Eq. (4)
補足:ガウス過程について
• ガウス過程は共分散をデータに合うようにアレンジ
2019/4/27 12
ガウス過程回帰を行った例
ここに注目
 ,N K0 カーネル
[1]
[1] http://tensorflow.classcat.com/2018/10/30/tf-probability-tutorials-gp-regression/
補足:ガウス過程について
• カーネル関数(緑字を学習(EMアルゴリズム))
• ガウス過程による予測分布[1]
2019/4/27 13
     2 211
, exp
2
T
p q p q p pqf qk x x x x x x   
     
 
     
12
*f f tE t m 

   x k K I y
   
12
** * *fVar t k 

   k K I k
GP
,
TT T
t t tx x u   
 t ty  
[1] ガウス過程と機械学習
なお,ターゲットyは1次元!!多次元の場合は別々で学習(fがたくさんできる)
 ,iij jk xK x
 * , tk Xk x
 ** ,t tk k x x
赤字はトレーニングデータ
 1,... nX x x
青字は入力データ
Eq. (3)
STEP2 : 評価関数
2019/4/27 14
   
0
t
T
x t
t
J E c


    x  0 0 0~ ,Nx μ Σ
方策を とすると,
評価関数を求めるためには,      1 2 3| , | , | ...p     x x x が必要
,
TT T
t t t
   x x u
STEP2-1 : その時刻tでの を求める tp x
<方針>
STEP2-2 : とガウス過程による を使って tp x
 1tp x を求める
 tp 
Eq. (2)
STEP 2-1 : を算出
2019/4/27 15
 ,t t u x という状態の関数であれば,
は,ガウス分布に近似   ,t t tp px x u
   | ,t t t tp Nx x μ Σ
 tp x
の場合,分かりやすくガウス分布になります ,t t t   u x Ax b
なお,
   1 1 1 1| ,t t t tp N   x x μ Σ
   | ,t t u up N uu μ Σ
u t μ Aμ b
T
u t A AΣ Σ
なので,そのまま代入して,
 , ,
T
t t t
t t T
t t t
p N
   
         
μ A
x u
Aμ b A A A
Σ Σ
Σ Σ
補足:STEP 2-1 : を算出
2019/4/27 16
 tp x
少し制約を入れる作業を行ってます
変わらずガウス分布に近似できる!
(Appendixを参照,期待値と分散が出てる)
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
STEP 2-2 : を算出
2019/4/27 17
 1tp x
      |t t t t tp p f p dfd   x x x x
ガウス過程から算出
さっき求めた
まず を求める tp 
これは計算できない...(ガウス過程の入力が確率分布になる)
これもガウス分布 で近似しましょう2ページ後へ   | ,t tp N     μ Σ
 tp  が分かれば は求まる   1 1 1 1| ,t t t tp N   x x μ Σ
  1f t t t tE      x μ μ μ
 
   
1
cov , cov ,
f t t t
t t t t t
Var 

  
     
x
x x
Σ
Σ Σ
それぞれただの公式です(期待値/分散の和)
Eq. (8)
[1]
[1] https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf
ごちゃごちゃしてきたので一回整理します
• 分かったもの
– 時刻tでの GPの入力に使う
• 分かってないもの
– GPを使った に関するもの
2019/4/27 18
   ,t t tp px x u
   | ,t tp N     μ Σ
   , ,cov , ,cov ,t t t t   μ x xΣ
      |t t t t tp p f p dfd   x x x x
を求めていきます
ガウス分布で近似
STEP 2-2 : を算出 - 前置き -
• ガウス分布で近似
 それっぽい平均 と分散 を算出したい
2019/4/27 19
 1tp x
      |t t t t tp p f p dfd   x x x x
μ Σ
<前置き>
ここから ターゲットの各次元を表す という添え字が出てきますが
ターゲットの各次元は異なるGPになっています.そのため分離できます
a
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
STEP 2-2 : を算出 - 編 -
2019/4/27 20
 1tp x
       | | ,t a t a a
a
f a t t f t f t t t t tE E f E m m N d
           x xμ x x x x x μ xΣ
ここはガウス分布
<平均 >μ
“ガウス分布にのっとった入力( )をGPにそのまま入れたとしてその期待値を取る”
Moment Matchingの場合
Linearの場合
“入力( )の平均をGPに入れてその期待値を取る”
   a
a
f a t f tE f m    μ μ μ
tx
tx
さっき求めたGP過程の
出力そのまま
,
TT T
t t t
   x x u
Eq. (17)
Eq. (33)
, μ Σ
 tp x
後は力ずくで計算可能!
STEP 2-2 : を算出 - 編 -
2019/4/27 21
 1tp x
<分散 >
Moment Matchingの場合
Σ
“ガウス分布にのっとった入力( )をGPにそのまま入れたとしての分散を算出”tx
“全分散の公式(条件付き分散・期待値)を使う”かなりトリッキーです
, μ Σ
D D
R 
 Σ
ターゲットの数
   
22 2
,|t t
a
aa f a t f aE Var E 
         x xx μ
   2
,, | ,t t
a b
ab f a b t f a bE Cov E  
        x xx μ μ
        
2 2
| |Var X E Var X Y E E X Y E X           
https://www.youtube.com/watch?v=mHonq7Gjjqg
https://su-butsu-kikaigakusyuu.hatenablog.com/entry/2018/07/14/171645
全分散の公式
Eq. (21-22)
後は力ずくで計算可能!
STEP 2-2 : を算出 - 編 -
2019/4/27 22
 1tp x
<分散 >
Linearの場合
Σ
“平均の変化分,分散も変化したと仮定して,その変化分倍する”
, μ Σ
D D
R 
 Σ
ターゲットの数 T
t
t


 



V V
μ
V
μ
Σ Σ Σ
変化分
モデルのノイズ
Eq. (34-35)
STEP 2-2 : を算出 - 編 -
2019/4/27 23
 1tp x    cov , ,cov ,t t t t x x
  ,cov , t
T T
t t f t t tE 
     xx x μ μ
Moment Matchingの場合
 cov ,t tx :ガウス過程への入力 と出力 の共分散
GP
,
TT T
t t tx x u   
 t ty  
分散の定義式そのまま
   , |t t
a a a
f t t t f t t t f t t tE E E m p d            x xx x x x x x x
さっき求めたガウス過程
さっき求めた
tx t
既知
 ~ ,t tN μ Σ
後は力ずくで計算可能!
Eq. (28-29)
STEP 2までのまとめ
• 分かったもの
• 知りたいもの
2019/4/27 24
   ,t t tp px x u
   | ,t tp N     μ Σ
   1 1 1 1| ,t t t tp N   x x μ Σ
   
0
t
T
x t
t
J E c


    x  0 0 0~ ,Nx μ Σ
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
Break
Recap - Policy Gradient -
2019/4/27 26
       ~
logJ E c

    
      θ
       ~
0
t
T
x t
t
J E c E c

  
 

        x  0 0, ,... ,T Tx u x u 
方策勾配定理(sergey授業第五回)
       ~
0 0
log |
T T
t t t
t t
J E c

    

 
   
     
   
 θ u x x
       0 1
0
| | ,
T
t t t t t
t
p p    

 x u x x x u
サンプルを取る!!
     , , ,
1 0 0
1
log |
N T T
i t i t i t
i t t
J c
N

  
  
   
     
   
  θ u x x
非常に厄介
パラメータ
に関係なし
STEP 3 : 方策勾配を算出
2019/4/27 27
   
1
t
T
t
t
E cdJ
d d


   
x xθ
θ θ
この式をパラメータ で微分するには?θ
Policy gradientとは異なり
全力で微分しにいく
(モデルがあるため解析的にすべて求まるので,
サンプル取らなくていい)
非常に厄介
例:方策を決定するパラメータ
 * *  x Ax b
とりあえず,時刻 についての微分を算出
 t tE c
d
  x x
θ
t
STEP 3 : 方策勾配を算出
2019/4/27 28
     t tt t t
t
t
t
t t
E d d
d d
E c c E c
d
        
 
   
x x xμ
θ
x x
μθ θ
x
Σ
Σ
   | ,t t t tp Nx x μ Σ なので...
   
 
 tt tt
t
t dE cE c dp
dd dp
     x x xx x
xθ θ
時刻 でのコスト関数は
その時の確率分布に依存
t
評価関数次第で算出可能(後で)
,t td d
d d
μ
θ θ
Σ
これは一時刻前 に依存する??1t 
 tdp
d
x
θ
Eq. (12)
Eq. (12)
STEP 3 : 方策勾配を算出
2019/4/27 29
   
 
   1
1
tt t t
t
p dd p
p d
p p
d


 
 
 
x
θ
x x x
x θ θ
依存しているのは明らか
   1 1 1 1| ,t t t tp N   x x μ Σ
さらに...
なので
,t td d
d d
μ
θ θ
Σ
Eq. (13)
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
STEP3 : 方策勾配を算出
2019/4/27 30
1 1
1 1
t t t t
t
tt
t
dd
d
d
d d
 
 
 
 
 



μ μ μ
μ θ θθ
μ
θ
μ Σ
Σ
1 1
1 1
t t t t t
t
t
t
d
d
d d
dd
 
 
   
   
   
μ
μ θ θ θθ
Σ Σ Σ
Σ
Σ Σ
   
 
   1
1
tt t t
t
p dd p
p d
p p
d


 
 
 
x
θ
x x x
x θ θ
,t td d
d d
μ
θ θ
Σ
力ずくで計算可能!
(論文のAppendix参照)
一時刻前に算出したもの
不明
も同様です
Eq. (15)
STEP 3 : 方策勾配を算出
2019/4/27 31
t

μ
θ
 
 1
1
t u u
t u
t
u
p
p
  

    
  
     


u μμ μ μ
u θ θθ θ μ
μ Σ
Σ
1tt   μμ μ
1つ前の分布はその際の入力で微分しても0になる
(未来の入力は過去に影響しない)
Eq. (16)
STEP 3 : 方策勾配を算出
• 具体的な評価関数(Saturating cost)
2019/4/27 32
   
,t tt t
t t
E c E c       
 
x xx x
μ Σ
     E c c p d    x x x x x
     11
1 exp
2
T
target targetT p d 
     
 
 x x x x x x
0~1の範囲内に収まるので...値が大きくなりすぎない!
後は力ずくで計算可能!
Eq. (45)
STEP 3 : 方策勾配を算出 評価関数のメリット
2019/4/27 33
左図:ある状態の平均がtargetから離れてる場合
Peakな状態の分布よりも,wideな分布が優先
(評価関数の値が大きくならないので)
モデルが不明なところを探索(exploration)
(分散が大きくなるように方策を更新可能)
右図:ある状態の平均がtargetに近い場合,
wideな状態の分布よりも,peakな分布が優先
(評価関数の値が小さくなるので)
その付近を利用(exploitation)
(分散が小さくなるように方策を更新可能)
[1]
[1] https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf
実機検証[1]
2019/4/27 34
[1] http://mlg.eng.cam.ac.uk/pilco/
Appendix
全微分
• 他変数の微小区間
• 合成関数の全微分
2019/4/27 36
dz z dx z dy
dt x dt y dt
 
 
 
    ,z f x t y t
 ,f x y
とすると
dz z dx z dy z
dt x dt y dt t
  
  
  
    , ,z f x t y t t とすると
f f
df dx dy
x y
 
 
 
https://eman-physics.net/analytic/total_dif.html

More Related Content

What's hot

機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
Deep Learning JP
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
nishio
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
Taiji Suzuki
 

What's hot (20)

機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 

Similar to PILCO - 第一回高橋研究室モデルベース強化学習勉強会

充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
Hiroshi Yamashita
 
X tapp lecture_20140226
X tapp lecture_20140226X tapp lecture_20140226
X tapp lecture_20140226xTAPP
 
第5章 時系列データのモデリング, 補助情報を考慮したモデリング
第5章 時系列データのモデリング, 補助情報を考慮したモデリング第5章 時系列データのモデリング, 補助情報を考慮したモデリング
第5章 時系列データのモデリング, 補助情報を考慮したモデリング
ksmzn
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
Hiroshi Nakagawa
 
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎
ShoutoYonekura
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
Kei Nakagawa
 
Iugonet 20120810-nipr-sato
Iugonet 20120810-nipr-satoIugonet 20120810-nipr-sato
Iugonet 20120810-nipr-satoIugo Net
 
Eureka agora tech talk 20170829
Eureka agora tech talk 20170829Eureka agora tech talk 20170829
Eureka agora tech talk 20170829
Shinnosuke Ohkubo
 
kagamicomput201810
kagamicomput201810kagamicomput201810
kagamicomput201810
swkagami
 
wq-2. 待ち行列
wq-2. 待ち行列wq-2. 待ち行列
wq-2. 待ち行列
kunihikokaneko1
 
appengine ja night #4 Transaction Puzzlers
appengine ja night #4 Transaction Puzzlersappengine ja night #4 Transaction Puzzlers
appengine ja night #4 Transaction Puzzlers
Suguru ARAKAWA
 
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704
RCCSRENKEI
 
El text.tokuron a(2019).watanabe190613
El text.tokuron a(2019).watanabe190613El text.tokuron a(2019).watanabe190613
El text.tokuron a(2019).watanabe190613
RCCSRENKEI
 
More modern gpu
More modern gpuMore modern gpu
More modern gpu
Preferred Networks
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
 
Coqチュートリアル
CoqチュートリアルCoqチュートリアル
Coqチュートリアル
Yoshihiro Mizoguchi
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1
Kenta Oono
 
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
智啓 出川
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector Machine
Yuma Nakamura
 

Similar to PILCO - 第一回高橋研究室モデルベース強化学習勉強会 (20)

充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
 
X tapp lecture_20140226
X tapp lecture_20140226X tapp lecture_20140226
X tapp lecture_20140226
 
第5章 時系列データのモデリング, 補助情報を考慮したモデリング
第5章 時系列データのモデリング, 補助情報を考慮したモデリング第5章 時系列データのモデリング, 補助情報を考慮したモデリング
第5章 時系列データのモデリング, 補助情報を考慮したモデリング
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
 
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
Iugonet 20120810-nipr-sato
Iugonet 20120810-nipr-satoIugonet 20120810-nipr-sato
Iugonet 20120810-nipr-sato
 
Eureka agora tech talk 20170829
Eureka agora tech talk 20170829Eureka agora tech talk 20170829
Eureka agora tech talk 20170829
 
kagamicomput201810
kagamicomput201810kagamicomput201810
kagamicomput201810
 
wq-2. 待ち行列
wq-2. 待ち行列wq-2. 待ち行列
wq-2. 待ち行列
 
appengine ja night #4 Transaction Puzzlers
appengine ja night #4 Transaction Puzzlersappengine ja night #4 Transaction Puzzlers
appengine ja night #4 Transaction Puzzlers
 
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704
 
El text.tokuron a(2019).watanabe190613
El text.tokuron a(2019).watanabe190613El text.tokuron a(2019).watanabe190613
El text.tokuron a(2019).watanabe190613
 
More modern gpu
More modern gpuMore modern gpu
More modern gpu
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
Coqチュートリアル
CoqチュートリアルCoqチュートリアル
Coqチュートリアル
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1
 
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector Machine
 

PILCO - 第一回高橋研究室モデルベース強化学習勉強会

  • 1. 高橋研Model Based RL勉強会 第一回 - PILCO - 2019/04/27 高橋研究室 Mendy Sekiguchi Twitter : https://twitter.com/ShunichiSekigu1 Github : https://github.com/Shunichi09 Qiita : https://qiita.com/MENDY
  • 2. 本日の流れ • 勉強会の目的とルール,日程の確認 • PILCO • Goal – 勉強会の事務連絡の共有 – PILCOのメインアイディアの理解 • Vanilla Policy gradientとの違いモデルがあることのメリット 2019/4/27 2
  • 3. 目的 • 「最適制御」×「強化学習」という分野の 最先端の研究を理解 – Model based RLの大枠の理解 – Model based RLの代表手法の理解 • GPS, PILCO, iLQR, IOC, … – その他の手法の理解 • TRPO 2019/4/27 3
  • 4. 日程 • 4/27, 5/6, 5/11, 5/27, 6/5, 6/28.. – Google driveのカレンダー参照 • 基本的には7月までぐらい (継続の可能性あり) 2019/4/27 4
  • 5. PILCOの概要 • Probabilistic Inference for Learning Control – 元URL : https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf – 博士論文: https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf • 一言でいうと… – 確率的なモデルを用いた モデルベース強化学習法の提案 2019/4/27 5 ガウス過程(近似) のモデルと方策評価 解析的な方策勾配を使用 すべて(評価関数+モデル+状態) を確率的に取り扱う解析的な方策勾配 [1] [1] http://rail.eecs.berkeley.edu/deeprlcourse/
  • 6. 背景 • Model free な強化学習 – 大量のサンプルが必要 • 課題解決のために – 逆強化学習 expertなdemonstrationが必要 – Task specificな知識でpre-shapedな方策を準備 いつも入手できない – Model based な強化学習 正確なモデルが必要とされる 2019/4/27 6 不正確なモデルでやりませんか??
  • 7. 従来研究 • モデルの不確定要素にアプローチしている研究 – 確率的適応制御(Stochastic Adaptive control) – Dual Control  Parametricな環境モデルを使用するため,汎用性なし 2019/4/27 7 Nonparametricなモデルを使用しませんか?
  • 8. 従来研究 • Nonparametricな環境モデルを使用したもの – 価値関数を推定ために利用  方策を直接的に算出できない(Sergeyの講義参考)  行動空間が離散 2019/4/27 8 方策勾配を算出して,連続空間で直接更新しませんか? ※PILCOはエピソードがあるもののみに適用可能です
  • 9. 前置き • かなり数式がたくさんでてきます...重いです • 理論的な論文なのでそこはご了承ください • 数式を追いすぎるのではなく, エッセンスベースで行きます • 止めたくなったらすぐ止めてください!! • 眠くなったら休憩をはさみます 2019/4/27 9
  • 11. STEP1 : モデル • モデルは非線形+ノイズを仮定 • 状態差分をガウス過程で学習 よって次の状態は, 2019/4/27 11 ※状態差分にすると基本的には時間による 積分値がのらないので(マルコフ過程)  1 ,t t tf   x x u  ~ 0,N   GP    1 1 1 1| , | ,t t t t t tp N   x x u x μ Σ     1 1 t t f t f x E t Var t           fE t :期待値(ガウス過程の) :分散(ガウス過程の) fVar t , TT T t t t    x x u  t ty   ここは1変量 ※入力する は決まっている(分散0)tx Eq. (1) Eq. (5) Eq. (4)
  • 13. 補足:ガウス過程について • カーネル関数(緑字を学習(EMアルゴリズム)) • ガウス過程による予測分布[1] 2019/4/27 13      2 211 , exp 2 T p q p q p pqf qk x x x x x x                  12 *f f tE t m      x k K I y     12 ** * *fVar t k      k K I k GP , TT T t t tx x u     t ty   [1] ガウス過程と機械学習 なお,ターゲットyは1次元!!多次元の場合は別々で学習(fがたくさんできる)  ,iij jk xK x  * , tk Xk x  ** ,t tk k x x 赤字はトレーニングデータ  1,... nX x x 青字は入力データ Eq. (3)
  • 14. STEP2 : 評価関数 2019/4/27 14     0 t T x t t J E c       x  0 0 0~ ,Nx μ Σ 方策を とすると, 評価関数を求めるためには,      1 2 3| , | , | ...p     x x x が必要 , TT T t t t    x x u STEP2-1 : その時刻tでの を求める tp x <方針> STEP2-2 : とガウス過程による を使って tp x  1tp x を求める  tp  Eq. (2)
  • 15. STEP 2-1 : を算出 2019/4/27 15  ,t t u x という状態の関数であれば, は,ガウス分布に近似   ,t t tp px x u    | ,t t t tp Nx x μ Σ  tp x の場合,分かりやすくガウス分布になります ,t t t   u x Ax b なお,    1 1 1 1| ,t t t tp N   x x μ Σ    | ,t t u up N uu μ Σ u t μ Aμ b T u t A AΣ Σ なので,そのまま代入して,  , , T t t t t t T t t t p N               μ A x u Aμ b A A A Σ Σ Σ Σ
  • 16. 補足:STEP 2-1 : を算出 2019/4/27 16  tp x 少し制約を入れる作業を行ってます 変わらずガウス分布に近似できる! (Appendixを参照,期待値と分散が出てる) [1] [1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
  • 17. STEP 2-2 : を算出 2019/4/27 17  1tp x       |t t t t tp p f p dfd   x x x x ガウス過程から算出 さっき求めた まず を求める tp  これは計算できない...(ガウス過程の入力が確率分布になる) これもガウス分布 で近似しましょう2ページ後へ   | ,t tp N     μ Σ  tp  が分かれば は求まる   1 1 1 1| ,t t t tp N   x x μ Σ   1f t t t tE      x μ μ μ       1 cov , cov , f t t t t t t t t Var            x x x Σ Σ Σ それぞれただの公式です(期待値/分散の和) Eq. (8) [1] [1] https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf
  • 18. ごちゃごちゃしてきたので一回整理します • 分かったもの – 時刻tでの GPの入力に使う • 分かってないもの – GPを使った に関するもの 2019/4/27 18    ,t t tp px x u    | ,t tp N     μ Σ    , ,cov , ,cov ,t t t t   μ x xΣ       |t t t t tp p f p dfd   x x x x を求めていきます ガウス分布で近似
  • 19. STEP 2-2 : を算出 - 前置き - • ガウス分布で近似  それっぽい平均 と分散 を算出したい 2019/4/27 19  1tp x       |t t t t tp p f p dfd   x x x x μ Σ <前置き> ここから ターゲットの各次元を表す という添え字が出てきますが ターゲットの各次元は異なるGPになっています.そのため分離できます a [1] [1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
  • 20. STEP 2-2 : を算出 - 編 - 2019/4/27 20  1tp x        | | ,t a t a a a f a t t f t f t t t t tE E f E m m N d            x xμ x x x x x μ xΣ ここはガウス分布 <平均 >μ “ガウス分布にのっとった入力( )をGPにそのまま入れたとしてその期待値を取る” Moment Matchingの場合 Linearの場合 “入力( )の平均をGPに入れてその期待値を取る”    a a f a t f tE f m    μ μ μ tx tx さっき求めたGP過程の 出力そのまま , TT T t t t    x x u Eq. (17) Eq. (33) , μ Σ  tp x 後は力ずくで計算可能!
  • 21. STEP 2-2 : を算出 - 編 - 2019/4/27 21  1tp x <分散 > Moment Matchingの場合 Σ “ガウス分布にのっとった入力( )をGPにそのまま入れたとしての分散を算出”tx “全分散の公式(条件付き分散・期待値)を使う”かなりトリッキーです , μ Σ D D R   Σ ターゲットの数     22 2 ,|t t a aa f a t f aE Var E           x xx μ    2 ,, | ,t t a b ab f a b t f a bE Cov E           x xx μ μ          2 2 | |Var X E Var X Y E E X Y E X            https://www.youtube.com/watch?v=mHonq7Gjjqg https://su-butsu-kikaigakusyuu.hatenablog.com/entry/2018/07/14/171645 全分散の公式 Eq. (21-22) 後は力ずくで計算可能!
  • 22. STEP 2-2 : を算出 - 編 - 2019/4/27 22  1tp x <分散 > Linearの場合 Σ “平均の変化分,分散も変化したと仮定して,その変化分倍する” , μ Σ D D R   Σ ターゲットの数 T t t        V V μ V μ Σ Σ Σ 変化分 モデルのノイズ Eq. (34-35)
  • 23. STEP 2-2 : を算出 - 編 - 2019/4/27 23  1tp x    cov , ,cov ,t t t t x x   ,cov , t T T t t f t t tE       xx x μ μ Moment Matchingの場合  cov ,t tx :ガウス過程への入力 と出力 の共分散 GP , TT T t t tx x u     t ty   分散の定義式そのまま    , |t t a a a f t t t f t t t f t t tE E E m p d            x xx x x x x x x さっき求めたガウス過程 さっき求めた tx t 既知  ~ ,t tN μ Σ 後は力ずくで計算可能! Eq. (28-29)
  • 24. STEP 2までのまとめ • 分かったもの • 知りたいもの 2019/4/27 24    ,t t tp px x u    | ,t tp N     μ Σ    1 1 1 1| ,t t t tp N   x x μ Σ     0 t T x t t J E c       x  0 0 0~ ,Nx μ Σ [1] [1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
  • 25. Break
  • 26. Recap - Policy Gradient - 2019/4/27 26        ~ logJ E c             θ        ~ 0 t T x t t J E c E c                x  0 0, ,... ,T Tx u x u  方策勾配定理(sergey授業第五回)        ~ 0 0 log | T T t t t t t J E c                         θ u x x        0 1 0 | | , T t t t t t t p p       x u x x x u サンプルを取る!!      , , , 1 0 0 1 log | N T T i t i t i t i t t J c N                        θ u x x 非常に厄介 パラメータ に関係なし
  • 27. STEP 3 : 方策勾配を算出 2019/4/27 27     1 t T t t E cdJ d d       x xθ θ θ この式をパラメータ で微分するには?θ Policy gradientとは異なり 全力で微分しにいく (モデルがあるため解析的にすべて求まるので, サンプル取らなくていい) 非常に厄介 例:方策を決定するパラメータ  * *  x Ax b とりあえず,時刻 についての微分を算出  t tE c d   x x θ t
  • 28. STEP 3 : 方策勾配を算出 2019/4/27 28      t tt t t t t t t t E d d d d E c c E c d                x x xμ θ x x μθ θ x Σ Σ    | ,t t t tp Nx x μ Σ なので...        tt tt t t dE cE c dp dd dp      x x xx x xθ θ 時刻 でのコスト関数は その時の確率分布に依存 t 評価関数次第で算出可能(後で) ,t td d d d μ θ θ Σ これは一時刻前 に依存する??1t   tdp d x θ Eq. (12) Eq. (12)
  • 29. STEP 3 : 方策勾配を算出 2019/4/27 29          1 1 tt t t t p dd p p d p p d         x θ x x x x θ θ 依存しているのは明らか    1 1 1 1| ,t t t tp N   x x μ Σ さらに... なので ,t td d d d μ θ θ Σ Eq. (13) [1] [1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
  • 30. STEP3 : 方策勾配を算出 2019/4/27 30 1 1 1 1 t t t t t tt t dd d d d d              μ μ μ μ θ θθ μ θ μ Σ Σ 1 1 1 1 t t t t t t t t d d d d dd                 μ μ θ θ θθ Σ Σ Σ Σ Σ Σ          1 1 tt t t t p dd p p d p p d         x θ x x x x θ θ ,t td d d d μ θ θ Σ 力ずくで計算可能! (論文のAppendix参照) 一時刻前に算出したもの 不明 も同様です Eq. (15)
  • 31. STEP 3 : 方策勾配を算出 2019/4/27 31 t  μ θ    1 1 t u u t u t u p p                     u μμ μ μ u θ θθ θ μ μ Σ Σ 1tt   μμ μ 1つ前の分布はその際の入力で微分しても0になる (未来の入力は過去に影響しない) Eq. (16)
  • 32. STEP 3 : 方策勾配を算出 • 具体的な評価関数(Saturating cost) 2019/4/27 32     ,t tt t t t E c E c          x xx x μ Σ      E c c p d    x x x x x      11 1 exp 2 T target targetT p d           x x x x x x 0~1の範囲内に収まるので...値が大きくなりすぎない! 後は力ずくで計算可能! Eq. (45)
  • 33. STEP 3 : 方策勾配を算出 評価関数のメリット 2019/4/27 33 左図:ある状態の平均がtargetから離れてる場合 Peakな状態の分布よりも,wideな分布が優先 (評価関数の値が大きくならないので) モデルが不明なところを探索(exploration) (分散が大きくなるように方策を更新可能) 右図:ある状態の平均がtargetに近い場合, wideな状態の分布よりも,peakな分布が優先 (評価関数の値が小さくなるので) その付近を利用(exploitation) (分散が小さくなるように方策を更新可能) [1] [1] https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf
  • 36. 全微分 • 他変数の微小区間 • 合成関数の全微分 2019/4/27 36 dz z dx z dy dt x dt y dt           ,z f x t y t  ,f x y とすると dz z dx z dy z dt x dt y dt t              , ,z f x t y t t とすると f f df dx dy x y       https://eman-physics.net/analytic/total_dif.html