SlideShare a Scribd company logo
1 of 25
Download to read offline
“Trust Region Policy Optimization”
ICML2015 読 会
藤田康博
Preferred Networks
August 20, 2015
話 人
▶ 藤田康博
▶ Preferred Networks
▶ Twitter: @mooopan
▶ GitHub: muupan
▶ 強化学習・ AI 興味
読 論文
John Schulman, Sergey Levine, Philipp Moritz, Michael I.
Jordan, Pieter Abbeel. Trust Region Policy Optimization.
ICML 2015.
▶ (深層)強化学習 話
▶ DQN(Deep Q-Network) [Mnih et al. 2015; Mnih et al.
2013] 異 ,価値関数 方策 NN 表現
最適化 (policy optimization)
何
:https://sites.google.com/site/trpopaper/
▶ 制御
▶
▶ 一部 DQN 勝
Policy Optimization
▶ 決定過程 (S, A, P, c, ρ0, γ)
▶ S 状態集合
▶ A 行動集合
▶ P : S × A × S → R 遷移確率
▶ c : S → R 関数
▶ ρ0 : S → R 初期状態 s0 分布
▶ γ ∈ [0, 1] 割引率
▶ 方策(policy)π : S × A → [0, 1]
▶ 期待割引
η(π) = Es0,a0,...
[ ∞∑
t=0
γt
c(st)
]
, where
s0 ∼ ρ0, at ∼ π(· | st), st+1 ∼ P(st+1 | st, at)
▶ 目標:η(π) 小 π 求
価値関数
状態 先 期待割引 考 便利
▶ 状態価値関数 Vπ(st) = Eat ,st+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st 先 π 従 行動 選
▶ 行動価値関数 Qπ(st, at) = Est+1,at+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st at 選 先 π 従 行動 選
▶ 関数 Aπ(s, a) = Qπ(s, a) − Vπ(s)
Trust Region Policy Optimization(TRPO)
▶ 元 方策 πθold
KL 値 δ 以下
抑 制約付 最適化問題 解
方策 改善 提案
minimize
θ
Es∼ρθold
,a∼q
[
πθ(a | s)
q(a | s)
Qθold
(s, a)
]
subject to Es∼ρθold
[DKL(πθold
(· | s) ∥ πθ(· | s))] ≤ δ.
(15)
▶ 導出 説明 (時間 )
期待割引 最小化(1)
方策 π 元 , 良 方策 ˜π 求 考
▶ 方策 ˜π 期待割引 η(˜π) ,別 方策 π 期待割
引 対 表 (証
明 論文 Appendix 参照).
η(˜π) = η(π) + Es0,a0,...
[ ∞∑
t=0
γt
Aπ(st, at)
]
, where
s0 ∼ ρ0, at ∼ ˜π(· | st), st+1 ∼ P(st+1 | st, at). (1)
▶ 割引訪問頻度 ρπ(s) = (P(s0 = s) + γP(s1 = s) + . . . )
使 書
η(˜π) = η(π) +
∑
s
ρ˜π(s)
∑
a
˜π(a | s)Aπ(s, a). (2)
▶ 右辺 最小化 ˜π 求 ρ˜π 邪魔
期待割引 最小化(2)
▶ ρ˜π ρπ 置 換 楽
Lπ(˜π) = η(π) +
∑
s
ρπ(s)
∑
a
˜π(a | s)Aπ(s, a). (3)
▶ π 十分近 η 一次近似
Lπθ0
(πθ0 ) = η(πθ0 ),
∇θLπθ
(πθ)|θ=θ0 = ∇θη(πθ)|θ=θ0 (4)
▶ 十分小 Lπ 改善 η
改善 , ?
Conservative Policy Iteration(CPI) [Kakade and
Langford 2002]
▶ π′
= arg minπ′ Lπold
(π′
) πold 混合方策
πnew(a | s) = (1 − α)πold(a | s) + απ′
(a | s) (5)
期待割引 η(πnew) 次 保証 得
.
η(πnew) ≤ Lπold
(πnew) +
2ϵγ
(1 − γ)2
α2
(8)
( α ∈ [0, 1), ϵ = maxs |Ea∼π′(a|s)[Aπold
(s, a)]|)
▶ η(πnew) < η(πold) α 計算
混合方策 求 繰 返 単調改善
非混合方策 拡張(1)
混合方策 実用的 一般 確率的方策 対
改善 保証 ( 論文 主 理論的貢献)
Theorem 1
α = Dmax
TV (πold, πnew), ϵ = maxs maxa |Aπold
(s, a)| 混合
方策 πnew 対
η(πnew) ≤ Lπold
(πnew) +
2ϵγ
(1 − γ)2
α2
(8)
成 立 .
DTV(p ∥ q) :=
1
2
∑
i
|pi − qi | (total variation divergence),
Dmax
TV (π, π′
) := max
s
DTV(π(· | s) ∥ ˜π(· | s)), (9)
非混合方策 拡張(2)
DTV(p ∥ q)2
≤ DKL(p ∥ q)
関係 使 ,
η(˜π) ≤ Lπ(˜π) + CDmax
KL (π, ˜π), where C =
2ϵγ
(1 − γ)2
(10)
書 .
Dmax
KL (π, π′
) := max
s
DKL(π(· | s) ∥ ˜π(· | s)).
化 方策 最適化(1)
化 方策 πθ(a | s) 考 .
▶ 結果
minimize
θ
[CDmax
KL (θold, θ) + Lθold
(θ)]
解 η θold 改善 保証 .
▶ , C 値 実際 大 ,更新
量 小 ,代
minimize
θ
Lθold
(θ)
subject to Dmax
KL (θold, θ) ≤ δ.
(12)
(信頼領域)制約付 最適化問題 .
化 方策 最適化(2)
▶ ,Dmax
KL 制約 ,制約 数 多
実用的 ,平均 KL
¯Dρ
KL(θ1, θ2) := Es∼ρ[DKL(πθ1 (· | s) ∥ πθ2 (· | s))]
代 使 ,解 最適化問題
minimize
θ
Lθold
(θ)
subject to ¯D
ρθold
KL (θold, θ) ≤ δ.
(13)
近似
▶ 先 最適化問題 期待値 形 書 , 分布
q(a | s) importance sampling 使
minimize
θ
Es∼ρθold
,a∼q
[
πθ(a | s)
q(a | s)
Qθold
(s, a)
]
subject to Es∼ρθold
[DKL(πθold
(· | s) ∥ πθ(· | s))] ≤ δ.
(15)
▶ 期待値 有限 近似 ,Qθ(s, a)
推定値 計算
▶ 2 種類 方 提案:Single Path, Vine
法1:Single Path
▶ 初期状態 s0 ∼ ρ0 πθ 従 軌跡 s0, a0, . . . , sT , aT
生成 ,全 状態行動 使
(q = πθ)
▶ Qθ(s, a) 元 軌跡 実際 割引 推定
法2:Vine
▶ πθ 従 生成 軌跡 N 個 状態
, 状態 K 個 行動 q
従 選
▶ Qθ(s, a) 結果 割引
推定
実用的
以下 繰 返
1. Single Path Vine 使 ,状態行動 (s, a)
Qπ(s, a) 推定値 集
2. 目的関数 制約条件 構築
3. 制約付 最適化問題 解 更新量 求
▶ (共役勾配法 直線探索 用 )
移動制御 評価(1)
Swimmer Hopper Walker
入力 10 12 20
出力(連続,gaussian) 2 3 6
数 364 4806 8206
移動制御 評価(2)
▶ Single Path, Vine 既存手法 性能
▶ (手法 下 見
?)
評価(1)
▶ 入力:Atari 2600 画面
▶ 出力: 押下(離散,softmax)
▶ 数:33500
評価(2)
▶ 一部 DQN ( [Mnih et al. 2013] )
上回 達成
▶ Vine > DQN:Pong, Q*bert
▶ Single Path > DQN:Enduro, Pong, Q*bert, Seaquest
▶ 一般 確率的方策 期待割引 単調減少
保証 更新方法 提示
▶ 実用的 方策最適化
TRPO 提案
▶ 2 種類 評価
▶ 移動制御:総 既存 方策最適化手法
上回
▶ : DQN 上回
:DQN 比較
TRPO DQN
NN 表 方策 π 行動価値関数 Q(s, a)
行動空間 連続 ◦ ×
行動空間 離散 ◦ ◦
Single Path 不要,
Vine 必要
不要
実装 容易 行列・ 積
効率的 計算方法,共
役勾配法 必要
SGD 学習可能
参考文献 I
[1] Sham Kakade and John Langford. “Approximately Optimal Approximate
Reinforcement Learning”. In: ICML 2002. 2002.
[2] Volodymyr Mnih et al. “Human-level control through deep reinforcement
learning”. In: Nature 518.7540 (2015), pp. 529–533.
[3] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”. In:
NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv:
arXiv:1312.5602v1.

More Related Content

What's hot

強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
introduction to double deep Q-learning
introduction to double deep Q-learningintroduction to double deep Q-learning
introduction to double deep Q-learningWEBFARMER. ltd.
 
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較gree_tech
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)Shota Imai
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11matsuolab
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeTakami Sato
 
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎Preferred Networks
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement LearningDeep Learning JP
 

What's hot (20)

強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
introduction to double deep Q-learning
introduction to double deep Q-learningintroduction to double deep Q-learning
introduction to double deep Q-learning
 
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
 
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 

Viewers also liked

[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement LearningDeep Learning JP
 
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + αKatsuki Ohto
 
AlphaGo Zero 解説
AlphaGo Zero 解説AlphaGo Zero 解説
AlphaGo Zero 解説suckgeun lee
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 

Viewers also liked (6)

[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
 
【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016
 
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
 
AlphaGo Zero 解説
AlphaGo Zero 解説AlphaGo Zero 解説
AlphaGo Zero 解説
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 

More from mooopan

Clipped Action Policy Gradient
Clipped Action Policy GradientClipped Action Policy Gradient
Clipped Action Policy Gradientmooopan
 
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017mooopan
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介mooopan
 
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement LearningSafe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learningmooopan
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話mooopan
 
最近のDQN
最近のDQN最近のDQN
最近のDQNmooopan
 
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value GradientsLearning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradientsmooopan
 
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...mooopan
 
"Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning""Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"mooopan
 

More from mooopan (9)

Clipped Action Policy Gradient
Clipped Action Policy GradientClipped Action Policy Gradient
Clipped Action Policy Gradient
 
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介
 
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement LearningSafe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learning
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
 
最近のDQN
最近のDQN最近のDQN
最近のDQN
 
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value GradientsLearning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradients
 
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
 
"Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning""Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"
 

Trust Region Policy Optimization

  • 1. “Trust Region Policy Optimization” ICML2015 読 会 藤田康博 Preferred Networks August 20, 2015
  • 2. 話 人 ▶ 藤田康博 ▶ Preferred Networks ▶ Twitter: @mooopan ▶ GitHub: muupan ▶ 強化学習・ AI 興味
  • 3. 読 論文 John Schulman, Sergey Levine, Philipp Moritz, Michael I. Jordan, Pieter Abbeel. Trust Region Policy Optimization. ICML 2015. ▶ (深層)強化学習 話 ▶ DQN(Deep Q-Network) [Mnih et al. 2015; Mnih et al. 2013] 異 ,価値関数 方策 NN 表現 最適化 (policy optimization)
  • 5. Policy Optimization ▶ 決定過程 (S, A, P, c, ρ0, γ) ▶ S 状態集合 ▶ A 行動集合 ▶ P : S × A × S → R 遷移確率 ▶ c : S → R 関数 ▶ ρ0 : S → R 初期状態 s0 分布 ▶ γ ∈ [0, 1] 割引率 ▶ 方策(policy)π : S × A → [0, 1] ▶ 期待割引 η(π) = Es0,a0,... [ ∞∑ t=0 γt c(st) ] , where s0 ∼ ρ0, at ∼ π(· | st), st+1 ∼ P(st+1 | st, at) ▶ 目標:η(π) 小 π 求
  • 6. 価値関数 状態 先 期待割引 考 便利 ▶ 状態価値関数 Vπ(st) = Eat ,st+1,...[ ∑∞ l=0 γl c(st+l )] ▶ st 先 π 従 行動 選 ▶ 行動価値関数 Qπ(st, at) = Est+1,at+1,...[ ∑∞ l=0 γl c(st+l )] ▶ st at 選 先 π 従 行動 選 ▶ 関数 Aπ(s, a) = Qπ(s, a) − Vπ(s)
  • 7. Trust Region Policy Optimization(TRPO) ▶ 元 方策 πθold KL 値 δ 以下 抑 制約付 最適化問題 解 方策 改善 提案 minimize θ Es∼ρθold ,a∼q [ πθ(a | s) q(a | s) Qθold (s, a) ] subject to Es∼ρθold [DKL(πθold (· | s) ∥ πθ(· | s))] ≤ δ. (15) ▶ 導出 説明 (時間 )
  • 8. 期待割引 最小化(1) 方策 π 元 , 良 方策 ˜π 求 考 ▶ 方策 ˜π 期待割引 η(˜π) ,別 方策 π 期待割 引 対 表 (証 明 論文 Appendix 参照). η(˜π) = η(π) + Es0,a0,... [ ∞∑ t=0 γt Aπ(st, at) ] , where s0 ∼ ρ0, at ∼ ˜π(· | st), st+1 ∼ P(st+1 | st, at). (1) ▶ 割引訪問頻度 ρπ(s) = (P(s0 = s) + γP(s1 = s) + . . . ) 使 書 η(˜π) = η(π) + ∑ s ρ˜π(s) ∑ a ˜π(a | s)Aπ(s, a). (2) ▶ 右辺 最小化 ˜π 求 ρ˜π 邪魔
  • 9. 期待割引 最小化(2) ▶ ρ˜π ρπ 置 換 楽 Lπ(˜π) = η(π) + ∑ s ρπ(s) ∑ a ˜π(a | s)Aπ(s, a). (3) ▶ π 十分近 η 一次近似 Lπθ0 (πθ0 ) = η(πθ0 ), ∇θLπθ (πθ)|θ=θ0 = ∇θη(πθ)|θ=θ0 (4) ▶ 十分小 Lπ 改善 η 改善 , ?
  • 10. Conservative Policy Iteration(CPI) [Kakade and Langford 2002] ▶ π′ = arg minπ′ Lπold (π′ ) πold 混合方策 πnew(a | s) = (1 − α)πold(a | s) + απ′ (a | s) (5) 期待割引 η(πnew) 次 保証 得 . η(πnew) ≤ Lπold (πnew) + 2ϵγ (1 − γ)2 α2 (8) ( α ∈ [0, 1), ϵ = maxs |Ea∼π′(a|s)[Aπold (s, a)]|) ▶ η(πnew) < η(πold) α 計算 混合方策 求 繰 返 単調改善
  • 11. 非混合方策 拡張(1) 混合方策 実用的 一般 確率的方策 対 改善 保証 ( 論文 主 理論的貢献) Theorem 1 α = Dmax TV (πold, πnew), ϵ = maxs maxa |Aπold (s, a)| 混合 方策 πnew 対 η(πnew) ≤ Lπold (πnew) + 2ϵγ (1 − γ)2 α2 (8) 成 立 . DTV(p ∥ q) := 1 2 ∑ i |pi − qi | (total variation divergence), Dmax TV (π, π′ ) := max s DTV(π(· | s) ∥ ˜π(· | s)), (9)
  • 12. 非混合方策 拡張(2) DTV(p ∥ q)2 ≤ DKL(p ∥ q) 関係 使 , η(˜π) ≤ Lπ(˜π) + CDmax KL (π, ˜π), where C = 2ϵγ (1 − γ)2 (10) 書 . Dmax KL (π, π′ ) := max s DKL(π(· | s) ∥ ˜π(· | s)).
  • 13. 化 方策 最適化(1) 化 方策 πθ(a | s) 考 . ▶ 結果 minimize θ [CDmax KL (θold, θ) + Lθold (θ)] 解 η θold 改善 保証 . ▶ , C 値 実際 大 ,更新 量 小 ,代 minimize θ Lθold (θ) subject to Dmax KL (θold, θ) ≤ δ. (12) (信頼領域)制約付 最適化問題 .
  • 14. 化 方策 最適化(2) ▶ ,Dmax KL 制約 ,制約 数 多 実用的 ,平均 KL ¯Dρ KL(θ1, θ2) := Es∼ρ[DKL(πθ1 (· | s) ∥ πθ2 (· | s))] 代 使 ,解 最適化問題 minimize θ Lθold (θ) subject to ¯D ρθold KL (θold, θ) ≤ δ. (13)
  • 15. 近似 ▶ 先 最適化問題 期待値 形 書 , 分布 q(a | s) importance sampling 使 minimize θ Es∼ρθold ,a∼q [ πθ(a | s) q(a | s) Qθold (s, a) ] subject to Es∼ρθold [DKL(πθold (· | s) ∥ πθ(· | s))] ≤ δ. (15) ▶ 期待値 有限 近似 ,Qθ(s, a) 推定値 計算 ▶ 2 種類 方 提案:Single Path, Vine
  • 16. 法1:Single Path ▶ 初期状態 s0 ∼ ρ0 πθ 従 軌跡 s0, a0, . . . , sT , aT 生成 ,全 状態行動 使 (q = πθ) ▶ Qθ(s, a) 元 軌跡 実際 割引 推定
  • 17. 法2:Vine ▶ πθ 従 生成 軌跡 N 個 状態 , 状態 K 個 行動 q 従 選 ▶ Qθ(s, a) 結果 割引 推定
  • 18. 実用的 以下 繰 返 1. Single Path Vine 使 ,状態行動 (s, a) Qπ(s, a) 推定値 集 2. 目的関数 制約条件 構築 3. 制約付 最適化問題 解 更新量 求 ▶ (共役勾配法 直線探索 用 )
  • 19. 移動制御 評価(1) Swimmer Hopper Walker 入力 10 12 20 出力(連続,gaussian) 2 3 6 数 364 4806 8206
  • 20. 移動制御 評価(2) ▶ Single Path, Vine 既存手法 性能 ▶ (手法 下 見 ?)
  • 21. 評価(1) ▶ 入力:Atari 2600 画面 ▶ 出力: 押下(離散,softmax) ▶ 数:33500
  • 22. 評価(2) ▶ 一部 DQN ( [Mnih et al. 2013] ) 上回 達成 ▶ Vine > DQN:Pong, Q*bert ▶ Single Path > DQN:Enduro, Pong, Q*bert, Seaquest
  • 23. ▶ 一般 確率的方策 期待割引 単調減少 保証 更新方法 提示 ▶ 実用的 方策最適化 TRPO 提案 ▶ 2 種類 評価 ▶ 移動制御:総 既存 方策最適化手法 上回 ▶ : DQN 上回
  • 24. :DQN 比較 TRPO DQN NN 表 方策 π 行動価値関数 Q(s, a) 行動空間 連続 ◦ × 行動空間 離散 ◦ ◦ Single Path 不要, Vine 必要 不要 実装 容易 行列・ 積 効率的 計算方法,共 役勾配法 必要 SGD 学習可能
  • 25. 参考文献 I [1] Sham Kakade and John Langford. “Approximately Optimal Approximate Reinforcement Learning”. In: ICML 2002. 2002. [2] Volodymyr Mnih et al. “Human-level control through deep reinforcement learning”. In: Nature 518.7540 (2015), pp. 529–533. [3] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”. In: NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv: arXiv:1312.5602v1.