Trust Region Policy Optimization

“Trust Region Policy Optimization”
ICML2015 読会
藤田康博
Preferred Networks
August 20, 2015

話人
▶ 藤田康博
▶ Preferred Networks
▶ Twitter: @mooopan
▶ GitHub: muupan
▶ 強化学習・ AI 興味

読論文
John Schulman, Sergey Levine, Philipp Moritz, Michael I.
Jordan, Pieter Abbeel. Trust Region Policy Optimization.
ICML 2015.
▶ （深層）強化学習話
▶ DQN（Deep Q-Network） [Mnih et al. 2015; Mnih et al.
2013] 異，価値関数方策 NN 表現
最適化（policy optimization）

何
：https://sites.google.com/site/trpopaper/
▶ 制御
▶
▶ 一部 DQN 勝

Policy Optimization
▶ 決定過程 (S, A, P, c, ρ0, γ)
▶ S 状態集合
▶ A 行動集合
▶ P : S × A × S → R 遷移確率
▶ c : S → R 関数
▶ ρ0 : S → R 初期状態 s0 分布
▶ γ ∈ [0, 1] 割引率
▶ 方策（policy）π : S × A → [0, 1]
▶ 期待割引
η(π) = Es0,a0,...
[ ∞∑
t=0
γt
c(st)
]
, where
s0 ∼ ρ0, at ∼ π(· | st), st+1 ∼ P(st+1 | st, at)
▶ 目標：η(π) 小 π 求

価値関数
状態先期待割引考便利
▶ 状態価値関数 Vπ(st) = Eat ,st+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st 先 π 従行動選
▶ 行動価値関数 Qπ(st, at) = Est+1,at+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st at 選先 π 従行動選
▶ 関数 Aπ(s, a) = Qπ(s, a) − Vπ(s)

Trust Region Policy Optimization（TRPO）
▶ 元方策 πθold
KL 値 δ 以下
抑制約付最適化問題解
方策改善提案
minimize
θ
Es∼ρθold
,a∼q
[
πθ(a | s)
q(a | s)
Qθold
(s, a)
]
subject to Es∼ρθold
[DKL(πθold
(· | s) ∥ πθ(· | s))] ≤ δ.
(15)
▶ 導出説明（時間）

期待割引最小化（1）
方策 π 元，良方策 ˜π 求考
▶ 方策 ˜π 期待割引 η(˜π) ，別方策 π 期待割
引対表（証
明論文 Appendix 参照）．
η(˜π) = η(π) + Es0,a0,...
[ ∞∑
t=0
γt
Aπ(st, at)
]
, where
s0 ∼ ρ0, at ∼ ˜π(· | st), st+1 ∼ P(st+1 | st, at). (1)
▶ 割引訪問頻度 ρπ(s) = (P(s0 = s) + γP(s1 = s) + . . . )
使書
η(˜π) = η(π) +
∑
s
ρ˜π(s)
∑
a
˜π(a | s)Aπ(s, a). (2)
▶ 右辺最小化 ˜π 求 ρ˜π 邪魔

期待割引最小化（2）
▶ ρ˜π ρπ 置換楽
Lπ(˜π) = η(π) +
∑
s
ρπ(s)
∑
a
˜π(a | s)Aπ(s, a). (3)
▶ π 十分近 η 一次近似
Lπθ0
(πθ0 ) = η(πθ0 ),
∇θLπθ
(πθ)|θ=θ0 = ∇θη(πθ)|θ=θ0 (4)
▶ 十分小 Lπ 改善 η
改善，？

Conservative Policy Iteration（CPI） [Kakade and
Langford 2002]
▶ π′
= arg minπ′ Lπold
(π′
) πold 混合方策
πnew(a | s) = (1 − α)πold(a | s) + απ′
(a | s) (5)
期待割引 η(πnew) 次保証得
．
η(πnew) ≤ Lπold
(πnew) +
2ϵγ
(1 − γ)2
α2
(8)
（ α ∈ [0, 1), ϵ = maxs |Ea∼π′(a|s)[Aπold
(s, a)]|）
▶ η(πnew) < η(πold) α 計算
混合方策求繰返単調改善

非混合方策拡張（2）
DTV(p ∥ q)2
≤ DKL(p ∥ q)
関係使，
η(˜π) ≤ Lπ(˜π) + CDmax
KL (π, ˜π), where C =
2ϵγ
(1 − γ)2
(10)
書．
Dmax
KL (π, π′
) := max
s
DKL(π(· | s) ∥ ˜π(· | s)).

化方策最適化（1）
化方策 πθ(a | s) 考．
▶ 結果
minimize
θ
[CDmax
KL (θold, θ) + Lθold
(θ)]
解 η θold 改善保証．
▶ ， C 値実際大，更新
量小，代
minimize
θ
Lθold
(θ)
subject to Dmax
KL (θold, θ) ≤ δ.
(12)
（信頼領域）制約付最適化問題．

化方策最適化（2）
▶ ，Dmax
KL 制約，制約数多
実用的，平均 KL
¯Dρ
KL(θ1, θ2) := Es∼ρ[DKL(πθ1 (· | s) ∥ πθ2 (· | s))]
代使，解最適化問題
minimize
θ
Lθold
(θ)
subject to ¯D
ρθold
KL (θold, θ) ≤ δ.
(13)

法1：Single Path
▶ 初期状態 s0 ∼ ρ0 πθ 従軌跡 s0, a0, . . . , sT , aT
生成，全状態行動使
（q = πθ）
▶ Qθ(s, a) 元軌跡実際割引推定

法2：Vine
▶ πθ 従生成軌跡 N 個状態
，状態 K 個行動 q
従選
▶ Qθ(s, a) 結果割引
推定

実用的
以下繰返
1. Single Path Vine 使，状態行動 (s, a)
Qπ(s, a) 推定値集
2. 目的関数制約条件構築
3. 制約付最適化問題解更新量求
▶ （共役勾配法直線探索用）

移動制御評価（1）
Swimmer Hopper Walker
入力 10 12 20
出力（連続，gaussian） 2 3 6
数 364 4806 8206

移動制御評価（2）
▶ Single Path, Vine 既存手法性能
▶ （手法下見
？）

評価（1）
▶ 入力：Atari 2600 画面
▶ 出力：押下（離散，softmax）
▶ 数：33500

評価（2）
▶ 一部 DQN （ [Mnih et al. 2013] ）
上回達成
▶ Vine > DQN：Pong, Q*bert
▶ Single Path > DQN：Enduro, Pong, Q*bert, Seaquest

▶ 一般確率的方策期待割引単調減少
保証更新方法提示
▶ 実用的方策最適化
TRPO 提案
▶ 2 種類評価
▶ 移動制御：総既存方策最適化手法
上回
▶ ： DQN 上回

：DQN 比較
TRPO DQN
NN 表方策 π 行動価値関数 Q(s, a)
行動空間連続 ◦ ×
行動空間離散 ◦ ◦
Single Path 不要，
Vine 必要
不要
実装容易行列・積
効率的計算方法，共
役勾配法必要
SGD 学習可能

参考文献 I
[1] Sham Kakade and John Langford. “Approximately Optimal Approximate
Reinforcement Learning”. In: ICML 2002. 2002.
[2] Volodymyr Mnih et al. “Human-level control through deep reinforcement
learning”. In: Nature 518.7540 (2015), pp. 529–533.
[3] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”. In:
NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv:
arXiv:1312.5602v1.

Trust Region Policy Optimization

More Related Content

What's hot

Viewers also liked

More from mooopan

Trust Region Policy Optimization