Trust Region Policy Optimization

“Trust Region Policy Optimization”
ICML2015 読会
藤田康博
Preferred Networks
August 20, 2015

話人
▶ 藤田康博
▶ Preferred Networks
▶ Twitter: @mooopan
▶ GitHub: muupan
▶ 強化学習・ AI 興味

読論文
John Schulman, Sergey Levine, Philipp Moritz, Michael I.
Jordan, Pieter Abbeel. Trust Region Policy Optimization.
ICML 2015.
▶ （深層）強化学習話
▶ DQN（Deep Q-Network） [Mnih et al. 2015; Mnih et al.
2013] 異，価値関数方策 NN 表現
最適化（policy optimization）

何
：https://sites.google.com/site/trpopaper/
▶ 制御
▶
▶ 一部 DQN 勝

Policy Optimization
▶ 決定過程 (S, A, P, c, ρ0, γ)
▶ S 状態集合
▶ A 行動集合
▶ P : S × A × S → R 遷移確率
▶ c : S → R 関数
▶ ρ0 : S → R 初期状態 s0 分布
▶ γ ∈ [0, 1] 割引率
▶ 方策（policy）π : S × A → [0, 1]
▶ 期待割引
η(π) = Es0,a0,...
[ ∞∑
t=0
γt
c(st)
]
, where
s0 ∼ ρ0, at ∼ π(· | st), st+1 ∼ P(st+1 | st, at)
▶ 目標：η(π) 小 π 求

価値関数
状態先期待割引考便利
▶ 状態価値関数 Vπ(st) = Eat ,st+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st 先 π 従行動選
▶ 行動価値関数 Qπ(st, at) = Est+1,at+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st at 選先 π 従行動選
▶ 関数 Aπ(s, a) = Qπ(s, a) − Vπ(s)

Trust Region Policy Optimization（TRPO）
▶ 元方策 πθold
KL 値 δ 以下
抑制約付最適化問題解
方策改善提案
minimize
θ
Es∼ρθold
,a∼q
[
πθ(a | s)
q(a | s)
Qθold
(s, a)
]
subject to Es∼ρθold
[DKL(πθold
(· | s) ∥ πθ(· | s))] ≤ δ.
(15)
▶ 導出説明（時間）

期待割引最小化（1）
方策 π 元，良方策 ˜π 求考
▶ 方策 ˜π 期待割引 η(˜π) ，別方策 π 期待割
引対表（証
明論文 Appendix 参照）．
η(˜π) = η(π) + Es0,a0,...
[ ∞∑
t=0
γt
Aπ(st, at)
]
, where
s0 ∼ ρ0, at ∼ ˜π(· | st), st+1 ∼ P(st+1 | st, at). (1)
▶ 割引訪問頻度 ρπ(s) = (P(s0 = s) + γP(s1 = s) + . . . )
使書
η(˜π) = η(π) +
∑
s
ρ˜π(s)
∑
a
˜π(a | s)Aπ(s, a). (2)
▶ 右辺最小化 ˜π 求 ρ˜π 邪魔

期待割引最小化（2）
▶ ρ˜π ρπ 置換楽
Lπ(˜π) = η(π) +
∑
s
ρπ(s)
∑
a
˜π(a | s)Aπ(s, a). (3)
▶ π 十分近 η 一次近似
Lπθ0
(πθ0 ) = η(πθ0 ),
∇θLπθ
(πθ)|θ=θ0 = ∇θη(πθ)|θ=θ0 (4)
▶ 十分小 Lπ 改善 η
改善，？

Conservative Policy Iteration（CPI） [Kakade and
Langford 2002]
▶ π′
= arg minπ′ Lπold
(π′
) πold 混合方策
πnew(a | s) = (1 − α)πold(a | s) + απ′
(a | s) (5)
期待割引 η(πnew) 次保証得
．
η(πnew) ≤ Lπold
(πnew) +
2ϵγ
(1 − γ)2
α2
(8)
（ α ∈ [0, 1), ϵ = maxs |Ea∼π′(a|s)[Aπold
(s, a)]|）
▶ η(πnew) < η(πold) α 計算
混合方策求繰返単調改善

非混合方策拡張（2）
DTV(p ∥ q)2
≤ DKL(p ∥ q)
関係使，
η(˜π) ≤ Lπ(˜π) + CDmax
KL (π, ˜π), where C =
2ϵγ
(1 − γ)2
(10)
書．
Dmax
KL (π, π′
) := max
s
DKL(π(· | s) ∥ ˜π(· | s)).

化方策最適化（1）
化方策 πθ(a | s) 考．
▶ 結果
minimize
θ
[CDmax
KL (θold, θ) + Lθold
(θ)]
解 η θold 改善保証．
▶ ， C 値実際大，更新
量小，代
minimize
θ
Lθold
(θ)
subject to Dmax
KL (θold, θ) ≤ δ.
(12)
（信頼領域）制約付最適化問題．

化方策最適化（2）
▶ ，Dmax
KL 制約，制約数多
実用的，平均 KL
¯Dρ
KL(θ1, θ2) := Es∼ρ[DKL(πθ1 (· | s) ∥ πθ2 (· | s))]
代使，解最適化問題
minimize
θ
Lθold
(θ)
subject to ¯D
ρθold
KL (θold, θ) ≤ δ.
(13)

法1：Single Path
▶ 初期状態 s0 ∼ ρ0 πθ 従軌跡 s0, a0, . . . , sT , aT
生成，全状態行動使
（q = πθ）
▶ Qθ(s, a) 元軌跡実際割引推定

法2：Vine
▶ πθ 従生成軌跡 N 個状態
，状態 K 個行動 q
従選
▶ Qθ(s, a) 結果割引
推定

実用的
以下繰返
1. Single Path Vine 使，状態行動 (s, a)
Qπ(s, a) 推定値集
2. 目的関数制約条件構築
3. 制約付最適化問題解更新量求
▶ （共役勾配法直線探索用）

移動制御評価（1）
Swimmer Hopper Walker
入力 10 12 20
出力（連続，gaussian） 2 3 6
数 364 4806 8206

移動制御評価（2）
▶ Single Path, Vine 既存手法性能
▶ （手法下見
？）

評価（1）
▶ 入力：Atari 2600 画面
▶ 出力：押下（離散，softmax）
▶ 数：33500

評価（2）
▶ 一部 DQN （ [Mnih et al. 2013] ）
上回達成
▶ Vine > DQN：Pong, Q*bert
▶ Single Path > DQN：Enduro, Pong, Q*bert, Seaquest

▶ 一般確率的方策期待割引単調減少
保証更新方法提示
▶ 実用的方策最適化
TRPO 提案
▶ 2 種類評価
▶ 移動制御：総既存方策最適化手法
上回
▶ ： DQN 上回

：DQN 比較
TRPO DQN
NN 表方策 π 行動価値関数 Q(s, a)
行動空間連続 ◦ ×
行動空間離散 ◦ ◦
Single Path 不要，
Vine 必要
不要
実装容易行列・積
効率的計算方法，共
役勾配法必要
SGD 学習可能

参考文献 I
[1] Sham Kakade and John Langford. “Approximately Optimal Approximate
Reinforcement Learning”. In: ICML 2002. 2002.
[2] Volodymyr Mnih et al. “Human-level control through deep reinforcement
learning”. In: Nature 518.7540 (2015), pp. 529–533.
[3] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”. In:
NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv:
arXiv:1312.5602v1.

Trust Region Policy Optimization

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (6)

More from mooopan

More from mooopan (8)

Trust Region Policy Optimization