Trust Region Policy Optimization2. 話 人
▶ 藤田康博
▶ Preferred Networks
▶ Twitter: @mooopan
▶ GitHub: muupan
▶ 強化学習・ AI 興味
3. 読 論文
John Schulman, Sergey Levine, Philipp Moritz, Michael I.
Jordan, Pieter Abbeel. Trust Region Policy Optimization.
ICML 2015.
▶ (深層)強化学習 話
▶ DQN(Deep Q-Network) [Mnih et al. 2015; Mnih et al.
2013] 異 ,価値関数 方策 NN 表現
最適化 (policy optimization)
5. Policy Optimization
▶ 決定過程 (S, A, P, c, ρ0, γ)
▶ S 状態集合
▶ A 行動集合
▶ P : S × A × S → R 遷移確率
▶ c : S → R 関数
▶ ρ0 : S → R 初期状態 s0 分布
▶ γ ∈ [0, 1] 割引率
▶ 方策(policy)π : S × A → [0, 1]
▶ 期待割引
η(π) = Es0,a0,...
[ ∞∑
t=0
γt
c(st)
]
, where
s0 ∼ ρ0, at ∼ π(· | st), st+1 ∼ P(st+1 | st, at)
▶ 目標:η(π) 小 π 求
6. 価値関数
状態 先 期待割引 考 便利
▶ 状態価値関数 Vπ(st) = Eat ,st+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st 先 π 従 行動 選
▶ 行動価値関数 Qπ(st, at) = Est+1,at+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st at 選 先 π 従 行動 選
▶ 関数 Aπ(s, a) = Qπ(s, a) − Vπ(s)
7. Trust Region Policy Optimization(TRPO)
▶ 元 方策 πθold
KL 値 δ 以下
抑 制約付 最適化問題 解
方策 改善 提案
minimize
θ
Es∼ρθold
,a∼q
[
πθ(a | s)
q(a | s)
Qθold
(s, a)
]
subject to Es∼ρθold
[DKL(πθold
(· | s) ∥ πθ(· | s))] ≤ δ.
(15)
▶ 導出 説明 (時間 )
8. 期待割引 最小化(1)
方策 π 元 , 良 方策 ˜π 求 考
▶ 方策 ˜π 期待割引 η(˜π) ,別 方策 π 期待割
引 対 表 (証
明 論文 Appendix 参照).
η(˜π) = η(π) + Es0,a0,...
[ ∞∑
t=0
γt
Aπ(st, at)
]
, where
s0 ∼ ρ0, at ∼ ˜π(· | st), st+1 ∼ P(st+1 | st, at). (1)
▶ 割引訪問頻度 ρπ(s) = (P(s0 = s) + γP(s1 = s) + . . . )
使 書
η(˜π) = η(π) +
∑
s
ρ˜π(s)
∑
a
˜π(a | s)Aπ(s, a). (2)
▶ 右辺 最小化 ˜π 求 ρ˜π 邪魔
9. 期待割引 最小化(2)
▶ ρ˜π ρπ 置 換 楽
Lπ(˜π) = η(π) +
∑
s
ρπ(s)
∑
a
˜π(a | s)Aπ(s, a). (3)
▶ π 十分近 η 一次近似
Lπθ0
(πθ0 ) = η(πθ0 ),
∇θLπθ
(πθ)|θ=θ0 = ∇θη(πθ)|θ=θ0 (4)
▶ 十分小 Lπ 改善 η
改善 , ?
10. Conservative Policy Iteration(CPI) [Kakade and
Langford 2002]
▶ π′
= arg minπ′ Lπold
(π′
) πold 混合方策
πnew(a | s) = (1 − α)πold(a | s) + απ′
(a | s) (5)
期待割引 η(πnew) 次 保証 得
.
η(πnew) ≤ Lπold
(πnew) +
2ϵγ
(1 − γ)2
α2
(8)
( α ∈ [0, 1), ϵ = maxs |Ea∼π′(a|s)[Aπold
(s, a)]|)
▶ η(πnew) < η(πold) α 計算
混合方策 求 繰 返 単調改善
11. 非混合方策 拡張(1)
混合方策 実用的 一般 確率的方策 対
改善 保証 ( 論文 主 理論的貢献)
Theorem 1
α = Dmax
TV (πold, πnew), ϵ = maxs maxa |Aπold
(s, a)| 混合
方策 πnew 対
η(πnew) ≤ Lπold
(πnew) +
2ϵγ
(1 − γ)2
α2
(8)
成 立 .
DTV(p ∥ q) :=
1
2
∑
i
|pi − qi | (total variation divergence),
Dmax
TV (π, π′
) := max
s
DTV(π(· | s) ∥ ˜π(· | s)), (9)
12. 非混合方策 拡張(2)
DTV(p ∥ q)2
≤ DKL(p ∥ q)
関係 使 ,
η(˜π) ≤ Lπ(˜π) + CDmax
KL (π, ˜π), where C =
2ϵγ
(1 − γ)2
(10)
書 .
Dmax
KL (π, π′
) := max
s
DKL(π(· | s) ∥ ˜π(· | s)).
13. 化 方策 最適化(1)
化 方策 πθ(a | s) 考 .
▶ 結果
minimize
θ
[CDmax
KL (θold, θ) + Lθold
(θ)]
解 η θold 改善 保証 .
▶ , C 値 実際 大 ,更新
量 小 ,代
minimize
θ
Lθold
(θ)
subject to Dmax
KL (θold, θ) ≤ δ.
(12)
(信頼領域)制約付 最適化問題 .
14. 化 方策 最適化(2)
▶ ,Dmax
KL 制約 ,制約 数 多
実用的 ,平均 KL
¯Dρ
KL(θ1, θ2) := Es∼ρ[DKL(πθ1 (· | s) ∥ πθ2 (· | s))]
代 使 ,解 最適化問題
minimize
θ
Lθold
(θ)
subject to ¯D
ρθold
KL (θold, θ) ≤ δ.
(13)
15. 近似
▶ 先 最適化問題 期待値 形 書 , 分布
q(a | s) importance sampling 使
minimize
θ
Es∼ρθold
,a∼q
[
πθ(a | s)
q(a | s)
Qθold
(s, a)
]
subject to Es∼ρθold
[DKL(πθold
(· | s) ∥ πθ(· | s))] ≤ δ.
(15)
▶ 期待値 有限 近似 ,Qθ(s, a)
推定値 計算
▶ 2 種類 方 提案:Single Path, Vine
16. 法1:Single Path
▶ 初期状態 s0 ∼ ρ0 πθ 従 軌跡 s0, a0, . . . , sT , aT
生成 ,全 状態行動 使
(q = πθ)
▶ Qθ(s, a) 元 軌跡 実際 割引 推定
18. 実用的
以下 繰 返
1. Single Path Vine 使 ,状態行動 (s, a)
Qπ(s, a) 推定値 集
2. 目的関数 制約条件 構築
3. 制約付 最適化問題 解 更新量 求
▶ (共役勾配法 直線探索 用 )
22. 評価(2)
▶ 一部 DQN ( [Mnih et al. 2013] )
上回 達成
▶ Vine > DQN:Pong, Q*bert
▶ Single Path > DQN:Enduro, Pong, Q*bert, Seaquest
23. ▶ 一般 確率的方策 期待割引 単調減少
保証 更新方法 提示
▶ 実用的 方策最適化
TRPO 提案
▶ 2 種類 評価
▶ 移動制御:総 既存 方策最適化手法
上回
▶ : DQN 上回
24. :DQN 比較
TRPO DQN
NN 表 方策 π 行動価値関数 Q(s, a)
行動空間 連続 ◦ ×
行動空間 離散 ◦ ◦
Single Path 不要,
Vine 必要
不要
実装 容易 行列・ 積
効率的 計算方法,共
役勾配法 必要
SGD 学習可能
25. 参考文献 I
[1] Sham Kakade and John Langford. “Approximately Optimal Approximate
Reinforcement Learning”. In: ICML 2002. 2002.
[2] Volodymyr Mnih et al. “Human-level control through deep reinforcement
learning”. In: Nature 518.7540 (2015), pp. 529–533.
[3] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”. In:
NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv:
arXiv:1312.5602v1.