“Trust Region Policy Optimization”
ICML2015 読 会
藤田康博
Preferred Networks
August 20, 2015
話 人
▶ 藤田康博
▶ Preferred Networks
▶ Twitter: @mooopan
▶ GitHub: muupan
▶ 強化学習・ AI 興味
読 論文
John Schulman, Sergey Levine, Philipp Moritz, Michael I.
Jordan, Pieter Abbeel. Trust Region Policy Optimization.
ICML 2015.
▶ (深層)強化学習 話
▶ DQN(Deep Q-Network) [Mnih et al. 2015; Mnih et al.
2013] 異 ,価値関数 方策 NN 表現
最適化 (policy optimization)
何
:https://sites.google.com/site/trpopaper/
▶ 制御
▶
▶ 一部 DQN 勝
Policy Optimization
▶ 決定過程 (S, A, P, c, ρ0, γ)
▶ S 状態集合
▶ A 行動集合
▶ P : S × A × S → R 遷移確率
▶ c : S → R 関数
▶ ρ0 : S → R 初期状態 s0 分布
▶ γ ∈ [0, 1] 割引率
▶ 方策(policy)π : S × A → [0, 1]
▶ 期待割引
η(π) = Es0,a0,...
[ ∞∑
t=0
γt
c(st)
]
, where
s0 ∼ ρ0, at ∼ π(· | st), st+1 ∼ P(st+1 | st, at)
▶ 目標:η(π) 小 π 求
価値関数
状態 先 期待割引 考 便利
▶ 状態価値関数 Vπ(st) = Eat ,st+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st 先 π 従 行動 選
▶ 行動価値関数 Qπ(st, at) = Est+1,at+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st at 選 先 π 従 行動 選
▶ 関数 Aπ(s, a) = Qπ(s, a) − Vπ(s)
Trust Region Policy Optimization(TRPO)
▶ 元 方策 πθold
KL 値 δ 以下
抑 制約付 最適化問題 解
方策 改善 提案
minimize
θ
Es∼ρθold
,a∼q
[
πθ(a | s)
q(a | s)
Qθold
(s, a)
]
subject to Es∼ρθold
[DKL(πθold
(· | s) ∥ πθ(· | s))] ≤ δ.
(15)
▶ 導出 説明 (時間 )
期待割引 最小化(1)
方策 π 元 , 良 方策 ˜π 求 考
▶ 方策 ˜π 期待割引 η(˜π) ,別 方策 π 期待割
引 対 表 (証
明 論文 Appendix 参照).
η(˜π) = η(π) + Es0,a0,...
[ ∞∑
t=0
γt
Aπ(st, at)
]
, where
s0 ∼ ρ0, at ∼ ˜π(· | st), st+1 ∼ P(st+1 | st, at). (1)
▶ 割引訪問頻度 ρπ(s) = (P(s0 = s) + γP(s1 = s) + . . . )
使 書
η(˜π) = η(π) +
∑
s
ρ˜π(s)
∑
a
˜π(a | s)Aπ(s, a). (2)
▶ 右辺 最小化 ˜π 求 ρ˜π 邪魔
期待割引 最小化(2)
▶ ρ˜π ρπ 置 換 楽
Lπ(˜π) = η(π) +
∑
s
ρπ(s)
∑
a
˜π(a | s)Aπ(s, a). (3)
▶ π 十分近 η 一次近似
Lπθ0
(πθ0 ) = η(πθ0 ),
∇θLπθ
(πθ)|θ=θ0 = ∇θη(πθ)|θ=θ0 (4)
▶ 十分小 Lπ 改善 η
改善 , ?
Conservative Policy Iteration(CPI) [Kakade and
Langford 2002]
▶ π′
= arg minπ′ Lπold
(π′
) πold 混合方策
πnew(a | s) = (1 − α)πold(a | s) + απ′
(a | s) (5)
期待割引 η(πnew) 次 保証 得
.
η(πnew) ≤ Lπold
(πnew) +
2ϵγ
(1 − γ)2
α2
(8)
( α ∈ [0, 1), ϵ = maxs |Ea∼π′(a|s)[Aπold
(s, a)]|)
▶ η(πnew) < η(πold) α 計算
混合方策 求 繰 返 単調改善
非混合方策 拡張(1)
混合方策 実用的 一般 確率的方策 対
改善 保証 ( 論文 主 理論的貢献)
Theorem 1
α = Dmax
TV (πold, πnew), ϵ = maxs maxa |Aπold
(s, a)| 混合
方策 πnew 対
η(πnew) ≤ Lπold
(πnew) +
2ϵγ
(1 − γ)2
α2
(8)
成 立 .
DTV(p ∥ q) :=
1
2
∑
i
|pi − qi | (total variation divergence),
Dmax
TV (π, π′
) := max
s
DTV(π(· | s) ∥ ˜π(· | s)), (9)
非混合方策 拡張(2)
DTV(p ∥ q)2
≤ DKL(p ∥ q)
関係 使 ,
η(˜π) ≤ Lπ(˜π) + CDmax
KL (π, ˜π), where C =
2ϵγ
(1 − γ)2
(10)
書 .
Dmax
KL (π, π′
) := max
s
DKL(π(· | s) ∥ ˜π(· | s)).
化 方策 最適化(1)
化 方策 πθ(a | s) 考 .
▶ 結果
minimize
θ
[CDmax
KL (θold, θ) + Lθold
(θ)]
解 η θold 改善 保証 .
▶ , C 値 実際 大 ,更新
量 小 ,代
minimize
θ
Lθold
(θ)
subject to Dmax
KL (θold, θ) ≤ δ.
(12)
(信頼領域)制約付 最適化問題 .
化 方策 最適化(2)
▶ ,Dmax
KL 制約 ,制約 数 多
実用的 ,平均 KL
¯Dρ
KL(θ1, θ2) := Es∼ρ[DKL(πθ1 (· | s) ∥ πθ2 (· | s))]
代 使 ,解 最適化問題
minimize
θ
Lθold
(θ)
subject to ¯D
ρθold
KL (θold, θ) ≤ δ.
(13)
近似
▶ 先 最適化問題 期待値 形 書 , 分布
q(a | s) importance sampling 使
minimize
θ
Es∼ρθold
,a∼q
[
πθ(a | s)
q(a | s)
Qθold
(s, a)
]
subject to Es∼ρθold
[DKL(πθold
(· | s) ∥ πθ(· | s))] ≤ δ.
(15)
▶ 期待値 有限 近似 ,Qθ(s, a)
推定値 計算
▶ 2 種類 方 提案:Single Path, Vine
法1:Single Path
▶ 初期状態 s0 ∼ ρ0 πθ 従 軌跡 s0, a0, . . . , sT , aT
生成 ,全 状態行動 使
(q = πθ)
▶ Qθ(s, a) 元 軌跡 実際 割引 推定
法2:Vine
▶ πθ 従 生成 軌跡 N 個 状態
, 状態 K 個 行動 q
従 選
▶ Qθ(s, a) 結果 割引
推定
実用的
以下 繰 返
1. Single Path Vine 使 ,状態行動 (s, a)
Qπ(s, a) 推定値 集
2. 目的関数 制約条件 構築
3. 制約付 最適化問題 解 更新量 求
▶ (共役勾配法 直線探索 用 )
移動制御 評価(1)
Swimmer Hopper Walker
入力 10 12 20
出力(連続,gaussian) 2 3 6
数 364 4806 8206
移動制御 評価(2)
▶ Single Path, Vine 既存手法 性能
▶ (手法 下 見
?)
評価(1)
▶ 入力:Atari 2600 画面
▶ 出力: 押下(離散,softmax)
▶ 数:33500
評価(2)
▶ 一部 DQN ( [Mnih et al. 2013] )
上回 達成
▶ Vine > DQN:Pong, Q*bert
▶ Single Path > DQN:Enduro, Pong, Q*bert, Seaquest
▶ 一般 確率的方策 期待割引 単調減少
保証 更新方法 提示
▶ 実用的 方策最適化
TRPO 提案
▶ 2 種類 評価
▶ 移動制御:総 既存 方策最適化手法
上回
▶ : DQN 上回
:DQN 比較
TRPO DQN
NN 表 方策 π 行動価値関数 Q(s, a)
行動空間 連続 ◦ ×
行動空間 離散 ◦ ◦
Single Path 不要,
Vine 必要
不要
実装 容易 行列・ 積
効率的 計算方法,共
役勾配法 必要
SGD 学習可能
参考文献 I
[1] Sham Kakade and John Langford. “Approximately Optimal Approximate
Reinforcement Learning”. In: ICML 2002. 2002.
[2] Volodymyr Mnih et al. “Human-level control through deep reinforcement
learning”. In: Nature 518.7540 (2015), pp. 529–533.
[3] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”. In:
NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv:
arXiv:1312.5602v1.

Trust Region Policy Optimization

  • 1.
    “Trust Region PolicyOptimization” ICML2015 読 会 藤田康博 Preferred Networks August 20, 2015
  • 2.
    話 人 ▶ 藤田康博 ▶Preferred Networks ▶ Twitter: @mooopan ▶ GitHub: muupan ▶ 強化学習・ AI 興味
  • 3.
    読 論文 John Schulman,Sergey Levine, Philipp Moritz, Michael I. Jordan, Pieter Abbeel. Trust Region Policy Optimization. ICML 2015. ▶ (深層)強化学習 話 ▶ DQN(Deep Q-Network) [Mnih et al. 2015; Mnih et al. 2013] 異 ,価値関数 方策 NN 表現 最適化 (policy optimization)
  • 4.
  • 5.
    Policy Optimization ▶ 決定過程(S, A, P, c, ρ0, γ) ▶ S 状態集合 ▶ A 行動集合 ▶ P : S × A × S → R 遷移確率 ▶ c : S → R 関数 ▶ ρ0 : S → R 初期状態 s0 分布 ▶ γ ∈ [0, 1] 割引率 ▶ 方策(policy)π : S × A → [0, 1] ▶ 期待割引 η(π) = Es0,a0,... [ ∞∑ t=0 γt c(st) ] , where s0 ∼ ρ0, at ∼ π(· | st), st+1 ∼ P(st+1 | st, at) ▶ 目標:η(π) 小 π 求
  • 6.
    価値関数 状態 先 期待割引考 便利 ▶ 状態価値関数 Vπ(st) = Eat ,st+1,...[ ∑∞ l=0 γl c(st+l )] ▶ st 先 π 従 行動 選 ▶ 行動価値関数 Qπ(st, at) = Est+1,at+1,...[ ∑∞ l=0 γl c(st+l )] ▶ st at 選 先 π 従 行動 選 ▶ 関数 Aπ(s, a) = Qπ(s, a) − Vπ(s)
  • 7.
    Trust Region PolicyOptimization(TRPO) ▶ 元 方策 πθold KL 値 δ 以下 抑 制約付 最適化問題 解 方策 改善 提案 minimize θ Es∼ρθold ,a∼q [ πθ(a | s) q(a | s) Qθold (s, a) ] subject to Es∼ρθold [DKL(πθold (· | s) ∥ πθ(· | s))] ≤ δ. (15) ▶ 導出 説明 (時間 )
  • 8.
    期待割引 最小化(1) 方策 π元 , 良 方策 ˜π 求 考 ▶ 方策 ˜π 期待割引 η(˜π) ,別 方策 π 期待割 引 対 表 (証 明 論文 Appendix 参照). η(˜π) = η(π) + Es0,a0,... [ ∞∑ t=0 γt Aπ(st, at) ] , where s0 ∼ ρ0, at ∼ ˜π(· | st), st+1 ∼ P(st+1 | st, at). (1) ▶ 割引訪問頻度 ρπ(s) = (P(s0 = s) + γP(s1 = s) + . . . ) 使 書 η(˜π) = η(π) + ∑ s ρ˜π(s) ∑ a ˜π(a | s)Aπ(s, a). (2) ▶ 右辺 最小化 ˜π 求 ρ˜π 邪魔
  • 9.
    期待割引 最小化(2) ▶ ρ˜πρπ 置 換 楽 Lπ(˜π) = η(π) + ∑ s ρπ(s) ∑ a ˜π(a | s)Aπ(s, a). (3) ▶ π 十分近 η 一次近似 Lπθ0 (πθ0 ) = η(πθ0 ), ∇θLπθ (πθ)|θ=θ0 = ∇θη(πθ)|θ=θ0 (4) ▶ 十分小 Lπ 改善 η 改善 , ?
  • 10.
    Conservative Policy Iteration(CPI)[Kakade and Langford 2002] ▶ π′ = arg minπ′ Lπold (π′ ) πold 混合方策 πnew(a | s) = (1 − α)πold(a | s) + απ′ (a | s) (5) 期待割引 η(πnew) 次 保証 得 . η(πnew) ≤ Lπold (πnew) + 2ϵγ (1 − γ)2 α2 (8) ( α ∈ [0, 1), ϵ = maxs |Ea∼π′(a|s)[Aπold (s, a)]|) ▶ η(πnew) < η(πold) α 計算 混合方策 求 繰 返 単調改善
  • 11.
    非混合方策 拡張(1) 混合方策 実用的一般 確率的方策 対 改善 保証 ( 論文 主 理論的貢献) Theorem 1 α = Dmax TV (πold, πnew), ϵ = maxs maxa |Aπold (s, a)| 混合 方策 πnew 対 η(πnew) ≤ Lπold (πnew) + 2ϵγ (1 − γ)2 α2 (8) 成 立 . DTV(p ∥ q) := 1 2 ∑ i |pi − qi | (total variation divergence), Dmax TV (π, π′ ) := max s DTV(π(· | s) ∥ ˜π(· | s)), (9)
  • 12.
    非混合方策 拡張(2) DTV(p ∥q)2 ≤ DKL(p ∥ q) 関係 使 , η(˜π) ≤ Lπ(˜π) + CDmax KL (π, ˜π), where C = 2ϵγ (1 − γ)2 (10) 書 . Dmax KL (π, π′ ) := max s DKL(π(· | s) ∥ ˜π(· | s)).
  • 13.
    化 方策 最適化(1) 化方策 πθ(a | s) 考 . ▶ 結果 minimize θ [CDmax KL (θold, θ) + Lθold (θ)] 解 η θold 改善 保証 . ▶ , C 値 実際 大 ,更新 量 小 ,代 minimize θ Lθold (θ) subject to Dmax KL (θold, θ) ≤ δ. (12) (信頼領域)制約付 最適化問題 .
  • 14.
    化 方策 最適化(2) ▶,Dmax KL 制約 ,制約 数 多 実用的 ,平均 KL ¯Dρ KL(θ1, θ2) := Es∼ρ[DKL(πθ1 (· | s) ∥ πθ2 (· | s))] 代 使 ,解 最適化問題 minimize θ Lθold (θ) subject to ¯D ρθold KL (θold, θ) ≤ δ. (13)
  • 15.
    近似 ▶ 先 最適化問題期待値 形 書 , 分布 q(a | s) importance sampling 使 minimize θ Es∼ρθold ,a∼q [ πθ(a | s) q(a | s) Qθold (s, a) ] subject to Es∼ρθold [DKL(πθold (· | s) ∥ πθ(· | s))] ≤ δ. (15) ▶ 期待値 有限 近似 ,Qθ(s, a) 推定値 計算 ▶ 2 種類 方 提案:Single Path, Vine
  • 16.
    法1:Single Path ▶ 初期状態s0 ∼ ρ0 πθ 従 軌跡 s0, a0, . . . , sT , aT 生成 ,全 状態行動 使 (q = πθ) ▶ Qθ(s, a) 元 軌跡 実際 割引 推定
  • 17.
    法2:Vine ▶ πθ 従生成 軌跡 N 個 状態 , 状態 K 個 行動 q 従 選 ▶ Qθ(s, a) 結果 割引 推定
  • 18.
    実用的 以下 繰 返 1.Single Path Vine 使 ,状態行動 (s, a) Qπ(s, a) 推定値 集 2. 目的関数 制約条件 構築 3. 制約付 最適化問題 解 更新量 求 ▶ (共役勾配法 直線探索 用 )
  • 19.
    移動制御 評価(1) Swimmer HopperWalker 入力 10 12 20 出力(連続,gaussian) 2 3 6 数 364 4806 8206
  • 20.
    移動制御 評価(2) ▶ SinglePath, Vine 既存手法 性能 ▶ (手法 下 見 ?)
  • 21.
    評価(1) ▶ 入力:Atari 2600画面 ▶ 出力: 押下(離散,softmax) ▶ 数:33500
  • 22.
    評価(2) ▶ 一部 DQN( [Mnih et al. 2013] ) 上回 達成 ▶ Vine > DQN:Pong, Q*bert ▶ Single Path > DQN:Enduro, Pong, Q*bert, Seaquest
  • 23.
    ▶ 一般 確率的方策期待割引 単調減少 保証 更新方法 提示 ▶ 実用的 方策最適化 TRPO 提案 ▶ 2 種類 評価 ▶ 移動制御:総 既存 方策最適化手法 上回 ▶ : DQN 上回
  • 24.
    :DQN 比較 TRPO DQN NN表 方策 π 行動価値関数 Q(s, a) 行動空間 連続 ◦ × 行動空間 離散 ◦ ◦ Single Path 不要, Vine 必要 不要 実装 容易 行列・ 積 効率的 計算方法,共 役勾配法 必要 SGD 学習可能
  • 25.
    参考文献 I [1] ShamKakade and John Langford. “Approximately Optimal Approximate Reinforcement Learning”. In: ICML 2002. 2002. [2] Volodymyr Mnih et al. “Human-level control through deep reinforcement learning”. In: Nature 518.7540 (2015), pp. 529–533. [3] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”. In: NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv: arXiv:1312.5602v1.