SlideShare a Scribd company logo
1 of 25
Download to read offline
“Trust Region Policy Optimization”
ICML2015 読 会
藤田康博
Preferred Networks
August 20, 2015
話 人
▶ 藤田康博
▶ Preferred Networks
▶ Twitter: @mooopan
▶ GitHub: muupan
▶ 強化学習・ AI 興味
読 論文
John Schulman, Sergey Levine, Philipp Moritz, Michael I.
Jordan, Pieter Abbeel. Trust Region Policy Optimization.
ICML 2015.
▶ (深層)強化学習 話
▶ DQN(Deep Q-Network) [Mnih et al. 2015; Mnih et al.
2013] 異 ,価値関数 方策 NN 表現
最適化 (policy optimization)
何
:https://sites.google.com/site/trpopaper/
▶ 制御
▶
▶ 一部 DQN 勝
Policy Optimization
▶ 決定過程 (S, A, P, c, ρ0, γ)
▶ S 状態集合
▶ A 行動集合
▶ P : S × A × S → R 遷移確率
▶ c : S → R 関数
▶ ρ0 : S → R 初期状態 s0 分布
▶ γ ∈ [0, 1] 割引率
▶ 方策(policy)π : S × A → [0, 1]
▶ 期待割引
η(π) = Es0,a0,...
[ ∞∑
t=0
γt
c(st)
]
, where
s0 ∼ ρ0, at ∼ π(· | st), st+1 ∼ P(st+1 | st, at)
▶ 目標:η(π) 小 π 求
価値関数
状態 先 期待割引 考 便利
▶ 状態価値関数 Vπ(st) = Eat ,st+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st 先 π 従 行動 選
▶ 行動価値関数 Qπ(st, at) = Est+1,at+1,...[
∑∞
l=0 γl
c(st+l )]
▶ st at 選 先 π 従 行動 選
▶ 関数 Aπ(s, a) = Qπ(s, a) − Vπ(s)
Trust Region Policy Optimization(TRPO)
▶ 元 方策 πθold
KL 値 δ 以下
抑 制約付 最適化問題 解
方策 改善 提案
minimize
θ
Es∼ρθold
,a∼q
[
πθ(a | s)
q(a | s)
Qθold
(s, a)
]
subject to Es∼ρθold
[DKL(πθold
(· | s) ∥ πθ(· | s))] ≤ δ.
(15)
▶ 導出 説明 (時間 )
期待割引 最小化(1)
方策 π 元 , 良 方策 ˜π 求 考
▶ 方策 ˜π 期待割引 η(˜π) ,別 方策 π 期待割
引 対 表 (証
明 論文 Appendix 参照).
η(˜π) = η(π) + Es0,a0,...
[ ∞∑
t=0
γt
Aπ(st, at)
]
, where
s0 ∼ ρ0, at ∼ ˜π(· | st), st+1 ∼ P(st+1 | st, at). (1)
▶ 割引訪問頻度 ρπ(s) = (P(s0 = s) + γP(s1 = s) + . . . )
使 書
η(˜π) = η(π) +
∑
s
ρ˜π(s)
∑
a
˜π(a | s)Aπ(s, a). (2)
▶ 右辺 最小化 ˜π 求 ρ˜π 邪魔
期待割引 最小化(2)
▶ ρ˜π ρπ 置 換 楽
Lπ(˜π) = η(π) +
∑
s
ρπ(s)
∑
a
˜π(a | s)Aπ(s, a). (3)
▶ π 十分近 η 一次近似
Lπθ0
(πθ0 ) = η(πθ0 ),
∇θLπθ
(πθ)|θ=θ0 = ∇θη(πθ)|θ=θ0 (4)
▶ 十分小 Lπ 改善 η
改善 , ?
Conservative Policy Iteration(CPI) [Kakade and
Langford 2002]
▶ π′
= arg minπ′ Lπold
(π′
) πold 混合方策
πnew(a | s) = (1 − α)πold(a | s) + απ′
(a | s) (5)
期待割引 η(πnew) 次 保証 得
.
η(πnew) ≤ Lπold
(πnew) +
2ϵγ
(1 − γ)2
α2
(8)
( α ∈ [0, 1), ϵ = maxs |Ea∼π′(a|s)[Aπold
(s, a)]|)
▶ η(πnew) < η(πold) α 計算
混合方策 求 繰 返 単調改善
非混合方策 拡張(1)
混合方策 実用的 一般 確率的方策 対
改善 保証 ( 論文 主 理論的貢献)
Theorem 1
α = Dmax
TV (πold, πnew), ϵ = maxs maxa |Aπold
(s, a)| 混合
方策 πnew 対
η(πnew) ≤ Lπold
(πnew) +
2ϵγ
(1 − γ)2
α2
(8)
成 立 .
DTV(p ∥ q) :=
1
2
∑
i
|pi − qi | (total variation divergence),
Dmax
TV (π, π′
) := max
s
DTV(π(· | s) ∥ ˜π(· | s)), (9)
非混合方策 拡張(2)
DTV(p ∥ q)2
≤ DKL(p ∥ q)
関係 使 ,
η(˜π) ≤ Lπ(˜π) + CDmax
KL (π, ˜π), where C =
2ϵγ
(1 − γ)2
(10)
書 .
Dmax
KL (π, π′
) := max
s
DKL(π(· | s) ∥ ˜π(· | s)).
化 方策 最適化(1)
化 方策 πθ(a | s) 考 .
▶ 結果
minimize
θ
[CDmax
KL (θold, θ) + Lθold
(θ)]
解 η θold 改善 保証 .
▶ , C 値 実際 大 ,更新
量 小 ,代
minimize
θ
Lθold
(θ)
subject to Dmax
KL (θold, θ) ≤ δ.
(12)
(信頼領域)制約付 最適化問題 .
化 方策 最適化(2)
▶ ,Dmax
KL 制約 ,制約 数 多
実用的 ,平均 KL
¯Dρ
KL(θ1, θ2) := Es∼ρ[DKL(πθ1 (· | s) ∥ πθ2 (· | s))]
代 使 ,解 最適化問題
minimize
θ
Lθold
(θ)
subject to ¯D
ρθold
KL (θold, θ) ≤ δ.
(13)
近似
▶ 先 最適化問題 期待値 形 書 , 分布
q(a | s) importance sampling 使
minimize
θ
Es∼ρθold
,a∼q
[
πθ(a | s)
q(a | s)
Qθold
(s, a)
]
subject to Es∼ρθold
[DKL(πθold
(· | s) ∥ πθ(· | s))] ≤ δ.
(15)
▶ 期待値 有限 近似 ,Qθ(s, a)
推定値 計算
▶ 2 種類 方 提案:Single Path, Vine
法1:Single Path
▶ 初期状態 s0 ∼ ρ0 πθ 従 軌跡 s0, a0, . . . , sT , aT
生成 ,全 状態行動 使
(q = πθ)
▶ Qθ(s, a) 元 軌跡 実際 割引 推定
法2:Vine
▶ πθ 従 生成 軌跡 N 個 状態
, 状態 K 個 行動 q
従 選
▶ Qθ(s, a) 結果 割引
推定
実用的
以下 繰 返
1. Single Path Vine 使 ,状態行動 (s, a)
Qπ(s, a) 推定値 集
2. 目的関数 制約条件 構築
3. 制約付 最適化問題 解 更新量 求
▶ (共役勾配法 直線探索 用 )
移動制御 評価(1)
Swimmer Hopper Walker
入力 10 12 20
出力(連続,gaussian) 2 3 6
数 364 4806 8206
移動制御 評価(2)
▶ Single Path, Vine 既存手法 性能
▶ (手法 下 見
?)
評価(1)
▶ 入力:Atari 2600 画面
▶ 出力: 押下(離散,softmax)
▶ 数:33500
評価(2)
▶ 一部 DQN ( [Mnih et al. 2013] )
上回 達成
▶ Vine > DQN:Pong, Q*bert
▶ Single Path > DQN:Enduro, Pong, Q*bert, Seaquest
▶ 一般 確率的方策 期待割引 単調減少
保証 更新方法 提示
▶ 実用的 方策最適化
TRPO 提案
▶ 2 種類 評価
▶ 移動制御:総 既存 方策最適化手法
上回
▶ : DQN 上回
:DQN 比較
TRPO DQN
NN 表 方策 π 行動価値関数 Q(s, a)
行動空間 連続 ◦ ×
行動空間 離散 ◦ ◦
Single Path 不要,
Vine 必要
不要
実装 容易 行列・ 積
効率的 計算方法,共
役勾配法 必要
SGD 学習可能
参考文献 I
[1] Sham Kakade and John Langford. “Approximately Optimal Approximate
Reinforcement Learning”. In: ICML 2002. 2002.
[2] Volodymyr Mnih et al. “Human-level control through deep reinforcement
learning”. In: Nature 518.7540 (2015), pp. 529–533.
[3] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”. In:
NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv:
arXiv:1312.5602v1.

More Related Content

What's hot

方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展Deep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy OptimizationDeep Learning JP
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
最近のDQN
最近のDQN最近のDQN
最近のDQNmooopan
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 
[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデルDeep Learning JP
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-Deep Learning JP
 
確率的主成分分析
確率的主成分分析確率的主成分分析
確率的主成分分析Mika Yoshimura
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C modelWEBFARMER. ltd.
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 
強化学習その1
強化学習その1強化学習その1
強化学習その1nishio
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 

What's hot (20)

方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
最近のDQN
最近のDQN最近のDQN
最近のDQN
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
確率的主成分分析
確率的主成分分析確率的主成分分析
確率的主成分分析
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
強化学習2章
強化学習2章強化学習2章
強化学習2章
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 

More from mooopan

Clipped Action Policy Gradient
Clipped Action Policy GradientClipped Action Policy Gradient
Clipped Action Policy Gradientmooopan
 
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017mooopan
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介mooopan
 
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement LearningSafe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learningmooopan
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話mooopan
 
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value GradientsLearning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradientsmooopan
 
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...mooopan
 
"Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning""Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"mooopan
 

More from mooopan (8)

Clipped Action Policy Gradient
Clipped Action Policy GradientClipped Action Policy Gradient
Clipped Action Policy Gradient
 
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介
 
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement LearningSafe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learning
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
 
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value GradientsLearning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradients
 
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
 
"Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning""Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"
 

Trust Region Policy Optimization

  • 1. “Trust Region Policy Optimization” ICML2015 読 会 藤田康博 Preferred Networks August 20, 2015
  • 2. 話 人 ▶ 藤田康博 ▶ Preferred Networks ▶ Twitter: @mooopan ▶ GitHub: muupan ▶ 強化学習・ AI 興味
  • 3. 読 論文 John Schulman, Sergey Levine, Philipp Moritz, Michael I. Jordan, Pieter Abbeel. Trust Region Policy Optimization. ICML 2015. ▶ (深層)強化学習 話 ▶ DQN(Deep Q-Network) [Mnih et al. 2015; Mnih et al. 2013] 異 ,価値関数 方策 NN 表現 最適化 (policy optimization)
  • 5. Policy Optimization ▶ 決定過程 (S, A, P, c, ρ0, γ) ▶ S 状態集合 ▶ A 行動集合 ▶ P : S × A × S → R 遷移確率 ▶ c : S → R 関数 ▶ ρ0 : S → R 初期状態 s0 分布 ▶ γ ∈ [0, 1] 割引率 ▶ 方策(policy)π : S × A → [0, 1] ▶ 期待割引 η(π) = Es0,a0,... [ ∞∑ t=0 γt c(st) ] , where s0 ∼ ρ0, at ∼ π(· | st), st+1 ∼ P(st+1 | st, at) ▶ 目標:η(π) 小 π 求
  • 6. 価値関数 状態 先 期待割引 考 便利 ▶ 状態価値関数 Vπ(st) = Eat ,st+1,...[ ∑∞ l=0 γl c(st+l )] ▶ st 先 π 従 行動 選 ▶ 行動価値関数 Qπ(st, at) = Est+1,at+1,...[ ∑∞ l=0 γl c(st+l )] ▶ st at 選 先 π 従 行動 選 ▶ 関数 Aπ(s, a) = Qπ(s, a) − Vπ(s)
  • 7. Trust Region Policy Optimization(TRPO) ▶ 元 方策 πθold KL 値 δ 以下 抑 制約付 最適化問題 解 方策 改善 提案 minimize θ Es∼ρθold ,a∼q [ πθ(a | s) q(a | s) Qθold (s, a) ] subject to Es∼ρθold [DKL(πθold (· | s) ∥ πθ(· | s))] ≤ δ. (15) ▶ 導出 説明 (時間 )
  • 8. 期待割引 最小化(1) 方策 π 元 , 良 方策 ˜π 求 考 ▶ 方策 ˜π 期待割引 η(˜π) ,別 方策 π 期待割 引 対 表 (証 明 論文 Appendix 参照). η(˜π) = η(π) + Es0,a0,... [ ∞∑ t=0 γt Aπ(st, at) ] , where s0 ∼ ρ0, at ∼ ˜π(· | st), st+1 ∼ P(st+1 | st, at). (1) ▶ 割引訪問頻度 ρπ(s) = (P(s0 = s) + γP(s1 = s) + . . . ) 使 書 η(˜π) = η(π) + ∑ s ρ˜π(s) ∑ a ˜π(a | s)Aπ(s, a). (2) ▶ 右辺 最小化 ˜π 求 ρ˜π 邪魔
  • 9. 期待割引 最小化(2) ▶ ρ˜π ρπ 置 換 楽 Lπ(˜π) = η(π) + ∑ s ρπ(s) ∑ a ˜π(a | s)Aπ(s, a). (3) ▶ π 十分近 η 一次近似 Lπθ0 (πθ0 ) = η(πθ0 ), ∇θLπθ (πθ)|θ=θ0 = ∇θη(πθ)|θ=θ0 (4) ▶ 十分小 Lπ 改善 η 改善 , ?
  • 10. Conservative Policy Iteration(CPI) [Kakade and Langford 2002] ▶ π′ = arg minπ′ Lπold (π′ ) πold 混合方策 πnew(a | s) = (1 − α)πold(a | s) + απ′ (a | s) (5) 期待割引 η(πnew) 次 保証 得 . η(πnew) ≤ Lπold (πnew) + 2ϵγ (1 − γ)2 α2 (8) ( α ∈ [0, 1), ϵ = maxs |Ea∼π′(a|s)[Aπold (s, a)]|) ▶ η(πnew) < η(πold) α 計算 混合方策 求 繰 返 単調改善
  • 11. 非混合方策 拡張(1) 混合方策 実用的 一般 確率的方策 対 改善 保証 ( 論文 主 理論的貢献) Theorem 1 α = Dmax TV (πold, πnew), ϵ = maxs maxa |Aπold (s, a)| 混合 方策 πnew 対 η(πnew) ≤ Lπold (πnew) + 2ϵγ (1 − γ)2 α2 (8) 成 立 . DTV(p ∥ q) := 1 2 ∑ i |pi − qi | (total variation divergence), Dmax TV (π, π′ ) := max s DTV(π(· | s) ∥ ˜π(· | s)), (9)
  • 12. 非混合方策 拡張(2) DTV(p ∥ q)2 ≤ DKL(p ∥ q) 関係 使 , η(˜π) ≤ Lπ(˜π) + CDmax KL (π, ˜π), where C = 2ϵγ (1 − γ)2 (10) 書 . Dmax KL (π, π′ ) := max s DKL(π(· | s) ∥ ˜π(· | s)).
  • 13. 化 方策 最適化(1) 化 方策 πθ(a | s) 考 . ▶ 結果 minimize θ [CDmax KL (θold, θ) + Lθold (θ)] 解 η θold 改善 保証 . ▶ , C 値 実際 大 ,更新 量 小 ,代 minimize θ Lθold (θ) subject to Dmax KL (θold, θ) ≤ δ. (12) (信頼領域)制約付 最適化問題 .
  • 14. 化 方策 最適化(2) ▶ ,Dmax KL 制約 ,制約 数 多 実用的 ,平均 KL ¯Dρ KL(θ1, θ2) := Es∼ρ[DKL(πθ1 (· | s) ∥ πθ2 (· | s))] 代 使 ,解 最適化問題 minimize θ Lθold (θ) subject to ¯D ρθold KL (θold, θ) ≤ δ. (13)
  • 15. 近似 ▶ 先 最適化問題 期待値 形 書 , 分布 q(a | s) importance sampling 使 minimize θ Es∼ρθold ,a∼q [ πθ(a | s) q(a | s) Qθold (s, a) ] subject to Es∼ρθold [DKL(πθold (· | s) ∥ πθ(· | s))] ≤ δ. (15) ▶ 期待値 有限 近似 ,Qθ(s, a) 推定値 計算 ▶ 2 種類 方 提案:Single Path, Vine
  • 16. 法1:Single Path ▶ 初期状態 s0 ∼ ρ0 πθ 従 軌跡 s0, a0, . . . , sT , aT 生成 ,全 状態行動 使 (q = πθ) ▶ Qθ(s, a) 元 軌跡 実際 割引 推定
  • 17. 法2:Vine ▶ πθ 従 生成 軌跡 N 個 状態 , 状態 K 個 行動 q 従 選 ▶ Qθ(s, a) 結果 割引 推定
  • 18. 実用的 以下 繰 返 1. Single Path Vine 使 ,状態行動 (s, a) Qπ(s, a) 推定値 集 2. 目的関数 制約条件 構築 3. 制約付 最適化問題 解 更新量 求 ▶ (共役勾配法 直線探索 用 )
  • 19. 移動制御 評価(1) Swimmer Hopper Walker 入力 10 12 20 出力(連続,gaussian) 2 3 6 数 364 4806 8206
  • 20. 移動制御 評価(2) ▶ Single Path, Vine 既存手法 性能 ▶ (手法 下 見 ?)
  • 21. 評価(1) ▶ 入力:Atari 2600 画面 ▶ 出力: 押下(離散,softmax) ▶ 数:33500
  • 22. 評価(2) ▶ 一部 DQN ( [Mnih et al. 2013] ) 上回 達成 ▶ Vine > DQN:Pong, Q*bert ▶ Single Path > DQN:Enduro, Pong, Q*bert, Seaquest
  • 23. ▶ 一般 確率的方策 期待割引 単調減少 保証 更新方法 提示 ▶ 実用的 方策最適化 TRPO 提案 ▶ 2 種類 評価 ▶ 移動制御:総 既存 方策最適化手法 上回 ▶ : DQN 上回
  • 24. :DQN 比較 TRPO DQN NN 表 方策 π 行動価値関数 Q(s, a) 行動空間 連続 ◦ × 行動空間 離散 ◦ ◦ Single Path 不要, Vine 必要 不要 実装 容易 行列・ 積 効率的 計算方法,共 役勾配法 必要 SGD 学習可能
  • 25. 参考文献 I [1] Sham Kakade and John Langford. “Approximately Optimal Approximate Reinforcement Learning”. In: ICML 2002. 2002. [2] Volodymyr Mnih et al. “Human-level control through deep reinforcement learning”. In: Nature 518.7540 (2015), pp. 529–533. [3] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”. In: NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv: arXiv:1312.5602v1.