【論文紹介】PGQ: Combining Policy Gradient And Q-learning

【論文紹介】
PGQ: Combining Policy Gradient
And Q-learning
O’Donoghue et al. ICLR 2017
Sotetsu KOYAMADA (@sotetsuk)

Table of Contents
■ 論文概要
■ 強化学習の問題設定と定義
■ Q学習と方策勾配法のReview
■ 論文の理論的結果 (1)
■ 論文の理論的結果 (2)
■ 提案手法の説明: PGQ
■ 実験結果
■ 参考文献

紹介する理由
1. 強化学習における二つの別々の主要なアプローチの統
合を試みている
■ 理論的に興味深い
■ 実用面からも長所を組み合わせることが期待できる
2. Atariベンチマークでの強い実験結果

ICLR2017レビュアーのコメント
https://openreview.net/forum?id=B1kJ6H9ex
It has the potential to be an impactful paper, with the
most positive comment noting that it "will likely inﬂuence
a broad swath of RL".

TL;DR (1)
理論的貢献 (1)
エントロピー正則化付きの方策勾配法の停留点におい
て、方策とアドバンテージ関数（Q関数）の間に次式の関
係性を示し、この関係から方策勾配法において明示的に
推定しなくても適切な行動価値関数を導出できる。
理論的貢献 (2)
エントロピー正則化付きのActor-critic法と行動価値を推
定する手法 (Q学習やSARSA) は更新則が等しくなる（特
別な場合）。とくに、Actor-critc法をAdvantage
function learningと見なすことが出来る。

TL;DR (3)
PGQの提案と評価
理論的貢献(1)の結果から得られる行動価値関数をベルマ
ン最適方程式を満たすように正則化をかけたアルゴリズ
ムPGQを提案。これはのときはエントロピー正則
化付きの方策勾配法、のときは特殊な構造のQ学
習をしていると捉えられる。AtariドメインでMedianで
も人を上回り、DQNやA3Cと比べても一人負けするゲー
ムが存在しないという安定性を見せた。
η = 0
η = 1

強化学習の問題設定と定義

一般的な強化学習の問題設定 (1)
マルコフ決定過程 (MDP)
環境は現在の状態と行動にだけ依存して未知の状態遷
移確率から次の状態と即時報酬を返す
エージェントは現在の状態と報酬を観測し、現在の方
策に基づいて次の行動を返す
サンプル系列が生成される
P
( , ) ∼ P(⋅ | , )Xt+1 Rt+1 Xt At
π
∼ π(⋅ | )At Xt
( , , , , , …)X0 A0 R1 X1 A1

一般的な強化学習の問題設定 (2)
コントロール
目的関数を最適化するように方策を学習する（例: 割
引報酬和の期待値）
J
J(π) = E
[ ]∑
t=1
∞
γ
t
Rt+1

ある方策に基づく価値関数
Def. 行動価値関数（期待値は状態遷移確率と方策）
Def. 方策に基づくベルマン作用素
（ただし、）
この行動価値関数は、ベルマン作用素の不動点 (i.e.,
) として求まる（める）
π
(x, a) := E
[
| = x, = a
]
Q
π
∑
t=0
∞
γ
t
Rt+1 X0 A0
π
Q(x, a) = r(x, a) + γ π( | )P( |x, a)Q( , )T
π
∑
,x
′
a
′
a
′
x
′
x
′
x
′
a
′
r(x, a) = E [ | = x, = a]Rt+1 Xt At
Q
π
Q = QT
π

最適行動価値
理想的な行動を取ったとすると、最適化したい指標が期
待的にどうなるか
Def. 最適行動価値関数
Def. ベルマン最適作用素
最適行動価値関数は、ベルマン最適作用素の不動点
(i.e., ) として求まる（める）
(x, a) := (x, a)Q
∗
max
π
Q
π
Q(x, a) := r(x, a) + γ P( |x, a) Q( , )T
∗
∑
x
′
x
′
max
a
′
x
′
a
′
Q
∗
Q = QT
∗

強化学習（コントロール）の二系統
価値ベース
■ （行動）価値関数を直接推定・最適化する
■ Q学習 [Watkins89] SARSA [Rummery&Niranjan94]
■ w/ 深層学習: DQN [Mnih+13, 15]
方策ベース
■ 方策を直接推定・最適化する
■ 方策勾配法 [Sutton+99]
■ w/ 深層学習: A3C [Mnih+16]

Q学習, SARSA, 方策勾配法
のReview

SARSA, Q学習
SARSAは現在の方策に基づく行動価値関数を、Q学習は
最適行動価値関数をパラメトライズしてベルマン作用素
の不動点を求めるよう更新する:
■ サンプリングは現在のに基づいた -グリーディ方
策かボルツマン方策が用いられることが多い
■ ターゲットが現在の推定しているに依存している
のでブートストラップになっている（TD法全般に共通）
■ それぞれ適切な条件下で最適行動価値関数へ収束する
（SARSAは方策改善も必要とする (e.g., GLIEを満たす方
策を用いる[Singh+00])）
( − ) = E [( − ) ]∇θ T
π
Qθ Qθ T
π
Qθ Qθ ∇θ Qθ
( − ) = E [( − ) ]∇θ T
∗
Qθ Qθ T
∗
Qθ Qθ ∇θ Qθ
Qθ
ϵ
Qθ

方策勾配法
方策をパラメトライズした上でを直接最適化する
■ 方策勾配定理 [Sutton+99]
■ からサンプルを生成してサンプル平均を取れば不偏
推定量が計算できるので、それを使って更新を行なう
■ 逆にのような推定している分布に関するサンプリン
グが必要なような確率的最適化の場面では強化学習以外
の文脈でも使われる (e.g., hard attention [Mnih+14,
Xu+15] , sequence generatioon [Ranzato+16,
Bahdanau+17])
π πθ
J(θ) = E [ (x, a) log(π(a|x))]∇θ Q
π
∇θ
π
π

方策勾配法
は現実的には他のものが使われる
■ 実際の即時報酬（REINFORCE[Williams+92]）
■ 実際の報酬の複数ステップ先読み版
また、推定量の分散を抑えるため、と関係のないベー
スラインが上記の最適化するものから引かれる。bの例
としては
■
現実的には複数ステップ先読みした（推定）収益と、ベ
ースラインを使われ[Mnih+16]、方策と価値関数を推
定するのでActor-critic法になる
Q
π
R
a
b
(x)V
π
V
π

方策勾配法におけるエントロピー正則
化
■ 方策勾配法の問題点として探索と活用のトレードオフ
を特に考慮してない点がある
■ 方策に関するエントロピー正則化項を加えて方策が決
定論的にならないよう正則化するのは一般的
[Williams&Peng91]
この観点からのより興味深い分析が、ごく最近arXivに投
稿されている [Nachum+17]

Q学習と方策勾配法の特徴
この研究のモチベーションを理解するため、Q学習と方策
勾配法の特徴とPros/Consを説明する。
■ Q学習: 本質的に方策オフ型学習（後述）の手法
■ 方策勾配法: 本質的に方策オン型学習（後述）の手法
方策オフ・オン型アルゴリズムの性質由来のPros/Cons
が存在（後述）
... Q-learning is an inherently oﬀ-policy algorithm ...
[Szepesvari10]

方策オンと方策オフ
現在推定している方策（推定方策）と、実際に行動を選
択肢、サンプルを生成している方策（行動方策）が等し
い場合は方策オン型といい、そうでない場合は方策オ
フ型という。

Q学習は本質的に方策オフ型
Review: Q学習の更新則
■ 更新則の期待値のサンプル平均が推定方策に依存して
いないため、関係無い分布からサンプリングをしてもサ
ンプル平均が不偏推定量になる
■ 逆に、現在のに基づく最適方策
のサンプルだけから学習するのは不可能（の -グリ
ーディ方策やボルツマン方策など探索的行動も取らなけ
れば任意の状態・行動に対し十分なサンプルが得られな
い）
∝ ( − ) = E [( − ) ]Δθ ∇θ T
∗
Qθ Qθ T
∗
Qθ Qθ ∇θ Qθ
Q(x, a) := r(x, a) + γ P( |x, a) Q( , )T
∗
∑
x
′
x
′
max
a
′
x
′
a
′
Qθ
(x, a)argmaxa
Qθ
Qθ
ϵ

Q学習のPros/Cons
■ Pros: 経験再生 [Lin92] を使えるのでデータ効率的
■ Pros: 任意の方策からサンプリングされたデータで学
習可能（サンプルサイズが十分あれば）
■ Cons: 複数ステップ法への拡張が難しい（サンプル平
均がサンプリングする方策に依存するようになるのでバ
イアスが生じる）
このConsを解決するアプローチ
■ Importance sampling (IS) [Precup+00] 推定方策と
行動方策の分布比に応じて重み付け
■ Retrace(λ) [Munos+16] ISの分散爆発を避けつつ長
く先読みできるよう工夫
■ PCL [Nachum+17] 本論文を踏まえた発展

方策勾配法は本質的に方策オン型
Review: 方策勾配法の更新則
この期待値は推定方策に依存しているためサンプル平均
が、方策オンでサンプリングされていないと不偏推定量
になってくれない
∝ J(θ) = E [ (x, a) log(π(a|x))]Δθ ∇θ Q
π
∇θ

方策勾配法のPros/Cons
■ Pros: サンプル平均が行動方策に依存する場合でもバ
イアスがない
■ Pros: 複数ステップ法が使えるのでバイアス・バリア
ンスのトレードオフがとれる
■ Cons: 経験再生と相性が悪くサンプルが使い捨てにな
りデータ効率が良くない
■ Cons: 探索・活用のトレードオフを考慮してない
このConsを解決しようとするアプローチ
■ ACER [Wang+17]
■ PGQ [O’Donoghue+17]

この論文の理論的な貢献

理論的貢献(1)
エントロピー正則化付きの方策勾配法の停留点におい
て、方策とアドバンテージ関数の間に次式の関係性を示
した（式4）
この関係から逆に停留点での方策を使ってアドバンテー
ジ関数とQ関数を、と表すことができ、方策勾配
法でもQ関数の推定をしているとみなすことが出来るよう
になった（式6）。
PGQではこのQ関数にベルマン最適方程式を満たすよう
正則化をかけている。また、この貢献はとから
を表せていることになり、非自明
π(a|x) ∝ exp( (x, a)/α)A
π
A
̃
π
Q
̃
π
Δθ ∝ E [( (x, a) − (x, a)) log π(x, a)]Q
π
Q̃
π
∇θ
π V
π
Q
π

理論的貢献(2)
SARSA, Q学習の更新則
エントロピー正則化付き方策勾配法の更新則
が似てる気がする... 一緒では？
Actor-critic法と行動価値を推定する手法 (Q学習や
SARSA) は更新則が（特別な場合に）等しくなる。とく
に、Actor-critc法をAdvantage function learningと
見なすことが出来る
( − ) = E [( − ) ]∇θ T
π
Qθ Qθ T
π
Qθ Qθ ∇θ Qθ
( − ) = E [( − ) ]∇θ T
∗
Qθ Qθ T
∗
Qθ Qθ ∇θ Qθ
Δθ ∝ E [( (x, a) − (x, a)) log π(x, a)]Q
π
Q̃
π
∇θ

理論的貢献(2)
仮定一覧
■ 引き続きエントロピー正則化は仮定として必要
■ Actor-criticの方策はの形で
書ける
■ 行動価値の学習ではDueling architecture[Wang+16]
を用いる
最小化する誤差の選び方の例
SARSAの場合もQ学習の場合も、現在の方策から求まるQ
関数でターゲットをブートストラップすれば良い
π(a|x) ∝ exp(W(x, a))

提案アルゴリズム: PGQ
PGQでは今までの議論からエントロピー正則化によって
から導かれるQ関数にベルマン最適方程式を満た
すよう正則化をかけている（式12, 14）
■ 各更新則の前項は通常のエントロピー付きの方策勾配
法に対応し、後項は新たに追加したベルマン最適方程式
による正則化である。
■ でで通常のエントロピー付きの方策勾配法と見
なすことができ、逆にで（特殊な）Q学習と見な
すことができる（Dueling architecture[Wang+16]に似
ている）
π Q
̃
π
η = 0
η = 0

経験再生を使った実際の更新則
現実的には式14のアップデートを同時にバッチで行なわ
ない（方策勾配法を活かせない）
■ 方策オンでサンプルを並列で生成し、方策勾配法によ
り方策と価値関数を更新する
■ 上記で観測されたサンプル系列はリプレイバッファへ
と貯められる
■ 別プロセスがリプレイバッファに貯まったサンプルを
バッチで、ベルマン最適方程式を満たすよう更新する

アーキテクチャ
Dueling architecture[Wang+16]にかなり似てる
[O’Donoghue+17]より引用

Atariにおける性能評価
■ DQN, A3Cと人のスコアを100で正規化したスコア
■ 人のスコアにMedianでも勝利

PGQが上手くいってる例

PGQが上手くいかなかった例
とはいえ、最下位にはなっていない

感想
■ 方策勾配法が一ミリも探索・活用のトレードオフを考
慮しないのは理論的な側面からいっても不自然な気がす
る（Q学習もSARSAも最適行動価値へ収束するためには
十分な探索が条件になってる）ので、そういう意味では
実はエントロピー正則化付きの目的関数を考えた方が逆
に自然ということはさもありなんと言う気もする（この
観点からは[Nachum+17]がさらに研究を進めている）
■ アルゴリズム（PGQ）の提案が急に雑な気がする。要
するに通常のエントロピー正則化付き方策勾配法で推定
している方策と状態の価値関数から適当にQ関数を作って
それにベルマン最適方程式で正則化をかけただけに見え
てしまう
■ とはいえ、AtariにおいてMedianでも初めて（？）人
間レベルを上回った意義は大きいように思える

■ [Watkins89] Learning from delayed rewards. PhD
thesis 1989
■ [Williams&Peng91] Function Optimization Using
Connectionist Reinforcement Learning Algorithms.
Connection Science 1991
■ [Williams+92] Simple statistical gradient-
following algorithms for connectionist reinforcement
learning Machine Learning 1992.
■ [Lin92] Self-Improving Reactive Agents Based On
Reinforcement Learning, Planning and Teaching.
Machine Leanring
■ [Sutton+99] Policy Gradient Methods for
Reinforcement Learning with Function
Approximation. NIPS 1999

■ [Rummery&Niranjan94] On-line Q-learning using
connectionist systems. 1994
■ [Singh+00] Convergence Results for Single-Step
On-Policy Reinforcement-Learning Algorithms.
Machine Learning 2000
■ [Precup+00] Eligibility Traces for Oﬀ-Policy Policy
Evaluation. ICML 2000
■ [Szepesvari10] Algorithms for Reinforcement
Learning. 2010
■ [Mnih+13] Playing atari with deep reinforcement
learning. NIPS-WS 2013

■ [Mnih+14] Recurrent Models of Visual Attention.
NIPS 2014
■ [Mnih+15] Human-level control through deep
reinforcement learning. Nature 2015
■ [Xu+15] Show, attend and tell: Neural image
caption generation with visual attention ICML 2015
■ [Mnih+16] Asynchronous Methods for Deep
Reinforcement Learning ICML 2016
■ [Ranzato+16] Sequence level training with
recurrent neural networks ICLR 2016

■ [Wang+16] Dueling Network Architectures for
Deep Reinforcement Learning ICML 2016
■ [Bahdanau+17] An Actor-Critic Algorithm for
Sequence Prediction. ICLR 2017
■ [Munos+16] Safe and efficient off-policy
reinforcement learning. NIPS 2016
■ [Wang+17] Sample Efficient Actor-Critic with
Experience Replay. ICLR 2017
■ [O’Donoghue+17] PGQ: Combining Policy Gradient
and Q-learning. ICLR 2017

■ [Nachum+17] Bridging the Gap Between Value and
Policy Based Reinforcement Learning. submitted to
ICML 2017

【論文紹介】PGQ: Combining Policy Gradient And Q-learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (14)

Similar to 【論文紹介】PGQ: Combining Policy Gradient And Q-learning

Similar to 【論文紹介】PGQ: Combining Policy Gradient And Q-learning (13)

More from Sotetsu KOYAMADA（小山田創哲）

More from Sotetsu KOYAMADA（小山田創哲） (10)

Recently uploaded

Recently uploaded (7)

【論文紹介】PGQ: Combining Policy Gradient And Q-learning