Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

【論文紹介】PGQ: Combining Policy Gradient And Q-learning

3,349 views

Published on

【論文紹介】
PGQ: Combining Policy Gradient And Q-learning
O’Donoghue et al.
ICLR 2017

紹介者: Sotetsu KOYAMADA (@sotetsuk)

Published in: Engineering
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

【論文紹介】PGQ: Combining Policy Gradient And Q-learning

  1. 1. 【論文紹介】 PGQ: Combining Policy Gradient And Q-learning O’Donoghue et al. ICLR 2017 Sotetsu KOYAMADA (@sotetsuk)
  2. 2. Table of Contents ■ 論文概要 ■ 強化学習の問題設定と定義 ■ Q学習と方策勾配法のReview ■ 論文の理論的結果 (1) ■ 論文の理論的結果 (2) ■ 提案手法の説明: PGQ ■ 実験結果 ■ 参考文献
  3. 3. 論文概要
  4. 4. 紹介する理由 1. 強化学習における二つの別々の主要なアプローチの統 合を試みている ■ 理論的に興味深い ■ 実用面からも長所を組み合わせることが期待できる 2. Atariベンチマークでの強い実験結果
  5. 5. ICLR2017レビュアーのコメント https://openreview.net/forum?id=B1kJ6H9ex It has the potential to be an impactful paper, with the most positive comment noting that it "will likely influence a broad swath of RL".
  6. 6. TL;DR (1) 理論的貢献 (1) エントロピー正則化付きの方策勾配法の停留点におい て、方策とアドバンテージ関数(Q関数)の間に次式の関 係性を示し、この関係から方策勾配法において明示的に 推定しなくても適切な行動価値関数を導出できる。 理論的貢献 (2) エントロピー正則化付きのActor-critic法と行動価値を推 定する手法 (Q学習やSARSA) は更新則が等しくなる(特 別な場合)。とくに、Actor-critc法をAdvantage function learningと見なすことが出来る。
  7. 7. TL;DR (3) PGQの提案と評価 理論的貢献(1)の結果から得られる行動価値関数をベルマ ン最適方程式を満たすように正則化をかけたアルゴリズ ムPGQを提案。これは のときはエントロピー正則 化付きの方策勾配法、 のときは特殊な構造のQ学 習をしていると捉えられる。AtariドメインでMedianで も人を上回り、DQNやA3Cと比べても一人負けするゲー ムが存在しないという安定性を見せた。 η = 0 η = 1
  8. 8. 強化学習の問題設定と定義
  9. 9. 一般的な強化学習の問題設定 (1) マルコフ決定過程 (MDP) 環境 は現在の 状態 と 行動 にだけ依存して未知の 状態遷 移確率 から次の 状態 と 即時報酬 を返す エージェント は現在の 状態 と 報酬 を観測し、現在の 方 策 に基づいて次の 行動 を返す サンプル系列 が生成される P ( , ) ∼ P(⋅ | , )Xt+1 Rt+1 Xt At π ∼ π(⋅ | )At Xt ( , , , , , …)X0 A0 R1 X1 A1
  10. 10. 一般的な強化学習の問題設定 (2) コントロール 目的関数 を最適化するように方策を学習する(例: 割 引報酬和の期待値) J J(π) = E [ ]∑ t=1 ∞ γ t Rt+1
  11. 11. ある方策に基づく価値関数 Def. 行動価値関数 (期待値は状態遷移確率と方策 ) Def. 方策 に基づくベルマン作用素 (ただし、 ) この行動価値関数 は、ベルマン作用素の不動点 (i.e., ) として求まる(める) π (x, a) := E [ | = x, = a ] Q π ∑ t=0 ∞ γ t Rt+1 X0 A0 π Q(x, a) = r(x, a) + γ π( | )P( |x, a)Q( , )T π ∑ ,x ′ a ′ a ′ x ′ x ′ x ′ a ′ r(x, a) = E [ | = x, = a]Rt+1 Xt At Q π Q = QT π
  12. 12. 最適行動価値 理想的な行動を取ったとすると、最適化したい指標が期 待的にどうなるか Def. 最適行動価値関数 Def. ベルマン最適作用素 最適行動価値関数 は、ベルマン最適作用素の不動点 (i.e., ) として求まる(める) (x, a) := (x, a)Q ∗ max π Q π Q(x, a) := r(x, a) + γ P( |x, a) Q( , )T ∗ ∑ x ′ x ′ max a ′ x ′ a ′ Q ∗ Q = QT ∗
  13. 13. 強化学習(コントロール)の二系統 価値ベース ■ (行動)価値関数を直接推定・最適化する ■ Q学習 [Watkins89] SARSA [Rummery&Niranjan94] ■ w/ 深層学習: DQN [Mnih+13, 15] 方策ベース ■ 方策を直接推定・最適化する ■ 方策勾配法 [Sutton+99] ■ w/ 深層学習: A3C [Mnih+16]
  14. 14. Q学習, SARSA, 方策勾配法 のReview
  15. 15. SARSA, Q学習 SARSAは現在の方策に基づく行動価値関数を、Q学習は 最適行動価値関数をパラメトライズしてベルマン作用素 の不動点を求めるよう更新する: ■ サンプリングは現在の に基づいた -グリーディ方 策かボルツマン方策が用いられることが多い ■ ターゲットが現在の推定している に依存している のでブートストラップになっている(TD法全般に共通) ■ それぞれ適切な条件下で最適行動価値関数へ収束する (SARSAは 方策改善 も必要とする (e.g., GLIEを満たす方 策を用いる[Singh+00])) ( − ) = E [( − ) ]∇θ T π Qθ Qθ T π Qθ Qθ ∇θ Qθ ( − ) = E [( − ) ]∇θ T ∗ Qθ Qθ T ∗ Qθ Qθ ∇θ Qθ Qθ ϵ Qθ
  16. 16. 方策勾配法 方策 をパラメトライズした上で を直接最適化する ■ 方策勾配定理 [Sutton+99] ■ からサンプルを生成してサンプル平均を取れば 不偏 推定量が計算できるので、それを使って更新を行なう ■ 逆に のような推定している分布に関するサンプリン グが必要なような確率的最適化の場面では強化学習以外 の文脈でも使われる (e.g., hard attention [Mnih+14, Xu+15] , sequence generatioon [Ranzato+16, Bahdanau+17]) π πθ J(θ) = E [ (x, a) log(π(a|x))]∇θ Q π ∇θ π π
  17. 17. 方策勾配法 は現実的には他のものが使われる ■ 実際の即時報酬 (REINFORCE[Williams+92]) ■ 実際の報酬の複数ステップ先読み版 また、推定量の分散を抑えるため、 と関係のないベー スライン が上記の最適化するものから引かれる。bの例 としては ■ 現実的には複数ステップ先読みした(推定)収益と、ベ ースライン を使われ[Mnih+16]、方策と価値関数を推 定するのでActor-critic法になる Q π R a b (x)V π V π
  18. 18. 方策勾配法におけるエントロピー正則 化 ■ 方策勾配法の問題点として探索と活用のトレードオフ を特に考慮してない点がある ■ 方策に関するエントロピー正則化項を加えて方策が決 定論的にならないよう正則化するのは一般的 [Williams&Peng91] この観点からのより興味深い分析が、ごく最近arXivに投 稿されている [Nachum+17]
  19. 19. Q学習と方策勾配法の特徴 この研究のモチベーションを理解するため、Q学習と方策 勾配法の特徴とPros/Consを説明する。 ■ Q学習: 本質的に 方策オフ型学習(後述)の手法 ■ 方策勾配法: 本質的に 方策オン型学習(後述)の手法 方策オフ・オン型アルゴリズムの性質由来のPros/Cons が存在(後述) ... Q-learning is an inherently off-policy algorithm ... [Szepesvari10]
  20. 20. 方策オンと方策オフ 現在推定している方策(推定方策)と、実際に行動を選 択肢、サンプルを生成している方策(行動方策)が等し い場合は 方策オン型 といい、そうでない場合は 方策オ フ型 という。
  21. 21. Q学習は本質的に方策オフ型 Review: Q学習の更新則 ■ 更新則の期待値のサンプル平均が推定方策に依存して いないため、 関係無い分布からサンプリングをしてもサ ンプル平均が不偏推定量になる ■ 逆に、現在の に基づく最適方策 のサンプルだけから学習するのは不可能( の -グリ ーディ方策やボルツマン方策など探索的行動も取らなけ れば任意の状態・行動に対し十分なサンプルが得られな い) ∝ ( − ) = E [( − ) ]Δθ ∇θ T ∗ Qθ Qθ T ∗ Qθ Qθ ∇θ Qθ Q(x, a) := r(x, a) + γ P( |x, a) Q( , )T ∗ ∑ x ′ x ′ max a ′ x ′ a ′ Qθ (x, a)argmaxa Qθ Qθ ϵ
  22. 22. Q学習のPros/Cons ■ Pros: 経験再生 [Lin92] を使えるのでデータ効率的 ■ Pros: 任意の方策からサンプリングされたデータで学 習可能(サンプルサイズが十分あれば) ■ Cons: 複数ステップ法への拡張が難しい(サンプル平 均がサンプリングする方策に依存するようになるのでバ イアスが生じる) このConsを解決するアプローチ ■ Importance sampling (IS) [Precup+00] 推定方策と 行動方策の分布比に応じて重み付け ■ Retrace(λ) [Munos+16] ISの分散爆発を避けつつ長 く先読みできるよう工夫 ■ PCL [Nachum+17] 本論文を踏まえた発展
  23. 23. 方策勾配法は本質的に方策オン型 Review: 方策勾配法の更新則 この期待値は推定方策に依存しているためサンプル平均 が、方策オンでサンプリングされていないと不偏推定量 になってくれない ∝ J(θ) = E [ (x, a) log(π(a|x))]Δθ ∇θ Q π ∇θ
  24. 24. 方策勾配法のPros/Cons ■ Pros: サンプル平均が行動方策に依存する場合でもバ イアスがない ■ Pros: 複数ステップ法が使えるのでバイアス・バリア ンスのトレードオフがとれる ■ Cons: 経験再生と相性が悪くサンプルが使い捨てにな りデータ効率が良くない ■ Cons: 探索・活用のトレードオフを考慮してない このConsを解決しようとするアプローチ ■ ACER [Wang+17] ■ PGQ [O’Donoghue+17]
  25. 25. この論文の理論的な貢献
  26. 26. 理論的貢献(1) エントロピー正則化付きの方策勾配法の停留点におい て、方策とアドバンテージ関数の間に次式の関係性を示 した(式4) この関係から逆に停留点での方策を使ってアドバンテー ジ関数とQ関数を 、 と表すことができ、 方策勾配 法でもQ関数の推定をしているとみなすことが出来るよう になった(式6)。 PGQではこのQ関数にベルマン最適方程式を満たすよう 正則化をかけている。 また、この貢献は と から を表せていることになり、非自明 π(a|x) ∝ exp( (x, a)/α)A π A ̃  π Q ̃  π Δθ ∝ E [( (x, a) − (x, a)) log π(x, a)]Q π Q̃  π ∇θ π V π Q π
  27. 27. 理論的貢献(2) SARSA, Q学習の更新則 エントロピー正則化付き方策勾配法の更新則 が似てる気がする... 一緒では? Actor-critic法と行動価値を推定する手法 (Q学習や SARSA) は更新則が(特別な場合に)等しくなる。とく に、Actor-critc法をAdvantage function learningと 見なすことが出来る ( − ) = E [( − ) ]∇θ T π Qθ Qθ T π Qθ Qθ ∇θ Qθ ( − ) = E [( − ) ]∇θ T ∗ Qθ Qθ T ∗ Qθ Qθ ∇θ Qθ Δθ ∝ E [( (x, a) − (x, a)) log π(x, a)]Q π Q̃  π ∇θ
  28. 28. 理論的貢献(2) 仮定一覧 ■ 引き続きエントロピー正則化は仮定として必要 ■ Actor-criticの方策は の形で 書ける ■ 行動価値の学習ではDueling architecture[Wang+16] を用いる 最小化する誤差の選び方の例 SARSAの場合もQ学習の場合も、現在の方策から求まるQ 関数でターゲットをブートストラップすれば良い π(a|x) ∝ exp(W(x, a))
  29. 29. アルゴリズム
  30. 30. 提案アルゴリズム: PGQ PGQでは今までの議論からエントロピー正則化によって から導かれるQ関数 にベルマン最適方程式を満た すよう正則化をかけている(式12, 14) ■ 各更新則の前項は通常のエントロピー付きの方策勾配 法に対応し、後項は新たに追加したベルマン最適方程式 による正則化である。 ■ でで通常のエントロピー付きの方策勾配法と見 なすことができ、逆に で(特殊な)Q学習と見な すことができる(Dueling architecture[Wang+16]に似 ている) π Q ̃  π η = 0 η = 0
  31. 31. 経験再生を使った実際の更新則 現実的には式14のアップデートを同時にバッチで行なわ ない(方策勾配法を活かせない) ■ 方策オンでサンプルを並列で生成し、方策勾配法によ り方策と価値関数を更新する ■ 上記で観測されたサンプル系列はリプレイバッファへ と貯められる ■ 別プロセスがリプレイバッファに貯まったサンプルを バッチで、ベルマン最適方程式を満たすよう更新する
  32. 32. アーキテクチャ Dueling architecture[Wang+16]にかなり似てる [O’Donoghue+17]より引用
  33. 33. 実験
  34. 34. Atariにおける性能評価 ■ DQN, A3Cと人のスコアを100で正規化したスコア ■ 人のスコアにMedianでも勝利 [O’Donoghue+17]より引用
  35. 35. PGQが上手くいってる例 [O’Donoghue+17]より引用
  36. 36. PGQが上手くいかなかった例 とはいえ、最下位にはなっていない [O’Donoghue+17]より引用
  37. 37. 感想 ■ 方策勾配法が一ミリも探索・活用のトレードオフを考 慮しないのは理論的な側面からいっても不自然な気がす る(Q学習もSARSAも最適行動価値へ収束するためには 十分な探索が条件になってる)ので、そういう意味では 実はエントロピー正則化付きの目的関数を考えた方が逆 に自然ということはさもありなんと言う気もする(この 観点からは[Nachum+17]がさらに研究を進めている) ■ アルゴリズム(PGQ)の提案が急に雑な気がする。要 するに通常のエントロピー正則化付き方策勾配法で推定 している方策と状態の価値関数から適当にQ関数を作って それにベルマン最適方程式で正則化をかけただけに見え てしまう ■ とはいえ、AtariにおいてMedianでも初めて(?)人 間レベルを上回った意義は大きいように思える
  38. 38. 参考文献(年代順)
  39. 39. ■ [Watkins89] Learning from delayed rewards. PhD thesis 1989 ■ [Williams&Peng91] Function Optimization Using Connectionist Reinforcement Learning Algorithms. Connection Science 1991 ■ [Williams+92] Simple statistical gradient- following algorithms for connectionist reinforcement learning Machine Learning 1992. ■ [Lin92] Self-Improving Reactive Agents Based On Reinforcement Learning, Planning and Teaching. Machine Leanring ■ [Sutton+99] Policy Gradient Methods for Reinforcement Learning with Function Approximation. NIPS 1999
  40. 40. ■ [Rummery&Niranjan94] On-line Q-learning using connectionist systems. 1994 ■ [Singh+00] Convergence Results for Single-Step On-Policy Reinforcement-Learning Algorithms. Machine Learning 2000 ■ [Precup+00] Eligibility Traces for Off-Policy Policy Evaluation. ICML 2000 ■ [Szepesvari10] Algorithms for Reinforcement Learning. 2010 ■ [Mnih+13] Playing atari with deep reinforcement learning. NIPS-WS 2013
  41. 41. ■ [Mnih+14] Recurrent Models of Visual Attention. NIPS 2014 ■ [Mnih+15] Human-level control through deep reinforcement learning. Nature 2015 ■ [Xu+15] Show, attend and tell: Neural image caption generation with visual attention ICML 2015 ■ [Mnih+16] Asynchronous Methods for Deep Reinforcement Learning ICML 2016 ■ [Ranzato+16] Sequence level training with recurrent neural networks ICLR 2016
  42. 42. ■ [Wang+16] Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 ■ [Bahdanau+17] An Actor-Critic Algorithm for Sequence Prediction. ICLR 2017 ■ [Munos+16] Safe and efficient off-policy reinforcement learning. NIPS 2016 ■ [Wang+17] Sample Efficient Actor-Critic with Experience Replay. ICLR 2017 ■ [O’Donoghue+17] PGQ: Combining Policy Gradient and Q-learning. ICLR 2017
  43. 43. ■ [Nachum+17] Bridging the Gap Between Value and Policy Based Reinforcement Learning. submitted to ICML 2017

×