Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS

633 views

Published on

2018/02/23
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Published in: Technology
  • Be the first to comment

[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS

  1. 1. DEEP LEARNING JP [DL Papers] 報酬�期待値から報酬�分布� Hiroaki Shioya, Matsuo Lab http://deeplearning.jp/ 1
  2. 2. ���� = ��報酬を期待値で�なく分布で�う ● 一�的な�化学習���報酬�期待値だけ考える ● �����期待値をとる��分布 (‘value distribution’) を求める /
  3. 3. ��報酬を期待値で�なく分布で�える意味 ● 期待値�高い行動を����何も��ない ● しかし、、、分布�方が�しい場合もある�で�? ○ 分布�方が�報�がある ○ �れ値���を�けにくい ○ リスク��い行動を��たい 引用)https://deepmind.com/blog/going-beyond-average-reinforcement-learning/ 期待値�同じだけどリスク� 赤 > 緑
  4. 4. ���化学習と��連 ● �������テク��ク�一つとして、少しずつ使われている ○ A Distributional Perspective on Reinforcement Learning [Bellmare +, 2017] (DQN + distributional) ○ Rainbow [Hessel +,2017] (DQN + distributional) ○ D4PG [Barth-Maron +, 2017](DDPG + distributional) ○ Reactor [Gruslys+, 2017] (ACERっぽい何か + distributional)
  5. 5. 発表��� ● DQNに報酬�分布を�ち�んだ論文 ’A Distributional Perspective on Reinforcement Learning’ を�に、最近���について��ます ● 発表に出てくる論文 ○ Parametric Return Density Estimation for Reinforcement Learning ○ A Distributional Perspective on Reinforcement Learning ○ DISTRIBUTIONAL POLICY GRADIENTS ○ (THE REACTOR: A FAST AND SAMPLE-EFFICIENT ACTOR-CRITIC AGENT FOR REINFORCEMENT LEARNING) ○ Distributional Reinforcement Learning with Quantile Regression
  6. 6. ベルマン方程式�おさらい ● ベルマン方程式 ● ベルマン作用素�縮小写像な�で�り�し適用するとn→∞で不動点に収束する
  7. 7. 分布に拡張した場合�論点 ● 分布に何を用いるか ● 分布間距離をどう測定するか ● ベルマン方程式��動がどうなる�か
  8. 8. Parametric Return Density Estimation for Reinforcement Learning ● ベルマン方程式を分布(ガウス分布、ラプラス分布)�場合に拡張し、 KL-divergence最小化で分布間距離を近づけて更新 ● 分布を考慮したことでrisk-sensitiveな行動がとれる ���Q-learningで見 る位置 分布を考慮したことで こちらを見れる
  9. 9. A Distributional Perspective on Reinforcement Learning (ICML 2017) ● 分布版�ベルマン方程式が縮小写像になるかどうかをWesserstain距離を用いて 分析 ● ��報酬�分布をガウス分布で�なくカテゴリカル分布でモデル化 ● DQNと組み合わせて実験
  10. 10. Distributional Bellman Equation Q���ベルマン方程式�(見た��)自然な拡張
  11. 11. Wesserstein距離 ● Wesserstein距離�定義 ● 意味 : 分布を移動させる�にどれくらいコスト(距離×確率密度)がかかるか (U, V�確率��、F, G�U, V���確率密度�� )
  12. 12. Wesserstein距離 曲線で囲まれた部分が(1次)Wesserstain距離 0 1 F G
  13. 13. Wesserstein距離がもつ望ましい性質 ● 分布版ベルマン作用素が縮小写像になっていることを�す�に使う ● 例え�KL-divergenceで�これら�性質��り�たない
  14. 14. 分布版ベルマン作用素�Wesserstein距離において縮小写像 ��Wesserstain距離�性質を使って�明できる (定義) P1&P2を使う ● つまり、分布版ベルマン作用素��一�不動点Zπ をもち、方策評価をすると正しく Zπ に収束してくれる ● KL-divergenceなど��距離��で��り�たない�らしい�
  15. 15. 分布版最適ベルマン作用素�場合 ● まず用��定義. 最適価値分布�、�に期待値が最適なQ値に一致するだけでな く、最適方策�報酬分布に一致するも�とする ● 分布版最適ベルマン作用素�定義
  16. 16. 分布版最適ベルマン作用素によって期待値EZ�収束する 最適ベルマン作用素も縮小写像になってくれてそう? (append��明,期待値抜けてる?) ���最適ベルマン 作用素�縮小写像
  17. 17. しかし、分布版最適ベルマン作用素�縮小写像でない ��、Z����最適Q値に収束するけど、Z自��最適方策�連続による報酬分布 にまでしか収束しないということ
  18. 18. 最適ベルマン作用素が縮小写像にならない例 上��例で�、
  19. 19. Wesserstein距離による分析�まとめ ● 分布版�ベルマン作用素�Wesserstein距離において縮小写像 ○ Wesserstein距離��で��り�たない ○ (���Wesserstein距離で�かる�が良さそう? ) ● 最適ベルマン作用素�場合�、期待値�最適値に収束してくれるが、分布自�� より大きな集合までしか収束しない
  20. 20. ��報酬分布�推定アルゴリズム ● カテゴリカル分布でモデル化する(�行���ガウス分布など) ● 表現力が高く、計算コストもほどほど ● カテゴリ��によって表現力が�化する ● 弱点�、分布�最大値�最小値を�め�ちすること
  21. 21. ��報酬分布�推定アルゴリズム ● 分析から、(不��で�あるけど)Wesserstein距離が優れていそう ● しかし、Wesserstein loss�SGDで最適化すると勾配がbiased ○ Cramer GAN�論文で�ベル�ー�分布�場合�み�明がある ● そこで、Wesserstein�使用を��ーリステ�クスで��
  22. 22. ��報酬分布�推定アルゴリズム ● (c)で移動した分布を、(d)でもともと�binに分類する ● つまり������ント��ーで、結局KL-divergence最小化をしている
  23. 23. 結局、Wesserstein距離�どうなった�? ● 使ってない ● ‘We note that, while these algorithms appear unrelated to the Wasserstein metric, recent work (Bellemare et al., 2017) hints at a deeper connection’らし いけど、よくわからなかった ● こ�点�後続���で少し���ーされている
  24. 24. アルゴリズム ● 行動�定�Z�期待値�最大化するように行う(=ただ�Q-learningと同じ) ● こ�論文�主張�、たとえ期待値を最大化するように行動したとしても、学習を期 待値�MSEで�なく分布間距離を�に行うことで性能が��するということ
  25. 25. Atariで�実験結果 ���DQNシリーズよりも良い
  26. 26. カテゴリ���いによる�� カテゴリを増やすと良い、少なすぎると表現力が足りなくてDQNより悪化する
  27. 27. DISTRIBUTIONAL POLICY GRADIENTS(ICLR 2018) ● DDPGに���工夫を�め合わせたD4PG(Distributed Distributional DDPG)を 提案、DDPG版�Rainbow的な論文 ● 用いた工夫 ○ multi-step return ○ prioritzed experience replay ○ distributional RL ○ 分散学習(distributed) ● Atariで�なく連続値制御��実験をたくさんやっている
  28. 28. ��実験�報酬�分布をど�分布でモデル化す�きか ● カテゴリカル分布>混合ガウス分布、 [Bellmare +, 2017]�主張を��する結果が 得られた
  29. 29. 実験結果 ● multi-step > distributional > prioritized��に大きな効果 ● prioritized�1-step D3PG�場合大きく���ーマンスがdropする場合がある
  30. 30. わかったこと ● ditributional RLがDDPGにも有効であることが実験で確かめられた ● 連続値制御タスクにも使える ● ただし効果�ほどほどだった(Rainbowを見る�りで�、DQNでもそう)
  31. 31. THE REACTOR: A FAST AND SAMPLE-EFFICIENT ACTOR-CRITIC AGENT FOR REINFORCEMENT LEARNING(ICLR 2018) ● actor-criticを��な工夫を用いて��、そ�一つとして報酬�分布を考慮した Retrace�分布版であるDIstributional Retraceを提案している ● D4PGに比�るとこ�論文で提案した�リ��ル�工夫がある ● 弱点として、実験が弱い ○ Atari�み ○ Rainbowが後から出てきて、良さがわかりづらくなった ● ���間がなかった�で�しく�論文�んでください
  32. 32. Distributional Reinforcement Learning with Quantile Regression ● C51で諦めたWesserstein�最小化を、報酬分布をQuantile distributionでモデル 化することで可能にした
  33. 33. Quantile Distributionによる報酬分布�モデル化 ● bin�最大、最小を�める��がなくなる、Projection Stepもいらない ● �論文で�これによりUnbiasedにWesserstein lossを最小化できると主張 C51で�bin�分割� こっちを等間隔に分割
  34. 34. Quantile Regressionによる1-Wesserstein�unbiasedな最小化 ● 1-Wesserstein(赤部分)を最小化するQuatile distribution��������で求められ る分位点で�Quatile Regressionで求められる ● Quatile Regression loss�勾配�SGDでもunbiased
  35. 35. 中間点で1-Wessersteinが最小化される直感的な説明 zを左にずらしていくと、a*Δzが増え、b*Δzが減る 増�分と減少分が�り合う�がち�うど中間点で、それより左�どちらに動かしても赤い 部分����増える Δz a b z
  36. 36. Quantile Projectionとベルマン作用素�縮小写像 最適ベルマン作用素で�ない?
  37. 37. アルゴリズム
  38. 38. 1-Wessersteinが学習とともに減っている ● Policy Iteration + MCで推定した擬似的な正解と報酬分布を比較 ● 1-Wessersteinがきちんと減っている(e)
  39. 39. Atari�結果も��
  40. 40. ���まとめ ● ���期待値�みを考慮していた報酬�分布を考えることにより性能が�上する ● DQNだけでなく、actor-critic��適用も出てきた ● うまくいく���考�、収束性��論的な分析とアルゴリズム��発�まだ発�� 上 ● 分布を考慮している�に結局期待値に�づいて行動している、risk-sensitive RLな ど���用もまだ

×