[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS

DEEP LEARNING JP
[DL Papers]
報酬�期待値から報酬�分布�
Hiroaki Shioya, Matsuo Lab
http://deeplearning.jp/
1

�� = ��報酬を期待値で�なく分布で�う
● 一�的な�化学習��報酬�期待値だけ考える
● ��期待値をとる��分布 (‘value distribution’) を求める
/

��報酬を期待値で�なく分布で�える意味
● 期待値�高い行動を��何も��ない
● しかし、、、分布�方が�しい場合もある�で�？
○ 分布�方が�報�がある
○ �れ値��を�けにくい
○ リスク��い行動を��たい
引用)https://deepmind.com/blog/going-beyond-average-reinforcement-learning/
期待値�同じだけどリスク� 赤 > 緑

��化学習と��連
● ��テク��ク�一つとして、少しずつ使われている
○ A Distributional Perspective on Reinforcement Learning [Bellmare +, 2017] (DQN +
distributional)
○ Rainbow [Hessel +,2017] (DQN + distributional)
○ D4PG [Barth-Maron +, 2017](DDPG + distributional)
○ Reactor [Gruslys+, 2017] (ACERっぽい何か + distributional)

発表��
● DQNに報酬�分布を�ち�んだ論文 ’A Distributional Perspective on
Reinforcement Learning’ を�に、最近��について��ます
● 発表に出てくる論文
○ Parametric Return Density Estimation for Reinforcement Learning
○ A Distributional Perspective on Reinforcement Learning
○ DISTRIBUTIONAL POLICY GRADIENTS
○ (THE REACTOR: A FAST AND SAMPLE-EFFICIENT ACTOR-CRITIC AGENT FOR
REINFORCEMENT LEARNING)
○ Distributional Reinforcement Learning with Quantile Regression

ベルマン方程式�おさらい
● ベルマン方程式
● ベルマン作用素�縮小写像な�で�り�し適用するとn→∞で不動点に収束する

分布に拡張した場合�論点
● 分布に何を用いるか
● 分布間距離をどう測定するか
● ベルマン方程式��動がどうなる�か

Parametric Return Density Estimation for Reinforcement Learning
● ベルマン方程式を分布(ガウス分布、ラプラス分布)�場合に拡張し、
KL-divergence最小化で分布間距離を近づけて更新
● 分布を考慮したことでrisk-sensitiveな行動がとれる
��Q-learningで見
る位置
分布を考慮したことで
こちらを見れる

A Distributional Perspective on Reinforcement Learning (ICML 2017)
● 分布版�ベルマン方程式が縮小写像になるかどうかをWesserstain距離を用いて
分析
● ��報酬�分布をガウス分布で�なくカテゴリカル分布でモデル化
● DQNと組み合わせて実験

Distributional Bellman Equation
Q��ベルマン方程式�(見た��)自然な拡張

Wesserstein距離
● Wesserstein距離�定義
● 意味 : 分布を移動させる�にどれくらいコスト(距離×確率密度)がかかるか
(U, V�確率��、F, G�U, V��確率密度�� )

Wesserstein距離
曲線で囲まれた部分が(1次)Wesserstain距離
0
1
F
G

Wesserstein距離がもつ望ましい性質
● 分布版ベルマン作用素が縮小写像になっていることを�す�に使う
● 例え�KL-divergenceで�これら�性質��り�たない

分布版ベルマン作用素�Wesserstein距離において縮小写像
��Wesserstain距離�性質を使って�明できる
(定義)
P1&P2を使う
● つまり、分布版ベルマン作用素��一�不動点Zπ
をもち、方策評価をすると正しく
Zπ
に収束してくれる
● KL-divergenceなど��距離��で��り�たない�らしい�

分布版最適ベルマン作用素�場合
● まず用��定義. 最適価値分布�、�に期待値が最適なQ値に一致するだけでな
く、最適方策�報酬分布に一致するも�とする
● 分布版最適ベルマン作用素�定義

分布版最適ベルマン作用素によって期待値EZ�収束する
最適ベルマン作用素も縮小写像になってくれてそう？
(append��明,期待値抜けてる？)
��最適ベルマン
作用素�縮小写像

しかし、分布版最適ベルマン作用素�縮小写像でない
��、Z��最適Q値に収束するけど、Z自��最適方策�連続による報酬分布
にまでしか収束しないということ

最適ベルマン作用素が縮小写像にならない例
上��例で�、

Wesserstein距離による分析�まとめ
● 分布版�ベルマン作用素�Wesserstein距離において縮小写像
○ Wesserstein距離��で��り�たない
○ (��Wesserstein距離で�かる�が良さそう？ )
● 最適ベルマン作用素�場合�、期待値�最適値に収束してくれるが、分布自��
より大きな集合までしか収束しない

��報酬分布�推定アルゴリズム
● カテゴリカル分布でモデル化する(�行��ガウス分布など)
● 表現力が高く、計算コストもほどほど
● カテゴリ��によって表現力が�化する
● 弱点�、分布�最大値�最小値を�め�ちすること

● 分析から、(不��で�あるけど)Wesserstein距離が優れていそう
● しかし、Wesserstein loss�SGDで最適化すると勾配がbiased
○ Cramer GAN�論文で�ベル�ー�分布�場合�み�明がある
● そこで、Wesserstein�使用を��ーリステ�クスで��

● (c)で移動した分布を、(d)でもともと�binに分類する
● つまり��ント��ーで、結局KL-divergence最小化をしている

結局、Wesserstein距離�どうなった�？
● 使ってない
● ‘We note that, while these algorithms appear unrelated to the Wasserstein
metric, recent work (Bellemare et al., 2017) hints at a deeper connection’らし
いけど、よくわからなかった
● こ�点�後続��で少し��ーされている

アルゴリズム
● 行動�定�Z�期待値�最大化するように行う(=ただ�Q-learningと同じ)
● こ�論文�主張�、たとえ期待値を最大化するように行動したとしても、学習を期
待値�MSEで�なく分布間距離を�に行うことで性能が��するということ

Atariで�実験結果
��DQNシリーズよりも良い

カテゴリ��いによる��
カテゴリを増やすと良い、少なすぎると表現力が足りなくてDQNより悪化する

DISTRIBUTIONAL POLICY GRADIENTS(ICLR 2018)
● DDPGに��工夫を�め合わせたD4PG(Distributed Distributional DDPG)を
提案、DDPG版�Rainbow的な論文
● 用いた工夫
○ multi-step return
○ prioritzed experience replay
○ distributional RL
○ 分散学習(distributed)
● Atariで�なく連続値制御��実験をたくさんやっている

��実験�報酬�分布をど�分布でモデル化す�きか
● カテゴリカル分布>混合ガウス分布、 [Bellmare +, 2017]�主張を��する結果が
得られた

実験結果
● multi-step > distributional > prioritized��に大きな効果
● prioritized�1-step D3PG�場合大きく��ーマンスがdropする場合がある

わかったこと
● ditributional RLがDDPGにも有効であることが実験で確かめられた
● 連続値制御タスクにも使える
● ただし効果�ほどほどだった(Rainbowを見る�りで�、DQNでもそう)

THE REACTOR: A FAST AND SAMPLE-EFFICIENT ACTOR-CRITIC AGENT
FOR REINFORCEMENT LEARNING(ICLR 2018)
● actor-criticを��な工夫を用いて��、そ�一つとして報酬�分布を考慮した
Retrace�分布版であるDIstributional Retraceを提案している
● D4PGに比�るとこ�論文で提案した�リ��ル�工夫がある
● 弱点として、実験が弱い
○ Atari�み
○ Rainbowが後から出てきて、良さがわかりづらくなった
● ��間がなかった�で�しく�論文�んでください

Distributional Reinforcement Learning with Quantile Regression
● C51で諦めたWesserstein�最小化を、報酬分布をQuantile distributionでモデル
化することで可能にした

Quantile Distributionによる報酬分布�モデル化
● bin�最大、最小を�める��がなくなる、Projection Stepもいらない
● �論文で�これによりUnbiasedにWesserstein lossを最小化できると主張
C51で�bin�分割�
こっちを等間隔に分割

Quantile Regressionによる1-Wesserstein�unbiasedな最小化
● 1-Wesserstein(赤部分)を最小化するQuatile distribution��で求められ
る分位点で�Quatile Regressionで求められる
● Quatile Regression loss�勾配�SGDでもunbiased

中間点で1-Wessersteinが最小化される直感的な説明
zを左にずらしていくと、a*Δzが増え、b*Δzが減る
増�分と減少分が�り合う�がち�うど中間点で、それより左�どちらに動かしても赤い
部分��増える
Δz
a
b
z

Quantile Projectionとベルマン作用素�縮小写像
最適ベルマン作用素で�ない？

1-Wessersteinが学習とともに減っている
● Policy Iteration + MCで推定した擬似的な正解と報酬分布を比較
● 1-Wessersteinがきちんと減っている(e)

��まとめ
● ��期待値�みを考慮していた報酬�分布を考えることにより性能が�上する
● DQNだけでなく、actor-critic��適用も出てきた
● うまくいく��考�、収束性��論的な分析とアルゴリズム��発�まだ発��
上
● 分布を考慮している�に結局期待値に�づいて行動している、risk-sensitive RLな
ど��用もまだ

[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (15)

[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS