Sutton chapter4

山下修平
Reinforcement Learning
An Introduction
輪読会第4回
Chapter4 : Dynamic Programming
1

自己紹介
名前：山下修平
所属：東京大学後期教養学部4年
卒研で強化学習を勉強し始めました
2

4章の内容
目標：最適方策(optimal policy)をDPによって得る！
0. 3章の復習
1.Policy Evaluation：からを計算する
2.Policy Improvement：をもとにより良いpolicy を得る
3.Policy Iteration：1, 2を繰り返してoptimal policyを得る
4.Value Iteration：Policy Iterationの簡略化・効率化
5.Asynchronous Dynamic Programing：効率的に計算するための工夫
6.Generalized Policy Iteration：アイデアの一般化、まとめ
7.E
ffi
ciency of Dynamic Programming：DPの効率性
π vπ
vπ π′

3

3章の復習
強化学習の枠組みをざっくりと
4
方策(policy)：状態から行動への写像（）
※確率的方策の場合は状態・行動から確率値への写像（）
S → A
S × A → [0,1]
探検家
洞窟
宝箱、毒など
どの地点にいるか
どの方向に進むか

3章の復習
諸々の定義の確認
5
t以降の報酬の総和（リターン）
方策πに従った時のリターンの期待値（状態価値関数）
状態価値関数のベルマン方程式
行動価値関数

3章の復習
最適方策の定義
6
方策と方策の優劣はどうやって決めるの？
π π′

最適方策(Optimal Policy) が定義される
π*
リターンの期待値が大きい方策が良いという意味なので当たり前
最適方策についてのベルマン方程式

3章の復習
最適方策を得るには？
→ 最適価値関数が分かれば簡単に得られる！
v*
7
B
A
S
C
v*(A) = 10 v*(B) = 100 v*(C) = − 100
π*(S) = b
a
b
c

4章の内容
0. 3章の復習
7.E
ffi
π vπ
vπ π′

8

4.1 Policy Evaluation(Prediction)
目標：あるpolicy πに対してその価値関数を計算する
vπ
ベルマン方程式
→
→ もし環境のダイナミクスが完全に分かっていれば
¦S¦個の変数を持つ線形方程式を解けば解が得られる
→ しかし面倒なので繰り返し計算による方法が取られる
vπ(s) =
∑
a
π(a|s)
∑
s′

,r
p(s′

, r|s, a)[r + γvπ(s′

)]
9

vπ
近似価値関数の系列を以下の式で更新していく
この系列はでに収束することが示せる
→ 目標達成！
v0, v1, v2, …,
vk+1(s) =
∑
a
π(a|s)
∑
s′

,r
p(s′

, r|s, a)[r + γvk(s′

)]
k → ∞ vπ
10

vπ
更新幅の最大値が十分小さければ終了
update
11

vπ
Example 4.1
https://colab.research.google.com/drive/1KLgZPFLL8Na1rtsqdnTKrltjTYf0ZjtD
p(6, − 1|5, right) = 1, p(7, − 1|7, right) = 1
終端状態
終端状態に近い状態ほど価値は高いことが予想されるが
実際どうなのか？
12

4章の内容
0. 3章の復習
7.E
ffi
π vπ
vπ π′

13

4.2 Policy Improvement
目標：を元により良い方策を見つける
vπ π′

s
a = π(s) a′

今まではこっちばっかり選んでいた
でもこっちを選んだほうがいいかもしれない
良し悪しはどうやって判断する？
14
☆ より良いpolicyをどうやって見つける？→ 手がかりは価値関数！

目標：を元により良い方策 π を見つける
vπ
15
なのでの期待値（平均）
vπ(s) =
∑
a
π(a|s) qπ(s, a) qπ( ⋅ |s)
条件：qπ(s, π′

(s)) ≥ vπ(s) for all s ∈ S
結果：vπ′

(s) ≥ vπ(s) for all s ∈ S 証明はp78

目標：を元により良い方策 π を見つける
vπ
16
価値関数についてgreedyな方策はよりも良い方策
π
よりも良いpolicy を手に入れた → 目標達成！
π π′

目標：を元により良い方策を見つける
vπ π′

新しい方策が元の方策と同じとき
→
→ が成り立っている
→ これはベルマン最適方程式と同じ形をしているのではoptimal！
※これまでの議論はstochastic policyにも同様に拡張できる
π′

π
vπ = v′

π
vπ′

(s) = maxa ∑
s′

,r
p(s′

, r|s, a)[r + γv′

π(s′

)]
π
17

4章の内容
0. 3章の復習
7.E
ffi
π vπ
vπ π′

18

4.3 Policy Iteration
目標：とを求める
π* v*
有限MDPには有限のpolicyしかないので必ずoptimal policyに収束する
19

4.3 Policy Iteration
20
目標：とを求める
π* v*

4章の内容
0. 3章の復習
7.E
ffi
π vπ
vπ π′

21

4.4 Value Iteration
目標：Policy Iterationの簡略化、効率化
Policy Iterationの欠点：Policy Evaluationの収束を待たなければならない
→
22
変更点: ①Policy Evaluationを簡略化
②価値関数の更新にPolicy Improvementを組み込む

23
1回にする
4.4 Value Iteration
組み込む
Policy Iterationとの違い

4.4 Value Iteration
24
目標：Policy Iterationの簡略化、効率化

4章の内容
0. 3章の復習
7.E
ffi
π vπ
vπ π′

25

4.5 Asynchronous Dynamic Programming
目的：更新の順序の工夫
手法
基本アイデア：重要な状態の計算を先に行う
利点：一部の状態をupdateした後にpolicyを改善できる
制約：収束には全ての状態が無限回訪問されることが必要
26
背景
DPの欠点・・・全ての状態に対して計算が必要
→ 状態数が膨大だと非現実的例) backgammon

4章の内容
0. 3章の復習
7.E
ffi
π vπ
vπ π′

27

4.6 Generalized Policy Iteration
28
Policy EvaluationとPolicy Improvementを相互に行うことを一般にGPIと呼ぶ
これまでのアイデアの一般化

4章の内容
0. 3章の復習
7.E
ffi
π vπ
vπ π′

29

4.7 Efficiency of Dynamic Programming
DPの効率性に関する議論
30
DP は状態数が大きい問題には使えないと思われがち
→ direct searchやlinear programmingよりもずっと効率的
状態数：
行動数：
→ 決定的方策はある
→ DPなら多項式時間で最適方策を見つけることができる！
n
k
kn

Sutton chapter4

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Sutton chapter4