SlideShare a Scribd company logo
1 of 30
Download to read offline
山下 修平
Reinforcement Learning
An Introduction
輪読会 第4回
Chapter4 : Dynamic Programming
1
自己紹介
名前:山下修平
所属:東京大学後期教養学部4年
卒研で強化学習を勉強し始めました
2
4章の内容
目標:最適方策(optimal policy)をDPによって得る!
0. 3章の復習
1.Policy Evaluation: から を計算する
2.Policy Improvement: をもとにより良いpolicy を得る
3.Policy Iteration:1, 2を繰り返してoptimal policyを得る
4.Value Iteration:Policy Iterationの簡略化・効率化
5.Asynchronous Dynamic Programing:効率的に計算するための工夫
6.Generalized Policy Iteration:アイデアの一般化、まとめ
7.E
ffi
ciency of Dynamic Programming:DPの効率性
π vπ
vπ π′

3
3章の復習
強化学習の枠組みをざっくりと
4
方策(policy):状態から行動への写像( )
※確率的方策の場合は状態・行動から確率値への写像( )
S → A
S × A → [0,1]
探検家
洞窟
宝箱、毒など
どの地点にいるか
どの方向に進むか
3章の復習
諸々の定義の確認
5
t以降の報酬の総和(リターン)
方策πに従った時のリターンの期待値(状態価値関数)
状態価値関数のベルマン方程式
行動価値関数
3章の復習
最適方策の定義
6
方策 と方策 の優劣はどうやって決めるの?
π π′

最適方策(Optimal Policy) が定義される
π*
リターンの期待値が大きい方策が良いという意味なので当たり前
最適方策についてのベルマン方程式
3章の復習
最適方策を得るには?
→ 最適価値関数 が分かれば簡単に得られる!
v*
7
B
A
S
C
v*(A) = 10 v*(B) = 100 v*(C) = − 100
π*(S) = b
a
b
c
4章の内容
目標:最適方策(optimal policy)をDPによって得る!
0. 3章の復習
1.Policy Evaluation: から を計算する
2.Policy Improvement: をもとにより良いpolicy を得る
3.Policy Iteration:1, 2を繰り返してoptimal policyを得る
4.Value Iteration:Policy Iterationの簡略化・効率化
5.Asynchronous Dynamic Programing:効率的に計算するための工夫
6.Generalized Policy Iteration:アイデアの一般化、まとめ
7.E
ffi
ciency of Dynamic Programming:DPの効率性
π vπ
vπ π′

8
4.1 Policy Evaluation(Prediction)
目標:あるpolicy πに対してその価値関数 を計算する
vπ
ベルマン方程式
→
→ もし環境のダイナミクスが完全に分かっていれば
  ¦S¦個の変数を持つ線形方程式を解けば解が得られる
→ しかし面倒なので繰り返し計算による方法が取られる
vπ(s) =
∑
a
π(a|s)
∑
s′

,r
p(s′

, r|s, a)[r + γvπ(s′

)]
9
4.1 Policy Evaluation(Prediction)
目標:あるpolicy πに対してその価値関数 を計算する
vπ
近似価値関数の系列 を以下の式で更新していく
この系列は で に収束することが示せる
→ 目標達成!
v0, v1, v2, …,
vk+1(s) =
∑
a
π(a|s)
∑
s′

,r
p(s′

, r|s, a)[r + γvk(s′

)]
k → ∞ vπ
10
4.1 Policy Evaluation(Prediction)
目標:あるpolicy πに対してその価値関数 を計算する
vπ
更新幅の最大値が十分小さければ終了
update
11
4.1 Policy Evaluation(Prediction)
目標:あるpolicy πに対してその価値関数 を計算する
vπ
Example 4.1
https://colab.research.google.com/drive/1KLgZPFLL8Na1rtsqdnTKrltjTYf0ZjtD
p(6, − 1|5, right) = 1, p(7, − 1|7, right) = 1
終端状態
終端状態に近い状態ほど価値は高いことが予想されるが
実際どうなのか?
12
4章の内容
目標:最適方策(optimal policy)をDPによって得る!
0. 3章の復習
1.Policy Evaluation: から を計算する
2.Policy Improvement: をもとにより良いpolicy を得る
3.Policy Iteration:1, 2を繰り返してoptimal policyを得る
4.Value Iteration:Policy Iterationの簡略化・効率化
5.Asynchronous Dynamic Programing:効率的に計算するための工夫
6.Generalized Policy Iteration:アイデアの一般化、まとめ
7.E
ffi
ciency of Dynamic Programming:DPの効率性
π vπ
vπ π′

13
4.2 Policy Improvement
目標: を元により良い方策 を見つける
vπ π′

s
a = π(s) a′

今まではこっちばっかり選んでいた
でもこっちを選んだほうがいいかもしれない
良し悪しはどうやって判断する?
14
☆ より良いpolicyをどうやって見つける?→ 手がかりは価値関数!
4.2 Policy Improvement
目標: を元により良い方策 π を見つける
vπ
15
なので の期待値(平均)
vπ(s) =
∑
a
π(a|s) qπ(s, a) qπ( ⋅ |s)
条件:qπ(s, π′

(s)) ≥ vπ(s) for all s ∈ S
結果:vπ′

(s) ≥ vπ(s) for all s ∈ S 証明はp78
4.2 Policy Improvement
目標: を元により良い方策 π を見つける
vπ
16
価値関数についてgreedyな方策は よりも良い方策
π
よりも良いpolicy を手に入れた → 目標達成!
π π′

4.2 Policy Improvement
目標: を元により良い方策 を見つける
vπ π′

新しい方策 が元の方策 と同じとき
→
→ が成り立っている
→ これはベルマン最適方程式と同じ形をしているので はoptimal!
※これまでの議論はstochastic policyにも同様に拡張できる
π′

π
vπ = v′

π
vπ′

(s) = maxa ∑
s′

,r
p(s′

, r|s, a)[r + γv′

π(s′

)]
π
17
4章の内容
目標:最適方策(optimal policy)をDPによって得る!
0. 3章の復習
1.Policy Evaluation: から を計算する
2.Policy Improvement: をもとにより良いpolicy を得る
3.Policy Iteration:1, 2を繰り返してoptimal policyを得る
4.Value Iteration:Policy Iterationの簡略化・効率化
5.Asynchronous Dynamic Programing:効率的に計算するための工夫
6.Generalized Policy Iteration:アイデアの一般化、まとめ
7.E
ffi
ciency of Dynamic Programming:DPの効率性
π vπ
vπ π′

18
4.3 Policy Iteration
目標: と を求める
π* v*
有限MDPには有限のpolicyしかないので必ずoptimal policyに収束する
19
4.3 Policy Iteration
20
目標: と を求める
π* v*
4章の内容
目標:最適方策(optimal policy)をDPによって得る!
0. 3章の復習
1.Policy Evaluation: から を計算する
2.Policy Improvement: をもとにより良いpolicy を得る
3.Policy Iteration:1, 2を繰り返してoptimal policyを得る
4.Value Iteration:Policy Iterationの簡略化・効率化
5.Asynchronous Dynamic Programing:効率的に計算するための工夫
6.Generalized Policy Iteration:アイデアの一般化、まとめ
7.E
ffi
ciency of Dynamic Programming:DPの効率性
π vπ
vπ π′

21
4.4 Value Iteration
目標:Policy Iterationの簡略化、効率化
Policy Iterationの欠点:Policy Evaluationの収束を待たなければならない
→
22
変更点: ①Policy Evaluationを簡略化
  ②価値関数の更新にPolicy Improvementを組み込む
23
1回にする
4.4 Value Iteration
組み込む
Policy Iterationとの違い
4.4 Value Iteration
24
目標:Policy Iterationの簡略化、効率化
4章の内容
目標:最適方策(optimal policy)をDPによって得る!
0. 3章の復習
1.Policy Evaluation: から を計算する
2.Policy Improvement: をもとにより良いpolicy を得る
3.Policy Iteration:1, 2を繰り返してoptimal policyを得る
4.Value Iteration:Policy Iterationの簡略化・効率化
5.Asynchronous Dynamic Programing:効率的に計算するための工夫
6.Generalized Policy Iteration:アイデアの一般化、まとめ
7.E
ffi
ciency of Dynamic Programming:DPの効率性
π vπ
vπ π′

25
4.5 Asynchronous Dynamic Programming
目的:更新の順序の工夫
手法
基本アイデア:重要な状態の計算を先に行う
利点:一部の状態をupdateした後にpolicyを改善できる
制約:収束には全ての状態が無限回訪問されることが必要
26
背景
DPの欠点・・・全ての状態に対して計算が必要
→ 状態数が膨大だと非現実的 例) backgammon
4章の内容
目標:最適方策(optimal policy)をDPによって得る!
0. 3章の復習
1.Policy Evaluation: から を計算する
2.Policy Improvement: をもとにより良いpolicy を得る
3.Policy Iteration:1, 2を繰り返してoptimal policyを得る
4.Value Iteration:Policy Iterationの簡略化・効率化
5.Asynchronous Dynamic Programing:効率的に計算するための工夫
6.Generalized Policy Iteration:アイデアの一般化、まとめ
7.E
ffi
ciency of Dynamic Programming:DPの効率性
π vπ
vπ π′

27
4.6 Generalized Policy Iteration
28
Policy EvaluationとPolicy Improvementを相互に行うことを一般にGPIと呼ぶ
これまでのアイデアの一般化
4章の内容
目標:最適方策(optimal policy)をDPによって得る!
0. 3章の復習
1.Policy Evaluation: から を計算する
2.Policy Improvement: をもとにより良いpolicy を得る
3.Policy Iteration:1, 2を繰り返してoptimal policyを得る
4.Value Iteration:Policy Iterationの簡略化・効率化
5.Asynchronous Dynamic Programing:効率的に計算するための工夫
6.Generalized Policy Iteration:アイデアの一般化、まとめ
7.E
ffi
ciency of Dynamic Programming:DPの効率性
π vπ
vπ π′

29
4.7 Efficiency of Dynamic Programming
DPの効率性に関する議論
30
DP は状態数が大きい問題には使えないと思われがち
→ direct searchやlinear programmingよりもずっと効率的
状態数:
行動数:
→ 決定的方策は ある
→ DPなら多項式時間で最適方策を見つけることができる!
n
k
kn

More Related Content

What's hot

変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎Tomoshige Nakamura
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム裕樹 奥田
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement LearningDeep Learning JP
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習Mitsuhisa Ohta
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...西岡 賢一郎
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured PredictionDeep Learning JP
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理Taiji Suzuki
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習Shota Ishikawa
 
顕著性マップの推定手法
顕著性マップの推定手法顕著性マップの推定手法
顕著性マップの推定手法Takao Yamanaka
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出hoxo_m
 

What's hot (20)

EMアルゴリズム
EMアルゴリズムEMアルゴリズム
EMアルゴリズム
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
 
顕著性マップの推定手法
顕著性マップの推定手法顕著性マップの推定手法
顕著性マップの推定手法
 
Soft Actor Critic 解説
Soft Actor Critic 解説Soft Actor Critic 解説
Soft Actor Critic 解説
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
 

Sutton chapter4