強化学習2章

2
目次
• プランニングとは
• 動的計画法
• ベルマン方程式
• 動的計画法によるベルマン方程式の解法

3
プランニングとは
環境(のダイナミクス)が既知である場合の逐次的意思決定問題
• やりたいこと
目的関数を最大にする方策（最適方策）を求めたい
• どうやって
動的計画法の考えに基づいて行う
目的関数
目標

4
最適価値関数の導入
最適価値関数
定義より，最適価値関数は目的関数の最適値と一致
⇨ 最適価値関数を求めると最適方策がわかる
1章の議論から，最適価値関数を求めるにはマルコフ方策を考えれば良い

5
最適価値関数
つまり，
再帰式に変形
ベルマン最適方程式

6
動的計画法
最適性の原理を満たす最適化問題を部分問題に分割し、部分問題を再帰的に繰り
返し解くことで解を求めるアプローチの総称
最適性の原理
t
時間ステップ
部分問題
元の問題
部分問題の最適解
元の問題の最適解

7
ベルマン最適方程式とベルマン期待方程式
ベルマン最適方程式
ベルマン期待方程式
動的計画法で最適価値関数，価値関数を求める

8
ベルマン作用素
動的計画法ではベルマン作用素と呼ばれる作用素(写像)を状態関数 𝑣 に適用し，
𝑣 の更新を繰り返すことで，徐々に 𝑣 を(最適)価値関数に近づけることができる
ベルマン期待作用素
ベルマン期待作用素を用いるとベルマン期待方程式がスッキリする
イメージ図
スタート
ゴール

9
ベルマン作用素
ベルマン最適作用素
（参考）ベルマン最適方程式
同様に，ベルマン最適方程式もスッキリ

10
ベルマン作用素の繰り返し適用の表記
方策のベルマン作用素を
から逐次的に関数vに適用する
例

11
ベルマン方程式の意味
ベルマン期待方程式ベルマン最適方程式
これらの式はとは，やを何度適用しても変わらないことを意
味している
このようなとを，との不動点という
不動点
定義域と値域が同じであるような関数や作用素に対し
て，を満たすのこと．またこのようなをの解という
スタート
ゴール

12
ベルマン作用素の性質
ベルマン作用素の単調性
任意の状態関数とが
を満たす時，
a. ベルマン最適作用素について，
b. 任意のマルコフ方策系列のベルマン期待作用素
の積について，
が成り立つ．
任意の状態の関数vの大小関係はベルマン作用素の適用前後で変化しない

13
ベルマン作用素の性質
任意のに対して
が成立する．

14
動的計画法の数理
無限時間ステップ長のマルコフ決定過程に対して最適方策を求める上で有用な動
的計画法の性質を見る
• 動的計画法の収束性
ベルマン作用素の適用で不動点に到達するか
• ベルマン方程式の解の一意性
ベルマン作用素の不動点は唯一つか
• ベルマン作用素の縮小性
ベルマン作用素の適用で不動点にどれくらい近づいているか

15
動的計画法の収束性
a. 任意の有界の状態関数に対して，ベルマン最適作用素をk回
繰り返し適用した関数は最適価値関数に漸近的に等しくなる．
b. 任意の有界の状態関数に対して，マルコフ方策系列
のベルマン期待作用素を適用した関数
はの価値関数に漸近的に等しく
なる．
ベルマン作用素を繰り返し適用することで，初期の状態関数vに依らず，不動点
である最適価値関数や価値関数を求めることができる

16
ベルマン方程式の解の一意性
a. ベルマン最適方程式の解になる関数は，
を満たすが，それは最適価値関数ただ１つ．
b．定常方策のベルマン期待方程式の解になる関数は，
を満たすが，それはの価値関数ただ１つ．

17
ベルマン作用素の縮小性
任意の有界関数とに対して，
a. ベルマン最適作用素について，
b. 任意ののベルマン期待作用素について，
が成立する．

18
縮小性の意味
𝑣′
に不動点 𝑉∗
を代入すると
イメージ図
不動点 𝑉∗
と 𝐵∗
𝑘
𝑣 のキョリは反復回数kについて指数関数的に減少する

19
最適方策
そもそも最適方策が知りたくて最適価値関数を求めていた
任意の初期状態からの期待リターンを最大化する
方策を最適方策と呼ぶ．
最適方策の存在性は自明ではない
存在するか否か，存在する場合扱う方策集合の大きさは？

20
最適方策の存在性と必要十分条件
最適方策になりうる定常な決定的方策が存在し，あるが最適
方策である.
ベルマン期待作用素によるベルマン期待方程式の不動点が最適価値関数
であること，すなわち
が成立する．
コレが成り立てばある定常な決定的方
策が最適方策として存在する

21
プランニングとは（再掲）
環境(のダイナミクス)が既知である場合の逐次的意思決定問題
• やりたいこと
目的関数を最大にする方策（最適方策）を求めたい
• どうやって
動的計画法の考えに基づいて行う
目的関数
目標

22
動的計画法による解法
MDPとベルマン方程式のもとで最適方策を見つける方法
• Value ベース
最適価値関数を直接的に推定して，この関数が最大となる行動を選択するよ
うに最適方策を求める
アルゴリズム：価値反復法
• Policy ベース
方策を直接的に推定し価値関数による方策評価を参考にして方策を改善して
最適方策を求める
アルゴリズム：方策反復法

23
価値反復法
ベルマン最適方程式を状態関数に繰り返し適用することで最
適価値関数を求め，最適方策を見つける方法

24
価値反復法
入力：終了閾値
出力：最適方策最適価値関数
1．初期化
価値関数を任意に初期化
2．価値関数の更新
3．収束判定
もしなら，以下の決定的方策を求めて終了
それ以外は，として，手順2．に戻る

25
方策反復法
与えられた方策のもとでベルマン方程式を用いて価値関数を
計算するステップ（方策評価）と，得られた価値関数が最大
値を取るように方策を更新するステップ（方策改善）を交互
に繰り返して最適方策を見つける方法

26
4．収束判定
もし，ならば終了
それ以外は，として，手順2．へ戻る
1．初期化
決定的方策を任意に初期化
2．方策評価
方策のベルマン方程式（に関する連立一次方程式）
方策反復法
入力：
出力：最適方策最適価値関数
を解いて，の価値関数を求める
3．方策改善
改善方策を求める

27
方策評価
状態価値関数𝑉 𝜋
(𝑠)は状態sにおいて方策𝜋に従い続けた際の価値を表す
つまり， 𝑉 𝜋
(𝑠)は定常方策𝜋 𝑑
の良さを表す評価指数となる
ベルマン方程式を解くとはすなわち方策の評価を行なっていることになる
解析的に解く
逆行列の計算量が𝑂(|𝑆|3)なので状態数が多い場合，価値反復法のように繰り返
しベルマン作用素を適用させて𝑉 𝜋
(𝑠)を近似的に求める（反復方策評価）

28
反復方策評価
𝑠5
𝑠8𝑠7
𝑠6𝑠4
𝑠3𝑠2𝑠1
𝑠9
𝑠8
𝑠6𝑠4
𝑠2
𝑉1
π
(𝑠)
𝑉0
π
(𝑠)
1ステップ遷移
更新
𝑠5
𝑠8𝑠7
𝑠6𝑠4
𝑠3𝑠2𝑠1
𝑠9
𝑠8
𝑠6𝑠4
𝑠2
𝑉2
π
(𝑠)
𝑉1
π
(𝑠)
1ステップ遷移
更新
・・・

29
方策改善の単調性
方策反復法の任意の繰り返し回数の方策とについて，
が成立する．また，
が成立する．
方策の更新により価値関数が変化しないなら，方策は最適方策に収束している
方策が最適方策に収束していないなら，方策の更新によりある状態で価値関数
が必ず改善される

30
2章まとめ
ベルマン方程式を状態関数に繰り返し適用することで真の価値関数が得
られる
・価値反復法
・方策反復法
最適方策は決定的マルコフ定常方策から見つかる
価値関数は方策を評価する指標になる

31
参考文献
https://www.kspub.co.jp/book/detail/5155912.html
https://www.kspub.co.jp/book/detail/5172513.html
http://www.incompleteideas.net/book/the-book-2nd.html
https://www.shoeisha.co.jp/book/detail/9784798159928
http://yagami12.hatenablog.com

強化学習2章

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from hiroki yamaoka

More from hiroki yamaoka (12)

強化学習2章