SlideShare a Scribd company logo
1 of 31
Chapter 2
プランニング
2
目次
• プランニングとは
• 動的計画法
• ベルマン方程式
• 動的計画法によるベルマン方程式の解法
3
プランニングとは
環境(のダイナミクス)が既知である場合の逐次的意思決定問題
• やりたいこと
目的関数を最大にする方策(最適方策)を求めたい
• どうやって
動的計画法の考えに基づいて行う
目的関数
目標
4
最適価値関数の導入
最適価値関数
定義より,最適価値関数は目的関数の最適値と一致
⇨ 最適価値関数を求めると最適方策がわかる
1章の議論から,最適価値関数を求めるにはマルコフ方策を考えれば良い
5
最適価値関数
つまり,
再帰式に変形
ベルマン最適方程式
6
動的計画法
最適性の原理を満たす最適化問題を部分問題に分割し、部分問題を再帰的に繰り
返し解くことで解を求めるアプローチ の総称
最適性の原理
t
時間ステップ
部分問題
元の問題
部分問題の最適解
元の問題の最適解
7
ベルマン最適方程式とベルマン期待方程式
ベルマン最適方程式
ベルマン期待方程式
動的計画法で最適価値関数,価値関数を求める
8
ベルマン作用素
動的計画法ではベルマン作用素と呼ばれる作用素(写像)を状態関数 𝑣 に適用し,
𝑣 の更新を繰り返すことで,徐々に 𝑣 を(最適)価値関数に近づけることができる
ベルマン期待作用素
ベルマン期待作用素を用いるとベルマン期待方程式がスッキリする
イメージ図
スタート
ゴール
9
ベルマン作用素
ベルマン最適作用素
(参考)ベルマン最適方程式
同様に,ベルマン最適方程式もスッキリ
10
ベルマン作用素の繰り返し適用の表記
方策 のベルマン作用素 を
から逐次的に関数vに適用する
例
11
ベルマン方程式の意味
ベルマン期待方程式 ベルマン最適方程式
これらの式は と は, や を何度適用しても変わらないことを意
味している
このような と を, と の不動点という
不動点
定義域と値域が同じ であるような関数や作用素 に対し
て, を満たす のこと.またこのような を の解という
スタート
ゴール
12
ベルマン作用素の性質
ベルマン作用素の単調性
任意の状態関数 と が
を満たす時,
a. ベルマン最適作用素 について,
b. 任意のマルコフ方策系列 のベルマン期待作用素
の積 について,
が成り立つ.
任意の状態の関数vの大小関係はベルマン作用素の適用前後で変化しない
13
ベルマン作用素の性質
任意の に対して
が成立する.
14
動的計画法の数理
無限時間ステップ長のマルコフ決定過程に対して最適方策を求める上で有用な動
的計画法の性質を見る
• 動的計画法の収束性
ベルマン作用素の適用で不動点に到達するか
• ベルマン方程式の解の一意性
ベルマン作用素の不動点は唯一つか
• ベルマン作用素の縮小性
ベルマン作用素の適用で不動点にどれくらい近づいているか
15
動的計画法の収束性
a. 任意の有界の状態関数 に対して,ベルマン最適作用素 をk回
繰り返し適用した関数 は最適価値関数 に漸近的に等しくなる.
b. 任意の有界の状態関数 に対して,マルコフ方策系列
のベルマン期待作用素 を適用した関数
は の価値関数 に漸近的に等しく
なる.
ベルマン作用素を繰り返し適用することで,初期の状態関数vに依らず,不動点
である最適価値関数や価値関数を求めることができる
16
ベルマン方程式の解の一意性
a. ベルマン最適方程式の解になる関数 は,
を満たすが,それは最適価値関数 ただ1つ.
b.定常方策 のベルマン期待方程式の解になる関数 は,
を満たすが,それは の価値関数 ただ1つ.
17
ベルマン作用素の縮小性
任意の有界関数 と に対して,
a. ベルマン最適作用素 について,
b. 任意の のベルマン期待作用素 について,
が成立する.
18
縮小性の意味
𝑣′
に不動点 𝑉∗
を代入すると
イメージ図
不動点 𝑉∗
と 𝐵∗
𝑘
𝑣 のキョリは反復回数kについて指数関数的に減少する
19
最適方策
そもそも最適方策が知りたくて最適価値関数を求めていた
任意の初期状態 からの期待リターンを最大化する
方策 を最適方策と呼ぶ.
最適方策の存在性は自明ではない
存在するか否か,存在する場合扱う方策集合の大きさは?
20
最適方策の存在性と必要十分条件
最適方策になりうる定常な決定的方策 が存在し,ある が最適
方策である.
ベルマン期待作用素 によるベルマン期待方程式の不動点 が最適価値関数
であること,すなわち
が成立する.
コレが成り立てばある定常な決定的方
策が最適方策として存在する
21
プランニングとは(再掲)
環境(のダイナミクス)が既知である場合の逐次的意思決定問題
• やりたいこと
目的関数を最大にする方策(最適方策)を求めたい
• どうやって
動的計画法の考えに基づいて行う
目的関数
目標
22
動的計画法による解法
MDPとベルマン方程式のもとで最適方策を見つける方法
• Value ベース
最適価値関数を直接的に推定して,この関数が最大となる行動を選択するよ
うに最適方策を求める
アルゴリズム:価値反復法
• Policy ベース
方策を直接的に推定し価値関数による方策評価を参考にして方策を改善して
最適方策を求める
アルゴリズム:方策反復法
23
価値反復法
ベルマン最適方程式を状態関数に繰り返し適用することで最
適価値関数を求め,最適方策を見つける方法
24
価値反復法
入力: 終了閾値
出力:最適方策 最適価値関数
1.初期化
価値関数 を任意に初期化
2.価値関数の更新
3.収束判定
もし なら,以下の決定的方策を求めて終了
それ以外は, として,手順2.に戻る
25
方策反復法
与えられた方策のもとでベルマン方程式を用いて価値関数を
計算するステップ(方策評価)と,得られた価値関数が最大
値を取るように方策を更新するステップ(方策改善)を交互
に繰り返して最適方策を見つける方法
26
4.収束判定
もし, ならば終了
それ以外は, として,手順2.へ戻る
1.初期化
決定的方策 を任意に初期化
2.方策評価
方策 のベルマン方程式( に関する連立一次方程式)
方策反復法
入力:
出力:最適方策 最適価値関数
を解いて, の価値関数 を求める
3.方策改善
改善方策 を求める
27
方策評価
状態価値関数𝑉 𝜋
(𝑠)は状態sにおいて方策𝜋に従い続けた際の価値を表す
つまり, 𝑉 𝜋
(𝑠)は定常方策𝜋 𝑑
の良さを表す評価指数となる
ベルマン方程式を解くとはすなわち方策の評価を行なっていることになる
解析的に解く
逆行列の計算量が𝑂(|𝑆|3)なので状態数が多い場合,価値反復法のように繰り返
しベルマン作用素を適用させて𝑉 𝜋
(𝑠)を近似的に求める(反復方策評価)
28
反復方策評価
𝑠5
𝑠8𝑠7
𝑠6𝑠4
𝑠3𝑠2𝑠1
𝑠9
𝑠8
𝑠6𝑠4
𝑠2
𝑉1
π
(𝑠)
𝑉0
π
(𝑠)
1ステップ遷移
更新
𝑠5
𝑠8𝑠7
𝑠6𝑠4
𝑠3𝑠2𝑠1
𝑠9
𝑠8
𝑠6𝑠4
𝑠2
𝑉2
π
(𝑠)
𝑉1
π
(𝑠)
1ステップ遷移
更新
・・・
29
方策改善の単調性
方策反復法の任意の繰り返し回数 の方策 と について,
が成立する.また,
が成立する.
方策の更新により価値関数が変化しないなら,方策は最適方策に収束している
方策が最適方策に収束していないなら,方策の更新によりある状態で価値関数
が必ず改善される
30
2章まとめ
ベルマン方程式を状態関数に繰り返し適用することで真の価値関数が得
られる
・価値反復法
・方策反復法
最適方策は決定的マルコフ定常方策から見つかる
価値関数は方策を評価する指標になる
31
参考文献
https://www.kspub.co.jp/book/detail/5155912.html
https://www.kspub.co.jp/book/detail/5172513.html
http://www.incompleteideas.net/book/the-book-2nd.html
https://www.shoeisha.co.jp/book/detail/9784798159928
http://yagami12.hatenablog.com

More Related Content

What's hot

深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)Takuma Yagi
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 
カルマンフィルタ入門
カルマンフィルタ入門カルマンフィルタ入門
カルマンフィルタ入門Yasunori Nihei
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺についてKeisuke Hosaka
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画までShunji Umetani
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法Shunji Umetani
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎Deep Learning JP
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 

What's hot (20)

深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
カルマンフィルタ入門
カルマンフィルタ入門カルマンフィルタ入門
カルマンフィルタ入門
 
強化学習6章
強化学習6章強化学習6章
強化学習6章
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 

More from hiroki yamaoka (12)

PRML1.5
PRML1.5PRML1.5
PRML1.5
 
PRML1.3
PRML1.3PRML1.3
PRML1.3
 
DQN
DQNDQN
DQN
 
PRML6.4
PRML6.4PRML6.4
PRML6.4
 
PRML9.3
PRML9.3PRML9.3
PRML9.3
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
PRML5.5
PRML5.5PRML5.5
PRML5.5
 
強化学習5章
強化学習5章強化学習5章
強化学習5章
 
強化学習3章
強化学習3章強化学習3章
強化学習3章
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
 
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 

強化学習2章