More Related Content
Similar to RL_chapter1_to_chapter4
Similar to RL_chapter1_to_chapter4 (20)
More from hiroki yamaoka (12)
RL_chapter1_to_chapter4
- 8. 8
(離散時間)マルコフ決定過程 M(π)={𝑆, 𝐴, 𝑝𝑠0
, 𝑝 𝑇, g , π}
・有限状態集合:
・有限行動集合:
・初期状態確率関数:
・状態遷移確率関数:
・報酬関数:
・方策:
マルコフ決定過程(Markov Decision Process MDP)
連続状態(or 行動)集合における強化学習は6章で扱う
- 9. 9
マルコフ決定過程の時間発展
𝑠0 𝑎0 𝑠1
1. 時間ステップ t を t=0 と初期化して,初期状態確率 𝑝𝑠0
に従い初期状態 𝑠0 を
観測する
2. 状態 𝑠t と方策 𝜋 ・ 𝑠𝑡 から,行動𝑎tを選択する
3. 行動 𝑎t を実行し,その結果として報酬関数 𝑔(𝑎t, 𝑠t) から定まる報酬 rt と,状
態遷移確率 𝑝 𝑇 ・ 𝑎t , 𝑠𝑡 から定まる次状態 st+1 を観測する
4. 時間ステップ t = t + 1 とし,手順1.に戻る
𝜋 𝑎0 𝑠0 𝑝 𝑇 𝑠1 𝑎0 , 𝑠0
…𝑝𝑠0
r0〜𝑔(𝑎0, 𝑠0)
- 14. 14
方策の分類
𝜋 や 𝜋 𝑑
は,現状態 s のみに依存することからマルコフ方策といい,
時間ステップ t が進展しても方策は変化しないので,定常なマルコフ方策という
stationary
方策系列
・定常な決定的マルコフ方策集合の大きさ
- 19. 19
マルコフ方策の妥当性
任意のマルコフ決定過程 M={𝑆, 𝐴, 𝑝𝑠0
, 𝑝 𝑇, g } と
履歴依存の方策系列 に対して,次を満たすような
マルコフ方策の系列 が存在する.
どんな履歴依存の非マルコフ方策で行動選択したとしても環境の重要な特徴であ
る各時間ステップ t での 𝑆𝑡 , 𝐴 𝑡 の同時確率は,より簡単な方策であるマルコフ方
策を用いても同様に表すことができる
これを用いて次が成り立つ ⇨ 次ページへ
- 26. 26
ベルマン期待方程式
𝑆 = {𝑠(0), 𝑠(1), 𝑠(2)}
𝐴 = {𝑎(0), 𝑎(1), 𝑎(2)}
𝑠0
(0)
𝑎0
(0)
𝑎0
(2)
𝑎0
(1)
𝑠1
(2)
𝑠1
(1)𝑠1
(0)
𝜋 𝑎0 𝑠0
𝑝 𝑇 𝑠1 𝑎0 , 𝑠0
𝑔(𝑎0, 𝑠0)
次ステップの状態
価値関数はこの時
点で定まっている
- 49. 49
動的計画法の収束性
a. 任意の有界の状態関数 に対して,ベルマン最適作用素 をk回
繰り返し適用した関数 は最適価値関数 に漸近的に等しくなる.
b. 任意の有界の状態関数 に対して,マルコフ方策系列
のベルマン期待作用素 を適用した関数
は の価値関数 に漸近的に等しく
なる.
ベルマン作用素を繰り返し適用することで,初期の状態関数vに依らず,不動点
である最適価値関数や価値関数を求めることができる
- 69. 69
サンプル複雑度
各時間ステップ t の状態s 𝑡で方策𝜋 𝑡がε最適でなかった回数の総和
ε最適方策
目的関数
が最適性の原理を満たし,ε > 0に対してある方策 π がある状態 s で
を満たすとき,πは状態sでε最適であるといい,πが任意のsで上式を満たすとき,
πはε最適方策であるという
最適方策
時間ステップtにおける「最適価値」と
「学習途中の価値」との差
Editor's Notes
- 標本近似の妥当性
近似作用素が真の作用素に収束することが言いたい
- エルゴード性:各状態の滞在確率の極限は初期状態に依存しない