強化学習4章

4章モデルフリーな強化学習

2
強化学習の分類
MDP上の逐次的意思決定問題
環境が既知（動的計画法 2章）環境が未知（強化学習）
モデルベース（5章）モデルフリー（4章）
On-policy
・SARSA
Off-policy
・Q-learning
・価値反復法
・方策反復法
TD(λ)法
（モンテカルロ法）

3
4章の概要
2章では環境の情報（報酬関数・状態遷移確率）が既知と仮定していたの
でベルマン方程式から直接価値関数を計算して最適方策を求めることが
可能だった
4章以降では環境の情報が未知であるため，環境とエージェントの相互作
用により得られるデータ（状態遷移や報酬）から何らかの方法で価値関
数を推定して最適方策を求める必要がある
価値関数の推定方法
• モンテカルロ法
• TD学習
以降，方策πは所与であると仮定

4
手順
1. 方策πを用いて終端状態までデータをサンプルする
2. 価値関数の推定
3. エピソード終了毎に価値関数を更新
モンテカルロ法
𝑠
𝑎 𝑎𝑎
𝑠𝑠𝑠
𝑎
𝑠 終端状態𝑡 = 𝑇
𝑡 = 1
𝑡 = 0
・
・
・
モンテカルロ法のバックアップ木
モンテカルロ法の問題点
• エピソード終了まで価値関数を更新できない
ため，オンライン学習に向かない
• 推定値の偏り（バイアス）が小さい反面，推
定値の分散（バリアンス）が大きくなる

5
TD学習(時間的差分学習：Temporal Difference learning)
𝑠
𝑎 𝑎𝑎
𝑠𝑠𝑠
𝑎
𝑠
オンラインで価値関数の更新を行う手法
推定価値関数の更新式
1ステップ毎に価値関数の更新を行う

6
おまけ（動的計画法）
𝑠0
(0)
𝑎0
(0)
𝑎0
(2)
𝑎0
(1)
𝑠1
(2)
𝑠1
(1)𝑠1
(0)
𝜋 𝑎0 𝑠0
𝑝 𝑇 𝑠1 𝑎0 , 𝑠0
𝑔(𝑎0, 𝑠0)
𝑎1
(2)
𝑠T
2

7
ベルマン作用素の標本近似
状態関数にベルマン作用素を繰り返し適用することで，状態関数は(最適)価値関
数に収束する（2章）
ベルマン期待作用素
環境の情報（状態遷移・報酬）が未知なのでベルマン作用素の計算が不可
ここでは，方策πに従って収集した履歴データ(標本)
から，ベルマン作用素を標本近似することを考える

8
ベルマン作用素の標本近似
近似ベルマン期待作用素
M(π)はエルゴード性を満たすと仮定
近似ベルマン期待作用素はベルマン期待作用素に収束する

9
ベルマン作用素への収束
Tが有限であっても近似ベルマン作用素の条件付き期待値はベルマン作用素に一
致する
近似ベルマン期待作用素がベルマン期待作用素に収束することがわかったので，
近似ベルマン期待作用素を用いて価値関数を求めることを考える

10
バッチ学習でのベルマン方程式
ある方策 π (固定)に従い収集した履歴データℎ 𝑇
π
が既に手元にある（バッチ学習）
推定価値関数の更新式（近似ベルマン方程式）
繰り返し適用することで，縮小性より不動点に収束する
T → ∞ の極限で 𝐵はBπ
に収束するため， 𝑉∞は𝑉π
に一致する
ベルマン方程式

11
各時間ステップtでを経験する度に履歴データをℎ 𝑡
π
を更新する
オンライン学習でのベルマン方程式
バッチ学習と同様に推定価値関数を次式のように更新できる
しかし，履歴データを全て保持し続ける必要
全ての状態について計算する必要があるため計算量も大きい
取得したデータのみで更新したい

12
オンライン学習でのベルマン方程式
ロビンス・モンローの条件
を満たせば，t → ∞ の極限で以下が成り立つ (確率的近似の収束性)
ベルマン方程式の一意性(2章)より 𝑉は真の価値関数𝑉π
に収束する
ロビンス・モンローアルゴリズム

13
ベルマン方程式の解の一意性（再掲）
a. ベルマン最適方程式の解になる関数は，
を満たすが，それは最適価値関数ただ１つ．
b．定常方策のベルマン期待方程式の解になる関数は，
を満たすが，それはの価値関数ただ１つ．

14
TD学習（時間的差分学習）
上式を解釈しやすいように以下のように書き換える
次ステップの価値の推定値と現在の価値の推定値の差分
TD誤差
新しい推定値 ← 古い推定値＋ステップサイズ（新しい推定値ー古い推定値）
確率的勾配降下法と同じ原理

15
TD学習
[入力] S，Aは既知．行動の入力に対して次状態と報酬を出力するモデル．
π，γ，α，終了条件．
[出力] 方策πの推定価値関数
1. 初期化
推定価値関数を任意に初期化・t＝0に初期化・初期状態𝑠0を観測
2. 環境との相互作用
方策に従い行動𝑎 𝑡を選択し環境に入力，環境から報酬𝑟𝑡と次状態𝑠𝑡+1を観測
3. 学習
TD誤差を計算
推定価値関数を更新
4. 終了判定
終了条件を満たしていれば終了
それ以外は手順2から繰り返す

16
TD(λ)学習
TD学習の一般化 ⇨ TD(λ)学習
𝑆𝑡
𝑆𝑡+1
𝑟𝑡
Feedback
𝑆𝑡
𝑆𝑡+1
𝑟𝑡
𝑆𝑡+𝑛
𝑟𝑡+𝑛−1
TD(0)
Feedback
・・・
Feedback
𝑆𝑡
𝑆𝑡+1
𝑟𝑡
𝑟𝑡+𝐹𝑖𝑛−1
モンテカルロ
𝑆 𝐹𝑖𝑛 終端状態

17
TD(λ)学習
Feedback
𝑆𝑡
𝑆𝑡+1
𝑟𝑡
𝑆𝑡+𝑛
𝑟𝑡+𝑛−1
nステップ切断リターン
TD誤差
TD(0)のTD誤差
TD(λ)

18
前方観測的なTD(λ)学習
nステップ切断リターンの平均
TD誤差
𝑐𝑡
1
λ𝑐𝑡
2
λ 𝑛−1
𝑐𝑡
𝑛
・・・
Feedback
Feedback
Feedback
モンテカルロ
t
t＋1
t＋2
t＋n
・
・
・
前方観測的なTD(λ)学習

19
前方観測的なTD(λ)学習の問題点
λが大きいほど，TD誤差の近似に非常に大きな切断ステップ数Nが必要なのでTD
誤差の計算に大きな時間遅れが生じ，価値関数の更新に時間がかかる
オンライン学習にとって致命的
現時間ステップ T までのTD誤差を使う方法
後方観測的なTD(λ)学習

20

21
∞Tt
τ
時間ステップ T 時点では第1項のみ計算可能
時間ステップ T までに状態 s に訪問した時間ステップの集合を以下で定義
状態 s の時間ステップ T までのTD(λ)誤差の和

22
状態 s の時間ステップ T までに計算可能な誤差項
時間ステップ T 以降の誤差項
これらを用いて，

23
δとそれ以外に分けて式変形
以下のように新たなTD誤差（後方観測的なTD(λ)誤差）を定義する
エリジビリティ・トレース

24
＋
＋
・・・
✖️
𝑧𝑡,λ(𝑠)は状態sに直近どれだけ滞在したかを表す統計量と解釈でき，の大小
によってどの程度過去の情報を現在の価値に反映させるかを調整する

25
以上より，前方観測的なTD(λ)学習の近似として以下の更新式が考えられる
∞Tt
τ
Tが大きくなるほどはと比べて相対的に大きくなる
したがって，となり，後方観測的なTD(λ)学習は前方観測的なTD(λ)
学習の近似となる

26
実際，前方観測的なTD(λ)誤差と後方観測的なTD(λ)誤差の時間平均は一致する

27
前方と後方の違い
前方観測的なTD(λ)学習後方観測的なTD(λ)誤差
• 前方観測的なTD(λ)では時間ステップtに滞在している状態𝑠𝑡についてのみ推定
価値関数の更新をしないが，後方観測的なTD(λ)ではすべての状態について更新
する
• 後方観測的なTD(λ)誤差は現在の経験から求まるため即座に推定価値関数の更新
ができるためオンライン学習に向いている

28
ベルマン最適作用素の近似
モンテカルロ学習やTD(λ)学習ではベルマン期待作用素の近似を考えた手法だった
ベルマン最適作用素についても近似を考える
最適作用素は期待作用素のような単純な標本近似が適用できない（後述）
ベルマン作用素と価値関数に行動空間を追加したベルマン行動作用素と行動価値
関数を定義し，その標本近似を考える
行動価値関数によって行動についての価値が分かるようになる（重要）
Valueベース Q学習 SARSA法
Policyベース Actor Critic法

29
ベルマン最適作用素の標本近似を考える
価値反復法
ベルマン最適作用素を状態関数に繰り返し適用して最適価値関数を求める方法
第n繰り返し目の更新式
max演算子により単純に標本近似できない
推定行動価値関数
𝑄 𝑛を用いた更新式の書き換え
標本近似できる形にもってく

30
ベルマン最適作用素の標本近似
以下のように価値関数の更新式を行動価値関数の更新式へ拡張ができる
ここで関数についての作用素を以下で定義
ベルマン行動最適作用素
上記を用いて更新式の書き換えを行う
これを繰り返し行うことで推定行動価値関数は最適行動価値関数に収束する

31
最適方策の推定
価値反復法に基づいて適当な閾値𝜖 > 0を用いて
収束していれば，最適方策は以下の通り推定できる
収束条件
ベルマン行動最適作用素の性質について考える
作用素の適用は妥当か？

32
最適行動価値関数の導入
行動価値関数（状態sで行動aに従った後は方策πに従う場合の割引期待累積報酬）
最適行動価値関数
最適価値関数

33
価値関数と行動価値関数の関係
ベルマン方程式の解の一意性より

34
ベルマン行動最適作用素の収束性
価値反復法の収束性より任意の初期関数に対して
これらの結果より任意の関数に対して

35
ベルマン行動最適作用素の収束性
最適価値関数
最適価値関数の定義により
ベルマン行動最適作用素を繰り返し適用することで，初期関数に依らず最適行
動価値関数を求められる
2章の議論と同様にはの唯一の不動点であることが示せる
が縮小写像であることも同様（証明略）

36
ベルマン行動方程式
ベルマン行動最適方程式
ベルマン行動最適作用素
ベルマン行動期待作用素
についてもと同様

37
ベルマン行動作用素の標本近似
ベルマン行動最適（or 期待）作用素の計算には状態遷移確率などの情報が必要
履歴データから作用素を標本近似することを考える
近似ベルマン行動期待作用素

38
ベルマン行動作用素の標本近似
近似ベルマン行動最適作用素
（ベルマン最適作用素は上式のように標本近似できなかった）
近似ベルマン行動作用素は近似ベルマン作用素同様，縮小性や不動点の唯一性な
どベルマン行動作用素と同じ特徴を持つ

39
オンライン学習
TD学習の導出と同様にして，近似ベルマン行動作用素による（Valueベース）オ
ンライン学習法を導出する
近似ベルマン行動最適作用素 ⇨ Q学習（Off-Policy）
近似ベルマン行動期待作用素 ⇨ SARSA（On-Policy）

40
Q学習
各時間ステップtでデータ{𝑎 𝑡, 𝑟𝑡, 𝑠𝑡+1 }が得られる度に最適行動価値関数の推定
値を更新
TD誤差を用いて以下のように書き換え可能
TD誤差
適当な条件下で推定値は真の最適行動価値関数に収束する

41
Q学習の収束性
マルコフ決定過程M(π)の各時間ステップt+1で関数をQ学習
に従い更新するとき，であり，
・の初期化条件：
・累積学習率の条件（ロビンス・モンローの条件）：
を満たすなら，は最適行動価値関数に収束する．
証明略

42
方策オフ型学習（Off-Policy）
Q学習はOff-Policy
挙動方策：ε-greedy方策
推定方策：greedy方策
𝑠𝑡
𝑎 𝑡
𝑠𝑡+1
Q関数の更新
推定方策に挙動方策とは異なる方
策を採用する
Off-Policy
挙動方策（behavior policy）
エージェントが行動を決定するた
めの方策
推定方策（target policy）
行動価値を更新するための方策
𝑎 𝑡+1

43
Q-learning algorithm
1．初期化
推定値を任意に初期化
初期状態𝑠0を環境から観測
2．環境との相互作用
に従い行動𝑎 𝑡を選択し，環境に入力
環境から報酬𝑟𝑡と次状態𝑠𝑡+1を観測
3．学習
推定値を更新
4．終了判定
終了条件を満たしていれば終了
それ以外はとして繰り返す

44
SARSA
近似ベルマン行動期待作用素を用いたオンライン学習手法
TD誤差
方策πで選択した行動で価値関数を更新

45
方策オン型学習（On-Policy）
𝑠𝑡
𝑎 𝑡
𝑠𝑡+1
Q関数の更新
SARSAはOn-Policy
推定方策に挙動方策を採用する
On-Policy
挙動方策：ε-greedy方策
推定方策：ε-greedy方策
挙動方策（behavior policy）
エージェントが行動を決定するた
めの方策
推定方策（target policy）
行動価値を更新するための方策
𝑎 𝑡+1

46
On-PolicyとOff-Policyの違い
Reinforcement Learning : An Introduction
挙動方策
𝜀 = 0.1のε-greedy方策を使用
SARSA
推定方策もε-greedy方策である
ため確率的に崖に落ちるのを避
けた迂回ルートが最適となる
Q-learning
推定方策がgreedy方策であるた
め崖に落ちることがなく最短
ルートが最適となる
しかし，挙動方策により確率的
に崖に落ちるため報酬の総和は
SARSAと比べて小さい

47
Actor-Critic法
方策改善を行う行動器（actor）と，観測データから方策評価を行う評価器
（critic）の2つのモジュールからなるPolicyベースの手法の総称
• Policy ベース
方策を直接的に推定し価値関数による方策評価を参考にして方策を改善して
最適方策を求める
方策評価
(critic)
方策
(critic)
エージェント
方策改善
環境
行動𝑎 𝑡
次状態𝑠𝑡+1
報酬r 𝑡

48
Actor-Critic法
なぜactorとcriticに分けるのか
• 状態行動空間が高次元である場合，行動価値関数をモデル化する必要
があるため方策評価と方策改善の機能を分離して個々にモデル化する
方法が有効
• 環境がマルコフ性を満たしていない場合（6章），最適方策が決定的
方策でないので，確率的方策から最適方策を見つける必要がある．こ
のとき確率的方策のランダム性を決めるパラメータも学習することが
できる

49
AC法の実装例 TD誤差
方策（actor）：ソフトマックス方策モデルで行動選択
critic：TD法に従い価値関数の推定器を学習
TD誤差
TD誤差をactorに送り行動価値を更新する
この方法の意味はアドバンテージ関数を導入することで分かる

50
アドバンテージ関数
より，直感的には行動のみの価値を表す
アドバンテージが正の行動の選択確率を上げ，負の行動の選択確率が下がるよう
に方策を更新することで方策が改善できると考えられる
以下の更新式はアドバンテージに基づく方策改善をしていると解釈可能

51
アドバンテージ関数
ノイズ項
これらを用いて以下の書き換えが可能
（平均ゼロのノイズ）
すなわち，推定アドバンテージが正の行動の選択確率を上げ，負の行動の選択確
率が下がるように方策改善を行なっている
すなわちActor-Critic法はアドバンテージ関数による学習を行なっている

52
アドバンテージ関数の利点
は状態行動空間が高次元であるほど分散が大きくなるため最適方策が
中々収束しない問題がある（方策勾配法など）
これはQ関数が状態変数sと行動変数aの両方に依存するからであり， Q関数から
状態空間の分散を吸収するbaseline関数を引いたアドバンテージで学習すること
で分散を抑える利点がある

53
4章まとめ
環境が未知の場合に方策を学習する（最適方策を求める）手法
・Valueベース
・Q学習（Off-Policy）
・SARSA （On-Policy）
・Policyベース
・Actor-Critic法

強化学習4章

More Related Content

What's hot

Similar to 強化学習4章

More from hiroki yamaoka

強化学習4章

Editor's Notes