RL_chapter1_to_chapter4

2
前半パートの流れ
1章強化学習のための準備
2章動的計画法（強化学習のための準備）
3章探索と活用のトレードオフ
ここから強化学習
4章モデルフリー強化学習
5章モデルベース強化学習
6章関数近似を用いた強化学習
後半パート（来週以降）
7章部分観測マルコフ決定過程
8章深層強化学習

3
1章流れ
• 強化学習とは
• マルコフ性
• マルコフ決定過程
• マルコフ決定過程の時間発展
• 目的関数
• 方策

4
強化学習（Reinforcement Learning) とは
最適な意思決定ルールを求めることを目的とする機械学習の一分野
一般的には，エージェント(行動主体)が累積報酬和の期待値を最大化するような
逐次的意思決定ルール(方策)を学習することが目的
例：キャンペーン最適化問題
ある小売店において，値下げセールなどのキャンペーンをいつ実施すれば，
売り上げの長期平均を最大にできるか
購買意欲
low
購買意欲
mid
購買意欲
high
キャンペーンを実施する
売上＝10
実施しない
売上＝0
実施しない
売上＝0
実施する
売上＝4
実施する
売上＝1
実施しない
売上＝3

5
例：キャンペーン最適化問題
エージェント：キャンペーンを実施するか否かを決める主体
環境：購買意欲の状態遷移
行動：キャンペーンを実施する or しない
状態：客の購買意欲
報酬：売り上げ
方策：各状態において実施するか否かの戦略
購買意欲
低
購買意欲
中
購買意欲
高
キャンペーンを実施する
売上＝10
実施しない
売上＝0
実施しない
売上＝0
実施する
売上＝4
実施する
売上＝1
実施しない
売上＝3
赤矢印が最適な方策

6
強化学習（Reinforcement Learning) とは
この例では，現在の客の購買意欲(状態)に基づいて，キャンペーンを
実施するか否か(行動)によって変化する客の購買意欲(次状態)や得られる
売り上げ(報酬)は既知であるので，最適な方策を簡単に求めることがで
きる（環境が既知である）
環境が既知であれば強化学習でなくとも解ける（2章）
強化学習では環境が未知である問題を扱う
現実の環境が未知である方策の最適化問題は，複雑で簡単には解けない
→ 強化学習では環境に対してマルコフ性という仮定

7
マルコフ性とは
【マルコフ性】
将来の確率変数の条件付き確率分布は現時間ステップ t の値のみに依存
例：サイコロを振って出た目
X1 X2 X 𝟑 X 𝟒 X 𝟓
t回目に出た目 3 1 2 4 1
t回目までに出た目の
最大値
3 3 3 4 4
t回目までに出た目の
中央値
3 2 2 2.5 2
i.i.d
マルコフ性
強化学習では一般的にマルコフ性が成立する状態を観測できるマルコフ決定過程
(確率制御過程)に対する学習法を考える
状態遷移確率
全過去に依存

8
(離散時間)マルコフ決定過程 M(π)={𝑆, 𝐴, 𝑝𝑠0
, 𝑝 𝑇, g , π}
・有限状態集合：
・有限行動集合：
・初期状態確率関数：
・状態遷移確率関数：
・報酬関数：
・方策：
マルコフ決定過程(Markov Decision Process MDP)
連続状態(or 行動)集合における強化学習は6章で扱う

9
マルコフ決定過程の時間発展
𝑠0 𝑎0 𝑠1
1. 時間ステップ t を t＝0 と初期化して，初期状態確率 𝑝𝑠0
に従い初期状態 𝑠0 を
観測する
2. 状態 𝑠t と方策 𝜋 ・ 𝑠𝑡 から，行動𝑎tを選択する
3. 行動 𝑎t を実行し，その結果として報酬関数 𝑔(𝑎t, 𝑠t) から定まる報酬 rt と，状
態遷移確率 𝑝 𝑇 ・ 𝑎t , 𝑠𝑡 から定まる次状態 st+1 を観測する
4. 時間ステップ t = t + 1 とし，手順1．に戻る
𝜋 𝑎0 𝑠0 𝑝 𝑇 𝑠1 𝑎0 , 𝑠0
…𝑝𝑠0
r0〜𝑔(𝑎0, 𝑠0)

10
強化学習とマルコフ決定過程
• マルコフ決定過程と強化学習の主目的
マルコフ決定過程で記述されるような制御対象のシステム(環境)に対して，期
待報酬などの目的関数を最大にするような最適な方策を求めること
マルコフ決定過程では環境を既知の問題を扱う（2章）
強化学習では環境が未知の問題を扱う（4章以降）
典型的には右図のように，エージェント(意思決定者)
が環境との相互作用から方策を学習する
環境
エージェント
行動次状態・報酬
現状態

11
典型的な目的関数
• 典型的な問題設定では，期待報酬や期待割引累積報酬が目的関数として用い
られる
【期待報酬】【期待割引累積報酬】(期待リターン)
は割引率
長期的な利益を尊重するなら，1に近づける
• これらの目的関数は，最適な方策を求める際，時間不変な（定常な）方策の
み考慮すれば良いという性質をもつ(後述)

12
方策にもいろいろある
強化学習の目標：目的関数を最大にする方策を求める
ひとくちに方策といっても単純なものから複雑なものまで様々な方策がある
• 決定的方策
• 確率的方策
• 定常な方策
• 非定常な方策
• マルコフ方策
• 履歴依存の方策

13
方策の分類
(確率的)方策の定義
方策集合
・決定的方策(deterministic policy)（確率的方策の部分集合）

14
方策の分類
𝜋 や 𝜋 𝑑
は，現状態 s のみに依存することからマルコフ方策といい，
時間ステップ t が進展しても方策は変化しないので，定常なマルコフ方策という
stationary
方策系列
・定常な決定的マルコフ方策集合の大きさ

15
方策の分類
・非定常なマルコフ方策（方策が時間変化する）
・非定常な決定的マルコフ方策系列の集合の大きさ
(時間ステップ長を T とする)

16
方策の分類
・履歴依存の方策
非マルコフ方策の中でも最も複雑で表現力の高い方策
現時間ステップ t までの全ての経験の履歴に基づいて行動選択確率を決める
履歴
・履歴依存の決定的方策系列の集合の大きさ

17
方策系列集合の包含関係
履歴依存の方策系列の集合
非定常なマルコフ方策系列の集合定常なマルコフ方策系列の集合
定常な決定的マルコフ方策系列の集合
※緑は確率的方策と仮定
例：状態数 𝑆 = 2，行動数 𝐴 = 2の有限長MDPにおける方策系列集合の大きさ

18
方策
包含関係から，方策系列を引数とする任意の目的関数に対して以下が成り立つ
上の関係式は，履歴依存の方策系列集合から最適な方策系列を求めることができ
ればそれより良い方策系列が存在しないことを示す
最適な方策を見つけるため，以下のような最適化問題が考えられる
一方で，履歴依存の方策系列集合のサイズは時間ステップ t に対して組み合わせ
爆発を起こすため，最適な方策系列を見つけるのは困難
実は，マルコフ方策のみ扱えば多くの場合で十分

19
マルコフ方策の妥当性
任意のマルコフ決定過程 M={𝑆, 𝐴, 𝑝𝑠0
, 𝑝 𝑇, g } と
履歴依存の方策系列に対して，次を満たすような
マルコフ方策の系列が存在する．
どんな履歴依存の非マルコフ方策で行動選択したとしても環境の重要な特徴であ
る各時間ステップ t での 𝑆𝑡 , 𝐴 𝑡 の同時確率は，より簡単な方策であるマルコフ方
策を用いても同様に表すことができる
これを用いて次が成り立つ ⇨ 次ページへ

20
マルコフ方策の十分性
同時周辺確率関数
方策 𝜋 の目的関数 𝑓 を同時周辺確率関数の系列を引数とする
関数 𝑓 を用いて，任意のに対して
と表せるとき，
が成り立つ．
※
※の条件を満たす目的関数についてはマルコフ方策のみを最適化対象にすれば十
分である

21
マルコフ方策の十分性
※を満たす目的関数の例
・有限時間ステップ長Tまでの期待累積報酬
※を満たさない目的関数として，累積報酬の中央値や分位点などがある

22
ここまで
適切な条件を満たす目的関数であれば，それを最大化する方策集合を絞
れることがわかった
目的関数の性質について考える

23
リターン(割引累積報酬)の導入
リターンを用いた一般的な目的関数
リターン 𝐶 ∈ ℝ （確率変数）
・再帰的な構造をもつ
は割引率(ハイパーパラメータ)
長期的な利益を尊重するなら，1に近づける

24
価値関数の導入
価値関数とは
・ある状態 s からマルコフ方策 π に従い行動選択した場合の期待リターン
・ベルマン(期待)方程式（価値関数の再帰ver.）

25
価値関数のイメージ
𝑆𝑡𝑎𝑟𝑡
𝐺𝑜𝑎𝑙
例：移動ロボット（状態が離散）
𝑉(𝑠0)
𝑉(𝑠4)𝑉(𝑠3)
𝑉(𝑠1) 𝑉(𝑠2)
𝑉(𝑠5)
𝑉(𝑠6) 𝑉(𝑠7) 𝑉(𝑠8)

26
ベルマン期待方程式
𝑆 = {𝑠(0), 𝑠(1), 𝑠(2)}
𝐴 = {𝑎(0), 𝑎(1), 𝑎(2)}
𝑠0
(0)
𝑎0
(0)
𝑎0
(2)
𝑎0
(1)
𝑠1
(2)
𝑠1
(1)𝑠1
(0)
𝜋 𝑎0 𝑠0
𝑝 𝑇 𝑠1 𝑎0 , 𝑠0
𝑔(𝑎0, 𝑠0)
次ステップの状態
価値関数はこの時
点で定まっている

27
最適化問題の定式化
目的関数を最大化する最適方策を求める最適化問題として定式化
価値関数を用いると以下のように表せる
ある特定の初期状態
全ての初期状態についての重み付き和
この目的関数を最大化する方策は割引率γに依存する（証明略）

28
最適方策がγに依存しない目的関数
期待リターンの時間平均
・マルコフ連鎖 M={𝑆, 𝑝𝑠0
, 𝑝 𝑀𝐶
π
} が常にエルゴード性を満たす時， 𝑓∞を最大にする
最適方策はγに依存しない
・状態遷移確率

29
エルゴード性
マルコフ連鎖の既約的かつ非周期的である特性のこと
・既約性
マルコフ連鎖の任意の状態が互いに行き来可能
・非周期性
マルコフ連鎖の状態遷移は周期性を持たない

30
エルゴード性
• 定常分布
マルコフ連鎖がエルゴード性を満たす時に唯一の定常分布が存在する
・定常分布は初期状態確率 𝑝𝑠0
に依存しない
・時間ステップ t の状態分布の時間平均や極限に一致

31
最適方策がγに依存しない目的関数(続)
期待リターンの時間平均
・マルコフ連鎖 M={𝑆, 𝑝𝑠0
, 𝑝 𝑀𝐶
π
} が常にエルゴード性を満たす時， 𝑓∞を最大にする
最適方策はγ(割引率)に依存しない
より，

32
より，

33
目的関数：期待リターンの時間平均
• エルゴード性の下，「期待リターンの時間平均」の目的関数の最大化問題は，
「平均報酬」の最大化問題と同等
• この目的関数を最大化する最適方策は割引率γの設定に依存しない
定数

34
1章振り返り
• 強化学習は環境の情報（状態遷移確率，報酬関数）が未知である時，
与えられた目的関数を最大にする方策学習する逐次的意思決定問題
• 目的関数の性質から扱う方策集合はほとんどの場合マルコフ定常方策

Chapter 2
プランニング

36
目次
• プランニングとは
• 動的計画法
• ベルマン方程式
• 動的計画法によるベルマン方程式の解法

37
プランニングとは
環境(のダイナミクス)が既知である場合の逐次的意思決定問題
• やりたいこと
目的関数を最大にする方策（最適方策）を求めたい
• どうやって
動的計画法の考えに基づいて行う
目的関数
目標

38
最適価値関数の導入
最適価値関数
定義より，最適価値関数は目的関数の最適値と一致
⇨ 最適価値関数を求めると最適方策がわかる
1章の議論から，最適価値関数を求めるにはマルコフ方策を考えれば良い

39
最適価値関数
つまり，
再帰式に変形
ベルマン最適方程式

40
動的計画法
最適性の原理を満たす最適化問題を部分問題に分割し、部分問題を再帰的に繰り
返し解くことで解を求めるアプローチの総称
最適性の原理
t
時間ステップ
部分問題
元の問題
部分問題の最適解
元の問題の最適解

41
ベルマン最適方程式とベルマン期待方程式
ベルマン最適方程式
ベルマン期待方程式
動的計画法で最適価値関数，価値関数を求める

42
ベルマン作用素
動的計画法ではベルマン作用素と呼ばれる作用素(写像)を状態関数 𝑣 に適用し，
𝑣 の更新を繰り返すことで，徐々に 𝑣 を(最適)価値関数に近づけることができる
ベルマン期待作用素
ベルマン期待作用素を用いるとベルマン期待方程式がスッキリする
イメージ図
スタート
ゴール

43
ベルマン作用素
ベルマン最適作用素
（参考）ベルマン最適方程式
同様に，ベルマン最適方程式もスッキリ

44
ベルマン作用素の繰り返し適用の表記
方策のベルマン作用素を
から逐次的に関数vに適用する
例

45
ベルマン方程式の意味
ベルマン期待方程式ベルマン最適方程式
これらの式はとは，やを何度適用しても変わらないことを意
味している
このようなとを，との不動点という
不動点
定義域と値域が同じであるような関数や作用素に対し
て，を満たすのこと．またこのようなをの解という
スタート
ゴール

46
ベルマン作用素の性質
ベルマン作用素の単調性
任意の状態関数とが
を満たす時，
a. ベルマン最適作用素について，
b. 任意のマルコフ方策系列のベルマン期待作用素
の積について，
が成り立つ．
任意の状態の関数vの大小関係はベルマン作用素の適用前後で変化しない

47
ベルマン作用素の性質
任意のに対して
が成立する．

48
動的計画法の数理
無限時間ステップ長のマルコフ決定過程に対して最適方策を求める上で有用な動
的計画法の性質を見る
• 動的計画法の収束性
ベルマン作用素の適用で不動点に到達するか
• ベルマン方程式の解の一意性
ベルマン作用素の不動点は唯一つか
• ベルマン作用素の縮小性
ベルマン作用素の適用で不動点にどれくらい近づいているか

49
動的計画法の収束性
a. 任意の有界の状態関数に対して，ベルマン最適作用素をk回
繰り返し適用した関数は最適価値関数に漸近的に等しくなる．
b. 任意の有界の状態関数に対して，マルコフ方策系列
のベルマン期待作用素を適用した関数
はの価値関数に漸近的に等しく
なる．
ベルマン作用素を繰り返し適用することで，初期の状態関数vに依らず，不動点
である最適価値関数や価値関数を求めることができる

50
ベルマン方程式の解の一意性
a. ベルマン最適方程式の解になる関数は，
を満たすが，それは最適価値関数ただ１つ．
b．定常方策のベルマン期待方程式の解になる関数は，
を満たすが，それはの価値関数ただ１つ．

51
ベルマン作用素の縮小性
任意の有界関数とに対して，
a. ベルマン最適作用素について，
b. 任意ののベルマン期待作用素について，
が成立する．

52
縮小性の意味
𝑣′
に不動点 𝑉∗
を代入すると
イメージ図
不動点 𝑉∗
と 𝐵∗
𝑘
𝑣 のキョリは反復回数kについて指数関数的に減少する

53
最適方策
そもそも最適方策が知りたくて最適価値関数を求めていた
任意の初期状態からの期待リターンを最大化する
方策を最適方策と呼ぶ．
最適方策の存在性は自明ではない
存在するか否か，存在する場合扱う方策集合の大きさは？

54
最適方策の存在性と必要十分条件
最適方策になりうる定常な決定的方策が存在し，あるが最適
方策である.
ベルマン期待作用素によるベルマン期待方程式の不動点が最適価値関数
であること，すなわち
が成立する．
コレが成り立てばある定常な決定的方
策が最適方策として存在する

55
プランニングとは（再掲）
環境(のダイナミクス)が既知である場合の逐次的意思決定問題
• やりたいこと
目的関数を最大にする方策（最適方策）を求めたい
• どうやって
動的計画法の考えに基づいて行う
目的関数
目標

56
動的計画法による解法
MDPとベルマン方程式のもとで最適方策を見つける方法
• Value ベース
最適価値関数を直接的に推定して，この関数が最大となる行動を選択するよ
うに最適方策を求める
アルゴリズム：価値反復法
• Policy ベース
方策を直接的に推定し価値関数による方策評価を参考にして方策を改善して
最適方策を求める
アルゴリズム：方策反復法

57
価値反復法
ベルマン最適方程式を状態関数に繰り返し適用することで最
適価値関数を求め，最適方策を見つける方法

58
価値反復法
入力：終了閾値
出力：最適方策最適価値関数
1．初期化
価値関数を任意に初期化
2．価値関数の更新
3．収束判定
もしなら，以下の決定的方策を求めて終了
それ以外は，として，手順2．に戻る

59
方策反復法
与えられた方策のもとでベルマン方程式を用いて価値関数を
計算するステップ（方策評価）と，得られた価値関数が最大
値を取るように方策を更新するステップ（方策改善）を交互
に繰り返して最適方策を見つける方法

60
4．収束判定
もし，ならば終了
それ以外は，として，手順2．へ戻る
1．初期化
決定的方策を任意に初期化
2．方策評価
方策のベルマン方程式（に関する連立一次方程式）
方策反復法
入力：
出力：最適方策最適価値関数
を解いて，の価値関数を求める
3．方策改善
改善方策を求める

61
方策評価
状態価値関数𝑉 𝜋
(𝑠)は状態sにおいて方策𝜋に従い続けた際の価値を表す
つまり， 𝑉 𝜋
(𝑠)は定常方策𝜋 𝑑
の良さを表す評価指数となる
ベルマン方程式を解くとはすなわち方策の評価を行なっていることになる
解析的に解く
逆行列の計算量が𝑂(|𝑆|3)なので状態数が多い場合，価値反復法のように繰り返
しベルマン作用素を適用させて𝑉 𝜋
(𝑠)を近似的に求める（反復方策評価）

62
反復方策評価
𝑠5
𝑠8𝑠7
𝑠6𝑠4
𝑠3𝑠2𝑠1
𝑠9
𝑠8
𝑠6𝑠4
𝑠2
𝑉1
π
(𝑠)
𝑉0
π
(𝑠)
1ステップ遷移
更新
𝑠5
𝑠8𝑠7
𝑠6𝑠4
𝑠3𝑠2𝑠1
𝑠9
𝑠8
𝑠6𝑠4
𝑠2
𝑉2
π
(𝑠)
𝑉1
π
(𝑠)
1ステップ遷移
更新
・・・

63
方策改善の単調性
方策反復法の任意の繰り返し回数の方策とについて，
が成立する．また，
が成立する．
方策の更新により価値関数が変化しないなら，方策は最適方策に収束している
方策が最適方策に収束していないなら，方策の更新によりある状態で価値関数
が必ず改善される

64
2章まとめ
ベルマン方程式を状態関数に繰り返し適用することで真の価値関数が得
られる
・価値反復法
・方策反復法
最適方策は決定的マルコフ定常方策から見つかる
価値関数は方策を評価する指標になる

3章探索と活用のトレードオフ

66
やっと強化学習
ここからは環境(MDP)の情報が未知と仮定 ⇨ 強化学習
MDPの情報はエージェントが環境に働きかけて得たデータから推測する
データが少ないと局所解に陥る可能性大
・エージェントは環境からデータを収集するために行動 (探索)
・収集したデータを利用して期待報酬最大となるように行動 (活用)
オンライン学習では，最適方策以外に上手く探索する方策も知りたい
探索か活用のどちらか一方に偏るのは好ましくない
探索と活用のトレードオフを考慮する必要

67
探索と活用のトレードオフ
• 活用：期待報酬が最大となる行動をとる(greedy)
• 探索：greedyでない行動をとる
探索と活用のトレードオフに関する評価指標
・リグレット
・サンプル複雑度
探索と活用のトレードオフを実現する手法
・ε貪欲方策モデル，ソフトマックス方策モデル
・不確かなときは楽観的に（ヒューリスティック）

68
リグレット
「神のみぞ知る最適方策に従って得た報酬の期待値」と比べて，「学習途中の方
策に従って得た報酬の期待値」の良さ(探索と活用のトレードオフ)を測る指標
• リグレットが小さいほどデータの探索と活用が適切に考慮できている
• この定義では，時間割引なしの期待累積報酬しか扱えない(多腕バンディッド
問題など)
• 最適性の原理を満たさない問題に適用できない

69
サンプル複雑度
各時間ステップ t の状態s 𝑡で方策𝜋 𝑡がε最適でなかった回数の総和
ε最適方策
目的関数
が最適性の原理を満たし，ε > 0に対してある方策 π がある状態 s で
を満たすとき，πは状態sでε最適であるといい，πが任意のsで上式を満たすとき，
πはε最適方策であるという
最適方策
時間ステップtにおける「最適価値」と
「学習途中の価値」との差

70
サンプル複雑度の注意点
サンプル複雑度は学習速度を主に評価している
• 各時間ステップtの方策𝜋 𝑡がε最適か否かの2値的にしか評価していない
• 学習途中のリグレットが大きい or 小さい方策のどちらでも，ε最適な方策な方
策を求めるまでのステップ数が変わらなければサンプル複雑度は大して変わ
らない
MDPが既約でない場合，サンプル複雑度が役に立たない可能性
明らかに良くない状態であるが
サンプル複雑度が増えなくなる

71
探索と活用のトレードオフ
・リグレット

72
方策モデル
方策をモデル化する2つのアプローチ
・NNなどを用いて，状態を入力として行動（の確率分布）を出力する
・行動価値関数が最大となるような行動（の確率分布）を出力する ⇦ 今回はコレ
（効用関数）
方策の定義（再掲）
行動価値関数（状態sで行動aに従った後は方策πに従う場合の割引期待累積報酬）
価値関数
𝑄πの推定値を𝑞(𝑠, 𝑎)とする時，𝑞 𝑠, 𝑎 < 𝑞(𝑠, 𝑎′)ならば状態sでは𝑎′の方が良い行動
⇨ 貪欲方策モデル

73
行動価値関数のイメージ図
例：移動ロボット（状態行動空間が離散）
𝑆𝑡𝑎𝑟𝑡
𝐺𝑜𝑎𝑙
𝑠0
𝑠1 𝑠2
𝑠3 𝑠5
𝑠6 𝑠7 𝑠8
上右左下
𝑠0 0 3 0 3
𝑠1 0 5 1 5
𝑠2 0 0 1 7
𝑠3 1 5 0 5
𝑠4 1 7 1 7
𝑠5 1 0 1 10
𝑠6 1 7 0 0
𝑠7 1 10 1 0
𝑠8 0 0 0 0
行動
状態
テーブル形式（ルックアップテーブル）

74
貪欲方策モデル
常に行動価値が最大となる行動を選択する決定的方策モデル
• データの「活用」のみを目的とした方策モデル
• 行動価値が最大となる行動を選択するため，新しい未知の経験が得にくい
「探索」も考慮に入れた貪欲方策モデル
ε貪欲方策モデル

75
ε貪欲方策モデル
貪欲方策モデルを確率的方策に一般化ハイパーパラメータ
・ε が 1 に近いほどランダムに行動選択し易い
（「探索」行動を選択し易い）
・ε が 0 に近いほど行動価値を最大にする行動を選択し易い
（「活用」行動を選択し易い）
離散環境(状態・行動が離散的)での強化学習の応用を研究している論文ではほと
んどがこの方策モデルを使っている
では，状態が連続の環境では？ ⇨ ソフトマックス方策モデル

76
ソフトマックス方策モデル
ε貪欲方策同様，貪欲方策を確率的方策に拡張
ε貪欲と何が違う？ ⇨ 微分ができる！
ソフトマックス方策
逆温度
βが大きい ⇨ 相対的に行動価値の大きい行動を選択し易い
βが小さい ⇨ ランダムに行動を選択し易い
β → ∞の極限で，貪欲方策モデルと等価

77
ソフトマックス方策モデル
偏微分
行動価値関数，逆温度を微小変化させた際の方策の変化がわかる
⇨ 直接方策を学習させる，方策勾配法で用いられる
行動も連続である場合はガウス方策モデルが用いられることが多い

78
不確かなときは楽観的に
貪欲に行動選択を行う場合の問題点
・ 𝑞(𝑠, 𝑎)が過大評価された場合，行動𝑎が最適であると誤判断する可能性
⇨ (s, 𝑎)に関するデータが増えるので𝑞(𝑠, 𝑎)を下方修正できる可能性
・ 𝑞(𝑠, 𝑎)が過小評価された場合，行動𝑎以外が最適であると誤判断する可能性
⇨ 今後(s, 𝑎)に関するデータが得られず𝑞(𝑠, 𝑎)を上方修正できない可能性
行動価値関数を工夫することで「探索と活用のトレードオフ」を考慮する
これが非常にマズい
永遠に状態sにおいて誤った行動選択をし続ける可能性があるから
この問題を回避するためのヒューリスティック
「不確かなときは楽観的に」

79
不確かなときは楽観的に
𝑞(𝑠, 𝑎)が不確実な時は優先的に行動𝑎を選択するようにする
不確実度(探索が必要な度合い)
(𝑠, 𝑎)の経験数の増加につれて減少
活用に関する量＋
多腕バンディッド問題 ⇨ UCB1法

80
多腕バンディッド問題とは
多腕バンディッド問題に対して活用と探索のトレードオフを考慮したアプローチ
多腕バンディッド問題
• 状態数が1で行動数がM>1
• アームを引く（行動する）と報酬+1が得られるが当たる確率はアームによっ
て異なる
目的
指定された試行回数において期待報酬を最大化したい
𝑎1 𝑎2 𝑎3 𝑎 𝑀・・・

81
UCB1
対象のアームを選択した回数の逆数で重み付けを行うことで，選択回数の少ない
アームを選択し易くする手法
選択回数nが大きいほど不確実度は小さい

82
UCB1の導出
Hoeffdingの不等式を用いる
確率変数の期待値と標本平均の誤差の確率をuで測っている
𝑋𝑡の値域は[0,1]，で標本平均は
この時， Hoeffdingの不等式が成り立つ
より

83
UCB1の導出
を代入して
対象の試行回数が少ないほど，推定価値は不確実（分散）は大きいが
試行回数が大きくなるにつれ，不確実性は小さくなる

84
3章まとめ
・リグレット

4章モデルフリーな強化学習

86
強化学習の分類
MDP上の逐次的意思決定問題
環境が既知（動的計画法 2章）環境が未知（強化学習）
モデルベース（5章）モデルフリー（4章）
On-policy
・SARSA
Off-policy
・Q-learning
・価値反復法
・方策反復法
TD(λ)法
（モンテカルロ法）

87
4章の概要
2章では環境の情報（報酬関数・状態遷移確率）が既知と仮定していたの
でベルマン方程式から直接価値関数を計算して最適方策を求めることが
可能だった
4章以降では環境の情報が未知であるため，環境とエージェントの相互作
用により得られるデータ（状態遷移や報酬）から何らかの方法で価値関
数を推定して最適方策を求める必要がある
価値関数の推定方法
• モンテカルロ法
• TD学習
以降，方策πは所与であると仮定

88
手順
1. 方策πを用いて終端状態までデータをサンプルする
2. 価値関数の推定
3. エピソード終了毎に価値関数を更新
モンテカルロ法
𝑠
𝑎 𝑎𝑎
𝑠𝑠𝑠
𝑎
𝑠 終端状態𝑡 = 𝑇
𝑡 = 1
𝑡 = 0
・
・
・
モンテカルロ法のバックアップ木
モンテカルロ法の問題点
• エピソード終了まで価値関数を更新できない
ため，オンライン学習に向かない
• 推定値の偏り（バイアス）が小さい反面，推
定値の分散（バリアンス）が大きくなる

89
TD学習(時間的差分学習：Temporal Difference learning)
𝑠
𝑎 𝑎𝑎
𝑠𝑠𝑠
𝑎
𝑠
オンラインで価値関数の更新を行う手法
推定価値関数の更新式
1ステップ毎に価値関数の更新を行う

90
おまけ（動的計画法）
𝑠0
(0)
𝑎0
(0)
𝑎0
(2)
𝑎0
(1)
𝑠1
(2)
𝑠1
(1)𝑠1
(0)
𝜋 𝑎0 𝑠0
𝑝 𝑇 𝑠1 𝑎0 , 𝑠0
𝑔(𝑎0, 𝑠0)
𝑎1
(2)
𝑠T
2

91
ベルマン作用素の標本近似
状態関数にベルマン作用素を繰り返し適用することで，状態関数は(最適)価値関
数に収束する（2章）
ベルマン期待作用素
環境の情報（状態遷移・報酬）が未知なのでベルマン作用素の計算が不可
ここでは，方策πに従って収集した履歴データ(標本)
から，ベルマン作用素を標本近似することを考える

92
ベルマン作用素の標本近似
近似ベルマン期待作用素
M(π)はエルゴード性を満たすと仮定
近似ベルマン期待作用素はベルマン期待作用素に収束する

93
ベルマン作用素への収束
Tが有限であっても近似ベルマン作用素の条件付き期待値はベルマン作用素に一
致する
近似ベルマン期待作用素がベルマン期待作用素に収束することがわかったので，
近似ベルマン期待作用素を用いて価値関数を求めることを考える

94
バッチ学習でのベルマン方程式
ある方策 π (固定)に従い収集した履歴データℎ 𝑇
π
が既に手元にある（バッチ学習）
推定価値関数の更新式（近似ベルマン方程式）
繰り返し適用することで，縮小性より不動点に収束する
T → ∞ の極限で 𝐵はBπ
に収束するため， 𝑉∞は𝑉π
に一致する
ベルマン方程式

95
各時間ステップtでを経験する度に履歴データをℎ 𝑡
π
を更新する
オンライン学習でのベルマン方程式
バッチ学習と同様に推定価値関数を次式のように更新できる
しかし，履歴データを全て保持し続ける必要
全ての状態について計算する必要があるため計算量も大きい
取得したデータのみで更新したい

96
オンライン学習でのベルマン方程式
ロビンス・モンローの条件
を満たせば，t → ∞ の極限で以下が成り立つ (確率的近似の収束性)
ベルマン方程式の一意性(2章)より 𝑉は真の価値関数𝑉π
に収束する
ロビンス・モンローアルゴリズム

97
ベルマン方程式の解の一意性（再掲）
a. ベルマン最適方程式の解になる関数は，
を満たすが，それは最適価値関数ただ１つ．
b．定常方策のベルマン期待方程式の解になる関数は，
を満たすが，それはの価値関数ただ１つ．

98
TD学習（時間的差分学習）
上式を解釈しやすいように以下のように書き換える
次ステップの価値の推定値と現在の価値の推定値の差分
TD誤差
新しい推定値 ← 古い推定値＋ステップサイズ（新しい推定値ー古い推定値）
確率的勾配降下法と同じ原理

99
TD学習
[入力] S，Aは既知．行動の入力に対して次状態と報酬を出力するモデル．
π，γ，α，終了条件．
[出力] 方策πの推定価値関数
1. 初期化
推定価値関数を任意に初期化・t＝0に初期化・初期状態𝑠0を観測
2. 環境との相互作用
方策に従い行動𝑎 𝑡を選択し環境に入力，環境から報酬𝑟𝑡と次状態𝑠𝑡+1を観測
3. 学習
TD誤差を計算
推定価値関数を更新
4. 終了判定
終了条件を満たしていれば終了
それ以外は手順2から繰り返す

100
TD(λ)学習
TD学習の一般化 ⇨ TD(λ)学習
𝑆𝑡
𝑆𝑡+1
𝑟𝑡
Feedback
𝑆𝑡
𝑆𝑡+1
𝑟𝑡
𝑆𝑡+𝑛
𝑟𝑡+𝑛−1
TD(0)
Feedback
・・・
Feedback
𝑆𝑡
𝑆𝑡+1
𝑟𝑡
𝑟𝑡+𝐹𝑖𝑛−1
モンテカルロ
𝑆 𝐹𝑖𝑛 終端状態

101
TD(λ)学習
Feedback
𝑆𝑡
𝑆𝑡+1
𝑟𝑡
𝑆𝑡+𝑛
𝑟𝑡+𝑛−1
nステップ切断リターン
TD誤差
TD(0)のTD誤差
TD(λ)

102
前方観測的なTD(λ)学習
nステップ切断リターンの平均
TD誤差
𝑐𝑡
1
λ𝑐𝑡
2
λ 𝑛−1
𝑐𝑡
𝑛
・・・
Feedback
Feedback
Feedback
モンテカルロ
t
t＋1
t＋2
t＋n
・
・
・
前方観測的なTD(λ)学習

103
前方観測的なTD(λ)学習の問題点
λが大きいほど，TD誤差の近似に非常に大きな切断ステップ数Nが必要なのでTD
誤差の計算に大きな時間遅れが生じ，価値関数の更新に時間がかかる
オンライン学習にとって致命的
現時間ステップ T までのTD誤差を使う方法
後方観測的なTD(λ)学習

104

105
∞Tt
τ
時間ステップ T 時点では第1項のみ計算可能
時間ステップ T までに状態 s に訪問した時間ステップの集合を以下で定義
状態 s の時間ステップ T までのTD(λ)誤差の和

106
状態 s の時間ステップ T までに計算可能な誤差項
時間ステップ T 以降の誤差項
これらを用いて，

107
δとそれ以外に分けて式変形
以下のように新たなTD誤差（後方観測的なTD(λ)誤差）を定義する
エリジビリティ・トレース

108
＋
＋
・・・
✖️
𝑧𝑡,λ(𝑠)は状態sに直近どれだけ滞在したかを表す統計量と解釈でき，の大小
によってどの程度過去の情報を現在の価値に反映させるかを調整する

109
以上より，前方観測的なTD(λ)学習の近似として以下の更新式が考えられる
∞Tt
τ
Tが大きくなるほどはと比べて相対的に大きくなる
したがって，となり，後方観測的なTD(λ)学習は前方観測的なTD(λ)
学習の近似となる

110
実際，前方観測的なTD(λ)誤差と後方観測的なTD(λ)誤差の時間平均は一致する

111
前方と後方の違い
前方観測的なTD(λ)学習後方観測的なTD(λ)誤差
• 前方観測的なTD(λ)では時間ステップtに滞在している状態𝑠𝑡についてのみ推定
価値関数の更新をしないが，後方観測的なTD(λ)ではすべての状態について更新
する
• 後方観測的なTD(λ)誤差は現在の経験から求まるため即座に推定価値関数の更新
ができるためオンライン学習に向いている

112
ベルマン最適作用素の近似
モンテカルロ学習やTD(λ)学習ではベルマン期待作用素の近似を考えた手法だった
ベルマン最適作用素についても近似を考える
最適作用素は期待作用素のような単純な標本近似が適用できない（後述）
ベルマン作用素と価値関数に行動空間を追加したベルマン行動作用素と行動価値
関数を定義し，その標本近似を考える
行動価値関数によって行動についての価値が分かるようになる（重要）
Valueベース Q学習 SARSA法
Policyベース Actor Critic法

113
ベルマン最適作用素の標本近似を考える
価値反復法
ベルマン最適作用素を状態関数に繰り返し適用して最適価値関数を求める方法
第n繰り返し目の更新式
max演算子により単純に標本近似できない
推定行動価値関数
𝑄 𝑛を用いた更新式の書き換え
標本近似できる形にもってく

114
ベルマン最適作用素の標本近似
以下のように価値関数の更新式を行動価値関数の更新式へ拡張ができる
ここで関数についての作用素を以下で定義
ベルマン行動最適作用素
上記を用いて更新式の書き換えを行う
これを繰り返し行うことで推定行動価値関数は最適行動価値関数に収束する

115
最適方策の推定
価値反復法に基づいて適当な閾値𝜖 > 0を用いて
収束していれば，最適方策は以下の通り推定できる
収束条件
ベルマン行動最適作用素の性質について考える
作用素の適用は妥当か？

116
最適行動価値関数の導入
行動価値関数（状態sで行動aに従った後は方策πに従う場合の割引期待累積報酬）
最適行動価値関数
最適価値関数

117
価値関数と行動価値関数の関係
ベルマン方程式の解の一意性より

118
ベルマン行動最適作用素の収束性
価値反復法の収束性より任意の初期関数に対して
これらの結果より任意の関数に対して

119
ベルマン行動最適作用素の収束性
最適価値関数
最適価値関数の定義により
ベルマン行動最適作用素を繰り返し適用することで，初期関数に依らず最適行
動価値関数を求められる
2章の議論と同様にはの唯一の不動点であることが示せる
が縮小写像であることも同様（証明略）

120
ベルマン行動方程式
ベルマン行動最適方程式
ベルマン行動最適作用素
ベルマン行動期待作用素
についてもと同様

121
ベルマン行動作用素の標本近似
ベルマン行動最適（or 期待）作用素の計算には状態遷移確率などの情報が必要
履歴データから作用素を標本近似することを考える
近似ベルマン行動期待作用素

122
ベルマン行動作用素の標本近似
近似ベルマン行動最適作用素
（ベルマン最適作用素は上式のように標本近似できなかった）
近似ベルマン行動作用素は近似ベルマン作用素同様，縮小性や不動点の唯一性な
どベルマン行動作用素と同じ特徴を持つ

123
オンライン学習
TD学習の導出と同様にして，近似ベルマン行動作用素による（Valueベース）オ
ンライン学習法を導出する
近似ベルマン行動最適作用素 ⇨ Q学習（Off-Policy）
近似ベルマン行動期待作用素 ⇨ SARSA（On-Policy）

124
Q学習
各時間ステップtでデータ{𝑎 𝑡, 𝑟𝑡, 𝑠𝑡+1 }が得られる度に最適行動価値関数の推定
値を更新
TD誤差を用いて以下のように書き換え可能
TD誤差
適当な条件下で推定値は真の最適行動価値関数に収束する

125
Q学習の収束性
マルコフ決定過程M(π)の各時間ステップt+1で関数をQ学習
に従い更新するとき，であり，
・の初期化条件：
・累積学習率の条件（ロビンス・モンローの条件）：
を満たすなら，は最適行動価値関数に収束する．
証明略

126
方策オフ型学習（Off-Policy）
Q学習はOff-Policy
挙動方策：ε-greedy方策
推定方策：greedy方策
𝑠𝑡
𝑎 𝑡
𝑠𝑡+1
Q関数の更新
推定方策に挙動方策とは異なる方
策を採用する
Off-Policy
挙動方策（behavior policy）
エージェントが行動を決定するた
めの方策
推定方策（target policy）
行動価値を更新するための方策
𝑎 𝑡+1

127
Q-learning algorithm
1．初期化
推定値を任意に初期化
初期状態𝑠0を環境から観測
2．環境との相互作用
に従い行動𝑎 𝑡を選択し，環境に入力
環境から報酬𝑟𝑡と次状態𝑠𝑡+1を観測
3．学習
推定値を更新
4．終了判定
終了条件を満たしていれば終了
それ以外はとして繰り返す

128
SARSA
近似ベルマン行動期待作用素を用いたオンライン学習手法
TD誤差
方策πで選択した行動で価値関数を更新

129
方策オン型学習（On-Policy）
𝑠𝑡
𝑎 𝑡
𝑠𝑡+1
Q関数の更新
SARSAはOn-Policy
推定方策に挙動方策を採用する
On-Policy
挙動方策：ε-greedy方策
推定方策：ε-greedy方策
挙動方策（behavior policy）
エージェントが行動を決定するた
めの方策
推定方策（target policy）
行動価値を更新するための方策
𝑎 𝑡+1

130
On-PolicyとOff-Policyの違い
Reinforcement Learning : An Introduction
挙動方策
𝜀 = 0.1のε-greedy方策を使用
SARSA
推定方策もε-greedy方策である
ため確率的に崖に落ちるのを避
けた迂回ルートが最適となる
Q-learning
推定方策がgreedy方策であるた
め崖に落ちることがなく最短
ルートが最適となる
しかし，挙動方策により確率的
に崖に落ちるため報酬の総和は
SARSAと比べて小さい

131
Actor-Critic法
方策改善を行う行動器（actor）と，観測データから方策評価を行う評価器
（critic）の2つのモジュールからなるPolicyベースの手法の総称
• Policy ベース
方策を直接的に推定し価値関数による方策評価を参考にして方策を改善して
最適方策を求める
方策評価
(critic)
方策
(critic)
エージェント
方策改善
環境
行動𝑎 𝑡
次状態𝑠𝑡+1
報酬r 𝑡

132
Actor-Critic法
なぜactorとcriticに分けるのか
• 状態行動空間が高次元である場合，行動価値関数をモデル化する必要
があるため方策評価と方策改善の機能を分離して個々にモデル化する
方法が有効
• 環境がマルコフ性を満たしていない場合（6章），最適方策が決定的
方策でないので，確率的方策から最適方策を見つける必要がある．こ
のとき確率的方策のランダム性を決めるパラメータも学習することが
できる

133
AC法の実装例 TD誤差
方策（actor）：ソフトマックス方策モデルで行動選択
critic：TD法に従い価値関数の推定器を学習
TD誤差
TD誤差をactorに送り行動価値を更新する
この方法の意味はアドバンテージ関数を導入することで分かる

134
アドバンテージ関数
より，直感的には行動のみの価値を表す
アドバンテージが正の行動の選択確率を上げ，負の行動の選択確率が下がるよう
に方策を更新することで方策が改善できると考えられる
以下の更新式はアドバンテージに基づく方策改善をしていると解釈可能

135
アドバンテージ関数
ノイズ項
これらを用いて以下の書き換えが可能
（平均ゼロのノイズ）
i以上より，推定アドバンテージが正の行動の選択確率を上げ，負の行動の選択確
率が下がるように方策改善を行なっている
つまり，ここでのActor-Critic法はアドバンテージ関数による学習を行なっている

136
アドバンテージ関数の利点
は状態行動空間が高次元であるほど分散が大きくなるため最適方策が
中々収束しない問題がある（方策勾配法など）
これはQ関数が状態変数sと行動変数aの両方に依存するからであり， Q関数から
状態空間の分散を吸収するbaseline関数を引いたアドバンテージで学習すること
で分散を抑える利点がある

137
4章まとめ
環境が未知の場合に方策を学習する（最適方策を求める）手法
・Valueベース
・Q学習（Off-Policy）
・SARSA （On-Policy）
・Policyベース
・Actor-Critic法

138
参考文献
https://www.kspub.co.jp/book/detail/5155912.html
https://www.kspub.co.jp/book/detail/5172513.html
http://www.incompleteideas.net/book/the-book-2nd.html
https://www.shoeisha.co.jp/book/detail/9784798159928
http://yagami12.hatenablog.com

RL_chapter1_to_chapter4

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to RL_chapter1_to_chapter4

Similar to RL_chapter1_to_chapter4 (20)

More from hiroki yamaoka

More from hiroki yamaoka (12)

Recently uploaded

Recently uploaded (8)

RL_chapter1_to_chapter4

Editor's Notes