強化学習6章

関数近似を用いた強化学習

2
目次
概要
 価値関数の関数近似
• テーブル形式方法の拡張
• 損失関数に基づく近似価値関数学習方法
• ベルマン残差の最小化
• 射影ベルマン残差の最小化
• 関数近似器の選択と正則化
 方策の関数近似
• 方策学習の概要
• 方策勾配法の基礎
• モンテカルロ方策勾配法

3
概要
𝑉(𝑠1)
𝑉(𝑠5)𝑉(𝑠4)
𝑉(𝑠2) 𝑉(𝑠3)
𝑉(𝑠6)
𝑉(𝑠7) 𝑉(𝑠8) 𝑉(𝑠9)
状態空間が離散（テーブル形式）状態空間が連続（関数近似）
𝑠
𝑉(𝑠)
状態・行動空間が連続などの場合，状態・行動数が膨大になりテーブル形式の学
習は現実的には困難
解決方法の例
• 連続値を細分化して離散化 ⇦ 根本的な解決にはならない
• 関数で表現する ⇦ 今回はコレ

4
関数で近似することのメリット
• 連続値が扱える
• テーブル形式では未到達や少数のサンプルしかない状態の価値は不確実性が
高いが，状態行動空間上で滑らかに変化する関数で近似することで補間・外
挿といった汎化が可能
関数で近似することのデメリット
• 収束性の保証がテーブル形式と比べて難しい
概要
𝑠
𝑉(𝑠)
𝑉(𝑠1) 𝑉(𝑠6)
𝑉(𝑠4)
𝑉(𝑠3)
𝑉(𝑠2)
𝑉(𝑠5)
𝑠
𝑉(𝑠)
𝑉(𝑠1) 𝑉(𝑠6)
𝑉(𝑠4)
𝑉(𝑠3)
𝑉(𝑠2)
𝑉(𝑠5)

5
パラメータで規定される関数近似器，
を用いて，を近似するとは
価値関数の関数近似
となるパラメータを学習するということ
代表的な関数近似器
• 線形関数近似
基底関数
以前までの議論同様，状態関数にベルマン作用素を適用させ収束した価値関数
（の近似）を求めたい

6つまり，状態関数が部分空間 𝜈から出ないように更新を行う必要がある
注意点
関数近似器族
状態行動空間は連続であるとすると，
したがって関数近似器族に含まれない状態関数が存在する
この時ベルマン作用素を適用して得られる状態関数が部分空間
に含まれているとは限らない

7
単純なパラメータ更新アルゴリズム（バッチ学習）
環境が既知であるとして真のベルマン作用素が与えられていると仮定
1. 各状態で目的変数を算出
2. 関数近似器のパラメータを更新
関数近似誤差
固定
解析的に解く場合，以下の最適化問題を解く
ωについて微分してゼロ

8
関数近似の場合の収束性
関数近似しない場合は学習率など適切に設定すれば価値関数は収束したが，関数
近似の場合は（関数近似による）近似誤差の影響で発散する可能性がある
発散する例：行動のない2状態のマルコフ報酬過程
S=1 S=2
r=0
r=0
𝜔 = 0の時の関数近似器は真の価値関数と一致するため，この例は関数近似器が
真の価値関数を含んでいる理想的なケース（かなり極端な例ですが．．．）

9
関数近似の場合の収束性
環境が既知で真のベルマン作用素が与えられている前提でパラメータωを更新
関数近似誤差
パラメータωは更新の度に
6
5
γ倍され，関数近似誤差は(6
5
γ)2倍されるため
初期パラメータω0 ≠ 0でγ >
6
5
の場合に発散する

10
近似TD法
4章で扱ったTD法などテーブル形式でのオンライン学習を関数近似器に拡張する
テーブル形式のTD法
・価値関数の更新式
TD誤差
関数近似器を用いた近似TD法
・パラメータの更新式

11
近似TD法
をまわりでテイラー展開
テーブル形式の更新式とほぼ同様の更新式が導出できるのでパラメータ更新
は，妥当であることがわかる

12
その他のオンライン学習への関数近似適用
行動価値関数の学習に関数近似器を用いる場合
パラメータ更新
• 近似Q学習法
• 近似SARSA法

13
• 関数近似器に非線形関数を用いた場合，収束性の保証はない
• 線形関数近似の場合
• 近似TD学習はテーブル形式と同様の条件で収束
• 近似Q学習の場合
γ ≪ 1 もしくは挙動方策π 𝑏
と基底関数について
を満たせば収束する
割引率γは強化学習では一般的に1に近い値に設定される
挙動方策と推定方策がほぼ一致する必要（Off-Policyでなくなる）
• 近似SARSA
方策モデルがパラメータωに関してリプシッツ連続，かつ方策が常に任意
の状態sで各行動𝑎の選択確率がε > 0であるという条件を満たせば収束
ε-greedy方策はパラメータωの変化に対して不連続に変化してしまう
テーブル形式で収束が保証されているGLIE方策も使えない
収束性について

14
損失関数に基づく近似価値関数学習法
ここまで紹介した手法は収束性の保証が難しかったり，逆に発散する可能性がある
これは何らかの損失関数最小化に基づく方法になっていないことが原因
損失関数
パラメータ更新
目標値予測値
強化学習には目標値が存在しないため，目標変数と予測値の誤差から規定される
損失関数を扱うことはできない
教師あり学習（回帰問題）

15
関数近似のための損失関数
方策πは固定で，真のベルマン期待作用素𝗕，もしくはその標本近似 𝗕が与えられ
ている前提で代表的な2種類の損失関数を導入する
• ベルマン残差
• 射影ベルマン残差
ベルマン残差
射影ベルマン残差
関数近似誤差
部分空間
直交射影作用素

16
には，初期状態分布や挙動方策の定常分布などを使用
全ての状態について近似誤差を最小にするのは現実的に不可能なので各状態にお
ける近似誤差のトレードオフを行っていると解釈できる
ベルマン残差最小化による学習
ベルマン残差：

17
ベルマン残差を最小にする最適パラメータの導出
より
実際は環境が未知なのでやを計算できない
したがって履歴データから最適パラメータを推定する

18
履歴データ（標本）をもとに推定するには状態𝑠𝑡から次状態𝑠𝑡+1を2回サンプリング
を行う必要がある（二重サンプリング問題）
状態𝑠𝑡から次状態𝑠𝑡+1をサンプルした後， 𝑠𝑡に戻って再度次状態𝑠𝑡+1をサンプルす
る必要があるため手間がかかる
（状態遷移が決定的の場合は二重サンプリングは不必要）
損失関数の重みに定常分布を用いる（マルコフ決定過程がエルゴード性を満たす）
最適パラメータωBR
∗
の推定量

19しかし一般的に𝐿 𝑇𝐷を最小にする価値関数は真の価値関数ではないことに注意
残差勾配法
• 二重サンプリングを行いベルマン残差を最小化するオンラインパラメータ更新式
• 残差勾配法：二重サンプリングを諦めて単一の次状態のみからパラメータを更新
残差勾配法は期待二乗TD誤差という損失関数にもとづいてパラメータ更新を行
うので安定した学習が可能
期待二乗TD誤差

20
関数近似のための損失関数
方策πは固定で，真のベルマン期待作用素𝗕，もしくはその標本近似 𝗕が与えられ
ている前提で代表的な2種類の損失関数を導入する
ベルマン残差
関数近似誤差
部分空間
直交射影作用素

21
• 状態遷移行列
• 報酬ベクトル
• 損失関数の重み行列（対角行列）
準備

22
直交射影作用素の導入
ベルマン残差
関数近似誤差
部分空間
直交射影作用素は任意の状態関数を関数近似器の空
間に直交射影する
距離が最小になるのは2点を結ぶ線が垂線となる時

23
射影行列の導入
直交射影作用素を射影行列に書き換える
射影行列の特徴
すでに関数近似器の空間にある関数を射影したり，一度でも射影行列を適用して
いれば繰り返し適用しても変化しない

24
射影ベルマン残差の最小化
射影行列を用いて射影ベルマン残差が最小となる最適パラメータ𝟂∗
を計算する
𝐿 𝑃𝐵𝑅(𝟂)を𝟂について微分してゼロの時の𝟂が最適パラメータ𝟂∗

25
上式にしたがってパラメータ更新を行い価値関数を推定する手法：LSTD法
ベルマン残差最小化と異なり，次状態の二重サンプリングが不要（実装向き）
最小二乗TD（LSTD）法
実際は環境が未知なのでやを計算できない
したがって履歴データから最適パラメータを推定する
ベルマン残差最小化と同様，重みに定常分布を用いる
最適パラメータωPBR
∗
の推定量

26
ここまで
学習を安定させる（価値関数を収束しやすくする）ために損失関数を導入して，
その最小化による学習法を説明した
ベルマン残差
関数近似誤差
部分空間

27
ここから
• 価値関数から方策を求めるValueベースの関数近似手法を扱ったが，以降は方
策を直接学習して最適方策を求めるPolicyベースの関数近似手法を解説する
• 行動が連続である場合，行動価値関数を近似するアプローチは行動選択や更新
式に含まれるの計算が困難であるため，方策を関数近似するアプ
ローチがよく用いられる

28
方策の関数近似
方策パラメータで規定される確率的方策モデルを
学習する
代表的な方策モデル：ガウス方策モデル
• 連続行動を扱う方策モデル
• やはパラメータθの関数で線形モデルやDNNが用いられる

29
Policyベース手法の利点
• 状態変数が与えられれば行動が決定するため，行動空間が高次元または連続
の場合に有効
• 確率的方策のランダム性も学習することができる
（ε-greedy方策では超パラメータ）
ε-greedy方策

30
方策の学習
最適方策を学習するには方策評価と方策改善による方策モデルの更新式が必要
ここでは方策モデルはパラメータθで特徴付けられるので，パラメータθの更新
式として定義される
パラメータθの更新式：方策勾配法
目的関数のθに関する勾配
が計算できれば方策の学習ができる

31
目的関数の導入
• 平均報酬で表される割引率γに依存しない目的関数（1章）
𝑓∞を扱う場合，マルコフ決定過程はエルゴード性を満たし唯一の定常分布が存在
ここでは以下の目的関数について方策勾配を導出する

32
方策勾配定理
平均報酬の方策勾配：
方策勾配法によるパラメータ更新式：
これを方策勾配定理という

33
平均報酬の方策勾配
平均報酬の場合，行動価値関数を以下の差分行動価値関数として定義し直す
（割引なしだと累積和が発散するので，平均報酬を引いている）
再帰式に変形
𝜭に関して偏微分

34
より，（平均報酬は𝜭のみに依存）
定常分布の性質より，

35
任意の状態関数（ベースライン関数）に関して
したがって以下の平均報酬における方策勾配が導出できる
より，

36
方策勾配の意味
方策勾配法はPolicyベースの手法
• Policy ベース
方策を直接的に推定し価値関数による方策評価を参考にして方策改善を行い
最適方策を求める
方策勾配は状態行動対(𝑠, 𝑎)に対して対数尤度が最大となる方向を向いている
一方，行動価値がより大きい(𝑠, 𝑎)について尤度を重視したいため，スコア関数
を行動価値で重み付けして更新値を調整
これによって行動価値による方策評価を参考にした方策改善が成されている
イメージ図
パラメータ𝜭に対する尤度
対数尤度の勾配（スコア関数）

37
REINFORCE法（モンテカルロ勾配法）
期待値を方策π 𝜭でサンプリングした履歴データ
で近似する（モンテカルロ法）
有限時間長のマルコフ決定過程に対するREINFORCE法では𝑄∞
π 𝜭
の標本近似にリ
ターン実績𝑐𝑡を用いる
• REINFORCE法における方策パラメータの更新式：
𝑐𝑡は𝑄∞
π 𝜭
の不偏推定量となっている（）が，
方策勾配の分散が大きい（ 𝑐𝑡はサンプル系列間によって大きく異なりうるため）

強化学習6章

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from hiroki yamaoka

More from hiroki yamaoka (14)

強化学習6章