SlideShare a Scribd company logo
1 of 37
関数近似を用いた強化学習
2
目次
概要
 価値関数の関数近似
• テーブル形式方法の拡張
• 損失関数に基づく近似価値関数学習方法
• ベルマン残差の最小化
• 射影ベルマン残差の最小化
• 関数近似器の選択と正則化
 方策の関数近似
• 方策学習の概要
• 方策勾配法の基礎
• モンテカルロ方策勾配法
3
概要
𝑉(𝑠1)
𝑉(𝑠5)𝑉(𝑠4)
𝑉(𝑠2) 𝑉(𝑠3)
𝑉(𝑠6)
𝑉(𝑠7) 𝑉(𝑠8) 𝑉(𝑠9)
状態空間が離散(テーブル形式) 状態空間が連続(関数近似)
𝑠
𝑉(𝑠)
状態・行動空間が連続などの場合,状態・行動数が膨大になりテーブル形式の学
習は現実的には困難
解決方法の例
• 連続値を細分化して離散化 ⇦ 根本的な解決にはならない
• 関数で表現する ⇦ 今回はコレ
4
関数で近似することのメリット
• 連続値が扱える
• テーブル形式では未到達や少数のサンプルしかない状態の価値は不確実性が
高いが,状態行動空間上で滑らかに変化する関数で近似することで補間・外
挿といった汎化が可能
関数で近似することのデメリット
• 収束性の保証がテーブル形式と比べて難しい
概要
𝑠
𝑉(𝑠)
𝑉(𝑠1) 𝑉(𝑠6)
𝑉(𝑠4)
𝑉(𝑠3)
𝑉(𝑠2)
𝑉(𝑠5)
𝑠
𝑉(𝑠)
𝑉(𝑠1) 𝑉(𝑠6)
𝑉(𝑠4)
𝑉(𝑠3)
𝑉(𝑠2)
𝑉(𝑠5)
5
パラメータ で規定される関数近似器 ,
を用いて , を近似するとは
価値関数の関数近似
となるパラメータ を学習するということ
代表的な関数近似器
• 線形関数近似
基底関数
以前までの議論同様,状態関数にベルマン作用素を適用させ収束した価値関数
(の近似)を求めたい
6つまり,状態関数が部分空間 𝜈から出ないように更新を行う必要がある
注意点
関数近似器族
状態行動空間は連続であるとすると ,
したがって関数近似器族に含まれない状態関数 が存在する
この時ベルマン作用素 を適用して得られる状態関数が部分空間
に含まれているとは限らない
7
単純なパラメータ更新アルゴリズム(バッチ学習)
環境が既知であるとして真のベルマン作用素が与えられていると仮定
1. 各状態 で目的変数を算出
2. 関数近似器のパラメータを更新
関数近似誤差
固定
解析的に解く場合,以下の最適化問題を解く
ωについて微分してゼロ
8
関数近似の場合の収束性
関数近似しない場合は学習率など適切に設定すれば価値関数は収束したが,関数
近似の場合は(関数近似による)近似誤差の影響で発散する可能性がある
発散する例:行動のない2状態のマルコフ報酬過程
S=1 S=2
r=0
r=0
𝜔 = 0の時の関数近似器は真の価値関数と一致するため,この例は関数近似器が
真の価値関数を含んでいる理想的なケース(かなり極端な例ですが...)
9
関数近似の場合の収束性
環境が既知で真のベルマン作用素が与えられている前提でパラメータωを更新
関数近似誤差
パラメータωは更新の度に
6
5
γ倍され,関数近似誤差は(6
5
γ)2倍されるため
初期パラメータω0 ≠ 0でγ >
6
5
の場合に発散する
10
近似TD法
4章で扱ったTD法などテーブル形式でのオンライン学習を関数近似器に拡張する
テーブル形式のTD法
・価値関数の更新式
TD誤差
関数近似器を用いた近似TD法
・パラメータ の更新式
11
近似TD法
を まわりでテイラー展開
テーブル形式の更新式とほぼ同様の更新式が導出できるのでパラメータ更新
は,妥当であることがわかる
12
その他のオンライン学習への関数近似適用
行動価値関数の学習に関数近似器 を用いる場合
パラメータ更新
• 近似Q学習法
• 近似SARSA法
13
• 関数近似器に非線形関数を用いた場合,収束性の保証はない
• 線形関数近似の場合
• 近似TD学習はテーブル形式と同様の条件で収束
• 近似Q学習の場合
γ ≪ 1 もしくは挙動方策π 𝑏
と基底関数 について
を満たせば収束する
割引率γは強化学習では一般的に1に近い値に設定される
挙動方策と推定方策がほぼ一致する必要(Off-Policyでなくなる)
• 近似SARSA
方策モデルがパラメータωに関してリプシッツ連続,かつ方策が常に任意
の状態sで各行動𝑎の選択確率がε > 0であるという条件を満たせば収束
ε-greedy方策はパラメータωの変化に対して不連続に変化してしまう
テーブル形式で収束が保証されているGLIE方策も使えない
収束性について
14
損失関数に基づく近似価値関数学習法
ここまで紹介した手法は収束性の保証が難しかったり,逆に発散する可能性がある
これは何らかの損失関数最小化に基づく方法になっていないことが原因
損失関数
パラメータ更新
目標値 予測値
強化学習には目標値が存在しないため,目標変数と予測値の誤差から規定される
損失関数を扱うことはできない
教師あり学習(回帰問題)
15
関数近似のための損失関数
方策πは固定で,真のベルマン期待作用素𝗕,もしくはその標本近似 𝗕が与えられ
ている前提で代表的な2種類の損失関数を導入する
• ベルマン残差
• 射影ベルマン残差
ベルマン残差
射影ベルマン残差
関数近似誤差
部分空間
直交射影作用素
16
には,初期状態分布 や挙動方策 の定常分布 などを使用
全ての状態について近似誤差を最小にするのは現実的に不可能なので各状態にお
ける近似誤差のトレードオフを行っていると解釈できる
ベルマン残差最小化による学習
ベルマン残差:
17
ベルマン残差最小化による学習
ベルマン残差を最小にする最適パラメータの導出
より
実際は環境が未知なので や を計算できない
したがって履歴データから最適パラメータを推定する
18
履歴データ(標本)をもとに推定するには状態𝑠𝑡から次状態𝑠𝑡+1を2回サンプリング
を行う必要がある(二重サンプリング問題)
状態𝑠𝑡から次状態𝑠𝑡+1をサンプルした後, 𝑠𝑡に戻って再度次状態𝑠𝑡+1をサンプルす
る必要があるため手間がかかる
(状態遷移が決定的の場合は二重サンプリングは不必要)
ベルマン残差最小化による学習
損失関数の重みに定常分布を用いる(マルコフ決定過程がエルゴード性を満たす)
最適パラメータωBR
∗
の推定量
19しかし一般的に𝐿 𝑇𝐷を最小にする価値関数は真の価値関数ではないことに注意
残差勾配法
• 二重サンプリングを行いベルマン残差を最小化するオンラインパラメータ更新式
• 残差勾配法:二重サンプリングを諦めて単一の次状態のみからパラメータを更新
残差勾配法は期待二乗TD誤差という損失関数にもとづいてパラメータ更新を行
うので安定した学習が可能
期待二乗TD誤差
20
関数近似のための損失関数
方策πは固定で,真のベルマン期待作用素𝗕,もしくはその標本近似 𝗕が与えられ
ている前提で代表的な2種類の損失関数を導入する
• ベルマン残差
• 射影ベルマン残差
ベルマン残差
射影ベルマン残差
関数近似誤差
部分空間
直交射影作用素
21
• 状態遷移行列
• 報酬ベクトル
• 損失関数の重み行列 (対角行列)
準備
22
直交射影作用素の導入
ベルマン残差
射影ベルマン残差
関数近似誤差
部分空間
直交射影作用素 は任意の状態関数 を関数近似器の空
間 に直交射影する
距離が最小になるのは2点を結ぶ線が垂線となる時
23
射影行列の導入
直交射影作用素を射影行列 に書き換える
射影行列の特徴
すでに関数近似器の空間にある関数を射影したり,一度でも射影行列を適用して
いれば繰り返し適用しても変化しない
24
射影ベルマン残差の最小化
射影行列を用いて射影ベルマン残差が最小となる最適パラメータ𝟂∗
を計算する
𝐿 𝑃𝐵𝑅(𝟂)を𝟂について微分してゼロの時の𝟂が最適パラメータ𝟂∗
25
上式にしたがってパラメータ更新を行い価値関数を推定する手法:LSTD法
ベルマン残差最小化と異なり,次状態の二重サンプリングが不要(実装向き)
最小二乗TD(LSTD)法
実際は環境が未知なので や を計算できない
したがって履歴データ から最適パラメータを推定する
ベルマン残差最小化と同様,重みに定常分布を用いる
最適パラメータωPBR
∗
の推定量
26
ここまで
学習を安定させる(価値関数を収束しやすくする)ために損失関数を導入して,
その最小化による学習法を説明した
• ベルマン残差
• 射影ベルマン残差
ベルマン残差
射影ベルマン残差
関数近似誤差
部分空間
27
ここから
• 価値関数から方策を求めるValueベースの関数近似手法を扱ったが,以降は方
策を直接学習して最適方策を求めるPolicyベースの関数近似手法を解説する
• 行動が連続である場合,行動価値関数を近似するアプローチは行動選択や更新
式に含まれる の計算が困難であるため,方策を関数近似するアプ
ローチがよく用いられる
28
方策の関数近似
方策パラメータ で規定される確率的方策モデル を
学習する
代表的な方策モデル:ガウス方策モデル
• 連続行動を扱う方策モデル
• や はパラメータθの関数で線形モデルやDNNが用いられる
29
Policyベース手法の利点
• 状態変数が与えられれば行動が決定するため,行動空間が高次元または連続
の場合に有効
• 確率的方策のランダム性も学習することができる
(ε-greedy方策では超パラメータ)
ε-greedy方策
30
方策の学習
最適方策を学習するには方策評価と方策改善による方策モデルの更新式が必要
ここでは方策モデルはパラメータθで特徴付けられるので,パラメータθの更新
式として定義される
パラメータθの更新式:方策勾配法
目的関数のθに関する勾配
が計算できれば方策の学習ができる
31
目的関数の導入
• 平均報酬で表される割引率γに依存しない目的関数(1章)
𝑓∞を扱う場合,マルコフ決定過程はエルゴード性を満たし唯一の定常分布が存在
ここでは以下の目的関数について方策勾配を導出する
32
方策勾配定理
平均報酬の方策勾配:
方策勾配法によるパラメータ更新式:
これを方策勾配定理という
33
平均報酬の方策勾配
平均報酬の場合,行動価値関数を以下の差分行動価値関数として定義し直す
(割引なしだと累積和が発散するので,平均報酬を引いている)
再帰式に変形
𝜭に関して偏微分
34
平均報酬の方策勾配
より,(平均報酬は𝜭のみに依存)
定常分布の性質 より,
35
平均報酬の方策勾配
任意の状態関数 (ベースライン関数)に関して
したがって以下の平均報酬における方策勾配が導出できる
より,
36
方策勾配の意味
方策勾配法はPolicyベースの手法
• Policy ベース
方策を直接的に推定し価値関数による方策評価を参考にして方策改善を行い
最適方策を求める
方策勾配は状態行動対(𝑠, 𝑎)に対して対数尤度が最大となる方向を向いている
一方,行動価値がより大きい(𝑠, 𝑎)について尤度を重視したいため,スコア関数
を行動価値で重み付けして更新値を調整
これによって行動価値による方策評価を参考にした方策改善が成されている
イメージ図
パラメータ𝜭に対する尤度
対数尤度の勾配(スコア関数)
37
REINFORCE法(モンテカルロ勾配法)
期待値を方策π 𝜭でサンプリングした履歴データ
で近似する(モンテカルロ法)
有限時間長のマルコフ決定過程に対するREINFORCE法では𝑄∞
π 𝜭
の標本近似にリ
ターン実績𝑐𝑡を用いる
• REINFORCE法における方策パラメータの更新式:
𝑐𝑡は𝑄∞
π 𝜭
の不偏推定量となっている( )が,
方策勾配の分散が大きい( 𝑐𝑡はサンプル系列間によって大きく異なりうるため)

More Related Content

What's hot

初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカット
Tsubasa Hirakawa
 

What's hot (20)

Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカット
 
【DL輪読会】Emergence of maps in the memories of blind navigation agents
【DL輪読会】Emergence of maps in the memories of blind navigation agents【DL輪読会】Emergence of maps in the memories of blind navigation agents
【DL輪読会】Emergence of maps in the memories of blind navigation agents
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 

More from hiroki yamaoka (14)

PRML1.5
PRML1.5PRML1.5
PRML1.5
 
PRML1.3
PRML1.3PRML1.3
PRML1.3
 
DQN
DQNDQN
DQN
 
PRML6.4
PRML6.4PRML6.4
PRML6.4
 
PRML9.3
PRML9.3PRML9.3
PRML9.3
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
PRML5.5
PRML5.5PRML5.5
PRML5.5
 
強化学習5章
強化学習5章強化学習5章
強化学習5章
 
強化学習4章
強化学習4章強化学習4章
強化学習4章
 
強化学習3章
強化学習3章強化学習3章
強化学習3章
 
強化学習2章
強化学習2章強化学習2章
強化学習2章
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
 
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 

強化学習6章