SlideShare a Scribd company logo
3章 探索と活用のトレードオフ
2
やっと強化学習
ここからは環境(MDP)の情報が未知と仮定 ⇨ 強化学習
MDPの情報はエージェントが環境に働きかけて得たデータから推測する
データが少ないと局所解に陥る可能性大
・エージェントは環境からデータを収集するために行動 (探索)
・収集したデータを利用して期待報酬最大となるように行動 (活用)
オンライン学習では,最適方策以外に上手く探索する方策も知りたい
探索か活用のどちらか一方に偏るのは好ましくない
探索と活用のトレードオフ を考慮する必要
3
探索と活用のトレードオフ
• 活用:期待報酬が最大となる行動をとる(greedy)
• 探索:greedyでない行動をとる
探索と活用のトレードオフに関する評価指標
・リグレット
・サンプル複雑度
探索と活用のトレードオフを実現する手法
・ε貪欲方策モデル,ソフトマックス方策モデル
・不確かなときは楽観的に(ヒューリスティック)
4
リグレット
「神のみぞ知る最適方策に従って得た報酬の期待値」と比べて,「学習途中の方
策に従って得た報酬の期待値」の良さ(探索と活用のトレードオフ)を測る指標
• リグレットが小さいほどデータの探索と活用が適切に考慮できている
• この定義では,時間割引なしの期待累積報酬しか扱えない(多腕バンディッド
問題など)
• 最適性の原理を満たさない問題に適用できない
5
サンプル複雑度
各時間ステップ t の状態s 𝑡で方策𝜋 𝑡がε最適でなかった回数の総和
ε最適方策
目的関数
が最適性の原理を満たし,ε > 0に対してある方策 π がある状態 s で
を満たすとき,πは状態sでε最適であるといい,πが任意のsで上式を満たすとき,
πはε最適方策であるという
最適方策
時間ステップtにおける「最適価値」と
「学習途中の価値」との差
6
サンプル複雑度の注意点
サンプル複雑度は学習速度を主に評価している
• 各時間ステップtの方策𝜋 𝑡がε最適か否かの2値的にしか評価していない
• 学習途中のリグレットが大きい or 小さい方策のどちらでも,ε最適な方策な方
策を求めるまでのステップ数が変わらなければサンプル複雑度は大して変わ
らない
MDPが既約でない場合,サンプル複雑度が役に立たない可能性
明らかに良くない状態であるが
サンプル複雑度が増えなくなる
7
探索と活用のトレードオフ
• 活用:期待報酬が最大となる行動をとる(greedy)
• 探索:greedyでない行動をとる
探索と活用のトレードオフに関する評価指標
・リグレット
・サンプル複雑度
探索と活用のトレードオフを実現する手法
・ε貪欲方策モデル,ソフトマックス方策モデル
・不確かなときは楽観的に(ヒューリスティック)
8
方策モデル
方策をモデル化する2つのアプローチ
・NNなどを用いて,状態を入力として行動(の確率分布)を出力する
・行動価値関数が最大となるような行動(の確率分布)を出力する ⇦ 今回はコレ
(効用関数)
方策の定義(再掲)
行動価値関数(状態sで行動aに従った後は方策πに従う場合の割引期待累積報酬)
価値関数
𝑄πの推定値を𝑞(𝑠, 𝑎)とする時,𝑞 𝑠, 𝑎 < 𝑞(𝑠, 𝑎′)ならば状態sでは𝑎′の方が良い行動
⇨ 貪欲方策モデル
9
行動価値関数のイメージ図
例:移動ロボット(状態行動空間が離散)
𝑆𝑡𝑎𝑟𝑡
𝐺𝑜𝑎𝑙
𝑠0
𝑠1 𝑠2
𝑠3 𝑠5
𝑠6 𝑠7 𝑠8
上 右 左 下
𝑠0 0 3 0 3
𝑠1 0 5 1 5
𝑠2 0 0 1 7
𝑠3 1 5 0 5
𝑠4 1 7 1 7
𝑠5 1 0 1 10
𝑠6 1 7 0 0
𝑠7 1 10 1 0
𝑠8 0 0 0 0
行動
状態
テーブル形式(ルックアップテーブル)
10
貪欲方策モデル
常に行動価値が最大となる行動を選択する決定的方策モデル
• データの「活用」のみを目的とした方策モデル
• 行動価値が最大となる行動を選択するため,新しい未知の経験が得にくい
「探索」も考慮に入れた貪欲方策モデル
ε貪欲方策モデル
11
ε貪欲方策モデル
貪欲方策モデルを確率的方策に一般化 ハイパーパラメータ
・ε が 1 に近いほどランダムに行動選択し易い
( 「探索」行動を選択し易い)
・ε が 0 に近いほど行動価値を最大にする行動を選択し易い
(「活用」行動を選択し易い)
離散環境(状態・行動が離散的)での強化学習の応用を研究している論文ではほと
んどがこの方策モデルを使っている
では,状態が連続の環境では? ⇨ ソフトマックス方策モデル
12
ソフトマックス方策モデル
ε貪欲方策同様,貪欲方策を確率的方策に拡張
ε貪欲と何が違う? ⇨ 微分ができる!
ソフトマックス方策
逆温度
βが大きい ⇨ 相対的に行動価値の大きい行動を選択し易い
βが小さい ⇨ ランダムに行動を選択し易い
β → ∞の極限で,貪欲方策モデルと等価
13
ソフトマックス方策モデル
偏微分
行動価値関数,逆温度を微小変化させた際の方策の変化がわかる
⇨ 直接方策を学習させる,方策勾配法で用いられる
行動も連続である場合はガウス方策モデルが用いられることが多い
14
不確かなときは楽観的に
貪欲に行動選択を行う場合の問題点
・ 𝑞(𝑠, 𝑎)が過大評価された場合,行動𝑎が最適であると誤判断する可能性
⇨ (s, 𝑎)に関するデータが増えるので𝑞(𝑠, 𝑎)を下方修正できる可能性
・ 𝑞(𝑠, 𝑎)が過小評価された場合,行動𝑎以外が最適であると誤判断する可能性
⇨ 今後(s, 𝑎)に関するデータが得られず𝑞(𝑠, 𝑎)を上方修正できない可能性
行動価値関数を工夫することで「探索と活用のトレードオフ」を考慮する
これが非常にマズい
永遠に状態sにおいて誤った行動選択をし続ける可能性があるから
この問題を回避するためのヒューリスティック
「不確かなときは楽観的に」
15
不確かなときは楽観的に
𝑞(𝑠, 𝑎)が不確実な時は優先的に行動𝑎を選択するようにする
不確実度(探索が必要な度合い)
(𝑠, 𝑎)の経験数の増加につれて減少
活用に関する量 +
多腕バンディッド問題 ⇨ UCB1法
16
多腕バンディッド問題とは
多腕バンディッド問題に対して活用と探索のトレードオフを考慮したアプローチ
多腕バンディッド問題
• 状態数が1で行動数がM>1
• アームを引く(行動する)と報酬+1が得られるが当たる確率はアームによっ
て異なる
目的
指定された試行回数において期待報酬を最大化したい
𝑎1 𝑎2 𝑎3 𝑎 𝑀・・・
17
UCB1
対象のアームを選択した回数の逆数で重み付けを行うことで,選択回数の少ない
アームを選択し易くする手法
選択回数nが大きいほど不確実度は小さい
18
UCB1の導出
Hoeffdingの不等式を用いる
確率変数の期待値と標本平均の誤差の確率をuで測っている
𝑋𝑡の値域は[0,1],で標本平均は
この時, Hoeffdingの不等式が成り立つ
より
19
UCB1の導出
を代入して
対象の試行回数が少ないほど,推定価値は不確実(分散)は大きいが
試行回数が大きくなるにつれ,不確実性は小さくなる
20
3章まとめ
• 活用:期待報酬が最大となる行動をとる(greedy)
• 探索:greedyでない行動をとる
探索と活用のトレードオフに関する評価指標
・リグレット
・サンプル複雑度
探索と活用のトレードオフを実現する手法
・ε貪欲方策モデル,ソフトマックス方策モデル
・不確かなときは楽観的に(ヒューリスティック)
21
参考文献
https://www.kspub.co.jp/book/detail/5155912.html
https://www.kspub.co.jp/book/detail/5172513.html
http://www.incompleteideas.net/book/the-book-2nd.html
https://www.shoeisha.co.jp/book/detail/9784798159928
http://yagami12.hatenablog.com

More Related Content

What's hot

[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
佑 甲野
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio
 
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPsDeep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Hakky St
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
Deep Learning JP
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
Hirokatsu Kataoka
 

What's hot (20)

[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPsDeep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 

More from hiroki yamaoka

PRML1.5
PRML1.5PRML1.5
PRML1.3
PRML1.3PRML1.3
DQN
DQNDQN
PRML6.4
PRML6.4PRML6.4
PRML9.3
PRML9.3PRML9.3
PRML4.3
PRML4.3PRML4.3
PRML5.5
PRML5.5PRML5.5
強化学習6章
強化学習6章強化学習6章
強化学習6章
hiroki yamaoka
 
強化学習5章
強化学習5章強化学習5章
強化学習5章
hiroki yamaoka
 
強化学習4章
強化学習4章強化学習4章
強化学習4章
hiroki yamaoka
 
強化学習2章
強化学習2章強化学習2章
強化学習2章
hiroki yamaoka
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
hiroki yamaoka
 
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
hiroki yamaoka
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
hiroki yamaoka
 

More from hiroki yamaoka (14)

PRML1.5
PRML1.5PRML1.5
PRML1.5
 
PRML1.3
PRML1.3PRML1.3
PRML1.3
 
DQN
DQNDQN
DQN
 
PRML6.4
PRML6.4PRML6.4
PRML6.4
 
PRML9.3
PRML9.3PRML9.3
PRML9.3
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
PRML5.5
PRML5.5PRML5.5
PRML5.5
 
強化学習6章
強化学習6章強化学習6章
強化学習6章
 
強化学習5章
強化学習5章強化学習5章
強化学習5章
 
強化学習4章
強化学習4章強化学習4章
強化学習4章
 
強化学習2章
強化学習2章強化学習2章
強化学習2章
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
 
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 

強化学習3章