SlideShare a Scribd company logo
1 of 21
3章 探索と活用のトレードオフ
2
やっと強化学習
ここからは環境(MDP)の情報が未知と仮定 ⇨ 強化学習
MDPの情報はエージェントが環境に働きかけて得たデータから推測する
データが少ないと局所解に陥る可能性大
・エージェントは環境からデータを収集するために行動 (探索)
・収集したデータを利用して期待報酬最大となるように行動 (活用)
オンライン学習では,最適方策以外に上手く探索する方策も知りたい
探索か活用のどちらか一方に偏るのは好ましくない
探索と活用のトレードオフ を考慮する必要
3
探索と活用のトレードオフ
• 活用:期待報酬が最大となる行動をとる(greedy)
• 探索:greedyでない行動をとる
探索と活用のトレードオフに関する評価指標
・リグレット
・サンプル複雑度
探索と活用のトレードオフを実現する手法
・ε貪欲方策モデル,ソフトマックス方策モデル
・不確かなときは楽観的に(ヒューリスティック)
4
リグレット
「神のみぞ知る最適方策に従って得た報酬の期待値」と比べて,「学習途中の方
策に従って得た報酬の期待値」の良さ(探索と活用のトレードオフ)を測る指標
• リグレットが小さいほどデータの探索と活用が適切に考慮できている
• この定義では,時間割引なしの期待累積報酬しか扱えない(多腕バンディッド
問題など)
• 最適性の原理を満たさない問題に適用できない
5
サンプル複雑度
各時間ステップ t の状態s 𝑡で方策𝜋 𝑡がε最適でなかった回数の総和
ε最適方策
目的関数
が最適性の原理を満たし,ε > 0に対してある方策 π がある状態 s で
を満たすとき,πは状態sでε最適であるといい,πが任意のsで上式を満たすとき,
πはε最適方策であるという
最適方策
時間ステップtにおける「最適価値」と
「学習途中の価値」との差
6
サンプル複雑度の注意点
サンプル複雑度は学習速度を主に評価している
• 各時間ステップtの方策𝜋 𝑡がε最適か否かの2値的にしか評価していない
• 学習途中のリグレットが大きい or 小さい方策のどちらでも,ε最適な方策な方
策を求めるまでのステップ数が変わらなければサンプル複雑度は大して変わ
らない
MDPが既約でない場合,サンプル複雑度が役に立たない可能性
明らかに良くない状態であるが
サンプル複雑度が増えなくなる
7
探索と活用のトレードオフ
• 活用:期待報酬が最大となる行動をとる(greedy)
• 探索:greedyでない行動をとる
探索と活用のトレードオフに関する評価指標
・リグレット
・サンプル複雑度
探索と活用のトレードオフを実現する手法
・ε貪欲方策モデル,ソフトマックス方策モデル
・不確かなときは楽観的に(ヒューリスティック)
8
方策モデル
方策をモデル化する2つのアプローチ
・NNなどを用いて,状態を入力として行動(の確率分布)を出力する
・行動価値関数が最大となるような行動(の確率分布)を出力する ⇦ 今回はコレ
(効用関数)
方策の定義(再掲)
行動価値関数(状態sで行動aに従った後は方策πに従う場合の割引期待累積報酬)
価値関数
𝑄πの推定値を𝑞(𝑠, 𝑎)とする時,𝑞 𝑠, 𝑎 < 𝑞(𝑠, 𝑎′)ならば状態sでは𝑎′の方が良い行動
⇨ 貪欲方策モデル
9
行動価値関数のイメージ図
例:移動ロボット(状態行動空間が離散)
𝑆𝑡𝑎𝑟𝑡
𝐺𝑜𝑎𝑙
𝑠0
𝑠1 𝑠2
𝑠3 𝑠5
𝑠6 𝑠7 𝑠8
上 右 左 下
𝑠0 0 3 0 3
𝑠1 0 5 1 5
𝑠2 0 0 1 7
𝑠3 1 5 0 5
𝑠4 1 7 1 7
𝑠5 1 0 1 10
𝑠6 1 7 0 0
𝑠7 1 10 1 0
𝑠8 0 0 0 0
行動
状態
テーブル形式(ルックアップテーブル)
10
貪欲方策モデル
常に行動価値が最大となる行動を選択する決定的方策モデル
• データの「活用」のみを目的とした方策モデル
• 行動価値が最大となる行動を選択するため,新しい未知の経験が得にくい
「探索」も考慮に入れた貪欲方策モデル
ε貪欲方策モデル
11
ε貪欲方策モデル
貪欲方策モデルを確率的方策に一般化 ハイパーパラメータ
・ε が 1 に近いほどランダムに行動選択し易い
( 「探索」行動を選択し易い)
・ε が 0 に近いほど行動価値を最大にする行動を選択し易い
(「活用」行動を選択し易い)
離散環境(状態・行動が離散的)での強化学習の応用を研究している論文ではほと
んどがこの方策モデルを使っている
では,状態が連続の環境では? ⇨ ソフトマックス方策モデル
12
ソフトマックス方策モデル
ε貪欲方策同様,貪欲方策を確率的方策に拡張
ε貪欲と何が違う? ⇨ 微分ができる!
ソフトマックス方策
逆温度
βが大きい ⇨ 相対的に行動価値の大きい行動を選択し易い
βが小さい ⇨ ランダムに行動を選択し易い
β → ∞の極限で,貪欲方策モデルと等価
13
ソフトマックス方策モデル
偏微分
行動価値関数,逆温度を微小変化させた際の方策の変化がわかる
⇨ 直接方策を学習させる,方策勾配法で用いられる
行動も連続である場合はガウス方策モデルが用いられることが多い
14
不確かなときは楽観的に
貪欲に行動選択を行う場合の問題点
・ 𝑞(𝑠, 𝑎)が過大評価された場合,行動𝑎が最適であると誤判断する可能性
⇨ (s, 𝑎)に関するデータが増えるので𝑞(𝑠, 𝑎)を下方修正できる可能性
・ 𝑞(𝑠, 𝑎)が過小評価された場合,行動𝑎以外が最適であると誤判断する可能性
⇨ 今後(s, 𝑎)に関するデータが得られず𝑞(𝑠, 𝑎)を上方修正できない可能性
行動価値関数を工夫することで「探索と活用のトレードオフ」を考慮する
これが非常にマズい
永遠に状態sにおいて誤った行動選択をし続ける可能性があるから
この問題を回避するためのヒューリスティック
「不確かなときは楽観的に」
15
不確かなときは楽観的に
𝑞(𝑠, 𝑎)が不確実な時は優先的に行動𝑎を選択するようにする
不確実度(探索が必要な度合い)
(𝑠, 𝑎)の経験数の増加につれて減少
活用に関する量 +
多腕バンディッド問題 ⇨ UCB1法
16
多腕バンディッド問題とは
多腕バンディッド問題に対して活用と探索のトレードオフを考慮したアプローチ
多腕バンディッド問題
• 状態数が1で行動数がM>1
• アームを引く(行動する)と報酬+1が得られるが当たる確率はアームによっ
て異なる
目的
指定された試行回数において期待報酬を最大化したい
𝑎1 𝑎2 𝑎3 𝑎 𝑀・・・
17
UCB1
対象のアームを選択した回数の逆数で重み付けを行うことで,選択回数の少ない
アームを選択し易くする手法
選択回数nが大きいほど不確実度は小さい
18
UCB1の導出
Hoeffdingの不等式を用いる
確率変数の期待値と標本平均の誤差の確率をuで測っている
𝑋𝑡の値域は[0,1],で標本平均は
この時, Hoeffdingの不等式が成り立つ
より
19
UCB1の導出
を代入して
対象の試行回数が少ないほど,推定価値は不確実(分散)は大きいが
試行回数が大きくなるにつれ,不確実性は小さくなる
20
3章まとめ
• 活用:期待報酬が最大となる行動をとる(greedy)
• 探索:greedyでない行動をとる
探索と活用のトレードオフに関する評価指標
・リグレット
・サンプル複雑度
探索と活用のトレードオフを実現する手法
・ε貪欲方策モデル,ソフトマックス方策モデル
・不確かなときは楽観的に(ヒューリスティック)
21
参考文献
https://www.kspub.co.jp/book/detail/5155912.html
https://www.kspub.co.jp/book/detail/5172513.html
http://www.incompleteideas.net/book/the-book-2nd.html
https://www.shoeisha.co.jp/book/detail/9784798159928
http://yagami12.hatenablog.com

More Related Content

What's hot

強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類佑 甲野
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces UnderfittingDeep Learning JP
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習Tsubasa Hirakawa
 

What's hot (20)

強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
 

More from hiroki yamaoka (13)

PRML1.5
PRML1.5PRML1.5
PRML1.5
 
PRML1.3
PRML1.3PRML1.3
PRML1.3
 
DQN
DQNDQN
DQN
 
PRML6.4
PRML6.4PRML6.4
PRML6.4
 
PRML9.3
PRML9.3PRML9.3
PRML9.3
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
PRML5.5
PRML5.5PRML5.5
PRML5.5
 
強化学習6章
強化学習6章強化学習6章
強化学習6章
 
強化学習5章
強化学習5章強化学習5章
強化学習5章
 
強化学習4章
強化学習4章強化学習4章
強化学習4章
 
強化学習2章
強化学習2章強化学習2章
強化学習2章
 
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 

強化学習3章