3章 探索と活用のトレードオフ
2
やっと強化学習
ここからは環境(MDP)の情報が未知と仮定 ⇨ 強化学習
MDPの情報はエージェントが環境に働きかけて得たデータから推測する
データが少ないと局所解に陥る可能性大
・エージェントは環境からデータを収集するために行動 (探索)
・収集したデータを利用して期待報酬最大となるように行動 (活用)
オンライン学習では,最適方策以外に上手く探索する方策も知りたい
探索か活用のどちらか一方に偏るのは好ましくない
探索と活用のトレードオフ を考慮する必要
3
探索と活用のトレードオフ
• 活用:期待報酬が最大となる行動をとる(greedy)
• 探索:greedyでない行動をとる
探索と活用のトレードオフに関する評価指標
・リグレット
・サンプル複雑度
探索と活用のトレードオフを実現する手法
・ε貪欲方策モデル,ソフトマックス方策モデル
・不確かなときは楽観的に(ヒューリスティック)
4
リグレット
「神のみぞ知る最適方策に従って得た報酬の期待値」と比べて,「学習途中の方
策に従って得た報酬の期待値」の良さ(探索と活用のトレードオフ)を測る指標
• リグレットが小さいほどデータの探索と活用が適切に考慮できている
• この定義では,時間割引なしの期待累積報酬しか扱えない(多腕バンディッド
問題など)
• 最適性の原理を満たさない問題に適用できない
5
サンプル複雑度
各時間ステップ t の状態s 𝑡で方策𝜋 𝑡がε最適でなかった回数の総和
ε最適方策
目的関数
が最適性の原理を満たし,ε > 0に対してある方策 π がある状態 s で
を満たすとき,πは状態sでε最適であるといい,πが任意のsで上式を満たすとき,
πはε最適方策であるという
最適方策
時間ステップtにおける「最適価値」と
「学習途中の価値」との差
6
サンプル複雑度の注意点
サンプル複雑度は学習速度を主に評価している
• 各時間ステップtの方策𝜋 𝑡がε最適か否かの2値的にしか評価していない
• 学習途中のリグレットが大きい or 小さい方策のどちらでも,ε最適な方策な方
策を求めるまでのステップ数が変わらなければサンプル複雑度は大して変わ
らない
MDPが既約でない場合,サンプル複雑度が役に立たない可能性
明らかに良くない状態であるが
サンプル複雑度が増えなくなる
7
探索と活用のトレードオフ
• 活用:期待報酬が最大となる行動をとる(greedy)
• 探索:greedyでない行動をとる
探索と活用のトレードオフに関する評価指標
・リグレット
・サンプル複雑度
探索と活用のトレードオフを実現する手法
・ε貪欲方策モデル,ソフトマックス方策モデル
・不確かなときは楽観的に(ヒューリスティック)
8
方策モデル
方策をモデル化する2つのアプローチ
・NNなどを用いて,状態を入力として行動(の確率分布)を出力する
・行動価値関数が最大となるような行動(の確率分布)を出力する ⇦ 今回はコレ
(効用関数)
方策の定義(再掲)
行動価値関数(状態sで行動aに従った後は方策πに従う場合の割引期待累積報酬)
価値関数
𝑄πの推定値を𝑞(𝑠, 𝑎)とする時,𝑞 𝑠, 𝑎 < 𝑞(𝑠, 𝑎′)ならば状態sでは𝑎′の方が良い行動
⇨ 貪欲方策モデル
9
行動価値関数のイメージ図
例:移動ロボット(状態行動空間が離散)
𝑆𝑡𝑎𝑟𝑡
𝐺𝑜𝑎𝑙
𝑠0
𝑠1 𝑠2
𝑠3 𝑠5
𝑠6 𝑠7 𝑠8
上 右 左 下
𝑠0 0 3 0 3
𝑠1 0 5 1 5
𝑠2 0 0 1 7
𝑠3 1 5 0 5
𝑠4 1 7 1 7
𝑠5 1 0 1 10
𝑠6 1 7 0 0
𝑠7 1 10 1 0
𝑠8 0 0 0 0
行動
状態
テーブル形式(ルックアップテーブル)
10
貪欲方策モデル
常に行動価値が最大となる行動を選択する決定的方策モデル
• データの「活用」のみを目的とした方策モデル
• 行動価値が最大となる行動を選択するため,新しい未知の経験が得にくい
「探索」も考慮に入れた貪欲方策モデル
ε貪欲方策モデル
11
ε貪欲方策モデル
貪欲方策モデルを確率的方策に一般化 ハイパーパラメータ
・ε が 1 に近いほどランダムに行動選択し易い
( 「探索」行動を選択し易い)
・ε が 0 に近いほど行動価値を最大にする行動を選択し易い
(「活用」行動を選択し易い)
離散環境(状態・行動が離散的)での強化学習の応用を研究している論文ではほと
んどがこの方策モデルを使っている
では,状態が連続の環境では? ⇨ ソフトマックス方策モデル
12
ソフトマックス方策モデル
ε貪欲方策同様,貪欲方策を確率的方策に拡張
ε貪欲と何が違う? ⇨ 微分ができる!
ソフトマックス方策
逆温度
βが大きい ⇨ 相対的に行動価値の大きい行動を選択し易い
βが小さい ⇨ ランダムに行動を選択し易い
β → ∞の極限で,貪欲方策モデルと等価
13
ソフトマックス方策モデル
偏微分
行動価値関数,逆温度を微小変化させた際の方策の変化がわかる
⇨ 直接方策を学習させる,方策勾配法で用いられる
行動も連続である場合はガウス方策モデルが用いられることが多い
14
不確かなときは楽観的に
貪欲に行動選択を行う場合の問題点
・ 𝑞(𝑠, 𝑎)が過大評価された場合,行動𝑎が最適であると誤判断する可能性
⇨ (s, 𝑎)に関するデータが増えるので𝑞(𝑠, 𝑎)を下方修正できる可能性
・ 𝑞(𝑠, 𝑎)が過小評価された場合,行動𝑎以外が最適であると誤判断する可能性
⇨ 今後(s, 𝑎)に関するデータが得られず𝑞(𝑠, 𝑎)を上方修正できない可能性
行動価値関数を工夫することで「探索と活用のトレードオフ」を考慮する
これが非常にマズい
永遠に状態sにおいて誤った行動選択をし続ける可能性があるから
この問題を回避するためのヒューリスティック
「不確かなときは楽観的に」
15
不確かなときは楽観的に
𝑞(𝑠, 𝑎)が不確実な時は優先的に行動𝑎を選択するようにする
不確実度(探索が必要な度合い)
(𝑠, 𝑎)の経験数の増加につれて減少
活用に関する量 +
多腕バンディッド問題 ⇨ UCB1法
16
多腕バンディッド問題とは
多腕バンディッド問題に対して活用と探索のトレードオフを考慮したアプローチ
多腕バンディッド問題
• 状態数が1で行動数がM>1
• アームを引く(行動する)と報酬+1が得られるが当たる確率はアームによっ
て異なる
目的
指定された試行回数において期待報酬を最大化したい
𝑎1 𝑎2 𝑎3 𝑎 𝑀・・・
17
UCB1
対象のアームを選択した回数の逆数で重み付けを行うことで,選択回数の少ない
アームを選択し易くする手法
選択回数nが大きいほど不確実度は小さい
18
UCB1の導出
Hoeffdingの不等式を用いる
確率変数の期待値と標本平均の誤差の確率をuで測っている
𝑋𝑡の値域は[0,1],で標本平均は
この時, Hoeffdingの不等式が成り立つ
より
19
UCB1の導出
を代入して
対象の試行回数が少ないほど,推定価値は不確実(分散)は大きいが
試行回数が大きくなるにつれ,不確実性は小さくなる
20
3章まとめ
• 活用:期待報酬が最大となる行動をとる(greedy)
• 探索:greedyでない行動をとる
探索と活用のトレードオフに関する評価指標
・リグレット
・サンプル複雑度
探索と活用のトレードオフを実現する手法
・ε貪欲方策モデル,ソフトマックス方策モデル
・不確かなときは楽観的に(ヒューリスティック)
21
参考文献
https://www.kspub.co.jp/book/detail/5155912.html
https://www.kspub.co.jp/book/detail/5172513.html
http://www.incompleteideas.net/book/the-book-2nd.html
https://www.shoeisha.co.jp/book/detail/9784798159928
http://yagami12.hatenablog.com

強化学習3章