Submit Search
Upload
強化学習3章
•
Download as PPTX, PDF
•
0 likes
•
241 views
H
hiroki yamaoka
Follow
研究室内発表で使った資料です
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 21
Download now
Recommended
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
Deep Learning JP
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
Recommended
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
Deep Learning JP
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
強化学習における好奇心
強化学習における好奇心
Shota Imai
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
強化学習その3
強化学習その3
nishio
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
強化学習1章
強化学習1章
hiroki yamaoka
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
佑 甲野
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
Deep Learning JP
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
ryosuke-kojima
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
Tsubasa Hirakawa
PRML1.5
PRML1.5
hiroki yamaoka
PRML1.3
PRML1.3
hiroki yamaoka
More Related Content
What's hot
強化学習における好奇心
強化学習における好奇心
Shota Imai
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
強化学習その3
強化学習その3
nishio
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
強化学習1章
強化学習1章
hiroki yamaoka
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
佑 甲野
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
Deep Learning JP
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
ryosuke-kojima
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
Tsubasa Hirakawa
What's hot
(20)
強化学習における好奇心
強化学習における好奇心
深層生成モデルと世界モデル
深層生成モデルと世界モデル
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
強化学習その3
強化学習その3
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
強化学習1章
強化学習1章
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
More from hiroki yamaoka
PRML1.5
PRML1.5
hiroki yamaoka
PRML1.3
PRML1.3
hiroki yamaoka
DQN
DQN
hiroki yamaoka
PRML6.4
PRML6.4
hiroki yamaoka
PRML9.3
PRML9.3
hiroki yamaoka
PRML4.3
PRML4.3
hiroki yamaoka
PRML5.5
PRML5.5
hiroki yamaoka
強化学習6章
強化学習6章
hiroki yamaoka
強化学習5章
強化学習5章
hiroki yamaoka
強化学習4章
強化学習4章
hiroki yamaoka
強化学習2章
強化学習2章
hiroki yamaoka
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
hiroki yamaoka
PRML2.4 指数型分布族
PRML2.4 指数型分布族
hiroki yamaoka
More from hiroki yamaoka
(13)
PRML1.5
PRML1.5
PRML1.3
PRML1.3
DQN
DQN
PRML6.4
PRML6.4
PRML9.3
PRML9.3
PRML4.3
PRML4.3
PRML5.5
PRML5.5
強化学習6章
強化学習6章
強化学習5章
強化学習5章
強化学習4章
強化学習4章
強化学習2章
強化学習2章
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
PRML2.4 指数型分布族
PRML2.4 指数型分布族
強化学習3章
1.
3章 探索と活用のトレードオフ
2.
2 やっと強化学習 ここからは環境(MDP)の情報が未知と仮定 ⇨ 強化学習 MDPの情報はエージェントが環境に働きかけて得たデータから推測する データが少ないと局所解に陥る可能性大 ・エージェントは環境からデータを収集するために行動
(探索) ・収集したデータを利用して期待報酬最大となるように行動 (活用) オンライン学習では,最適方策以外に上手く探索する方策も知りたい 探索か活用のどちらか一方に偏るのは好ましくない 探索と活用のトレードオフ を考慮する必要
3.
3 探索と活用のトレードオフ • 活用:期待報酬が最大となる行動をとる(greedy) • 探索:greedyでない行動をとる 探索と活用のトレードオフに関する評価指標 ・リグレット ・サンプル複雑度 探索と活用のトレードオフを実現する手法 ・ε貪欲方策モデル,ソフトマックス方策モデル ・不確かなときは楽観的に(ヒューリスティック)
4.
4 リグレット 「神のみぞ知る最適方策に従って得た報酬の期待値」と比べて,「学習途中の方 策に従って得た報酬の期待値」の良さ(探索と活用のトレードオフ)を測る指標 • リグレットが小さいほどデータの探索と活用が適切に考慮できている • この定義では,時間割引なしの期待累積報酬しか扱えない(多腕バンディッド 問題など) •
最適性の原理を満たさない問題に適用できない
5.
5 サンプル複雑度 各時間ステップ t の状態s
𝑡で方策𝜋 𝑡がε最適でなかった回数の総和 ε最適方策 目的関数 が最適性の原理を満たし,ε > 0に対してある方策 π がある状態 s で を満たすとき,πは状態sでε最適であるといい,πが任意のsで上式を満たすとき, πはε最適方策であるという 最適方策 時間ステップtにおける「最適価値」と 「学習途中の価値」との差
6.
6 サンプル複雑度の注意点 サンプル複雑度は学習速度を主に評価している • 各時間ステップtの方策𝜋 𝑡がε最適か否かの2値的にしか評価していない •
学習途中のリグレットが大きい or 小さい方策のどちらでも,ε最適な方策な方 策を求めるまでのステップ数が変わらなければサンプル複雑度は大して変わ らない MDPが既約でない場合,サンプル複雑度が役に立たない可能性 明らかに良くない状態であるが サンプル複雑度が増えなくなる
7.
7 探索と活用のトレードオフ • 活用:期待報酬が最大となる行動をとる(greedy) • 探索:greedyでない行動をとる 探索と活用のトレードオフに関する評価指標 ・リグレット ・サンプル複雑度 探索と活用のトレードオフを実現する手法 ・ε貪欲方策モデル,ソフトマックス方策モデル ・不確かなときは楽観的に(ヒューリスティック)
8.
8 方策モデル 方策をモデル化する2つのアプローチ ・NNなどを用いて,状態を入力として行動(の確率分布)を出力する ・行動価値関数が最大となるような行動(の確率分布)を出力する ⇦ 今回はコレ (効用関数) 方策の定義(再掲) 行動価値関数(状態sで行動aに従った後は方策πに従う場合の割引期待累積報酬) 価値関数 𝑄πの推定値を𝑞(𝑠,
𝑎)とする時,𝑞 𝑠, 𝑎 < 𝑞(𝑠, 𝑎′)ならば状態sでは𝑎′の方が良い行動 ⇨ 貪欲方策モデル
9.
9 行動価値関数のイメージ図 例:移動ロボット(状態行動空間が離散) 𝑆𝑡𝑎𝑟𝑡 𝐺𝑜𝑎𝑙 𝑠0 𝑠1 𝑠2 𝑠3 𝑠5 𝑠6
𝑠7 𝑠8 上 右 左 下 𝑠0 0 3 0 3 𝑠1 0 5 1 5 𝑠2 0 0 1 7 𝑠3 1 5 0 5 𝑠4 1 7 1 7 𝑠5 1 0 1 10 𝑠6 1 7 0 0 𝑠7 1 10 1 0 𝑠8 0 0 0 0 行動 状態 テーブル形式(ルックアップテーブル)
10.
10 貪欲方策モデル 常に行動価値が最大となる行動を選択する決定的方策モデル • データの「活用」のみを目的とした方策モデル • 行動価値が最大となる行動を選択するため,新しい未知の経験が得にくい 「探索」も考慮に入れた貪欲方策モデル ε貪欲方策モデル
11.
11 ε貪欲方策モデル 貪欲方策モデルを確率的方策に一般化 ハイパーパラメータ ・ε が
1 に近いほどランダムに行動選択し易い ( 「探索」行動を選択し易い) ・ε が 0 に近いほど行動価値を最大にする行動を選択し易い (「活用」行動を選択し易い) 離散環境(状態・行動が離散的)での強化学習の応用を研究している論文ではほと んどがこの方策モデルを使っている では,状態が連続の環境では? ⇨ ソフトマックス方策モデル
12.
12 ソフトマックス方策モデル ε貪欲方策同様,貪欲方策を確率的方策に拡張 ε貪欲と何が違う? ⇨ 微分ができる! ソフトマックス方策 逆温度 βが大きい
⇨ 相対的に行動価値の大きい行動を選択し易い βが小さい ⇨ ランダムに行動を選択し易い β → ∞の極限で,貪欲方策モデルと等価
13.
13 ソフトマックス方策モデル 偏微分 行動価値関数,逆温度を微小変化させた際の方策の変化がわかる ⇨ 直接方策を学習させる,方策勾配法で用いられる 行動も連続である場合はガウス方策モデルが用いられることが多い
14.
14 不確かなときは楽観的に 貪欲に行動選択を行う場合の問題点 ・ 𝑞(𝑠, 𝑎)が過大評価された場合,行動𝑎が最適であると誤判断する可能性 ⇨
(s, 𝑎)に関するデータが増えるので𝑞(𝑠, 𝑎)を下方修正できる可能性 ・ 𝑞(𝑠, 𝑎)が過小評価された場合,行動𝑎以外が最適であると誤判断する可能性 ⇨ 今後(s, 𝑎)に関するデータが得られず𝑞(𝑠, 𝑎)を上方修正できない可能性 行動価値関数を工夫することで「探索と活用のトレードオフ」を考慮する これが非常にマズい 永遠に状態sにおいて誤った行動選択をし続ける可能性があるから この問題を回避するためのヒューリスティック 「不確かなときは楽観的に」
15.
15 不確かなときは楽観的に 𝑞(𝑠, 𝑎)が不確実な時は優先的に行動𝑎を選択するようにする 不確実度(探索が必要な度合い) (𝑠, 𝑎)の経験数の増加につれて減少 活用に関する量
+ 多腕バンディッド問題 ⇨ UCB1法
16.
16 多腕バンディッド問題とは 多腕バンディッド問題に対して活用と探索のトレードオフを考慮したアプローチ 多腕バンディッド問題 • 状態数が1で行動数がM>1 • アームを引く(行動する)と報酬+1が得られるが当たる確率はアームによっ て異なる 目的 指定された試行回数において期待報酬を最大化したい 𝑎1
𝑎2 𝑎3 𝑎 𝑀・・・
17.
17 UCB1 対象のアームを選択した回数の逆数で重み付けを行うことで,選択回数の少ない アームを選択し易くする手法 選択回数nが大きいほど不確実度は小さい
18.
18 UCB1の導出 Hoeffdingの不等式を用いる 確率変数の期待値と標本平均の誤差の確率をuで測っている 𝑋𝑡の値域は[0,1],で標本平均は この時, Hoeffdingの不等式が成り立つ より
19.
19 UCB1の導出 を代入して 対象の試行回数が少ないほど,推定価値は不確実(分散)は大きいが 試行回数が大きくなるにつれ,不確実性は小さくなる
20.
20 3章まとめ • 活用:期待報酬が最大となる行動をとる(greedy) • 探索:greedyでない行動をとる 探索と活用のトレードオフに関する評価指標 ・リグレット ・サンプル複雑度 探索と活用のトレードオフを実現する手法 ・ε貪欲方策モデル,ソフトマックス方策モデル ・不確かなときは楽観的に(ヒューリスティック)
21.
21 参考文献 https://www.kspub.co.jp/book/detail/5155912.html https://www.kspub.co.jp/book/detail/5172513.html http://www.incompleteideas.net/book/the-book-2nd.html https://www.shoeisha.co.jp/book/detail/9784798159928 http://yagami12.hatenablog.com
Download now