Submit Search
Upload
強化学習3章
•
Download as PPTX, PDF
•
0 likes
•
250 views
H
hiroki yamaoka
Follow
研究室内発表で使った資料です
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 21
Download now
Recommended
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜 6/10 (木) 9:30~10:40 講師:平川 翼 氏(中部大学) 概要: 深層強化学習はDeep Q-Network (DQN) の登場以降、様々なアプローチが提案されており、AlphaGoによる囲碁の攻略やロボットの自律制御などの様々な応用がなされています。本チュートリアルでは、従来の強化学習の基本的な考え方に触れ、深層学習を組み合わせた深層強化学習についての紹介を行います。また、時間の許す限り、最新の深層学習手法やAlphaGoの仕組み、深層強化学習の活用例を紹介します。
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
強化学習アルゴリズムであるPPOとそこに至るまでのアルゴリズム(Actor-Critic, A3C, TRPO)について解説
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
2022/11/25 Deep Learning JP http://deeplearning.jp/seminar-2/
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
強化学習若手の会チュートリアル、部分観測マルコフ決定過程 (POMDP) 下での強化学習の基礎と応用の資料です。
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
Shibuya Synapse #3 〜現在の強化学習に何が足りないのか?〜 の発表スライドです. 同イベントのレポート https://dena.ai/news/201812-shibuyasynapse3rd-report/
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です. 強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました. 主に以下のような強化学習の概念やアルゴリズムの紹介をしています. ・マルコフ決定過程 ・ベルマン方程式 ・モデルフリー強化学習 ・モデルベース強化学習 ・TD学習 ・Q学習 ・SARSA ・適格度トレース ・関数近似 ・方策勾配法 ・方策勾配定理 ・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN(Deep Q-Network) ・経験再生 ・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Noisy Network ・Rainbow ・A3C ・A2C ・Gorila ・Ape-X ・R2D2 ・内発的報酬 ・カウントベース ・擬似カウントベース ・RND(Random Network Distillation) ・ICM(Intrinsic Curiosity Module) ・Go-Explore ・世界モデル(World Models) ・MuZero ・SimPLe ・NGU(Never Give Up) ・Agent57 ・AlphaGo ・AlphaGo Zero ・AlphaZero ・OpenAI Five ・AlphaStar ・マルチエージェント強化学習
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
2021/09/17 Deep Learning JP: http://deeplearning.jp/seminar-2/
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
2019/10/04 Deep Learning JP: http://deeplearning.jp/seminar-2/
Recommended
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜 6/10 (木) 9:30~10:40 講師:平川 翼 氏(中部大学) 概要: 深層強化学習はDeep Q-Network (DQN) の登場以降、様々なアプローチが提案されており、AlphaGoによる囲碁の攻略やロボットの自律制御などの様々な応用がなされています。本チュートリアルでは、従来の強化学習の基本的な考え方に触れ、深層学習を組み合わせた深層強化学習についての紹介を行います。また、時間の許す限り、最新の深層学習手法やAlphaGoの仕組み、深層強化学習の活用例を紹介します。
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
強化学習アルゴリズムであるPPOとそこに至るまでのアルゴリズム(Actor-Critic, A3C, TRPO)について解説
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
2022/11/25 Deep Learning JP http://deeplearning.jp/seminar-2/
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
強化学習若手の会チュートリアル、部分観測マルコフ決定過程 (POMDP) 下での強化学習の基礎と応用の資料です。
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
Shibuya Synapse #3 〜現在の強化学習に何が足りないのか?〜 の発表スライドです. 同イベントのレポート https://dena.ai/news/201812-shibuyasynapse3rd-report/
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です. 強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました. 主に以下のような強化学習の概念やアルゴリズムの紹介をしています. ・マルコフ決定過程 ・ベルマン方程式 ・モデルフリー強化学習 ・モデルベース強化学習 ・TD学習 ・Q学習 ・SARSA ・適格度トレース ・関数近似 ・方策勾配法 ・方策勾配定理 ・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN(Deep Q-Network) ・経験再生 ・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Noisy Network ・Rainbow ・A3C ・A2C ・Gorila ・Ape-X ・R2D2 ・内発的報酬 ・カウントベース ・擬似カウントベース ・RND(Random Network Distillation) ・ICM(Intrinsic Curiosity Module) ・Go-Explore ・世界モデル(World Models) ・MuZero ・SimPLe ・NGU(Never Give Up) ・Agent57 ・AlphaGo ・AlphaGo Zero ・AlphaZero ・OpenAI Five ・AlphaStar ・マルチエージェント強化学習
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
2021/09/17 Deep Learning JP: http://deeplearning.jp/seminar-2/
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
2019/10/04 Deep Learning JP: http://deeplearning.jp/seminar-2/
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
2016/11/18 Deep Learning JP: http://deeplearning.jp/seminar-2/
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
強化学習と方策勾配法をざっくり 注: 全体を通して割引報酬による定式化のみを考慮. p. 4:状態価値関数の図は割引をちゃんと考慮してないイメージ図 ミスたち: p. 33:行動が確率変数ではないため -> 大嘘,行動は決定論的に決められるから
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
強化学習をDQNから順に追って,A3C,PPOまでを解説します.
強化学習における好奇心
強化学習における好奇心
Shota Imai
強化学習のアルゴリズムの中で,複雑な環境の探索のために内発的報酬を用いているアルゴリズムを紹介した資料です.未知の状態への探索を促していることから「好奇心」を用いた探索とも呼ばれます.元々は別の場所で公開していた資料でしたが,いくつかの修正を加えて,こちらに改めてアップしました.
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
DQN(Deep Q Network)以前からRainbow、またApe-Xまでのゲームタスクを扱った深層強化学習アルゴリズムの概観。 ※ 分かりにくい箇所や、不正確な記載があればコメントいただけると嬉しいです。
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
佑 甲野
NeurIPS2018読み会@PFN での発表資料です.まとめというほどではありませんが,NeurIPS2018 で発表された中で気になった強化学習技術の雑感です. https://connpass.com/event/115476/ 下記を合わせてご覧いただくと少しだけわかりやすくなると思います. ・多様な強化学習の概念と課題認識 https://www.slideshare.net/yukono1/ss-102843951 ・強化学習の基礎的な考え方と問題の分類 https://www.slideshare.net/yukono1/ss-129668388
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
ICLR2019に投稿されたR2D2 (Recurrent Replay Distributed DQN)アルゴリズムの紹介。 深層強化学習の分散化の流れ(A3C/Ape-X/IMPALA)やRNN活用(DRQN)についても合わせて概観しています。 ※ 分かりにくい箇所や、不正確な記載があればコメントいただけると嬉しいです。
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
第16回汎用人工知能研究会
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
nishio
モメンタム、Nesterov accelerated gradientとAdagrad, Adadelta, Adamについて解説しました。
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Hakky St
夏のDQN祭り~第二弾~ 以下の論文紹介の資料です。 Deep Recurrent Q-Learning for Partially Observable MDPs https://arxiv.org/abs/1507.06527
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
本資料は2019年11月15日~11月16日に行われた統計・機械学習若手シンボジウムで今井が行った招待公演「強化学習エージェントの内発的動機付けによる探索とその応用」で使用した資料を,自主公開版として一部修正したものです. いわゆる内発的報酬(Intrinsic Reward)を用いた強化学習の手法について,近年(〜2019年)の手法や内容をまとめたものになります.
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
2019/04/26 Deep Learning JP: http://deeplearning.jp/seminar-2/
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
第4回 統計・機械学習若手シンポジウム(11/15)発表資料
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
強化学習アーキテクチャ勉強会の資料
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
4/16に行われた筑波大の手塚若林研合同ゼミでの発表スライドです。
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
2021/07/09 Deep Learning JP: http://deeplearning.jp/seminar-2/
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
Deep Learning JP
2019/06/28 Deep Learning JP: http://deeplearning.jp/seminar-2/
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
Gradient Boostingは近年Kaggleなどのコンペティションで注目を集めている分類や回帰問題に対するアルゴリズムの一つである。XGBoost, LightGBM, CatBoostなどが有名ではあるが、それらを土台にして近年はDeepGBMやNGBoostといった新規アルゴリズムの登場、汎化理論解析の進展、モデル解釈性の付与方法の多様化など、理論から応用まで多岐にわたる研究が行われている。本チュートリアルでは、Gradient Boostingに関する近年の研究動向やテクニックを、それらの社会実装までを見据えながら紹介していく。
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP
2019/02/01 Deep Learning JP: http://deeplearning.jp/seminar-2/
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
Hirokatsu Kataoka
サーベイ方法やアイディアの発想法についてまとめました.
PRML1.5
PRML1.5
hiroki yamaoka
決定理論
PRML1.3
PRML1.3
hiroki yamaoka
研究室内の輪講で使った資料です
More Related Content
What's hot
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
2016/11/18 Deep Learning JP: http://deeplearning.jp/seminar-2/
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
強化学習と方策勾配法をざっくり 注: 全体を通して割引報酬による定式化のみを考慮. p. 4:状態価値関数の図は割引をちゃんと考慮してないイメージ図 ミスたち: p. 33:行動が確率変数ではないため -> 大嘘,行動は決定論的に決められるから
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
強化学習をDQNから順に追って,A3C,PPOまでを解説します.
強化学習における好奇心
強化学習における好奇心
Shota Imai
強化学習のアルゴリズムの中で,複雑な環境の探索のために内発的報酬を用いているアルゴリズムを紹介した資料です.未知の状態への探索を促していることから「好奇心」を用いた探索とも呼ばれます.元々は別の場所で公開していた資料でしたが,いくつかの修正を加えて,こちらに改めてアップしました.
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
DQN(Deep Q Network)以前からRainbow、またApe-Xまでのゲームタスクを扱った深層強化学習アルゴリズムの概観。 ※ 分かりにくい箇所や、不正確な記載があればコメントいただけると嬉しいです。
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
佑 甲野
NeurIPS2018読み会@PFN での発表資料です.まとめというほどではありませんが,NeurIPS2018 で発表された中で気になった強化学習技術の雑感です. https://connpass.com/event/115476/ 下記を合わせてご覧いただくと少しだけわかりやすくなると思います. ・多様な強化学習の概念と課題認識 https://www.slideshare.net/yukono1/ss-102843951 ・強化学習の基礎的な考え方と問題の分類 https://www.slideshare.net/yukono1/ss-129668388
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
ICLR2019に投稿されたR2D2 (Recurrent Replay Distributed DQN)アルゴリズムの紹介。 深層強化学習の分散化の流れ(A3C/Ape-X/IMPALA)やRNN活用(DRQN)についても合わせて概観しています。 ※ 分かりにくい箇所や、不正確な記載があればコメントいただけると嬉しいです。
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
第16回汎用人工知能研究会
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
nishio
モメンタム、Nesterov accelerated gradientとAdagrad, Adadelta, Adamについて解説しました。
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Hakky St
夏のDQN祭り~第二弾~ 以下の論文紹介の資料です。 Deep Recurrent Q-Learning for Partially Observable MDPs https://arxiv.org/abs/1507.06527
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
本資料は2019年11月15日~11月16日に行われた統計・機械学習若手シンボジウムで今井が行った招待公演「強化学習エージェントの内発的動機付けによる探索とその応用」で使用した資料を,自主公開版として一部修正したものです. いわゆる内発的報酬(Intrinsic Reward)を用いた強化学習の手法について,近年(〜2019年)の手法や内容をまとめたものになります.
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
2019/04/26 Deep Learning JP: http://deeplearning.jp/seminar-2/
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
第4回 統計・機械学習若手シンポジウム(11/15)発表資料
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
強化学習アーキテクチャ勉強会の資料
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
4/16に行われた筑波大の手塚若林研合同ゼミでの発表スライドです。
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
2021/07/09 Deep Learning JP: http://deeplearning.jp/seminar-2/
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
Deep Learning JP
2019/06/28 Deep Learning JP: http://deeplearning.jp/seminar-2/
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
Gradient Boostingは近年Kaggleなどのコンペティションで注目を集めている分類や回帰問題に対するアルゴリズムの一つである。XGBoost, LightGBM, CatBoostなどが有名ではあるが、それらを土台にして近年はDeepGBMやNGBoostといった新規アルゴリズムの登場、汎化理論解析の進展、モデル解釈性の付与方法の多様化など、理論から応用まで多岐にわたる研究が行われている。本チュートリアルでは、Gradient Boostingに関する近年の研究動向やテクニックを、それらの社会実装までを見据えながら紹介していく。
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP
2019/02/01 Deep Learning JP: http://deeplearning.jp/seminar-2/
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
Hirokatsu Kataoka
サーベイ方法やアイディアの発想法についてまとめました.
What's hot
(20)
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
強化学習における好奇心
強化学習における好奇心
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
深層生成モデルと世界モデル
深層生成モデルと世界モデル
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Optimizer入門&最新動向
Optimizer入門&最新動向
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
More from hiroki yamaoka
PRML1.5
PRML1.5
hiroki yamaoka
決定理論
PRML1.3
PRML1.3
hiroki yamaoka
研究室内の輪講で使った資料です
DQN
DQN
hiroki yamaoka
研究室内の発表で使った資料です
PRML6.4
PRML6.4
hiroki yamaoka
研究室の輪講で使った資料です
PRML9.3
PRML9.3
hiroki yamaoka
研究室の輪講で使った資料です
PRML4.3
PRML4.3
hiroki yamaoka
研究室の輪講で使った資料です
PRML5.5
PRML5.5
hiroki yamaoka
研究室の輪講で使った資料です
強化学習6章
強化学習6章
hiroki yamaoka
研究室内の発表資料です
強化学習5章
強化学習5章
hiroki yamaoka
研究室内の発表資料です
強化学習4章
強化学習4章
hiroki yamaoka
研究室内発表で使った資料です
強化学習2章
強化学習2章
hiroki yamaoka
研究室内発表で使った資料です
強化学習1章
強化学習1章
hiroki yamaoka
研究室内発表で使った資料です
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
hiroki yamaoka
研究室内発表で使った資料です
PRML2.4 指数型分布族
PRML2.4 指数型分布族
hiroki yamaoka
研究室のゼミで発表した際の資料です.
More from hiroki yamaoka
(14)
PRML1.5
PRML1.5
PRML1.3
PRML1.3
DQN
DQN
PRML6.4
PRML6.4
PRML9.3
PRML9.3
PRML4.3
PRML4.3
PRML5.5
PRML5.5
強化学習6章
強化学習6章
強化学習5章
強化学習5章
強化学習4章
強化学習4章
強化学習2章
強化学習2章
強化学習1章
強化学習1章
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
PRML2.4 指数型分布族
PRML2.4 指数型分布族
強化学習3章
1.
3章 探索と活用のトレードオフ
2.
2 やっと強化学習 ここからは環境(MDP)の情報が未知と仮定 ⇨ 強化学習 MDPの情報はエージェントが環境に働きかけて得たデータから推測する データが少ないと局所解に陥る可能性大 ・エージェントは環境からデータを収集するために行動
(探索) ・収集したデータを利用して期待報酬最大となるように行動 (活用) オンライン学習では,最適方策以外に上手く探索する方策も知りたい 探索か活用のどちらか一方に偏るのは好ましくない 探索と活用のトレードオフ を考慮する必要
3.
3 探索と活用のトレードオフ • 活用:期待報酬が最大となる行動をとる(greedy) • 探索:greedyでない行動をとる 探索と活用のトレードオフに関する評価指標 ・リグレット ・サンプル複雑度 探索と活用のトレードオフを実現する手法 ・ε貪欲方策モデル,ソフトマックス方策モデル ・不確かなときは楽観的に(ヒューリスティック)
4.
4 リグレット 「神のみぞ知る最適方策に従って得た報酬の期待値」と比べて,「学習途中の方 策に従って得た報酬の期待値」の良さ(探索と活用のトレードオフ)を測る指標 • リグレットが小さいほどデータの探索と活用が適切に考慮できている • この定義では,時間割引なしの期待累積報酬しか扱えない(多腕バンディッド 問題など) •
最適性の原理を満たさない問題に適用できない
5.
5 サンプル複雑度 各時間ステップ t の状態s
𝑡で方策𝜋 𝑡がε最適でなかった回数の総和 ε最適方策 目的関数 が最適性の原理を満たし,ε > 0に対してある方策 π がある状態 s で を満たすとき,πは状態sでε最適であるといい,πが任意のsで上式を満たすとき, πはε最適方策であるという 最適方策 時間ステップtにおける「最適価値」と 「学習途中の価値」との差
6.
6 サンプル複雑度の注意点 サンプル複雑度は学習速度を主に評価している • 各時間ステップtの方策𝜋 𝑡がε最適か否かの2値的にしか評価していない •
学習途中のリグレットが大きい or 小さい方策のどちらでも,ε最適な方策な方 策を求めるまでのステップ数が変わらなければサンプル複雑度は大して変わ らない MDPが既約でない場合,サンプル複雑度が役に立たない可能性 明らかに良くない状態であるが サンプル複雑度が増えなくなる
7.
7 探索と活用のトレードオフ • 活用:期待報酬が最大となる行動をとる(greedy) • 探索:greedyでない行動をとる 探索と活用のトレードオフに関する評価指標 ・リグレット ・サンプル複雑度 探索と活用のトレードオフを実現する手法 ・ε貪欲方策モデル,ソフトマックス方策モデル ・不確かなときは楽観的に(ヒューリスティック)
8.
8 方策モデル 方策をモデル化する2つのアプローチ ・NNなどを用いて,状態を入力として行動(の確率分布)を出力する ・行動価値関数が最大となるような行動(の確率分布)を出力する ⇦ 今回はコレ (効用関数) 方策の定義(再掲) 行動価値関数(状態sで行動aに従った後は方策πに従う場合の割引期待累積報酬) 価値関数 𝑄πの推定値を𝑞(𝑠,
𝑎)とする時,𝑞 𝑠, 𝑎 < 𝑞(𝑠, 𝑎′)ならば状態sでは𝑎′の方が良い行動 ⇨ 貪欲方策モデル
9.
9 行動価値関数のイメージ図 例:移動ロボット(状態行動空間が離散) 𝑆𝑡𝑎𝑟𝑡 𝐺𝑜𝑎𝑙 𝑠0 𝑠1 𝑠2 𝑠3 𝑠5 𝑠6
𝑠7 𝑠8 上 右 左 下 𝑠0 0 3 0 3 𝑠1 0 5 1 5 𝑠2 0 0 1 7 𝑠3 1 5 0 5 𝑠4 1 7 1 7 𝑠5 1 0 1 10 𝑠6 1 7 0 0 𝑠7 1 10 1 0 𝑠8 0 0 0 0 行動 状態 テーブル形式(ルックアップテーブル)
10.
10 貪欲方策モデル 常に行動価値が最大となる行動を選択する決定的方策モデル • データの「活用」のみを目的とした方策モデル • 行動価値が最大となる行動を選択するため,新しい未知の経験が得にくい 「探索」も考慮に入れた貪欲方策モデル ε貪欲方策モデル
11.
11 ε貪欲方策モデル 貪欲方策モデルを確率的方策に一般化 ハイパーパラメータ ・ε が
1 に近いほどランダムに行動選択し易い ( 「探索」行動を選択し易い) ・ε が 0 に近いほど行動価値を最大にする行動を選択し易い (「活用」行動を選択し易い) 離散環境(状態・行動が離散的)での強化学習の応用を研究している論文ではほと んどがこの方策モデルを使っている では,状態が連続の環境では? ⇨ ソフトマックス方策モデル
12.
12 ソフトマックス方策モデル ε貪欲方策同様,貪欲方策を確率的方策に拡張 ε貪欲と何が違う? ⇨ 微分ができる! ソフトマックス方策 逆温度 βが大きい
⇨ 相対的に行動価値の大きい行動を選択し易い βが小さい ⇨ ランダムに行動を選択し易い β → ∞の極限で,貪欲方策モデルと等価
13.
13 ソフトマックス方策モデル 偏微分 行動価値関数,逆温度を微小変化させた際の方策の変化がわかる ⇨ 直接方策を学習させる,方策勾配法で用いられる 行動も連続である場合はガウス方策モデルが用いられることが多い
14.
14 不確かなときは楽観的に 貪欲に行動選択を行う場合の問題点 ・ 𝑞(𝑠, 𝑎)が過大評価された場合,行動𝑎が最適であると誤判断する可能性 ⇨
(s, 𝑎)に関するデータが増えるので𝑞(𝑠, 𝑎)を下方修正できる可能性 ・ 𝑞(𝑠, 𝑎)が過小評価された場合,行動𝑎以外が最適であると誤判断する可能性 ⇨ 今後(s, 𝑎)に関するデータが得られず𝑞(𝑠, 𝑎)を上方修正できない可能性 行動価値関数を工夫することで「探索と活用のトレードオフ」を考慮する これが非常にマズい 永遠に状態sにおいて誤った行動選択をし続ける可能性があるから この問題を回避するためのヒューリスティック 「不確かなときは楽観的に」
15.
15 不確かなときは楽観的に 𝑞(𝑠, 𝑎)が不確実な時は優先的に行動𝑎を選択するようにする 不確実度(探索が必要な度合い) (𝑠, 𝑎)の経験数の増加につれて減少 活用に関する量
+ 多腕バンディッド問題 ⇨ UCB1法
16.
16 多腕バンディッド問題とは 多腕バンディッド問題に対して活用と探索のトレードオフを考慮したアプローチ 多腕バンディッド問題 • 状態数が1で行動数がM>1 • アームを引く(行動する)と報酬+1が得られるが当たる確率はアームによっ て異なる 目的 指定された試行回数において期待報酬を最大化したい 𝑎1
𝑎2 𝑎3 𝑎 𝑀・・・
17.
17 UCB1 対象のアームを選択した回数の逆数で重み付けを行うことで,選択回数の少ない アームを選択し易くする手法 選択回数nが大きいほど不確実度は小さい
18.
18 UCB1の導出 Hoeffdingの不等式を用いる 確率変数の期待値と標本平均の誤差の確率をuで測っている 𝑋𝑡の値域は[0,1],で標本平均は この時, Hoeffdingの不等式が成り立つ より
19.
19 UCB1の導出 を代入して 対象の試行回数が少ないほど,推定価値は不確実(分散)は大きいが 試行回数が大きくなるにつれ,不確実性は小さくなる
20.
20 3章まとめ • 活用:期待報酬が最大となる行動をとる(greedy) • 探索:greedyでない行動をとる 探索と活用のトレードオフに関する評価指標 ・リグレット ・サンプル複雑度 探索と活用のトレードオフを実現する手法 ・ε貪欲方策モデル,ソフトマックス方策モデル ・不確かなときは楽観的に(ヒューリスティック)
21.
21 参考文献 https://www.kspub.co.jp/book/detail/5155912.html https://www.kspub.co.jp/book/detail/5172513.html http://www.incompleteideas.net/book/the-book-2nd.html https://www.shoeisha.co.jp/book/detail/9784798159928 http://yagami12.hatenablog.com
Download now