Submit Search
Upload
Sutton chapter4
•
0 likes
•
521 views
S
Shuhei Yamshita
Follow
Reinforcement Learning: An Introduction Chapter 4
Read less
Read more
Science
Report
Share
Report
Share
1 of 30
Download now
Download to read offline
Recommended
Bayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
tmtm otm
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
道具としての機械学習:直感的概要とその実際
道具としての機械学習:直感的概要とその実際
Ichigaku Takigawa
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
Recommended
Bayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
tmtm otm
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
道具としての機械学習:直感的概要とその実際
道具としての機械学習:直感的概要とその実際
Ichigaku Takigawa
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
EMアルゴリズム
EMアルゴリズム
Sotetsu KOYAMADA(小山田創哲)
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
Tomoshige Nakamura
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
裕樹 奥田
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learning JP
深層学習の数理
深層学習の数理
Taiji Suzuki
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
西岡 賢一郎
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
顕著性マップの推定手法
顕著性マップの推定手法
Takao Yamanaka
Soft Actor Critic 解説
Soft Actor Critic 解説
KCS Keio Computer Society
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
hoxo_m
More Related Content
What's hot
EMアルゴリズム
EMアルゴリズム
Sotetsu KOYAMADA(小山田創哲)
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
Tomoshige Nakamura
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
裕樹 奥田
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learning JP
深層学習の数理
深層学習の数理
Taiji Suzuki
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
西岡 賢一郎
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
顕著性マップの推定手法
顕著性マップの推定手法
Takao Yamanaka
Soft Actor Critic 解説
Soft Actor Critic 解説
KCS Keio Computer Society
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
hoxo_m
What's hot
(20)
EMアルゴリズム
EMアルゴリズム
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
深層学習の数理
深層学習の数理
TensorFlowで逆強化学習
TensorFlowで逆強化学習
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
ドメイン適応の原理と応用
ドメイン適応の原理と応用
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
顕著性マップの推定手法
顕著性マップの推定手法
Soft Actor Critic 解説
Soft Actor Critic 解説
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
Sutton chapter4
1.
山下 修平 Reinforcement Learning An
Introduction 輪読会 第4回 Chapter4 : Dynamic Programming 1
2.
自己紹介 名前:山下修平 所属:東京大学後期教養学部4年 卒研で強化学習を勉強し始めました 2
3.
4章の内容 目標:最適方策(optimal policy)をDPによって得る! 0. 3章の復習 1.Policy
Evaluation: から を計算する 2.Policy Improvement: をもとにより良いpolicy を得る 3.Policy Iteration:1, 2を繰り返してoptimal policyを得る 4.Value Iteration:Policy Iterationの簡略化・効率化 5.Asynchronous Dynamic Programing:効率的に計算するための工夫 6.Generalized Policy Iteration:アイデアの一般化、まとめ 7.E ffi ciency of Dynamic Programming:DPの効率性 π vπ vπ π′  3
4.
3章の復習 強化学習の枠組みをざっくりと 4 方策(policy):状態から行動への写像( ) ※確率的方策の場合は状態・行動から確率値への写像( ) S
→ A S × A → [0,1] 探検家 洞窟 宝箱、毒など どの地点にいるか どの方向に進むか
5.
3章の復習 諸々の定義の確認 5 t以降の報酬の総和(リターン) 方策πに従った時のリターンの期待値(状態価値関数) 状態価値関数のベルマン方程式 行動価値関数
6.
3章の復習 最適方策の定義 6 方策 と方策 の優劣はどうやって決めるの? π
π′  最適方策(Optimal Policy) が定義される π* リターンの期待値が大きい方策が良いという意味なので当たり前 最適方策についてのベルマン方程式
7.
3章の復習 最適方策を得るには? → 最適価値関数 が分かれば簡単に得られる! v* 7 B A S C v*(A)
= 10 v*(B) = 100 v*(C) = − 100 π*(S) = b a b c
8.
4章の内容 目標:最適方策(optimal policy)をDPによって得る! 0. 3章の復習 1.Policy
Evaluation: から を計算する 2.Policy Improvement: をもとにより良いpolicy を得る 3.Policy Iteration:1, 2を繰り返してoptimal policyを得る 4.Value Iteration:Policy Iterationの簡略化・効率化 5.Asynchronous Dynamic Programing:効率的に計算するための工夫 6.Generalized Policy Iteration:アイデアの一般化、まとめ 7.E ffi ciency of Dynamic Programming:DPの効率性 π vπ vπ π′  8
9.
4.1 Policy Evaluation(Prediction) 目標:あるpolicy
πに対してその価値関数 を計算する vπ ベルマン方程式 → → もし環境のダイナミクスが完全に分かっていれば ¦S¦個の変数を持つ線形方程式を解けば解が得られる → しかし面倒なので繰り返し計算による方法が取られる vπ(s) = ∑ a π(a|s) ∑ s′  ,r p(s′  , r|s, a)[r + γvπ(s′  )] 9
10.
4.1 Policy Evaluation(Prediction) 目標:あるpolicy
πに対してその価値関数 を計算する vπ 近似価値関数の系列 を以下の式で更新していく この系列は で に収束することが示せる → 目標達成! v0, v1, v2, …, vk+1(s) = ∑ a π(a|s) ∑ s′  ,r p(s′  , r|s, a)[r + γvk(s′  )] k → ∞ vπ 10
11.
4.1 Policy Evaluation(Prediction) 目標:あるpolicy
πに対してその価値関数 を計算する vπ 更新幅の最大値が十分小さければ終了 update 11
12.
4.1 Policy Evaluation(Prediction) 目標:あるpolicy
πに対してその価値関数 を計算する vπ Example 4.1 https://colab.research.google.com/drive/1KLgZPFLL8Na1rtsqdnTKrltjTYf0ZjtD p(6, − 1|5, right) = 1, p(7, − 1|7, right) = 1 終端状態 終端状態に近い状態ほど価値は高いことが予想されるが 実際どうなのか? 12
13.
4章の内容 目標:最適方策(optimal policy)をDPによって得る! 0. 3章の復習 1.Policy
Evaluation: から を計算する 2.Policy Improvement: をもとにより良いpolicy を得る 3.Policy Iteration:1, 2を繰り返してoptimal policyを得る 4.Value Iteration:Policy Iterationの簡略化・効率化 5.Asynchronous Dynamic Programing:効率的に計算するための工夫 6.Generalized Policy Iteration:アイデアの一般化、まとめ 7.E ffi ciency of Dynamic Programming:DPの効率性 π vπ vπ π′  13
14.
4.2 Policy Improvement 目標:
を元により良い方策 を見つける vπ π′  s a = π(s) a′  今まではこっちばっかり選んでいた でもこっちを選んだほうがいいかもしれない 良し悪しはどうやって判断する? 14 ☆ より良いpolicyをどうやって見つける?→ 手がかりは価値関数!
15.
4.2 Policy Improvement 目標:
を元により良い方策 π を見つける vπ 15 なので の期待値(平均) vπ(s) = ∑ a π(a|s) qπ(s, a) qπ( ⋅ |s) 条件:qπ(s, π′  (s)) ≥ vπ(s) for all s ∈ S 結果:vπ′  (s) ≥ vπ(s) for all s ∈ S 証明はp78
16.
4.2 Policy Improvement 目標:
を元により良い方策 π を見つける vπ 16 価値関数についてgreedyな方策は よりも良い方策 π よりも良いpolicy を手に入れた → 目標達成! π π′ 
17.
4.2 Policy Improvement 目標:
を元により良い方策 を見つける vπ π′  新しい方策 が元の方策 と同じとき → → が成り立っている → これはベルマン最適方程式と同じ形をしているので はoptimal! ※これまでの議論はstochastic policyにも同様に拡張できる π′  π vπ = v′  π vπ′  (s) = maxa ∑ s′  ,r p(s′  , r|s, a)[r + γv′  π(s′  )] π 17
18.
4章の内容 目標:最適方策(optimal policy)をDPによって得る! 0. 3章の復習 1.Policy
Evaluation: から を計算する 2.Policy Improvement: をもとにより良いpolicy を得る 3.Policy Iteration:1, 2を繰り返してoptimal policyを得る 4.Value Iteration:Policy Iterationの簡略化・効率化 5.Asynchronous Dynamic Programing:効率的に計算するための工夫 6.Generalized Policy Iteration:アイデアの一般化、まとめ 7.E ffi ciency of Dynamic Programming:DPの効率性 π vπ vπ π′  18
19.
4.3 Policy Iteration 目標:
と を求める π* v* 有限MDPには有限のpolicyしかないので必ずoptimal policyに収束する 19
20.
4.3 Policy Iteration 20 目標:
と を求める π* v*
21.
4章の内容 目標:最適方策(optimal policy)をDPによって得る! 0. 3章の復習 1.Policy
Evaluation: から を計算する 2.Policy Improvement: をもとにより良いpolicy を得る 3.Policy Iteration:1, 2を繰り返してoptimal policyを得る 4.Value Iteration:Policy Iterationの簡略化・効率化 5.Asynchronous Dynamic Programing:効率的に計算するための工夫 6.Generalized Policy Iteration:アイデアの一般化、まとめ 7.E ffi ciency of Dynamic Programming:DPの効率性 π vπ vπ π′  21
22.
4.4 Value Iteration 目標:Policy
Iterationの簡略化、効率化 Policy Iterationの欠点:Policy Evaluationの収束を待たなければならない → 22 変更点: ①Policy Evaluationを簡略化 ②価値関数の更新にPolicy Improvementを組み込む
23.
23 1回にする 4.4 Value Iteration 組み込む Policy
Iterationとの違い
24.
4.4 Value Iteration 24 目標:Policy
Iterationの簡略化、効率化
25.
4章の内容 目標:最適方策(optimal policy)をDPによって得る! 0. 3章の復習 1.Policy
Evaluation: から を計算する 2.Policy Improvement: をもとにより良いpolicy を得る 3.Policy Iteration:1, 2を繰り返してoptimal policyを得る 4.Value Iteration:Policy Iterationの簡略化・効率化 5.Asynchronous Dynamic Programing:効率的に計算するための工夫 6.Generalized Policy Iteration:アイデアの一般化、まとめ 7.E ffi ciency of Dynamic Programming:DPの効率性 π vπ vπ π′  25
26.
4.5 Asynchronous Dynamic
Programming 目的:更新の順序の工夫 手法 基本アイデア:重要な状態の計算を先に行う 利点:一部の状態をupdateした後にpolicyを改善できる 制約:収束には全ての状態が無限回訪問されることが必要 26 背景 DPの欠点・・・全ての状態に対して計算が必要 → 状態数が膨大だと非現実的 例) backgammon
27.
4章の内容 目標:最適方策(optimal policy)をDPによって得る! 0. 3章の復習 1.Policy
Evaluation: から を計算する 2.Policy Improvement: をもとにより良いpolicy を得る 3.Policy Iteration:1, 2を繰り返してoptimal policyを得る 4.Value Iteration:Policy Iterationの簡略化・効率化 5.Asynchronous Dynamic Programing:効率的に計算するための工夫 6.Generalized Policy Iteration:アイデアの一般化、まとめ 7.E ffi ciency of Dynamic Programming:DPの効率性 π vπ vπ π′  27
28.
4.6 Generalized Policy
Iteration 28 Policy EvaluationとPolicy Improvementを相互に行うことを一般にGPIと呼ぶ これまでのアイデアの一般化
29.
4章の内容 目標:最適方策(optimal policy)をDPによって得る! 0. 3章の復習 1.Policy
Evaluation: から を計算する 2.Policy Improvement: をもとにより良いpolicy を得る 3.Policy Iteration:1, 2を繰り返してoptimal policyを得る 4.Value Iteration:Policy Iterationの簡略化・効率化 5.Asynchronous Dynamic Programing:効率的に計算するための工夫 6.Generalized Policy Iteration:アイデアの一般化、まとめ 7.E ffi ciency of Dynamic Programming:DPの効率性 π vπ vπ π′  29
30.
4.7 Efficiency of
Dynamic Programming DPの効率性に関する議論 30 DP は状態数が大きい問題には使えないと思われがち → direct searchやlinear programmingよりもずっと効率的 状態数: 行動数: → 決定的方策は ある → DPなら多項式時間で最適方策を見つけることができる! n k kn
Download now