SlideShare a Scribd company logo
1 of 15
5章 モデルベース強化学習
2
目次
• モデルベースとモデルフリー
• ブラックボックス生成モデルに対するプランニング
• スパースサンプリング法
• オンラインモデルベース強化学習
• R-max法
3
モデルベースとモデルフリー
モデルフリー モデルベース
経験データはモデルの学習に用い,
エージェントはそのモデルから次状
態や報酬を獲得して価値関数や方策
を学習する
経験(環境から得た)データで価値
関数や方策を学習する
4
モデルベースの利点と欠点
• 利点
学習効率が良い(未来が分かっているから)
• 欠点
最適方策は推定したモデルの予測精度に大きく左右
5
モデルベースでバッチ学習
履歴データ MDPモデル 方策
• 履歴データから陽に環境モデル(状態遷移確率・報酬関数)を推定しプラン
ニングで最適方策を予測(環境が既知)
推定 プランニング
• 入力に対して出力を返すだけの内部構造が未知であるブラックボックスモデル
から得られるデータを用いて最適方策を予測
エージェント 環境
(𝑠𝑡 , 𝑎 𝑡)
𝑠𝑡+1・ 𝑟𝑡
Black Box
ドメイン知識
環境に関するデータ
6
ブラックボックス生成モデルに対するプランニング
2つのアプローチ方法
• 幅優先探索
状態探索空間の探索を優先
• 価値反復法,スパースサンプリング法 etc…
• 深さ優先探索
時間ステップ方向の探索を優先
• UCT法,モンテカルロ木探索 etc…
状態行動対(𝑠𝑡, 𝑎 𝑡)を入力し,出力(𝑟𝑡, 𝑠𝑡+1)を得ることができる生成モデルに対し
て最適方策を求める(シミュレーションベース)
https://qiita.com/drken/items/4a7869c5e304883f539b
7
スパースサンプリング法
既知:サンプリング数N 最大時間ステップT 生成モデル𝑓
時間ステップtにおける(𝑠𝑡, 𝑎 𝑡)を生成モデル𝑓に入力し, (𝑟𝑡, 𝑠𝑡+1)をN回サンプリング
時間ステップ𝑇まで繰り返し木を成長させる
• 例: 𝐴 = 2, 𝑁 = 2, 𝑇 = 2
s
a
𝑠(1)
𝑠(2)
𝑠(1)
𝑠(2)
a
a
a𝑡 = 0
𝑠(1)
𝑠(2)
𝑡 = 2
𝑡 = 1
・・・
a
a
次状態を2回サンプリング
8
スパースサンプリング法
木の構築完了後,最適行動価値の推定値を後ろ方向の再帰計算によって求める
(終端時間ステップ𝑇の推定値 𝑄Tの初期値は0などで初期化)
最適行動の推定
*計算量が状態数Sに依存しない ( 𝑓の計算量が𝑂 1 なら,𝑂 𝐴 𝑁 𝑇 )
*サンプリングされた特定の状態に対してのみ最適行動を計算している点に注意
(動的計画法では一度の更新で任意の状態それぞれにおける最適行動を計算)
9
スパースサンプリング法
スパースサンプリング法によって求まる行動を選択する方策𝜋 𝐴 がε最適
を保証するには,𝑇と𝑁を以下のように設定すればいいことが示されている
• 割引率 𝛾 が1に近いほど(長期の報酬を考慮), 𝑇と𝑁 を大きくする必要があるが,
特に𝑇の増加は計算量を指数関数的に大きくすることを意味する
10
オンラインモデルベース強化学習
• エージェントが環境と相互作用して獲得した経験データを用いて環境モデルの
更新を行い,その環境モデルから次状態や報酬を獲得して価値関数や方策を更
新することを繰り返す
• 環境モデルの不確実性を下げるような探索的な行動を選択するのか,目的関数
を最大にする行動を選択するのかという探索と活用のトレードオフを考慮する
ことが重要
11
環境モデルの推定
• 状態 s と行動 𝑎 と次状態 𝑠′
の3つ組(𝑠, 𝑎, 𝑠′
)についての経験回数
• (𝑠, 𝑎)についての報酬和
以下の統計量を履歴データから計算
最尤推定に従い状態行動対 に対して
状態遷移確率
報酬関数
と推定できる
12
R-max
各状態行動対(𝑠, 𝑎)を経験回数に応じて未知か既知かを判定して未知の状態行動
対を多く経験するような探索行動をとる
• 判定方法
なら既知,でないなら未知
s
𝑎2𝑎1
紐づく全ての行動𝑎の状態行動対が既知である状態:既知の状態
それ以外の状態:未知の状態
𝑎3
s
𝑎2𝑎1 𝑎3
12 15 21 12 15 3
13
R-max
既知の状態行動対に関しては正確に状態遷移確率や報酬関数を推定できると判断
未知の状態行動対( 𝑠, 𝑎)に関しては,方策が優先的に 𝑠, 𝑎 を経験するように「不
確かな時は楽観的に」の考え方に従って状態遷移確率や報酬関数を設定
14
アルゴリズム:R-max
入力:環境モデル,割引率γ,経験数の閾値𝑚,報酬の上限𝑅 𝑚𝑎𝑥,終了条件
出力:方策π
1.初期化
から方策πを計算
初期状態𝑠0を環境から観測
2.環境との相互作用
方策πに従い行動𝑎 𝑡を選択し,環境に入力
環境から報酬𝑟𝑡と次状態s 𝑡+1を観測
15
アルゴリズム:R-max
入力:環境モデル,割引率γ,経験数の閾値𝑚,報酬の上限𝑅 𝑚𝑎𝑥,終了条件
出力:方策π
3.学習
統計値の更新
もし ならば環境に関する推定値の更新を行う
から方策を更新
4.終了判定

More Related Content

What's hot

最近のDQN
最近のDQN最近のDQN
最近のDQNmooopan
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
ICLR2020の異常検知論文の紹介 (2019/11/23)
ICLR2020の異常検知論文の紹介 (2019/11/23)ICLR2020の異常検知論文の紹介 (2019/11/23)
ICLR2020の異常検知論文の紹介 (2019/11/23)ぱんいち すみもと
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain Randomization[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain RandomizationDeep Learning JP
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列Kenjiro Sugimoto
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件Shinobu KINJO
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learningKazuki Adachi
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本Takahiro Kubo
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...Deep Learning JP
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 

What's hot (20)

最近のDQN
最近のDQN最近のDQN
最近のDQN
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
continual learning survey
continual learning surveycontinual learning survey
continual learning survey
 
ICLR2020の異常検知論文の紹介 (2019/11/23)
ICLR2020の異常検知論文の紹介 (2019/11/23)ICLR2020の異常検知論文の紹介 (2019/11/23)
ICLR2020の異常検知論文の紹介 (2019/11/23)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain Randomization[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain Randomization
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 

Similar to 強化学習5章

2011 sac-goal-driven software product line engineering
2011 sac-goal-driven software product line engineering2011 sac-goal-driven software product line engineering
2011 sac-goal-driven software product line engineeringn-yuki
 
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習Masato Nakai
 
データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章Hirofumi Tsuruta
 
Prml3 4
Prml3 4Prml3 4
Prml3 4K5_sem
 
Prml3 4
Prml3 4Prml3 4
Prml3 4K5_sem
 
推薦システムを構築する手順書 with Azure Machine Learning
推薦システムを構築する手順書 with Azure Machine Learning推薦システムを構築する手順書 with Azure Machine Learning
推薦システムを構築する手順書 with Azure Machine LearningMasayuki Ota
 
非定常データストリームにおける適応的決定木を用いたアンサンブル学習
非定常データストリームにおける適応的決定木を用いたアンサンブル学習非定常データストリームにおける適応的決定木を用いたアンサンブル学習
非定常データストリームにおける適応的決定木を用いたアンサンブル学習Yu Sugawara
 
Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化Atsushi Yokohama (BEACHSIDE)
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical ReportDeep Learning JP
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
 
Explainable predictions pattern
Explainable predictions patternExplainable predictions pattern
Explainable predictions patternyohei okawa
 
Transform pattern
Transform patternTransform pattern
Transform patternyohei okawa
 
Reframing パターン
Reframing パターンReframing パターン
Reframing パターンyohei okawa
 
Ml desginpattern 12_checkpoints_21210427
Ml desginpattern 12_checkpoints_21210427Ml desginpattern 12_checkpoints_21210427
Ml desginpattern 12_checkpoints_21210427Masakazu Shinoda
 
平成24年度社会知能情報学専攻修士論文中間発表会(予稿)
平成24年度社会知能情報学専攻修士論文中間発表会(予稿)平成24年度社会知能情報学専攻修士論文中間発表会(予稿)
平成24年度社会知能情報学専攻修士論文中間発表会(予稿)n-yuki
 
ソフトウェア開発活動のデータとアナリティクスの3原則
ソフトウェア開発活動のデータとアナリティクスの3原則ソフトウェア開発活動のデータとアナリティクスの3原則
ソフトウェア開発活動のデータとアナリティクスの3原則Shuji Morisaki
 
Optimization and simulation with DataRobot
Optimization and simulation with DataRobotOptimization and simulation with DataRobot
Optimization and simulation with DataRobotYuya Yamamoto
 
Model versioning pattern
Model versioning patternModel versioning pattern
Model versioning patternyohei okawa
 
2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysis2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysisn-yuki
 

Similar to 強化学習5章 (20)

Machine learning
Machine learningMachine learning
Machine learning
 
2011 sac-goal-driven software product line engineering
2011 sac-goal-driven software product line engineering2011 sac-goal-driven software product line engineering
2011 sac-goal-driven software product line engineering
 
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習
 
データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章
 
Prml3 4
Prml3 4Prml3 4
Prml3 4
 
Prml3 4
Prml3 4Prml3 4
Prml3 4
 
推薦システムを構築する手順書 with Azure Machine Learning
推薦システムを構築する手順書 with Azure Machine Learning推薦システムを構築する手順書 with Azure Machine Learning
推薦システムを構築する手順書 with Azure Machine Learning
 
非定常データストリームにおける適応的決定木を用いたアンサンブル学習
非定常データストリームにおける適応的決定木を用いたアンサンブル学習非定常データストリームにおける適応的決定木を用いたアンサンブル学習
非定常データストリームにおける適応的決定木を用いたアンサンブル学習
 
Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
Explainable predictions pattern
Explainable predictions patternExplainable predictions pattern
Explainable predictions pattern
 
Transform pattern
Transform patternTransform pattern
Transform pattern
 
Reframing パターン
Reframing パターンReframing パターン
Reframing パターン
 
Ml desginpattern 12_checkpoints_21210427
Ml desginpattern 12_checkpoints_21210427Ml desginpattern 12_checkpoints_21210427
Ml desginpattern 12_checkpoints_21210427
 
平成24年度社会知能情報学専攻修士論文中間発表会(予稿)
平成24年度社会知能情報学専攻修士論文中間発表会(予稿)平成24年度社会知能情報学専攻修士論文中間発表会(予稿)
平成24年度社会知能情報学専攻修士論文中間発表会(予稿)
 
ソフトウェア開発活動のデータとアナリティクスの3原則
ソフトウェア開発活動のデータとアナリティクスの3原則ソフトウェア開発活動のデータとアナリティクスの3原則
ソフトウェア開発活動のデータとアナリティクスの3原則
 
Optimization and simulation with DataRobot
Optimization and simulation with DataRobotOptimization and simulation with DataRobot
Optimization and simulation with DataRobot
 
Model versioning pattern
Model versioning patternModel versioning pattern
Model versioning pattern
 
2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysis2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysis
 

More from hiroki yamaoka (12)

PRML1.5
PRML1.5PRML1.5
PRML1.5
 
PRML1.3
PRML1.3PRML1.3
PRML1.3
 
DQN
DQNDQN
DQN
 
PRML6.4
PRML6.4PRML6.4
PRML6.4
 
PRML9.3
PRML9.3PRML9.3
PRML9.3
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
PRML5.5
PRML5.5PRML5.5
PRML5.5
 
強化学習6章
強化学習6章強化学習6章
強化学習6章
 
強化学習2章
強化学習2章強化学習2章
強化学習2章
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
 
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 

強化学習5章

Editor's Notes

  1. 動的計画法とは違う