SlideShare a Scribd company logo
1 of 15
5章 モデルベース強化学習
2
目次
• モデルベースとモデルフリー
• ブラックボックス生成モデルに対するプランニング
• スパースサンプリング法
• オンラインモデルベース強化学習
• R-max法
3
モデルベースとモデルフリー
モデルフリー モデルベース
経験データはモデルの学習に用い,
エージェントはそのモデルから次状
態や報酬を獲得して価値関数や方策
を学習する
経験(環境から得た)データで価値
関数や方策を学習する
4
モデルベースの利点と欠点
• 利点
学習効率が良い(未来が分かっているから)
• 欠点
最適方策は推定したモデルの予測精度に大きく左右
5
モデルベースでバッチ学習
履歴データ MDPモデル 方策
• 履歴データから陽に環境モデル(状態遷移確率・報酬関数)を推定しプラン
ニングで最適方策を予測(環境が既知)
推定 プランニング
• 入力に対して出力を返すだけの内部構造が未知であるブラックボックスモデル
から得られるデータを用いて最適方策を予測
エージェント 環境
(𝑠𝑡 , 𝑎 𝑡)
𝑠𝑡+1・ 𝑟𝑡
Black Box
ドメイン知識
環境に関するデータ
6
ブラックボックス生成モデルに対するプランニング
2つのアプローチ方法
• 幅優先探索
状態探索空間の探索を優先
• 価値反復法,スパースサンプリング法 etc…
• 深さ優先探索
時間ステップ方向の探索を優先
• UCT法,モンテカルロ木探索 etc…
状態行動対(𝑠𝑡, 𝑎 𝑡)を入力し,出力(𝑟𝑡, 𝑠𝑡+1)を得ることができる生成モデルに対し
て最適方策を求める(シミュレーションベース)
https://qiita.com/drken/items/4a7869c5e304883f539b
7
スパースサンプリング法
既知:サンプリング数N 最大時間ステップT 生成モデル𝑓
時間ステップtにおける(𝑠𝑡, 𝑎 𝑡)を生成モデル𝑓に入力し, (𝑟𝑡, 𝑠𝑡+1)をN回サンプリング
時間ステップ𝑇まで繰り返し木を成長させる
• 例: 𝐴 = 2, 𝑁 = 2, 𝑇 = 2
s
a
𝑠(1)
𝑠(2)
𝑠(1)
𝑠(2)
a
a
a𝑡 = 0
𝑠(1)
𝑠(2)
𝑡 = 2
𝑡 = 1
・・・
a
a
次状態を2回サンプリング
8
スパースサンプリング法
木の構築完了後,最適行動価値の推定値を後ろ方向の再帰計算によって求める
(終端時間ステップ𝑇の推定値 𝑄Tの初期値は0などで初期化)
最適行動の推定
*計算量が状態数Sに依存しない ( 𝑓の計算量が𝑂 1 なら,𝑂 𝐴 𝑁 𝑇 )
*サンプリングされた特定の状態に対してのみ最適行動を計算している点に注意
(動的計画法では一度の更新で任意の状態それぞれにおける最適行動を計算)
9
スパースサンプリング法
スパースサンプリング法によって求まる行動を選択する方策𝜋 𝐴 がε最適
を保証するには,𝑇と𝑁を以下のように設定すればいいことが示されている
• 割引率 𝛾 が1に近いほど(長期の報酬を考慮), 𝑇と𝑁 を大きくする必要があるが,
特に𝑇の増加は計算量を指数関数的に大きくすることを意味する
10
オンラインモデルベース強化学習
• エージェントが環境と相互作用して獲得した経験データを用いて環境モデルの
更新を行い,その環境モデルから次状態や報酬を獲得して価値関数や方策を更
新することを繰り返す
• 環境モデルの不確実性を下げるような探索的な行動を選択するのか,目的関数
を最大にする行動を選択するのかという探索と活用のトレードオフを考慮する
ことが重要
11
環境モデルの推定
• 状態 s と行動 𝑎 と次状態 𝑠′
の3つ組(𝑠, 𝑎, 𝑠′
)についての経験回数
• (𝑠, 𝑎)についての報酬和
以下の統計量を履歴データから計算
最尤推定に従い状態行動対 に対して
状態遷移確率
報酬関数
と推定できる
12
R-max
各状態行動対(𝑠, 𝑎)を経験回数に応じて未知か既知かを判定して未知の状態行動
対を多く経験するような探索行動をとる
• 判定方法
なら既知,でないなら未知
s
𝑎2𝑎1
紐づく全ての行動𝑎の状態行動対が既知である状態:既知の状態
それ以外の状態:未知の状態
𝑎3
s
𝑎2𝑎1 𝑎3
12 15 21 12 15 3
13
R-max
既知の状態行動対に関しては正確に状態遷移確率や報酬関数を推定できると判断
未知の状態行動対( 𝑠, 𝑎)に関しては,方策が優先的に 𝑠, 𝑎 を経験するように「不
確かな時は楽観的に」の考え方に従って状態遷移確率や報酬関数を設定
14
アルゴリズム:R-max
入力:環境モデル,割引率γ,経験数の閾値𝑚,報酬の上限𝑅 𝑚𝑎𝑥,終了条件
出力:方策π
1.初期化
から方策πを計算
初期状態𝑠0を環境から観測
2.環境との相互作用
方策πに従い行動𝑎 𝑡を選択し,環境に入力
環境から報酬𝑟𝑡と次状態s 𝑡+1を観測
15
アルゴリズム:R-max
入力:環境モデル,割引率γ,経験数の閾値𝑚,報酬の上限𝑅 𝑚𝑎𝑥,終了条件
出力:方策π
3.学習
統計値の更新
もし ならば環境に関する推定値の更新を行う
から方策を更新
4.終了判定

More Related Content

What's hot

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷Eiji Sekiya
 
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会Shunichi Sekiguchi
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...Deep Learning JP
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム裕樹 奥田
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習Tsubasa Hirakawa
 
強化学習その2
強化学習その2強化学習その2
強化学習その2nishio
 
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知Chihiro Kusunoki
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまでharmonylab
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節Koji Matsuda
 
論文紹介 No-Reward Meta Learning (RL architecture勉強会)
論文紹介 No-Reward Meta Learning (RL architecture勉強会)論文紹介 No-Reward Meta Learning (RL architecture勉強会)
論文紹介 No-Reward Meta Learning (RL architecture勉強会)Yusuke Nakata
 
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門機械学習を用いた異常検知入門
機械学習を用いた異常検知入門michiaki ito
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 

What's hot (20)

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
 
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
強化学習4章
強化学習4章強化学習4章
強化学習4章
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
論文紹介 No-Reward Meta Learning (RL architecture勉強会)
論文紹介 No-Reward Meta Learning (RL architecture勉強会)論文紹介 No-Reward Meta Learning (RL architecture勉強会)
論文紹介 No-Reward Meta Learning (RL architecture勉強会)
 
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 

Similar to 強化学習5章

2011 sac-goal-driven software product line engineering
2011 sac-goal-driven software product line engineering2011 sac-goal-driven software product line engineering
2011 sac-goal-driven software product line engineeringn-yuki
 
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習Masato Nakai
 
データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章Hirofumi Tsuruta
 
Prml3 4
Prml3 4Prml3 4
Prml3 4K5_sem
 
Prml3 4
Prml3 4Prml3 4
Prml3 4K5_sem
 
推薦システムを構築する手順書 with Azure Machine Learning
推薦システムを構築する手順書 with Azure Machine Learning推薦システムを構築する手順書 with Azure Machine Learning
推薦システムを構築する手順書 with Azure Machine LearningMasayuki Ota
 
非定常データストリームにおける適応的決定木を用いたアンサンブル学習
非定常データストリームにおける適応的決定木を用いたアンサンブル学習非定常データストリームにおける適応的決定木を用いたアンサンブル学習
非定常データストリームにおける適応的決定木を用いたアンサンブル学習Yu Sugawara
 
Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化Atsushi Yokohama (BEACHSIDE)
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical ReportDeep Learning JP
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
 
Explainable predictions pattern
Explainable predictions patternExplainable predictions pattern
Explainable predictions patternyohei okawa
 
Transform pattern
Transform patternTransform pattern
Transform patternyohei okawa
 
Reframing パターン
Reframing パターンReframing パターン
Reframing パターンyohei okawa
 
Ml desginpattern 12_checkpoints_21210427
Ml desginpattern 12_checkpoints_21210427Ml desginpattern 12_checkpoints_21210427
Ml desginpattern 12_checkpoints_21210427Masakazu Shinoda
 
平成24年度社会知能情報学専攻修士論文中間発表会(予稿)
平成24年度社会知能情報学専攻修士論文中間発表会(予稿)平成24年度社会知能情報学専攻修士論文中間発表会(予稿)
平成24年度社会知能情報学専攻修士論文中間発表会(予稿)n-yuki
 
ソフトウェア開発活動のデータとアナリティクスの3原則
ソフトウェア開発活動のデータとアナリティクスの3原則ソフトウェア開発活動のデータとアナリティクスの3原則
ソフトウェア開発活動のデータとアナリティクスの3原則Shuji Morisaki
 
Optimization and simulation with DataRobot
Optimization and simulation with DataRobotOptimization and simulation with DataRobot
Optimization and simulation with DataRobotYuya Yamamoto
 
Model versioning pattern
Model versioning patternModel versioning pattern
Model versioning patternyohei okawa
 
2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysis2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysisn-yuki
 

Similar to 強化学習5章 (20)

Machine learning
Machine learningMachine learning
Machine learning
 
2011 sac-goal-driven software product line engineering
2011 sac-goal-driven software product line engineering2011 sac-goal-driven software product line engineering
2011 sac-goal-driven software product line engineering
 
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習
 
データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章
 
Prml3 4
Prml3 4Prml3 4
Prml3 4
 
Prml3 4
Prml3 4Prml3 4
Prml3 4
 
推薦システムを構築する手順書 with Azure Machine Learning
推薦システムを構築する手順書 with Azure Machine Learning推薦システムを構築する手順書 with Azure Machine Learning
推薦システムを構築する手順書 with Azure Machine Learning
 
非定常データストリームにおける適応的決定木を用いたアンサンブル学習
非定常データストリームにおける適応的決定木を用いたアンサンブル学習非定常データストリームにおける適応的決定木を用いたアンサンブル学習
非定常データストリームにおける適応的決定木を用いたアンサンブル学習
 
Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
Explainable predictions pattern
Explainable predictions patternExplainable predictions pattern
Explainable predictions pattern
 
Transform pattern
Transform patternTransform pattern
Transform pattern
 
Reframing パターン
Reframing パターンReframing パターン
Reframing パターン
 
Ml desginpattern 12_checkpoints_21210427
Ml desginpattern 12_checkpoints_21210427Ml desginpattern 12_checkpoints_21210427
Ml desginpattern 12_checkpoints_21210427
 
平成24年度社会知能情報学専攻修士論文中間発表会(予稿)
平成24年度社会知能情報学専攻修士論文中間発表会(予稿)平成24年度社会知能情報学専攻修士論文中間発表会(予稿)
平成24年度社会知能情報学専攻修士論文中間発表会(予稿)
 
ソフトウェア開発活動のデータとアナリティクスの3原則
ソフトウェア開発活動のデータとアナリティクスの3原則ソフトウェア開発活動のデータとアナリティクスの3原則
ソフトウェア開発活動のデータとアナリティクスの3原則
 
Optimization and simulation with DataRobot
Optimization and simulation with DataRobotOptimization and simulation with DataRobot
Optimization and simulation with DataRobot
 
Model versioning pattern
Model versioning patternModel versioning pattern
Model versioning pattern
 
2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysis2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysis
 

More from hiroki yamaoka (13)

PRML1.5
PRML1.5PRML1.5
PRML1.5
 
PRML1.3
PRML1.3PRML1.3
PRML1.3
 
DQN
DQNDQN
DQN
 
PRML6.4
PRML6.4PRML6.4
PRML6.4
 
PRML9.3
PRML9.3PRML9.3
PRML9.3
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
PRML5.5
PRML5.5PRML5.5
PRML5.5
 
強化学習6章
強化学習6章強化学習6章
強化学習6章
 
強化学習3章
強化学習3章強化学習3章
強化学習3章
 
強化学習2章
強化学習2章強化学習2章
強化学習2章
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
 
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 

強化学習5章

Editor's Notes

  1. 動的計画法とは違う