強化学習5章

5章モデルベース強化学習

2
目次
• モデルベースとモデルフリー
• ブラックボックス生成モデルに対するプランニング
• スパースサンプリング法
• オンラインモデルベース強化学習
• R-max法

3
モデルベースとモデルフリー
モデルフリーモデルベース
経験データはモデルの学習に用い，
エージェントはそのモデルから次状
態や報酬を獲得して価値関数や方策
を学習する
経験（環境から得た）データで価値
関数や方策を学習する

4
モデルベースの利点と欠点
• 利点
学習効率が良い（未来が分かっているから）
• 欠点
最適方策は推定したモデルの予測精度に大きく左右

5
モデルベースでバッチ学習
履歴データ MDPモデル方策
• 履歴データから陽に環境モデル（状態遷移確率・報酬関数）を推定しプラン
ニングで最適方策を予測（環境が既知）
推定プランニング
• 入力に対して出力を返すだけの内部構造が未知であるブラックボックスモデル
から得られるデータを用いて最適方策を予測
エージェント環境
(𝑠𝑡 , 𝑎 𝑡)
𝑠𝑡+1・ 𝑟𝑡
Black Box
ドメイン知識
環境に関するデータ

6
ブラックボックス生成モデルに対するプランニング
2つのアプローチ方法
• 幅優先探索
状態探索空間の探索を優先
• 価値反復法，スパースサンプリング法 etc…
• 深さ優先探索
時間ステップ方向の探索を優先
• UCT法，モンテカルロ木探索 etc…
状態行動対(𝑠𝑡, 𝑎 𝑡)を入力し，出力(𝑟𝑡, 𝑠𝑡+1)を得ることができる生成モデルに対し
て最適方策を求める（シミュレーションベース）
https://qiita.com/drken/items/4a7869c5e304883f539b

7
スパースサンプリング法
既知：サンプリング数N 最大時間ステップT 生成モデル𝑓
時間ステップtにおける(𝑠𝑡, 𝑎 𝑡)を生成モデル𝑓に入力し， (𝑟𝑡, 𝑠𝑡+1)をN回サンプリング
時間ステップ𝑇まで繰り返し木を成長させる
• 例： 𝐴 = 2, 𝑁 = 2, 𝑇 = 2
s
a
𝑠(1)
𝑠(2)
𝑠(1)
𝑠(2)
a
a
a𝑡 = 0
𝑠(1)
𝑠(2)
𝑡 = 2
𝑡 = 1
・・・
a
a
次状態を2回サンプリング

8
木の構築完了後，最適行動価値の推定値を後ろ方向の再帰計算によって求める
（終端時間ステップ𝑇の推定値 𝑄Tの初期値は0などで初期化）
最適行動の推定
＊計算量が状態数Sに依存しない（ 𝑓の計算量が𝑂 1 なら，𝑂 𝐴 𝑁 𝑇 ）
＊サンプリングされた特定の状態に対してのみ最適行動を計算している点に注意
（動的計画法では一度の更新で任意の状態それぞれにおける最適行動を計算）

9
スパースサンプリング法によって求まる行動を選択する方策𝜋 𝐴 がε最適
を保証するには，𝑇と𝑁を以下のように設定すればいいことが示されている
• 割引率 𝛾 が1に近いほど(長期の報酬を考慮)， 𝑇と𝑁 を大きくする必要があるが，
特に𝑇の増加は計算量を指数関数的に大きくすることを意味する

10
オンラインモデルベース強化学習
• エージェントが環境と相互作用して獲得した経験データを用いて環境モデルの
更新を行い，その環境モデルから次状態や報酬を獲得して価値関数や方策を更
新することを繰り返す
• 環境モデルの不確実性を下げるような探索的な行動を選択するのか，目的関数
を最大にする行動を選択するのかという探索と活用のトレードオフを考慮する
ことが重要

11
環境モデルの推定
• 状態 s と行動 𝑎 と次状態 𝑠′
の3つ組(𝑠, 𝑎, 𝑠′
)についての経験回数
• (𝑠, 𝑎)についての報酬和
以下の統計量を履歴データから計算
最尤推定に従い状態行動対に対して
状態遷移確率
報酬関数
と推定できる

12
R-max
各状態行動対(𝑠, 𝑎)を経験回数に応じて未知か既知かを判定して未知の状態行動
対を多く経験するような探索行動をとる
• 判定方法
なら既知，でないなら未知
s
𝑎2𝑎1
紐づく全ての行動𝑎の状態行動対が既知である状態：既知の状態
それ以外の状態：未知の状態
𝑎3
s
𝑎2𝑎1 𝑎3
12 15 21 12 15 3

13
R-max
既知の状態行動対に関しては正確に状態遷移確率や報酬関数を推定できると判断
未知の状態行動対( 𝑠, 𝑎)に関しては，方策が優先的に 𝑠, 𝑎 を経験するように「不
確かな時は楽観的に」の考え方に従って状態遷移確率や報酬関数を設定

14
アルゴリズム：R-max
入力：環境モデル，割引率γ，経験数の閾値𝑚，報酬の上限𝑅 𝑚𝑎𝑥，終了条件
出力：方策π
1．初期化
から方策πを計算
初期状態𝑠0を環境から観測
2．環境との相互作用
方策πに従い行動𝑎 𝑡を選択し，環境に入力
環境から報酬𝑟𝑡と次状態s 𝑡+1を観測

15
アルゴリズム：R-max
入力：環境モデル，割引率γ，経験数の閾値𝑚，報酬の上限𝑅 𝑚𝑎𝑥，終了条件
出力：方策π
3．学習
統計値の更新
もしならば環境に関する推定値の更新を行う
から方策を更新
4．終了判定

強化学習5章

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 強化学習5章

Similar to 強化学習5章 (20)

More from hiroki yamaoka

More from hiroki yamaoka (12)

強化学習5章

Editor's Notes