More Related Content
More from hiroki yamaoka (12)
強化学習5章
- 5. 5
モデルベースでバッチ学習
履歴データ MDPモデル 方策
• 履歴データから陽に環境モデル(状態遷移確率・報酬関数)を推定しプラン
ニングで最適方策を予測(環境が既知)
推定 プランニング
• 入力に対して出力を返すだけの内部構造が未知であるブラックボックスモデル
から得られるデータを用いて最適方策を予測
エージェント 環境
(𝑠𝑡 , 𝑎 𝑡)
𝑠𝑡+1・ 𝑟𝑡
Black Box
ドメイン知識
環境に関するデータ
- 11. 11
環境モデルの推定
• 状態 s と行動 𝑎 と次状態 𝑠′
の3つ組(𝑠, 𝑎, 𝑠′
)についての経験回数
• (𝑠, 𝑎)についての報酬和
以下の統計量を履歴データから計算
最尤推定に従い状態行動対 に対して
状態遷移確率
報酬関数
と推定できる