More Related Content
More from hiroki yamaoka (14)
強化学習6章
- 5. 5
パラメータ で規定される関数近似器 ,
を用いて , を近似するとは
価値関数の関数近似
となるパラメータ を学習するということ
代表的な関数近似器
• 線形関数近似
基底関数
以前までの議論同様,状態関数にベルマン作用素を適用させ収束した価値関数
(の近似)を求めたい
- 13. 13
• 関数近似器に非線形関数を用いた場合,収束性の保証はない
• 線形関数近似の場合
• 近似TD学習はテーブル形式と同様の条件で収束
• 近似Q学習の場合
γ ≪ 1 もしくは挙動方策π 𝑏
と基底関数 について
を満たせば収束する
割引率γは強化学習では一般的に1に近い値に設定される
挙動方策と推定方策がほぼ一致する必要(Off-Policyでなくなる)
• 近似SARSA
方策モデルがパラメータωに関してリプシッツ連続,かつ方策が常に任意
の状態sで各行動𝑎の選択確率がε > 0であるという条件を満たせば収束
ε-greedy方策はパラメータωの変化に対して不連続に変化してしまう
テーブル形式で収束が保証されているGLIE方策も使えない
収束性について
- 16. 16
には,初期状態分布 や挙動方策 の定常分布 などを使用
全ての状態について近似誤差を最小にするのは現実的に不可能なので各状態にお
ける近似誤差のトレードオフを行っていると解釈できる
ベルマン残差最小化による学習
ベルマン残差: