More Related Content
More from hiroki yamaoka (12)
強化学習2章
- 15. 15
動的計画法の収束性
a. 任意の有界の状態関数 に対して,ベルマン最適作用素 をk回
繰り返し適用した関数 は最適価値関数 に漸近的に等しくなる.
b. 任意の有界の状態関数 に対して,マルコフ方策系列
のベルマン期待作用素 を適用した関数
は の価値関数 に漸近的に等しく
なる.
ベルマン作用素を繰り返し適用することで,初期の状態関数vに依らず,不動点
である最適価値関数や価値関数を求めることができる