Reinforcement learning
- 5. 1 変数強化学習モデル
– 全てのプレイヤーは同じ
初期強化値が設定
– 任意の純戦略が選ばれた
時、初期強化値を強化増
分関数により更新
– ある純戦略を選ぶ確率は
各純戦略に対する強化の
比として与えられる
(初期強化値総和の割合)
inisial propensity=qnk1=qnj1
qnjt1=
qnjtR x
qnjt
qnkt=qnk t/ j qnjt
Rx=x−xmin
可能な利得のうちの最小値
- 8. TD 法
– このように、経験から直接学習することが可能で
あり
– 最終結果を待たずに推定値を更新することができ
る
– この手法を Temporal Difference 学習と呼ぶ
– 代表的な学習手法として以下が挙げられるQ-learning
ルールの有効性を示す Q 値を各戦略ご
と逐次更新しながら決定し、それを最
大化する行動をとる学習
アクター・
クリティッ
ク
学習
行動を選択するための policy を
actor 、その結果を価値関数の予測
により評価する critic を区別する
- 9. 強化学習の枠組み
policy( 方策 )
agent environment
現在の状況・報酬
を確認
value function
( 価値関数 )
得られた報酬から
行動を評価
状態
行動
policy の更新
– 学習方法の最終目標は環境から与えられる
報酬を最大化するような行動に調整してい
くこと
- 10. 強化学習の枠組み
policy( 方策 )
agent environment
現在の状況・報酬
を確認
value function
( 価値関数 )
得られた報酬から
行動を評価
状態
行動
policy の更新
– 学習方法の最終目標は環境から与えられる
報酬を最大化するような行動に調整してい
くこと