reinforcement learning
―――――――――― 強化学習
特徴
– 問題の解答は指定しない(教師な
し)
– 他のプレイヤーの行動は考えない
– 過去に成功を収めた戦略を選択する
――――― 故に最も単純な学習ルール
強化学習
– 「全体」で多くの利得を得ようとする
(累積報酬の最大化)
– Erev and Roth は強化学習モデルがナッシュ
均衡よりも予測力の点で優れていることを示
す
– 戦略的状況下における学習心理的仮定を
モデル化する
心理的仮定とモデルの種類
– …効果の法則 過去の成功事例は繰り返す
– …練習の法則 同じ動作を繰り返すことで学習促
進
– …試行錯誤の法則 類似した選択も繰り返す
– …忘却の法則 過去と比べて最近の経験を重視す
る
1 変数強化学習モデ...
1 変数強化学習モデル
– 全てのプレイヤーは同じ
初期強化値が設定
– 任意の純戦略が選ばれた
時、初期強化値を強化増
分関数により更新
– ある純戦略を選ぶ確率は
各純戦略に対する強化の
比として与えられる
(初期強化値総和の割合)
ini...
3 変数強化学習モデル
– 忘却に関するパラメータ
によって強化を割引して
いく
– 強化増加関数に試行錯誤
に関するパラメータによ
って類似の純戦略も同時
に強化する
qnjt1=1−qnjt Ek j , Rx
Ek...
パラメータ推定
– これらの強化学習モデルで推定する必要
があるのは初期強化の和である
– 推定するためにグリッドサーチ法を用い
る
グリッドサーチ法
推定値をある範囲内で変化させていった時、各々の
実験データと強化学習による予測との間の平均二...
TD 法
– このように、経験から直接学習することが可能で
あり
– 最終結果を待たずに推定値を更新することができ
る
– この手法を Temporal Difference 学習と呼ぶ
– 代表的な学習手法として以下が挙げられるQ-learn...
強化学習の枠組み
policy( 方策 )
agent environment
現在の状況・報酬
を確認
value function
( 価値関数 )
得られた報酬から
行動を評価
状態
行動
policy の更新
– 学習方法の最終目標は環...
強化学習の枠組み
policy( 方策 )
agent environment
現在の状況・報酬
を確認
value function
( 価値関数 )
得られた報酬から
行動を評価
状態
行動
policy の更新
– 学習方法の最終目標は環...
Upcoming SlideShare
Loading in …5
×

Reinforcement learning

414 views
372 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
414
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Reinforcement learning

  1. 1. reinforcement learning ―――――――――― 強化学習
  2. 2. 特徴 – 問題の解答は指定しない(教師な し) – 他のプレイヤーの行動は考えない – 過去に成功を収めた戦略を選択する ――――― 故に最も単純な学習ルール
  3. 3. 強化学習 – 「全体」で多くの利得を得ようとする (累積報酬の最大化) – Erev and Roth は強化学習モデルがナッシュ 均衡よりも予測力の点で優れていることを示 す – 戦略的状況下における学習心理的仮定を モデル化する
  4. 4. 心理的仮定とモデルの種類 – …効果の法則 過去の成功事例は繰り返す – …練習の法則 同じ動作を繰り返すことで学習促 進 – …試行錯誤の法則 類似した選択も繰り返す – …忘却の法則 過去と比べて最近の経験を重視す る 1 変数強化学習モデル 3 変数強化学習モデル
  5. 5. 1 変数強化学習モデル – 全てのプレイヤーは同じ 初期強化値が設定 – 任意の純戦略が選ばれた 時、初期強化値を強化増 分関数により更新 – ある純戦略を選ぶ確率は 各純戦略に対する強化の 比として与えられる (初期強化値総和の割合) inisial propensity=qnk1=qnj1 qnjt1= qnjtR x qnjt qnkt=qnk t/ j qnjt Rx=x−xmin 可能な利得のうちの最小値
  6. 6. 3 変数強化学習モデル – 忘却に関するパラメータ によって強化を割引して いく – 強化増加関数に試行錯誤 に関するパラメータによ って類似の純戦略も同時 に強化する qnjt1=1−qnjt Ek j , Rx Ek j, R x= Rx1− Rx/2 0 純戦略が k の時 K に類似する戦略を選択した時 それ以外の時
  7. 7. パラメータ推定 – これらの強化学習モデルで推定する必要 があるのは初期強化の和である – 推定するためにグリッドサーチ法を用い る グリッドサーチ法 推定値をある範囲内で変化させていった時、各々の 実験データと強化学習による予測との間の平均二乗 誤差スコアを求め、その最小値を推定値とする
  8. 8. TD 法 – このように、経験から直接学習することが可能で あり – 最終結果を待たずに推定値を更新することができ る – この手法を Temporal Difference 学習と呼ぶ – 代表的な学習手法として以下が挙げられるQ-learning ルールの有効性を示す Q 値を各戦略ご と逐次更新しながら決定し、それを最 大化する行動をとる学習 アクター・ クリティッ ク 学習 行動を選択するための policy を actor 、その結果を価値関数の予測 により評価する critic を区別する
  9. 9. 強化学習の枠組み policy( 方策 ) agent environment 現在の状況・報酬 を確認 value function ( 価値関数 ) 得られた報酬から 行動を評価 状態 行動 policy の更新 – 学習方法の最終目標は環境から与えられる 報酬を最大化するような行動に調整してい くこと
  10. 10. 強化学習の枠組み policy( 方策 ) agent environment 現在の状況・報酬 を確認 value function ( 価値関数 ) 得られた報酬から 行動を評価 状態 行動 policy の更新 – 学習方法の最終目標は環境から与えられる 報酬を最大化するような行動に調整してい くこと

×