Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Reinforcement learning

1,783 views

Published on

self-instruct

Published in: Education, Technology
  • Be the first to comment

Reinforcement learning

  1. 1. reinforcement learning ―――――――――― 強化学習
  2. 2. 特徴 – 問題の解答は指定しない(教師な し) – 他のプレイヤーの行動は考えない – 過去に成功を収めた戦略を選択する ――――― 故に最も単純な学習ルール
  3. 3. 強化学習 – 「全体」で多くの利得を得ようとする (累積報酬の最大化) – Erev and Roth は強化学習モデルがナッシュ 均衡よりも予測力の点で優れていることを示 す – 戦略的状況下における学習心理的仮定を モデル化する
  4. 4. 心理的仮定とモデルの種類 – …効果の法則 過去の成功事例は繰り返す – …練習の法則 同じ動作を繰り返すことで学習促 進 – …試行錯誤の法則 類似した選択も繰り返す – …忘却の法則 過去と比べて最近の経験を重視す る 1 変数強化学習モデル 3 変数強化学習モデル
  5. 5. 1 変数強化学習モデル – 全てのプレイヤーは同じ 初期強化値が設定 – 任意の純戦略が選ばれた 時、初期強化値を強化増 分関数により更新 – ある純戦略を選ぶ確率は 各純戦略に対する強化の 比として与えられる (初期強化値総和の割合) inisial propensity=qnk1=qnj1 qnjt1= qnjtR x qnjt qnkt=qnk t/ j qnjt Rx=x−xmin 可能な利得のうちの最小値
  6. 6. 3 変数強化学習モデル – 忘却に関するパラメータ によって強化を割引して いく – 強化増加関数に試行錯誤 に関するパラメータによ って類似の純戦略も同時 に強化する qnjt1=1−qnjt Ek j , Rx Ek j, R x= Rx1− Rx/2 0 純戦略が k の時 K に類似する戦略を選択した時 それ以外の時
  7. 7. パラメータ推定 – これらの強化学習モデルで推定する必要 があるのは初期強化の和である – 推定するためにグリッドサーチ法を用い る グリッドサーチ法 推定値をある範囲内で変化させていった時、各々の 実験データと強化学習による予測との間の平均二乗 誤差スコアを求め、その最小値を推定値とする
  8. 8. TD 法 – このように、経験から直接学習することが可能で あり – 最終結果を待たずに推定値を更新することができ る – この手法を Temporal Difference 学習と呼ぶ – 代表的な学習手法として以下が挙げられるQ-learning ルールの有効性を示す Q 値を各戦略ご と逐次更新しながら決定し、それを最 大化する行動をとる学習 アクター・ クリティッ ク 学習 行動を選択するための policy を actor 、その結果を価値関数の予測 により評価する critic を区別する
  9. 9. 強化学習の枠組み policy( 方策 ) agent environment 現在の状況・報酬 を確認 value function ( 価値関数 ) 得られた報酬から 行動を評価 状態 行動 policy の更新 – 学習方法の最終目標は環境から与えられる 報酬を最大化するような行動に調整してい くこと
  10. 10. 強化学習の枠組み policy( 方策 ) agent environment 現在の状況・報酬 を確認 value function ( 価値関数 ) 得られた報酬から 行動を評価 状態 行動 policy の更新 – 学習方法の最終目標は環境から与えられる 報酬を最大化するような行動に調整してい くこと

×