Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

強化学習勉強会・論文紹介(第22回)

論文紹介:
Pan, Wei-Xing, et al. "Dopamine cells respond to predicted events during classical conditioning: evidence for eligibility traces in the reward-learning network." The Journal of neuroscience 25.26 (2005): 6235-6242.

  • Login to see the comments

強化学習勉強会・論文紹介(第22回)

  1. 1. 強化学習勉強会(第22回) Pan et al., 2005, Dopamine cells respond to predicted events during classical conditioning: evidence for eligibility traces in the reward-learning network @sotetsuk
  2. 2. この論文を選んだ理由 強化学習の主要な応用先として脳報酬系のモデリングが ある。特にScience誌に掲載された右のSchultz et al. (1997) のFigはとても有名なので、一度自分で内容を確 認したかった。ただその一方で、モデルとしては、Pan et al. (2005) のものの方が妥当であると感じたため、こちら をメインに紹介する。 (ウェットな論文は他の人があまり読まなさそうというのも ある) Schultz et al, 1997 から
  3. 3. 今日のまとめ 中脳のDorpamine cellのモデルはTD(λ) という主張の論文が存在する。
  4. 4. Agenda 1. 前提知識 a. Dorpamine (DA) cells in midbrain b. 脳報酬系 c. TD(λ) d. Schultz et al., 1997 2. Pan et al., 2005 a. Schultz et al., 1997のモデルの問題点 b. Experiments c. Results d. Conclusion
  5. 5. 前提知識
  6. 6. 動物は報酬・罰則を予測して生き延びている ● 食べ物はいつ、どこで手に入るのか? ● 身の危険はいつ、どういった時に振りかかるのか? こうした報酬・罰則を予測し、適切な行動を取ることで生き延びている。 こうした報酬・罰則に対する予測はどのように獲得されるのか?
  7. 7. Classical (or Pavlovian) conditioning ● 犬は 「ベル => エサ」 という関連性を学習して、ベルの時点でエサがくることを予期する(涎を垂らす) ● reward/punishmentは行動と独立 ○ 行動がreward/punishmentに関係するのはinstrumental (or operant) conditioning ● モデル ○ Rescorla-Wagner rule (Rescorla and Wagner, 1972) ○ Temporal difference learning パブロフの犬 参考: Dayan and Abbott, 2001
  8. 8. 復習: TD(0) Szepesvári 2010 から
  9. 9. 復習: TD(λ) accumulating (eligiblity) trace の例 Szepesvári 2010 から
  10. 10. Dorpamine (DA) cells in midbrain MidbrainのDorpamine cell (DA cell)の活動は、報酬に対 する予測誤差を表現していると言われている ● Midbrain (中脳) ○ VTA (ventral tegmental area; 腹側被蓋野) ○ SN (substantia nigra; 黒質) https://ja.wikipedia.org/wiki/%E4%B8%AD%E8%84%B3 から
  11. 11. Schultz et al., 1997
  12. 12. DA cellの活動は 予測誤差を伝達 ● サル の電気生理実験 ● CS (Conditioned Stimuli) は光 ● US (Unconditioned Stimuli = Reward) はフルーツジュース ● CSのあとRewardを出すというト レーニングをした後の図 (一番上)Rewardだけを出すとDA cellが 強く反応する (真ん中)CSに対しDA cellは反応する が、Rewardを出しても反応しない (Rewardに対し新しい情報がない) (一番下)CSを出してRewardを出さない と抑制される(負の予測誤差) Schultz et al, 1997 から 強化学習と脳の報酬系の話 の文脈でよく紹介されるとて も有名なFig
  13. 13. モデルとして TD(0)を提案 モデルの設定 ● CSからRewardを予測しようとする という仮定 ● t = 10, 20 でCS ● t = 60 で Reward モデルの特徴 1. 予測誤差がCSへtrialを重ねて 徐々に近づいていく(Rewardへの 反応がなくなってからCSへの反応 を獲得する) 2. 2つめの(余分な)CSに対する反 応は獲得しない Schultz et al, 1997 から 光が出てから何ステップ後かという特徴量での線形モデル
  14. 14. モデルに対する疑問点 ● なぜ中途半端な時刻で予測誤差がある? ○ 学習途中での一時的な状態とは言え、CSの時点でもRewardの時点でもな い時点に予測誤差が生じて、逆にCSの時点とRewardの時点に予測誤差 が生じない、という状態は正しいの? ● 学習するのが遅くない? ● 本当に2つめのCSは関係ないの? Schultz et al, 1997 から
  15. 15. Pan et al., 2005
  16. 16. Experiments ● ラット を使った電気生理実験を行った。 ● MidbrainのVTAとSNcのニューロンの活動を計測した。 DA cellの同定などに実験設定に関する詳細な記述もあるが省略。
  17. 17. CSに対する反応は 比較的すぐ生じる 観測と主張 1. TD(0)のモデルと違い、早い時点 のTrialで既にCS(cue)に対する反 応が見られる(One cue, Two cuesの双方で) 2. Two cuesでは(TD(0)のモデルと 違い)2つ目のCSに対しても反応 が獲得されている 3. CSに対する反応を学習後も Rewardに対する反応がある(詳し くみるためにFig.3へ) Pan et al., 2005 から
  18. 18. Early trainingと Late trainingの比較 観測と主張 1. やはりCSに対する反応が獲得さ れてからRewardに対する反応が なくなっている(A中央、B中央) 2. 二つ目のCSを除いた時、Reward に対する反応の大きさがRandom の時と変わらない。これはつまり 二つ目のCSも予測に考慮されて おり、除かれるとその分Rewardに 予測誤差が反映される。 3. (明瞭ではないが)二つ目のCSが 除かれると不の反応(予測誤差) が生じる。 Pan et al., 2005 から
  19. 19. TD(λ)とTD(0)の 学習の過程 観測と主張 1. TD(λ)はReward時の予測誤差が なくなる前からCS時の予測誤差を 獲得できる(徐々に伝播必要がな い) 2. TD(λ)は二つ目のCSに対する予 測誤差も獲得できている。 Pan et al., 2005 から
  20. 20. シミュレーションと実 データの比較 観測と主張 1. TD(λ)は二つ目のCSを除いた時 の負の予測誤差も再現できてい る。 2. TD(λ)はふたつ目のCSを除いた 時、Reward時の予測誤差の大き さが大きいことも再現できている。 Pan et al., 2005 から
  21. 21. λと学習率の大きさに関する考察 ● λは大きいもの、学習率は小さいものがフィッティングが良かった。 ● λが大きいことで、(先に見たように)Trialを重ねずともCS時点に対する予測誤 差を即時に獲得できる。 ● 学習率が小さいことで、(比較的)安定した学習が出来る。 ● この組み合わせ(大きいλと小さい学習率)こそが早く、安定した学習を可能にし ているのかもしれない。
  22. 22. Conclusion 中脳のDorpamine cellのモデルはTD(λ) (但しλ> 0)ではないか?
  23. 23. 参考文献 1. Dayan and Abbott, 2001, Theoretical Neuroscience. 2. Szepesvári 2010, Algorithms of Reinforcement Learning 3. Schultz et al., 1997, A neural substrate of prediction and reward. Science 4. Pan et al., 2005, Dopamine Cells Respond to Predicted Events during Classical Conditioning: Evidence for Eligibility Traces in the Reward-Learning Network. J. Neurosci

×