強化学習勉強会・論文紹介（第22回）

強化学習勉強会（第22回）
Pan et al., 2005, Dopamine cells respond to predicted events during classical
conditioning: evidence for eligibility traces in the reward-learning network
@sotetsuk

この論文を選んだ理由
強化学習の主要な応用先として脳報酬系のモデリングが
ある。特にScience誌に掲載された右のSchultz et al.
(1997) のFigはとても有名なので、一度自分で内容を確
認したかった。ただその一方で、モデルとしては、Pan et
al. (2005) のものの方が妥当であると感じたため、こちら
をメインに紹介する。
(ウェットな論文は他の人があまり読まなさそうというのも
ある）
Schultz et al, 1997 から

今日のまとめ
中脳のDorpamine cellのモデルはTD(λ)
という主張の論文が存在する。

Agenda
1. 前提知識
a. Dorpamine (DA) cells in midbrain
b. 脳報酬系
c. TD(λ)
d. Schultz et al., 1997
2. Pan et al., 2005
a. Schultz et al., 1997のモデルの問題点
b. Experiments
c. Results
d. Conclusion

動物は報酬・罰則を予測して生き延びている
● 食べ物はいつ、どこで手に入るのか？
● 身の危険はいつ、どういった時に振りかかるのか？
こうした報酬・罰則を予測し、適切な行動を取ることで生き延びている。
こうした報酬・罰則に対する予測はどのように獲得されるのか？

Classical (or Pavlovian) conditioning
● 犬は「ベル => エサ」という関連性を学習して、ベルの時点でエサがくることを予期する（涎を垂らす）
● reward/punishmentは行動と独立
○ 行動がreward/punishmentに関係するのはinstrumental (or operant) conditioning
● モデル
○ Rescorla-Wagner rule (Rescorla and Wagner, 1972)
○ Temporal difference learning
パブロフの犬
参考: Dayan and Abbott, 2001

復習: TD(0)
Szepesvári 2010 から

復習: TD(λ)
accumulating (eligiblity) trace の例
Szepesvári 2010 から

Dorpamine (DA) cells in midbrain
MidbrainのDorpamine cell (DA cell)の活動は、報酬に対
する予測誤差を表現していると言われている
● Midbrain (中脳)
○ VTA (ventral tegmental area; 腹側被蓋野)
○ SN (substantia nigra; 黒質)
https://ja.wikipedia.org/wiki/%E4%B8%AD%E8%84%B3 から

DA cellの活動は
予測誤差を伝達
● サルの電気生理実験
● CS (Conditioned Stimuli) は光
● US (Unconditioned Stimuli =
Reward) はフルーツジュース
● CSのあとRewardを出すというト
レーニングをした後の図
（一番上）Rewardだけを出すとDA cellが
強く反応する
（真ん中）CSに対しDA cellは反応する
が、Rewardを出しても反応しない
（Rewardに対し新しい情報がない）
（一番下）CSを出してRewardを出さない
と抑制される（負の予測誤差）
強化学習と脳の報酬系の話
の文脈でよく紹介されるとて
も有名なFig

モデルとして
TD(0)を提案
モデルの設定
● CSからRewardを予測しようとする
という仮定
● t = 10, 20 でCS
● t = 60 で Reward
モデルの特徴
1. 予測誤差がCSへtrialを重ねて
徐々に近づいていく（Rewardへの
反応がなくなってからCSへの反応
を獲得する）
2. 2つめの（余分な）CSに対する反
応は獲得しない
光が出てから何ステップ後かという特徴量での線形モデル

モデルに対する疑問点
● なぜ中途半端な時刻で予測誤差がある？
○ 学習途中での一時的な状態とは言え、CSの時点でもRewardの時点でもな
い時点に予測誤差が生じて、逆にCSの時点とRewardの時点に予測誤差
が生じない、という状態は正しいの？
● 学習するのが遅くない？
● 本当に2つめのCSは関係ないの？

Experiments
● ラットを使った電気生理実験を行った。
● MidbrainのVTAとSNcのニューロンの活動を計測した。
DA cellの同定などに実験設定に関する詳細な記述もあるが省略。

CSに対する反応は
比較的すぐ生じる
観測と主張
1. TD(0)のモデルと違い、早い時点
のTrialで既にCS(cue)に対する反
応が見られる（One cue, Two
cuesの双方で）
2. Two cuesでは（TD(0)のモデルと
違い）2つ目のCSに対しても反応
が獲得されている
3. CSに対する反応を学習後も
Rewardに対する反応がある（詳し
くみるためにFig.3へ）
Pan et al., 2005 から

Early trainingと
Late trainingの比較
観測と主張
1. やはりCSに対する反応が獲得さ
れてからRewardに対する反応が
なくなっている（A中央、B中央）
2. 二つ目のCSを除いた時、Reward
に対する反応の大きさがRandom
の時と変わらない。これはつまり
二つ目のCSも予測に考慮されて
おり、除かれるとその分Rewardに
予測誤差が反映される。
3. （明瞭ではないが）二つ目のCSが
除かれると不の反応（予測誤差）
が生じる。

TD(λ)とTD(0)の
学習の過程
観測と主張
1. TD(λ)はReward時の予測誤差が
なくなる前からCS時の予測誤差を
獲得できる（徐々に伝播必要がな
い）
2. TD(λ)は二つ目のCSに対する予
測誤差も獲得できている。

シミュレーションと実
データの比較
観測と主張
1. TD(λ)は二つ目のCSを除いた時
の負の予測誤差も再現できてい
る。
2. TD(λ)はふたつ目のCSを除いた
時、Reward時の予測誤差の大き
さが大きいことも再現できている。

λと学習率の大きさに関する考察
● λは大きいもの、学習率は小さいものがフィッティングが良かった。
● λが大きいことで、（先に見たように）Trialを重ねずともCS時点に対する予測誤
差を即時に獲得できる。
● 学習率が小さいことで、（比較的）安定した学習が出来る。
● この組み合わせ（大きいλと小さい学習率）こそが早く、安定した学習を可能にし
ているのかもしれない。

Conclusion
中脳のDorpamine cellのモデルはTD(λ)
（但しλ> 0）ではないか？

参考文献
1. Dayan and Abbott, 2001, Theoretical Neuroscience.
2. Szepesvári 2010, Algorithms of Reinforcement Learning
3. Schultz et al., 1997, A neural substrate of prediction and reward. Science
4. Pan et al., 2005, Dopamine Cells Respond to Predicted Events during Classical Conditioning: Evidence for
Eligibility Traces in the Reward-Learning Network. J. Neurosci

強化学習勉強会・論文紹介（第22回）

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

強化学習勉強会・論文紹介（第22回）