SlideShare a Scribd company logo
強化学習勉強会(第22回)
Pan et al., 2005, Dopamine cells respond to predicted events during classical
conditioning: evidence for eligibility traces in the reward-learning network
@sotetsuk
この論文を選んだ理由
強化学習の主要な応用先として脳報酬系のモデリングが
ある。特にScience誌に掲載された右のSchultz et al.
(1997) のFigはとても有名なので、一度自分で内容を確
認したかった。ただその一方で、モデルとしては、Pan et
al. (2005) のものの方が妥当であると感じたため、こちら
をメインに紹介する。
(ウェットな論文は他の人があまり読まなさそうというのも
ある)
Schultz et al, 1997 から
今日のまとめ
中脳のDorpamine cellのモデルはTD(λ)
という主張の論文が存在する。
Agenda
1. 前提知識
a. Dorpamine (DA) cells in midbrain
b. 脳報酬系
c. TD(λ)
d. Schultz et al., 1997
2. Pan et al., 2005
a. Schultz et al., 1997のモデルの問題点
b. Experiments
c. Results
d. Conclusion
前提知識
動物は報酬・罰則を予測して生き延びている
● 食べ物はいつ、どこで手に入るのか?
● 身の危険はいつ、どういった時に振りかかるのか?
こうした報酬・罰則を予測し、適切な行動を取ることで生き延びている。
こうした報酬・罰則に対する予測はどのように獲得されるのか?
Classical (or Pavlovian) conditioning
● 犬は 「ベル => エサ」 という関連性を学習して、ベルの時点でエサがくることを予期する(涎を垂らす)
● reward/punishmentは行動と独立
○ 行動がreward/punishmentに関係するのはinstrumental (or operant) conditioning
● モデル
○ Rescorla-Wagner rule (Rescorla and Wagner, 1972)
○ Temporal difference learning
パブロフの犬
参考: Dayan and Abbott, 2001
復習: TD(0)
Szepesvári 2010 から
復習: TD(λ)
accumulating (eligiblity) trace の例
Szepesvári 2010 から
Dorpamine (DA) cells in midbrain
MidbrainのDorpamine cell (DA cell)の活動は、報酬に対
する予測誤差を表現していると言われている
● Midbrain (中脳)
○ VTA (ventral tegmental area; 腹側被蓋野)
○ SN (substantia nigra; 黒質)
https://ja.wikipedia.org/wiki/%E4%B8%AD%E8%84%B3 から
Schultz et al., 1997
DA cellの活動は
予測誤差を伝達
● サル の電気生理実験
● CS (Conditioned Stimuli) は光
● US (Unconditioned Stimuli =
Reward) はフルーツジュース
● CSのあとRewardを出すというト
レーニングをした後の図
(一番上)Rewardだけを出すとDA cellが
強く反応する
(真ん中)CSに対しDA cellは反応する
が、Rewardを出しても反応しない
(Rewardに対し新しい情報がない)
(一番下)CSを出してRewardを出さない
と抑制される(負の予測誤差)
Schultz et al, 1997 から
強化学習と脳の報酬系の話
の文脈でよく紹介されるとて
も有名なFig
モデルとして
TD(0)を提案
モデルの設定
● CSからRewardを予測しようとする
という仮定
● t = 10, 20 でCS
● t = 60 で Reward
モデルの特徴
1. 予測誤差がCSへtrialを重ねて
徐々に近づいていく(Rewardへの
反応がなくなってからCSへの反応
を獲得する)
2. 2つめの(余分な)CSに対する反
応は獲得しない
Schultz et al, 1997 から
光が出てから何ステップ後かという特徴量での線形モデル
モデルに対する疑問点
● なぜ中途半端な時刻で予測誤差がある?
○ 学習途中での一時的な状態とは言え、CSの時点でもRewardの時点でもな
い時点に予測誤差が生じて、逆にCSの時点とRewardの時点に予測誤差
が生じない、という状態は正しいの?
● 学習するのが遅くない?
● 本当に2つめのCSは関係ないの?
Schultz et al, 1997 から
Pan et al., 2005
Experiments
● ラット を使った電気生理実験を行った。
● MidbrainのVTAとSNcのニューロンの活動を計測した。
DA cellの同定などに実験設定に関する詳細な記述もあるが省略。
CSに対する反応は
比較的すぐ生じる
観測と主張
1. TD(0)のモデルと違い、早い時点
のTrialで既にCS(cue)に対する反
応が見られる(One cue, Two
cuesの双方で)
2. Two cuesでは(TD(0)のモデルと
違い)2つ目のCSに対しても反応
が獲得されている
3. CSに対する反応を学習後も
Rewardに対する反応がある(詳し
くみるためにFig.3へ)
Pan et al., 2005 から
Early trainingと
Late trainingの比較
観測と主張
1. やはりCSに対する反応が獲得さ
れてからRewardに対する反応が
なくなっている(A中央、B中央)
2. 二つ目のCSを除いた時、Reward
に対する反応の大きさがRandom
の時と変わらない。これはつまり
二つ目のCSも予測に考慮されて
おり、除かれるとその分Rewardに
予測誤差が反映される。
3. (明瞭ではないが)二つ目のCSが
除かれると不の反応(予測誤差)
が生じる。
Pan et al., 2005 から
TD(λ)とTD(0)の
学習の過程
観測と主張
1. TD(λ)はReward時の予測誤差が
なくなる前からCS時の予測誤差を
獲得できる(徐々に伝播必要がな
い)
2. TD(λ)は二つ目のCSに対する予
測誤差も獲得できている。
Pan et al., 2005 から
シミュレーションと実
データの比較
観測と主張
1. TD(λ)は二つ目のCSを除いた時
の負の予測誤差も再現できてい
る。
2. TD(λ)はふたつ目のCSを除いた
時、Reward時の予測誤差の大き
さが大きいことも再現できている。
Pan et al., 2005 から
λと学習率の大きさに関する考察
● λは大きいもの、学習率は小さいものがフィッティングが良かった。
● λが大きいことで、(先に見たように)Trialを重ねずともCS時点に対する予測誤
差を即時に獲得できる。
● 学習率が小さいことで、(比較的)安定した学習が出来る。
● この組み合わせ(大きいλと小さい学習率)こそが早く、安定した学習を可能にし
ているのかもしれない。
Conclusion
中脳のDorpamine cellのモデルはTD(λ)
(但しλ> 0)ではないか?
参考文献
1. Dayan and Abbott, 2001, Theoretical Neuroscience.
2. Szepesvári 2010, Algorithms of Reinforcement Learning
3. Schultz et al., 1997, A neural substrate of prediction and reward. Science
4. Pan et al., 2005, Dopamine Cells Respond to Predicted Events during Classical Conditioning: Evidence for
Eligibility Traces in the Reward-Learning Network. J. Neurosci

More Related Content

Viewers also liked

KDD2014勉強会 発表資料
KDD2014勉強会 発表資料KDD2014勉強会 発表資料
KDD2014勉強会 発表資料
Sotetsu KOYAMADA(小山田創哲)
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
Sotetsu KOYAMADA(小山田創哲)
 
EMアルゴリズム
EMアルゴリズムEMアルゴリズム
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
Sotetsu KOYAMADA(小山田創哲)
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルShohei Okada
 
ICML2015読み会:Optimal and Adaptive Algorithms for Online Boosting
ICML2015読み会:Optimal and Adaptive Algorithms for Online BoostingICML2015読み会:Optimal and Adaptive Algorithms for Online Boosting
ICML2015読み会:Optimal and Adaptive Algorithms for Online Boosting
irrrrr
 
匿名化の崩壊
匿名化の崩壊匿名化の崩壊
匿名化の崩壊
Hiroshi Nakagawa
 
Hello deeplearning!
Hello deeplearning!Hello deeplearning!
Hello deeplearning!
T2C_
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
「アクティブビジョンと フリストン自由エネルギー原理」@北大20170111
「アクティブビジョンと フリストン自由エネルギー原理」@北大20170111「アクティブビジョンと フリストン自由エネルギー原理」@北大20170111
「アクティブビジョンと フリストン自由エネルギー原理」@北大20170111
Masatoshi Yoshida
 
入門パターン認識と機械学習 1章 2章
入門パターン認識と機械学習 1章 2章入門パターン認識と機械学習 1章 2章
入門パターン認識と機械学習 1章 2章
hiro5585
 
機械学習の全般について 4
機械学習の全般について 4機械学習の全般について 4
機械学習の全般について 4
Masato Nakai
 
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
koba cky
 
クラシックな機械学習の入門 3. 線形回帰および識別
クラシックな機械学習の入門 3. 線形回帰および識別クラシックな機械学習の入門 3. 線形回帰および識別
クラシックな機械学習の入門 3. 線形回帰および識別
Hiroshi Nakagawa
 
Overview of Chainer and Its Features
Overview of Chainer and Its FeaturesOverview of Chainer and Its Features
Overview of Chainer and Its Features
Seiya Tokui
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011Preferred Networks
 
クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入
Hiroshi Nakagawa
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰sleipnir002
 
Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5Takuya Akiba
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
Takuma Yagi
 

Viewers also liked (20)

KDD2014勉強会 発表資料
KDD2014勉強会 発表資料KDD2014勉強会 発表資料
KDD2014勉強会 発表資料
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
 
EMアルゴリズム
EMアルゴリズムEMアルゴリズム
EMアルゴリズム
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
 
ICML2015読み会:Optimal and Adaptive Algorithms for Online Boosting
ICML2015読み会:Optimal and Adaptive Algorithms for Online BoostingICML2015読み会:Optimal and Adaptive Algorithms for Online Boosting
ICML2015読み会:Optimal and Adaptive Algorithms for Online Boosting
 
匿名化の崩壊
匿名化の崩壊匿名化の崩壊
匿名化の崩壊
 
Hello deeplearning!
Hello deeplearning!Hello deeplearning!
Hello deeplearning!
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
「アクティブビジョンと フリストン自由エネルギー原理」@北大20170111
「アクティブビジョンと フリストン自由エネルギー原理」@北大20170111「アクティブビジョンと フリストン自由エネルギー原理」@北大20170111
「アクティブビジョンと フリストン自由エネルギー原理」@北大20170111
 
入門パターン認識と機械学習 1章 2章
入門パターン認識と機械学習 1章 2章入門パターン認識と機械学習 1章 2章
入門パターン認識と機械学習 1章 2章
 
機械学習の全般について 4
機械学習の全般について 4機械学習の全般について 4
機械学習の全般について 4
 
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
 
クラシックな機械学習の入門 3. 線形回帰および識別
クラシックな機械学習の入門 3. 線形回帰および識別クラシックな機械学習の入門 3. 線形回帰および識別
クラシックな機械学習の入門 3. 線形回帰および識別
 
Overview of Chainer and Its Features
Overview of Chainer and Its FeaturesOverview of Chainer and Its Features
Overview of Chainer and Its Features
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
 
クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
 
Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
 

強化学習勉強会・論文紹介(第22回)