2. 今回取り上げるのはこれ
[1]V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves I.
Antonoglou, D. Wierstra, M. Riedmiller. “Playing Atari with
Deep Reinforcement Learning” arXiv:1312.5602, 2013.
もしくは
[2]V. Mnih, et al. “Human-level control through deep
reinforcement learning” nature, 2015.
ディープラーニングと強化学習とを組み合わせることで、
ゲームで高得点を叩き出した!
3. 全体像は・・・
全体像は[3]塚原裕史氏「論文紹介 Playing Atari with
Deep Reinforcement Learning」
http://www.slideshare.net/htsukahara/paper-intoduction-
playing-atari-with-deep-reinforcement-learning
や[4]藤田康博氏「Playing Atari with Deep Reinforcement
Learning」
http://www.slideshare.net/mooopan/ss-30336609
などを参照してください
→今回は重要な部分だけを詳しく解説
6. ベルマン方程式からはじめる
Q*
st,at( )= ES'≈ε r +γ max
at+1
Q*
st+1,at+1( ) st,at
⎡
⎣⎢
⎤
⎦⎥
st
at
Q st,at( )
Q*
st,at( )
r
γ
: t における状態
: t における行動
: 状態 で の行動をとった場合の価値
: 状態 で の行動をとり、その後最適な行動をとっ
た場合の価値
: 報酬
: 割引率
st
st at
at