Playing atari with deep reinforcement learning

Playing Atari with Deep Reinforcement Learning

𝑉𝜋 = 𝐸 𝜋 𝑅1, +𝑣𝑅2 + ⋯ |𝑠
= 𝐸 𝑇=
𝑡=1
𝑇
𝛾 𝑡−1
𝑅t 𝑠
𝑉𝜋
𝑖+1
s =
1
ⅈ + 1
𝑔𝑖+1 − 𝑉𝜋
𝑖
(𝑠)
𝑉𝜋
1
s =
1
1
𝑔1 + 𝑉𝜋
0
(𝑠) 𝑉𝜋
1
s = 𝑔1
𝑉𝜋
2
s =
1
2
𝑔2 + 𝑉𝜋
1
(𝑠) 𝑉𝜋
2
s =
1
2
𝑔1 + 𝑔2
𝑉𝜋
3
s =
1
3
𝑔3 + 𝑉𝜋
2
(𝑠) 𝑉𝜋
3
s =
1
3
𝑔1 + 𝑔2 + 𝑔3

𝑉𝜋
𝑖+1
s =
1
ⅈ + 1
𝑔𝑖+1 − 𝑉𝜋
𝑖
(𝑠)
𝑉𝜋
𝑖+1
s = α 𝑔𝑖+1 − 𝑉𝜋
𝑖
(𝑠)
𝑉𝜋
𝑖+1
s = (1 − α)𝑉𝜋
𝑖
(𝑠) + α𝑔𝑖+1
𝑉𝜋
𝑖+1
s = α 𝑔𝑖+1 − 𝑉𝜋
𝑖
(𝑠)
𝑄 𝑆𝑡, 𝐴 𝑡 < − 𝑄 𝑆𝑡, 𝐴 𝑡 + 𝛼 𝑅 + 𝛾𝑄 𝑆𝑡+1, 𝐴 𝑡+1 − 𝑄 𝑆𝑡, 𝐴 𝑡
𝑄 𝑆𝑡, 𝐴 𝑡 < − 𝑄 𝑆𝑡, 𝐴 𝑡 + 𝛼 𝑅𝑡+1 + 𝛾 max
𝑎
𝑄 𝑆𝑡+1, 𝑎 − 𝑄 𝑆𝑡, 𝐴 𝑡

- 미니 배치 크리 32
- 리플레이 메모리 크리 400000
- ε : 1부터 0.1까지 100000스텝 동안 감소
- 감가율 0.99
- 학습속도 0.00025

References
https://www.youtube.com/watch?v=lvoHnicueoEStanford University School of Engineering
https://www.youtube.com/watch?v=V7_cNTfm2i8&list=P
L0oFI08O71gKjGhaWctTPvvM7_cVzsAtK&index=5Sung Kim
파이썬과 케라스로 배우는 강화학습
좌충우돌 강화학습의 이론과 구현[출처] 좌충우돌 강화학습의 이론과 구현(원고)|작성자 숨은원리 출판사

Playing atari with deep reinforcement learning

Recommended

Recommended

More Related Content

More from KyeongUkJang

More from KyeongUkJang (20)

Playing atari with deep reinforcement learning