강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1

MDP, MC, TD
sarsa, q-learning
정의진
한국인공지능연구소 강화학습연구소장

𝑉𝜋 𝑠 = 𝐸 𝑟 𝑡+1
+ 𝛾 ∙ 𝑉𝜋 𝑆𝑡+1 𝑆𝑡 = 𝑠]
Bellman equation
𝑉𝜋 𝑠 : 가치함수
𝑟 𝑡+1 ∶ 보상
𝛾 : 감가율

S
A1 A2
Vπ(s) ↤ s
𝑞 𝜋(𝑠, 𝑎) ↤ 𝑎
Vπ s =
𝑎∈𝐴
𝜋 𝑎 𝑠 𝑞 𝜋(𝑠, 𝑎)
Vπ(s′) ↤ s’
𝑞 𝜋 𝑠, 𝑎 = 𝑅 𝑠
𝑎
+ 𝛾
𝑠′∈𝑆
Ρ𝑠𝑠′
𝑎
𝑉𝜋(𝑠′
)
𝑆1
′
𝑆2
′
𝑉𝜋 𝑠 = 𝐸 𝑟 𝑡+1 + 𝛾 ∙ 𝑉𝜋 𝑆𝑡+1 𝑆𝑡 = 𝑠]

Vπ s =
𝑎∈𝐴
𝜋 𝑎 𝑠 𝑞 𝜋(𝑠, 𝑎)
𝑞 𝜋 𝑠, 𝑎 = 𝑅 𝑠
𝑎
+ 𝛾
𝑠′∈𝑆
Ρ𝑠𝑠′
𝑎
𝑉𝜋(𝑠′
)
Vπ s =
𝑎∈𝐴
𝜋 𝑎 𝑠 (𝑅 𝑠
𝑎
+ 𝛾
𝑠′∈𝑆
Ρ𝑠𝑠′
𝑎
𝑉𝜋(𝑠′
))

벨만 방정식의 한계
• MDP 모델을 완전이 알고 있어야 한다.

Monte-Carlo
• 에피소드의 경험에서 배운다(돌다리를 직접 두들겨 본다).
• 정책에 따른 행동 -> 에피소드 끝 -> 받았던 리워드를 회상하며
가치함수를 책정
• 100번의 에피소드를 돌았을 경우 -> 각 state에서 받았던 리워드의
평균을 내서 가치함수를 책정

=
1
𝑡
𝐺𝑡 +
𝑗=1
𝑡−1
𝐺𝑗
𝑗=1
𝑡−1
𝐺𝑗 = (𝑡 − 1)𝑉𝑡−1
=
1
𝑡
𝐺𝑡 + (𝑡 − 1)𝑉𝑡−1
𝑉𝑡 =
1
𝑡
𝑗=1
𝑡
𝐺𝑗 𝑉𝑡−1 =
1
𝑡 − 1
𝑗=1
𝑡−1
𝐺𝑗
(𝑡 − 1)𝑉𝑡−1=
𝑗=1
𝑡−1
𝐺𝑗

𝑉𝑡 =
1
𝑡
𝐺𝑡 + (𝑡 − 1)𝑉𝑡−1
=
1
𝑡
𝐺𝑡 + 𝑉𝑡−1 −
1
𝑡
∙ 𝑉𝑡−1
= 𝑉𝑡−1 +
1
𝑡
𝐺𝑡 − 𝑉𝑡−1
𝑉𝑡−1 +
1
𝑡
𝐺𝑡 −
1
𝑡
∙ 𝑉𝑡−1
= 𝑉𝑡−1 + 𝑎 𝐺𝑡 − 𝑉𝑡−1

𝑉𝑡 = 𝑉𝑡−1 + 𝑎 𝐺𝑡 − 𝑉𝑡−1
이전 가치함수 예측값
실제 받은
리워드
이전 가치함수
새로 업데이트 될
가치함수
𝑉𝜋 𝑠𝑡 ← 𝑉𝜋(𝑠𝑡) + 𝑎 𝐺𝑡 − 𝑉(𝑠𝑡)

Monte-Carlo 한계
• 에피소드가 끝나야만 업데이트가 됨
• 에피소드가 끝나지 않거나 긴 상황에서 학습이 어려움(ex. 스타크래프트)

Time difference
• 에피소드마다 학습하던 Monte-Carlo 방식을 실시간으로 바꾸자
𝐺𝑡 = 𝑅𝑡+1 + 𝛾𝐺𝑡+1
𝑅𝑡+1 + 𝛾𝑉 (𝑆𝑡+1)
𝑉𝑡 = 𝑉𝑡 + 𝑎 𝑅𝑡+1 + 𝛾𝑉 (𝑆𝑡+1) − 𝑉𝑡
𝑉𝜋 𝑠𝑡 ← 𝑉𝜋(𝑠𝑡) + 𝑎 𝐺𝑡 − 𝑉(𝑠𝑡)

Time difference
• 장점
• 그때그때 업데이트를 할 수 있다.
• 단점
• 기준이 참(true)값이 아니다 : bootstrap

Sarsa
• 최적의 q값을 TD 방식을 통하여 찾는 알고리즘
𝑄 𝑆, 𝐴 ← 𝑄 𝑆, 𝐴 + 𝛼(𝑅 + 𝛾𝑄 𝑆′, 𝐴′ − 𝑄 𝑆, 𝐴 )
State, Action, Reward, next State, next Action

Sarsa pseudo code (https://stackoverflow.com/questions/32846262/q-learning-vs-sarsa-with-greedy-select)

Me
exploration
predict
Sarsa
-1 +1
• On-Policy
• 편향될 가능성 존재

Q-learaning
• 최적의 q 값을 off-policy로 TD 방식을 통하여 찾는 알고리즘

Sarsa Q-learning
𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼(𝑅 + 𝛾𝑄 𝑠′, 𝑎′
− 𝑄 𝑠, 𝑎 ) 𝑄 𝑠, 𝑎 ← 𝑄(𝑠, 𝑎) + 𝛼(𝑅 + 𝛾 ∙ 𝑚𝑎𝑥 𝑎′ 𝑄 𝑠′
, 𝑎′
− 𝑄 𝑠, 𝑎 )

Q-learning pseudo code (https://stackoverflow.com/questions/32846262/q-learning-vs-sarsa-with-greedy-select)

Me
exploration
predict
Q-learning
-1 +1
v

강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1

Similar to 강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1 (20)

강화학습기초(MDP, Monte-Carlo, Time-difference, sarsa, q-learning) 파트1