SlideShare a Scribd company logo
1 of 53
Download to read offline
11 *Off-policy Methods
with Approximation
On-policy : 학습하는 policy와 행동하는 policy가 반드시 같아야만 학습이 가
능한 강화학습 알고리즘.

ex) Sarsa

on-policy의 경우 1번이라도 학습을 해서 policy improvement를 시킨 순간,
그 policy가 했던 과거의 experience들은 모두 사용이 불가능하다. 즉 매우 데이
터 효율성이 떨어진다. 바로바로 exploration해서 학습하고 재사용이 불가능하
다.

Off-policy : 학습하는 policy와 행동하는 policy가 반드시 같지 않아도 학습이
가능한 알고리즘.

ex) Q-learning

off-policy는 현재 학습하는 policy가 과거에 했던 experience도 학습에 사용이
가능하고, 심지어는 해당 policy가 아니라 예를 들어 사람이 한 데이터로부터도
학습을 시킬 수가 있다.
http://newsight.tistory.com/250
Iterative Policy Evaluation
Value iteration
백병인 / http://www.modulabs.co.kr/RL_Practice/11827
Off-policy approximation value-function bellman TD
Third dimension
모든 reward, state, action, transition
Policy iteration 과 value integration 사이의 확실한 이해
Optimal policy
Sample sequences of
states, actions, and rewards
No Full-width backup
V(S_t)가 업데이트 되는 때는 Unless S_t appears in S_0, S_1,…,S_t-1를
이해해야 가능
Dynamic long episode
Sutton p.123
Sutton p.130
Using policy derived from Q와
Q에서 Q로 업데이트 하는 쉬운 이유
Value Function을 계속 예상해나가는데,
P(X)라는 Policy => Q(X)라는 Policy
off-policy methods with approximation
off-policy methods with approximation
off-policy methods with approximation
off-policy methods with approximation
off-policy methods with approximation
off-policy methods with approximation

More Related Content

More from 민석 김

복소수와 오일러 공식
복소수와 오일러 공식복소수와 오일러 공식
복소수와 오일러 공식민석 김
 
Bayesian nets 발표 3
Bayesian nets 발표 3Bayesian nets 발표 3
Bayesian nets 발표 3민석 김
 
Bayesian nets 발표 1
Bayesian nets 발표 1Bayesian nets 발표 1
Bayesian nets 발표 1민석 김
 
Bayesian nets 발표 2
Bayesian nets 발표 2Bayesian nets 발표 2
Bayesian nets 발표 2민석 김
 
AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기민석 김
 
Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기민석 김
 
VAE 처음부터 알아보기
VAE 처음부터 알아보기VAE 처음부터 알아보기
VAE 처음부터 알아보기민석 김
 

More from 민석 김 (7)

복소수와 오일러 공식
복소수와 오일러 공식복소수와 오일러 공식
복소수와 오일러 공식
 
Bayesian nets 발표 3
Bayesian nets 발표 3Bayesian nets 발표 3
Bayesian nets 발표 3
 
Bayesian nets 발표 1
Bayesian nets 발표 1Bayesian nets 발표 1
Bayesian nets 발표 1
 
Bayesian nets 발표 2
Bayesian nets 발표 2Bayesian nets 발표 2
Bayesian nets 발표 2
 
AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기
 
Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기
 
VAE 처음부터 알아보기
VAE 처음부터 알아보기VAE 처음부터 알아보기
VAE 처음부터 알아보기
 

Recently uploaded

JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP Korea
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석JMP Korea
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화JMP Korea
 
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?Jay Park
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법JMP Korea
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP Korea
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP Korea
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP Korea
 

Recently uploaded (8)

JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화
 
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
 

off-policy methods with approximation