SlideShare a Scribd company logo
1 of 32
Download to read offline
강화학습 
서기원, 이의동, 김승규, 임낙준
Content
INDEX
▤ RL
▤ Learning
▤ Project
Reinforcement
Learning
Learning
Methods
Project
Reinforcement Learning - RL이란?
- How intelligent agents ought to take actions in an environment
in order to maximize the notion of cumulative reward. (By Wikipedia)
- 강화학습을 푼다는 것은 최적의 정책 함수를 찾는 것과 같다.
그리고 이 최적의 정책함수는 불확실한 미래에 얻을 수 있는
보상함수의 기댓값을 최대로 하는 행동을 매번 고른다. (By KAKAO AI REPORT)
Reinforcement Learning은 무엇인가?
INDEX
▤ RL
▤ Learning
▤ Project
Reinforcement Learning - RL이란?
식당 선택의 비유와 Reinforcement Learning의 예
INDEX
▤ RL
▤ Learning
▤ Project
생전 처음 도착한 곳, 식당 A와 B중 선택해야 한다.
앞으로 이사한 동네에서 항상 최고의 식사를 하려고 한다면 당신은 어떻게 해야 하나?
Reinforcement Learning - RL이란?
식당 선택의 비유와 Reinforcement Learning의 예
INDEX
▤ RL
▤ Learning
▤ Project
생전 처음 도착한 곳, 식당 A와 B중 선택해야 한다.
앞으로 이사한 동네에서 항상 최고의 식사를 하려고 한다면 당신은 어떻게 해야 하나?
- 일단 아무 곳이나 가서 시도해본다.
- 가서 먹을때마다 식사를 하고 만족도를 매김.
- 가끔 다른 식당도 방문해서 만족도를 매김.
- 이 작업을 반복
- 각 식당별로 만족도의 분포가 생성됨
- 축적된 정보를 바탕으로 각 식당에 대한 평균 만족도(기댓값)을 계산할 수 있음!
이처럼 아무것도 모르는 기계가 주어진 환경과 상호작용하며 최고의 선택을 배워가는 것이 강화학습!
Reinforcement Learning - MDP
INDEX
▤ RL
▤ Learning
▤ Project
● MDP 구성요소
- State
- Environment
- Action
- State-transition Probabilities
- Pr{St+1=s’ | St=s, At = a}
- Reward
● 특징
- S, A, R, S, A, R ……...
- State-transition Probabilities의 식을 보면,
다음 state가 어떠할지는 지금의 state와
행할 action에 의해서만 정해진다.
MDP (Finite Markov Decision Process)
앞선 예시의 방법론으로 실제 세계의 문제를 풀기에는 한계가 있음.
실제 세계에서는 어떤 상황에서 내려진 action은 다음 상황을
변화시키고, 다음 상황에 따라 보상이 달라지기 때문임.
이러한 한계를 극복하기 위해 실제 세계에 맞게 만들어진 강화학습
모델이 바로 Markov Decision Process.
Reinforcement Learning - MDP
INDEX
▤ RL
▤ Learning
▤ Project
● MDP 구성요소
- State
- Agent
- Action
- State-transition Probabilities
- Pr{St+1=s’ | St=s, At = a}
- Reward
● 특징
- S, A, R, S, A, R ……...
- State-transition Probabilities의 식을 보면, 다음 state가 어떠할지는 지금의
state와 행할 action에 의해서만 정해진다.
MDP (Finite Markov Decision Process)
Reinforcement Learning - RL
INDEX
▤ RL
▤ Learning
▤ Project
● 강화학습 구성요소
- Agent: The learner and decision maker
- Environment: Everything outside the agent
- Exploration: Explore actions that it has not selected before
- Exploitation: Exploit actions that it has tried in the past
- Policy: mapping from states to probabilities of selecting each possible action
- (in stochastic system
Reinforcement Learning
Reinforcement Learning - RL
INDEX
▤ RL
▤ Learning
▤ Project
Policy: mapping from states to probabilities of selecting each possible action (in stochastic system)
해당 state와 해당 state에서 실행할수 있는 행동들의 확률과 연결시킨것.
최상의 보상이 기대되는 policy를 알아내는 것이 강화학습의 목표.
Reinforcement Learning : Policy
Policy를 경로라고 생각하면 쉽습니다.
최단경로를 찾으면 보상의 기댓값이 크다고
합시다.
미로찾는 과정에서 Goal에 도달하는 경로는
(policy) 굉장히 많습니다.
그러나 그중 최고의 경로는
S3 - S4 - S5 - S8로 이동하는 경로입니다.
이 S3-S4-S5-S8이 최적의 policy,
강화학습에서 우리가 찾고자 하는 policy입니다.
Reinforcement Learning - RL
INDEX
▤ RL
▤ Learning
▤ Project
Policy: mapping from states to probabilities of selecting each possible action (in stochastic system)
해당 state와 해당 state에서 실행할수 있는 행동들의 확률과 연결시킨것.
최상의 보상이 기대되는 policy를 알아내는 것이 강화학습의 목표.
Reinforcement Learning : Policy
최상의 Policy를 구하려면 결국 매 해당 state의
가치를 구해야 합니다. 그래야 어느 방향으로
나갈지 결정할 수 있기 때문입니다.
그래서 필요한 개념이 value function입니다.
Reinforcement Learning - Value Function
INDEX
▤ RL
▤ Learning
▤ Project
Value Function : 해당 상황(State)의 가치를 알려주는 함수
Expected discounted return that is sum of future reward
- 강화학습에서 maximize 해야하는 것
- 매번 똑같은 state를 맞닥뜨리게 될때마다 받을 수 있는 reward는 상수가 아닌 확률변수. 매번 달라지는 값,
- 그래서, 해당 state에 맞닥뜨렸을때 평균적으로 reward를 많이 받을 수 있는 지 생각해야 함.
- 그것이 Value function. 해당 state의 가치를 표현하는 함수. 가치 함수라고 함.
Reinforcement Learning - Value Function
INDEX
▤ RL
▤ Learning
▤ Project
Value Function : 해당 상황(State)의 가치를 알려주는 함수
- Expected discounted return that is sum of future reward
- 강화학습에서 maximize 해야하는 것
- 매번 똑같은 state를 맞닥뜨리게 될때마다 받을 수 있는 reward는 상수가 아닌 확률변수. 매번 달라지는 값,
- 그래서, 해당 state에 맞닥뜨렸을때 평균적으로 reward를 많이 받을 수 있는 지 생각해야 함.
- 그것이 Value function. 해당 state의 가치를 표현하는 함수. 가치 함수라고 함.
- 어떠한 policy에 따라서 state만을 고려하느냐 혹은
action까지 고려하느냐에 따라서 두 가지로 사용
- value function vs state-value function
Reinforcement Learning - RL이란?
- How intelligent agents ought to take actions in an environment
in order to maximize the notion of cumulative reward. (By Wikipedia)
- 강화학습을 푼다는 것은 최적의 정책 함수를 찾는 것과 같다.
그리고 이 최적의 정책함수는 불확실한 미래에 얻을 수 있는
보상함수의 기댓값을 최대로 하는 행동을 매번 고른다. (By KAKAO AI REPORT)
Reinforcement Learning은 무엇인가?
INDEX
▤ RL
▤ Learning
▤ Project
Learning Methods - GPI
INDEX
▤ RL
▤ Learning
▤ Project
GPI(Generalized Policy Iteration)
● Policy Evaluation
- 가치함수 V 를 개선하는 작업
- v𝝅 : 현재 policy 𝝅 에서의 가치함수
- V ← v𝝅
● Policy Improvement
- policy 𝝅 를 개선하는 작업.
- 가치가 큰 state로 움직이게끔.
- 𝝅 ← greedy(V)
Learning Methods - Sample-Based Reinforcement Learning
INDEX
▤ RL
▤ Learning
▤ Project
Sample을 이용한 강화학습
● 학습 방법론
- Monte-Carlo
- Temporal Difference Learning
● 학습 프로세스
1. 경험(environment의 탐색)을 통해 sample을 얻는다.
2. 얻은 sample을 바탕으로 가치함수 v𝝅 를 학습한다. (policy evaluation)
3. v𝝅 를 이용해 𝝅 를 개선한다. (policy improvement)
Learning Methods - Monte Carlo
INDEX
▤ RL
▤ Learning
▤ Project
Monte-Carlo
Learning Methods - Monte Carlo
INDEX
▤ RL
▤ Learning
▤ Project
Monte-Carlo
● 강화학습에 적용하면….
- 우리가 배우고 싶은 것: 가치함수 v𝝅
- St 의 진짜 가치는: v𝝅(St )
- 엄청나게 많은 에피소드를 통해 St 의 리턴값들 G0 G1 … Gn 을 관측하고 평균을 냄(G는 미래
얻을 수 있는 보상의 총합)
- St 의 근사된 가치: (G0 +G1 +…+ Gn )/n 는 진짜 가치와 비슷할것!!
● 수학에서의 Monte-Carlo란?
- 엄청나게 많은 랜덤 샘플을 통해 확률적으로 진짜 값과 가깝게 근사하는 것.
- 큰 수의 법칙
Learning Methods - Monte Carlo
INDEX
▤ RL
▤ Learning
▤ Project
Monte-Carlo
← 엄청나게 많은 episode를 탐색
← St, St-1, St-2, … 에 대하여
← 𝛾만큼 discount하며 St의 보상 G를 계산한다.
← St의 리턴값 목록에 G를 추가한다. [G0, G1, G2, … , G]
← v𝝅(St )를 근사한다. Avg([G0, G1, G2, … , G])
Learning Methods - Monte Carlo
INDEX
▤ RL
▤ Learning
▤ Project
Monte-Carlo 예시
Episode #1
Returns(S0) = [7], v𝝅(S0 ) = 7
Returns(S1) = [8], v𝝅(S1 ) = 8
Returns(S2) = [8], v𝝅(S2) = 8
Returns(S3) = [2], v𝝅(S3) = 2
Returns(S4) = [2], v𝝅(S4) = 2
Returns(S5) = [0], v𝝅(S5) = 0
Learning Methods - Monte Carlo
INDEX
▤ RL
▤ Learning
▤ Project
Monte-Carlo 예시
Episode #2
Returns(S0) = [7, 8.2], v𝝅(S0 ) = 7.6
Returns(S1) = [8, 8.3], v𝝅(S1 ) = 8.15
Returns(S2) = [8, 7.7], v𝝅(S2) = 7.85
Returns(S3) = [2, 3.5], v𝝅(S3) = 2.75
Returns(S4) = [2, 3], v𝝅(S4) = 2.5
Returns(S5) = [0, 0], v𝝅(S5) = 0
3
3.5
7.7
8.3
8.2
Learning Methods - Monte Carlo
INDEX
▤ RL
▤ Learning
▤ Project
Monte-Carlo를 이용한 policy update
Step 1.
state value인 v𝝅(s) 대신 state-action value인 q𝝅(s, a) 를 사용한다.
Step 2.
exploring start 스텝을 추가한다. (또는 epsilon-soft 등으로 대체 가능)
⭗ exploring start:
특정 state를 영원히 거치지 않는 것을 방지하기 위해
초기 (s0, a0)을 랜덤한 값으로 설정하는 것.
Learning Methods - Monte Carlo
INDEX
▤ RL
▤ Learning
▤ Project
Monte-Carlo를 이용한 policy update
Step 3.
St 에서 q 값을 가장 높게 하는 action을 policy로 채택
- 𝝅(St) ← argmax a q(St, a)
Learning Methods - Monte Carlo
INDEX
▤ RL
▤ Learning
▤ Project
Monte-Carlo를 이용한 policy update
exploring start
V(S) 대신 Q(S, A) 사용
policy update
Learning Methods - Monte Carlo
INDEX
▤ RL
▤ Learning
▤ Project
Monte-Carlo GPI
Learning Methods - Temporal Difference Learning
INDEX
▤ RL
▤ Learning
▤ Project
Temporal Difference Learning
Learning Methods - Temporal Difference Learning
INDEX
▤ RL
▤ Learning
▤ Project
Temporal Difference Learning
● 현재 value를 next value에 관한 식으로 정의
- V(St) = f (V(St+1))
● Idea: “순간적인 차이”를 이용해 매 순간 value를 계산하자!
-> 전체 에피소드를 관측할 필요 없다.
Learning Methods - Temporal Difference Learning
INDEX
▤ RL
▤ Learning
▤ Project
Temporal Difference Learning
● Value update
“TD Error”
Learning Methods - Temporal Difference Learning
INDEX
▤ RL
▤ Learning
▤ Project
TD(0) 알고리즘
● Terminal의 Value를 0으로 하여 수행하는 Temporal Difference Learning
V(Terminal) = 0
Temporal difference learning
Learning Methods - Temporal Difference Learning
INDEX
▤ RL
▤ Learning
▤ Project
Temporal Difference Learning 예시
출처: https://www.coursera.org/ - Reinforcement Learning (University of Alberta)
Learning Methods - Temporal Difference Learning
INDEX
▤ RL
▤ Learning
▤ Project
TD를 이용한 policy update
● Q-learning
Project - 지뢰찾기
INDEX
▤ RL
▤ Learning
▤ Project
Project-Explanation
A
+
MINE
State 정의
한 칸이 표시할 수 있는 경우의 수
블럭의 수만큼 표시
Policy 정의
Q learning을 활용
Greedy하게 max(q)의 A를 선택
Value Function 정의
지뢰 밟을 시 -100
밟지 않고 차례가 지나갈 때 1
게임 클리어 시 100
Action 정의
현재 state에서 열려있지 않은
map을 여는 action들을 정의
INDEX
▤ RL
▤ Learning
▤ Project

More Related Content

Similar to Reinforcement Learning Project

0415_seminar_DeepDPG
0415_seminar_DeepDPG0415_seminar_DeepDPG
0415_seminar_DeepDPGHye-min Ahn
 
Reinforcement Learning Guide For Beginners
Reinforcement Learning Guide For BeginnersReinforcement Learning Guide For Beginners
Reinforcement Learning Guide For Beginnersgokulprasath06
 
Head First Reinforcement Learning
Head First Reinforcement LearningHead First Reinforcement Learning
Head First Reinforcement Learningazzeddine chenine
 
anintroductiontoreinforcementlearning-180912151720.pdf
anintroductiontoreinforcementlearning-180912151720.pdfanintroductiontoreinforcementlearning-180912151720.pdf
anintroductiontoreinforcementlearning-180912151720.pdfssuseradaf5f
 
An introduction to reinforcement learning
An introduction to reinforcement learningAn introduction to reinforcement learning
An introduction to reinforcement learningSubrat Panda, PhD
 
RL_online _presentation_1.ppt
RL_online _presentation_1.pptRL_online _presentation_1.ppt
RL_online _presentation_1.pptssuser43a599
 
"Deep Q-Learning for Trading" by Dr. Tucker Balch, Professor of Interactive C...
"Deep Q-Learning for Trading" by Dr. Tucker Balch, Professor of Interactive C..."Deep Q-Learning for Trading" by Dr. Tucker Balch, Professor of Interactive C...
"Deep Q-Learning for Trading" by Dr. Tucker Balch, Professor of Interactive C...Quantopian
 
Reinforcement Learning.ppt
Reinforcement Learning.pptReinforcement Learning.ppt
Reinforcement Learning.pptPOOJASHREEC1
 
reinforcement-learning-141009013546-conversion-gate02.pdf
reinforcement-learning-141009013546-conversion-gate02.pdfreinforcement-learning-141009013546-conversion-gate02.pdf
reinforcement-learning-141009013546-conversion-gate02.pdfVaishnavGhadge1
 
Reinforcement Learning (Reloaded) - Xavier Giró-i-Nieto - UPC Barcelona 2018
Reinforcement Learning (Reloaded) - Xavier Giró-i-Nieto - UPC Barcelona 2018Reinforcement Learning (Reloaded) - Xavier Giró-i-Nieto - UPC Barcelona 2018
Reinforcement Learning (Reloaded) - Xavier Giró-i-Nieto - UPC Barcelona 2018Universitat Politècnica de Catalunya
 
Multi armed bandit
Multi armed banditMulti armed bandit
Multi armed banditJie-Han Chen
 
Introduction to reinforcement learning
Introduction to reinforcement learningIntroduction to reinforcement learning
Introduction to reinforcement learningPramod Ramachandra
 
Reinforcement learning
Reinforcement learning Reinforcement learning
Reinforcement learning Chandra Meena
 
25 introduction reinforcement_learning
25 introduction reinforcement_learning25 introduction reinforcement_learning
25 introduction reinforcement_learningAndres Mendez-Vazquez
 
Andrii Prysiazhnyk: Why the amazon sellers are buiyng the RTX 3080: Dynamic p...
Andrii Prysiazhnyk: Why the amazon sellers are buiyng the RTX 3080: Dynamic p...Andrii Prysiazhnyk: Why the amazon sellers are buiyng the RTX 3080: Dynamic p...
Andrii Prysiazhnyk: Why the amazon sellers are buiyng the RTX 3080: Dynamic p...Lviv Startup Club
 
Reinforcement Learning (DLAI D7L2 2017 UPC Deep Learning for Artificial Intel...
Reinforcement Learning (DLAI D7L2 2017 UPC Deep Learning for Artificial Intel...Reinforcement Learning (DLAI D7L2 2017 UPC Deep Learning for Artificial Intel...
Reinforcement Learning (DLAI D7L2 2017 UPC Deep Learning for Artificial Intel...Universitat Politècnica de Catalunya
 

Similar to Reinforcement Learning Project (20)

0415_seminar_DeepDPG
0415_seminar_DeepDPG0415_seminar_DeepDPG
0415_seminar_DeepDPG
 
Reinforcement Learning Guide For Beginners
Reinforcement Learning Guide For BeginnersReinforcement Learning Guide For Beginners
Reinforcement Learning Guide For Beginners
 
Head First Reinforcement Learning
Head First Reinforcement LearningHead First Reinforcement Learning
Head First Reinforcement Learning
 
anintroductiontoreinforcementlearning-180912151720.pdf
anintroductiontoreinforcementlearning-180912151720.pdfanintroductiontoreinforcementlearning-180912151720.pdf
anintroductiontoreinforcementlearning-180912151720.pdf
 
An introduction to reinforcement learning
An introduction to reinforcement learningAn introduction to reinforcement learning
An introduction to reinforcement learning
 
RL.ppt
RL.pptRL.ppt
RL.ppt
 
YijueRL.ppt
YijueRL.pptYijueRL.ppt
YijueRL.ppt
 
RL_online _presentation_1.ppt
RL_online _presentation_1.pptRL_online _presentation_1.ppt
RL_online _presentation_1.ppt
 
"Deep Q-Learning for Trading" by Dr. Tucker Balch, Professor of Interactive C...
"Deep Q-Learning for Trading" by Dr. Tucker Balch, Professor of Interactive C..."Deep Q-Learning for Trading" by Dr. Tucker Balch, Professor of Interactive C...
"Deep Q-Learning for Trading" by Dr. Tucker Balch, Professor of Interactive C...
 
Reinforcement Learning.ppt
Reinforcement Learning.pptReinforcement Learning.ppt
Reinforcement Learning.ppt
 
reinforcement-learning-141009013546-conversion-gate02.pdf
reinforcement-learning-141009013546-conversion-gate02.pdfreinforcement-learning-141009013546-conversion-gate02.pdf
reinforcement-learning-141009013546-conversion-gate02.pdf
 
Reinforcement Learning (Reloaded) - Xavier Giró-i-Nieto - UPC Barcelona 2018
Reinforcement Learning (Reloaded) - Xavier Giró-i-Nieto - UPC Barcelona 2018Reinforcement Learning (Reloaded) - Xavier Giró-i-Nieto - UPC Barcelona 2018
Reinforcement Learning (Reloaded) - Xavier Giró-i-Nieto - UPC Barcelona 2018
 
Multi armed bandit
Multi armed banditMulti armed bandit
Multi armed bandit
 
Introduction to reinforcement learning
Introduction to reinforcement learningIntroduction to reinforcement learning
Introduction to reinforcement learning
 
Deep einforcement learning
Deep einforcement learningDeep einforcement learning
Deep einforcement learning
 
Reinforcement learning
Reinforcement learning Reinforcement learning
Reinforcement learning
 
25 introduction reinforcement_learning
25 introduction reinforcement_learning25 introduction reinforcement_learning
25 introduction reinforcement_learning
 
Policy gradient
Policy gradientPolicy gradient
Policy gradient
 
Andrii Prysiazhnyk: Why the amazon sellers are buiyng the RTX 3080: Dynamic p...
Andrii Prysiazhnyk: Why the amazon sellers are buiyng the RTX 3080: Dynamic p...Andrii Prysiazhnyk: Why the amazon sellers are buiyng the RTX 3080: Dynamic p...
Andrii Prysiazhnyk: Why the amazon sellers are buiyng the RTX 3080: Dynamic p...
 
Reinforcement Learning (DLAI D7L2 2017 UPC Deep Learning for Artificial Intel...
Reinforcement Learning (DLAI D7L2 2017 UPC Deep Learning for Artificial Intel...Reinforcement Learning (DLAI D7L2 2017 UPC Deep Learning for Artificial Intel...
Reinforcement Learning (DLAI D7L2 2017 UPC Deep Learning for Artificial Intel...
 

More from DataScienceLab

21-1 세종시 부동산데이터 시각화 모델링 공모전
21-1 세종시 부동산데이터 시각화 모델링 공모전21-1 세종시 부동산데이터 시각화 모델링 공모전
21-1 세종시 부동산데이터 시각화 모델링 공모전DataScienceLab
 
2021빅콘테스트 스포츠테크 부문 TOP16
2021빅콘테스트 스포츠테크 부문 TOP162021빅콘테스트 스포츠테크 부문 TOP16
2021빅콘테스트 스포츠테크 부문 TOP16DataScienceLab
 
21-2 Air Bnb Review Data EDA 5조
21-2 Air Bnb Review Data EDA 5조21-2 Air Bnb Review Data EDA 5조
21-2 Air Bnb Review Data EDA 5조DataScienceLab
 
21-2 Covid19 Data EDA 4조
21-2 Covid19 Data EDA 4조21-2 Covid19 Data EDA 4조
21-2 Covid19 Data EDA 4조DataScienceLab
 
21-1 Covid 19 데이터 EDA 3조
21-1 Covid 19 데이터 EDA 3조21-1 Covid 19 데이터 EDA 3조
21-1 Covid 19 데이터 EDA 3조DataScienceLab
 
21-2 말레이시아 스타벅스 EDA 2조
21-2 말레이시아 스타벅스 EDA 2조21-2 말레이시아 스타벅스 EDA 2조
21-2 말레이시아 스타벅스 EDA 2조DataScienceLab
 
21-2 에어비앤비 리뷰평점 EDA 1팀
21-2 에어비앤비 리뷰평점 EDA 1팀21-2 에어비앤비 리뷰평점 EDA 1팀
21-2 에어비앤비 리뷰평점 EDA 1팀DataScienceLab
 
폐렴이미지 분류 모델링 프로젝트
폐렴이미지 분류 모델링 프로젝트폐렴이미지 분류 모델링 프로젝트
폐렴이미지 분류 모델링 프로젝트DataScienceLab
 
2021호주 오픈 순위예측 프로젝트
2021호주 오픈 순위예측 프로젝트2021호주 오픈 순위예측 프로젝트
2021호주 오픈 순위예측 프로젝트DataScienceLab
 
음원 사재기 판별 시스템 모델링
음원 사재기 판별 시스템 모델링음원 사재기 판별 시스템 모델링
음원 사재기 판별 시스템 모델링DataScienceLab
 
악플분류 모델링 프로젝트
악플분류 모델링 프로젝트악플분류 모델링 프로젝트
악플분류 모델링 프로젝트DataScienceLab
 
영화 어벤져스 내 네트워크 분석
영화 어벤져스 내 네트워크 분석영화 어벤져스 내 네트워크 분석
영화 어벤져스 내 네트워크 분석DataScienceLab
 
통신사 고객 이탈분석
통신사 고객 이탈분석통신사 고객 이탈분석
통신사 고객 이탈분석DataScienceLab
 
건강식품리뷰데이터분석
건강식품리뷰데이터분석건강식품리뷰데이터분석
건강식품리뷰데이터분석DataScienceLab
 
Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석
Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석
Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석DataScienceLab
 
Covid19 데이터로 선진국 및 저개발국 피해규모 분석
Covid19 데이터로 선진국 및 저개발국 피해규모 분석 Covid19 데이터로 선진국 및 저개발국 피해규모 분석
Covid19 데이터로 선진국 및 저개발국 피해규모 분석 DataScienceLab
 
에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언
에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언 에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언
에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언 DataScienceLab
 
말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가
말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가
말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가DataScienceLab
 
Covid19 데이터분석을 통한 국내 코로나 대응방향 제안
Covid19 데이터분석을 통한 국내 코로나 대응방향 제안Covid19 데이터분석을 통한 국내 코로나 대응방향 제안
Covid19 데이터분석을 통한 국내 코로나 대응방향 제안DataScienceLab
 

More from DataScienceLab (20)

21-1 세종시 부동산데이터 시각화 모델링 공모전
21-1 세종시 부동산데이터 시각화 모델링 공모전21-1 세종시 부동산데이터 시각화 모델링 공모전
21-1 세종시 부동산데이터 시각화 모델링 공모전
 
2021빅콘테스트 스포츠테크 부문 TOP16
2021빅콘테스트 스포츠테크 부문 TOP162021빅콘테스트 스포츠테크 부문 TOP16
2021빅콘테스트 스포츠테크 부문 TOP16
 
21-2 Air Bnb Review Data EDA 5조
21-2 Air Bnb Review Data EDA 5조21-2 Air Bnb Review Data EDA 5조
21-2 Air Bnb Review Data EDA 5조
 
21-2 Covid19 Data EDA 4조
21-2 Covid19 Data EDA 4조21-2 Covid19 Data EDA 4조
21-2 Covid19 Data EDA 4조
 
21-1 Covid 19 데이터 EDA 3조
21-1 Covid 19 데이터 EDA 3조21-1 Covid 19 데이터 EDA 3조
21-1 Covid 19 데이터 EDA 3조
 
21-2 말레이시아 스타벅스 EDA 2조
21-2 말레이시아 스타벅스 EDA 2조21-2 말레이시아 스타벅스 EDA 2조
21-2 말레이시아 스타벅스 EDA 2조
 
21-2 에어비앤비 리뷰평점 EDA 1팀
21-2 에어비앤비 리뷰평점 EDA 1팀21-2 에어비앤비 리뷰평점 EDA 1팀
21-2 에어비앤비 리뷰평점 EDA 1팀
 
폐렴이미지 분류 모델링 프로젝트
폐렴이미지 분류 모델링 프로젝트폐렴이미지 분류 모델링 프로젝트
폐렴이미지 분류 모델링 프로젝트
 
2021호주 오픈 순위예측 프로젝트
2021호주 오픈 순위예측 프로젝트2021호주 오픈 순위예측 프로젝트
2021호주 오픈 순위예측 프로젝트
 
음원 사재기 판별 시스템 모델링
음원 사재기 판별 시스템 모델링음원 사재기 판별 시스템 모델링
음원 사재기 판별 시스템 모델링
 
악플분류 모델링 프로젝트
악플분류 모델링 프로젝트악플분류 모델링 프로젝트
악플분류 모델링 프로젝트
 
영화 어벤져스 내 네트워크 분석
영화 어벤져스 내 네트워크 분석영화 어벤져스 내 네트워크 분석
영화 어벤져스 내 네트워크 분석
 
광고 CTR 예측
광고 CTR 예측광고 CTR 예측
광고 CTR 예측
 
통신사 고객 이탈분석
통신사 고객 이탈분석통신사 고객 이탈분석
통신사 고객 이탈분석
 
건강식품리뷰데이터분석
건강식품리뷰데이터분석건강식품리뷰데이터분석
건강식품리뷰데이터분석
 
Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석
Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석
Airbnb 리뷰데이터 분석을 통한 좋은 숙소의 조건 분석
 
Covid19 데이터로 선진국 및 저개발국 피해규모 분석
Covid19 데이터로 선진국 및 저개발국 피해규모 분석 Covid19 데이터로 선진국 및 저개발국 피해규모 분석
Covid19 데이터로 선진국 및 저개발국 피해규모 분석
 
에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언
에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언 에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언
에어비앤비 리뷰데이터 분석을 통한 지역별 호스트 전략 제언
 
말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가
말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가
말레이시아 스타벅스 데이터 분석을 통한 현지 마케팅 전략 평가
 
Covid19 데이터분석을 통한 국내 코로나 대응방향 제안
Covid19 데이터분석을 통한 국내 코로나 대응방향 제안Covid19 데이터분석을 통한 국내 코로나 대응방향 제안
Covid19 데이터분석을 통한 국내 코로나 대응방향 제안
 

Recently uploaded

代办国外大学文凭《原版美国UCLA文凭证书》加州大学洛杉矶分校毕业证制作成绩单修改
代办国外大学文凭《原版美国UCLA文凭证书》加州大学洛杉矶分校毕业证制作成绩单修改代办国外大学文凭《原版美国UCLA文凭证书》加州大学洛杉矶分校毕业证制作成绩单修改
代办国外大学文凭《原版美国UCLA文凭证书》加州大学洛杉矶分校毕业证制作成绩单修改atducpo
 
VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...
VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...
VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...Suhani Kapoor
 
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...Sapana Sha
 
Digi Khata Problem along complete plan.pptx
Digi Khata Problem along complete plan.pptxDigi Khata Problem along complete plan.pptx
Digi Khata Problem along complete plan.pptxTanveerAhmed817946
 
Unveiling Insights: The Role of a Data Analyst
Unveiling Insights: The Role of a Data AnalystUnveiling Insights: The Role of a Data Analyst
Unveiling Insights: The Role of a Data AnalystSamantha Rae Coolbeth
 
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip CallDelhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Callshivangimorya083
 
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779Best VIP Call Girls Noida Sector 39 Call Me: 8448380779
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779Delhi Call girls
 
VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...
VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...
VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...Suhani Kapoor
 
Call Girls In Mahipalpur O9654467111 Escorts Service
Call Girls In Mahipalpur O9654467111  Escorts ServiceCall Girls In Mahipalpur O9654467111  Escorts Service
Call Girls In Mahipalpur O9654467111 Escorts ServiceSapana Sha
 
Ukraine War presentation: KNOW THE BASICS
Ukraine War presentation: KNOW THE BASICSUkraine War presentation: KNOW THE BASICS
Ukraine War presentation: KNOW THE BASICSAishani27
 
Indian Call Girls in Abu Dhabi O5286O24O8 Call Girls in Abu Dhabi By Independ...
Indian Call Girls in Abu Dhabi O5286O24O8 Call Girls in Abu Dhabi By Independ...Indian Call Girls in Abu Dhabi O5286O24O8 Call Girls in Abu Dhabi By Independ...
Indian Call Girls in Abu Dhabi O5286O24O8 Call Girls in Abu Dhabi By Independ...dajasot375
 
Customer Service Analytics - Make Sense of All Your Data.pptx
Customer Service Analytics - Make Sense of All Your Data.pptxCustomer Service Analytics - Make Sense of All Your Data.pptx
Customer Service Analytics - Make Sense of All Your Data.pptxEmmanuel Dauda
 
RA-11058_IRR-COMPRESS Do 198 series of 1998
RA-11058_IRR-COMPRESS Do 198 series of 1998RA-11058_IRR-COMPRESS Do 198 series of 1998
RA-11058_IRR-COMPRESS Do 198 series of 1998YohFuh
 
Call Girls in Defence Colony Delhi 💯Call Us 🔝8264348440🔝
Call Girls in Defence Colony Delhi 💯Call Us 🔝8264348440🔝Call Girls in Defence Colony Delhi 💯Call Us 🔝8264348440🔝
Call Girls in Defence Colony Delhi 💯Call Us 🔝8264348440🔝soniya singh
 
Dubai Call Girls Wifey O52&786472 Call Girls Dubai
Dubai Call Girls Wifey O52&786472 Call Girls DubaiDubai Call Girls Wifey O52&786472 Call Girls Dubai
Dubai Call Girls Wifey O52&786472 Call Girls Dubaihf8803863
 
dokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.ppt
dokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.pptdokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.ppt
dokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.pptSonatrach
 

Recently uploaded (20)

代办国外大学文凭《原版美国UCLA文凭证书》加州大学洛杉矶分校毕业证制作成绩单修改
代办国外大学文凭《原版美国UCLA文凭证书》加州大学洛杉矶分校毕业证制作成绩单修改代办国外大学文凭《原版美国UCLA文凭证书》加州大学洛杉矶分校毕业证制作成绩单修改
代办国外大学文凭《原版美国UCLA文凭证书》加州大学洛杉矶分校毕业证制作成绩单修改
 
꧁❤ Aerocity Call Girls Service Aerocity Delhi ❤꧂ 9999965857 ☎️ Hard And Sexy ...
꧁❤ Aerocity Call Girls Service Aerocity Delhi ❤꧂ 9999965857 ☎️ Hard And Sexy ...꧁❤ Aerocity Call Girls Service Aerocity Delhi ❤꧂ 9999965857 ☎️ Hard And Sexy ...
꧁❤ Aerocity Call Girls Service Aerocity Delhi ❤꧂ 9999965857 ☎️ Hard And Sexy ...
 
VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...
VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...
VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...
 
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
 
Digi Khata Problem along complete plan.pptx
Digi Khata Problem along complete plan.pptxDigi Khata Problem along complete plan.pptx
Digi Khata Problem along complete plan.pptx
 
Unveiling Insights: The Role of a Data Analyst
Unveiling Insights: The Role of a Data AnalystUnveiling Insights: The Role of a Data Analyst
Unveiling Insights: The Role of a Data Analyst
 
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in  KishangarhDelhi 99530 vip 56974 Genuine Escort Service Call Girls in  Kishangarh
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
 
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip CallDelhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
 
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779Best VIP Call Girls Noida Sector 39 Call Me: 8448380779
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779
 
VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...
VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...
VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...
 
Call Girls In Mahipalpur O9654467111 Escorts Service
Call Girls In Mahipalpur O9654467111  Escorts ServiceCall Girls In Mahipalpur O9654467111  Escorts Service
Call Girls In Mahipalpur O9654467111 Escorts Service
 
Ukraine War presentation: KNOW THE BASICS
Ukraine War presentation: KNOW THE BASICSUkraine War presentation: KNOW THE BASICS
Ukraine War presentation: KNOW THE BASICS
 
Indian Call Girls in Abu Dhabi O5286O24O8 Call Girls in Abu Dhabi By Independ...
Indian Call Girls in Abu Dhabi O5286O24O8 Call Girls in Abu Dhabi By Independ...Indian Call Girls in Abu Dhabi O5286O24O8 Call Girls in Abu Dhabi By Independ...
Indian Call Girls in Abu Dhabi O5286O24O8 Call Girls in Abu Dhabi By Independ...
 
E-Commerce Order PredictionShraddha Kamble.pptx
E-Commerce Order PredictionShraddha Kamble.pptxE-Commerce Order PredictionShraddha Kamble.pptx
E-Commerce Order PredictionShraddha Kamble.pptx
 
Customer Service Analytics - Make Sense of All Your Data.pptx
Customer Service Analytics - Make Sense of All Your Data.pptxCustomer Service Analytics - Make Sense of All Your Data.pptx
Customer Service Analytics - Make Sense of All Your Data.pptx
 
RA-11058_IRR-COMPRESS Do 198 series of 1998
RA-11058_IRR-COMPRESS Do 198 series of 1998RA-11058_IRR-COMPRESS Do 198 series of 1998
RA-11058_IRR-COMPRESS Do 198 series of 1998
 
VIP Call Girls Service Charbagh { Lucknow Call Girls Service 9548273370 } Boo...
VIP Call Girls Service Charbagh { Lucknow Call Girls Service 9548273370 } Boo...VIP Call Girls Service Charbagh { Lucknow Call Girls Service 9548273370 } Boo...
VIP Call Girls Service Charbagh { Lucknow Call Girls Service 9548273370 } Boo...
 
Call Girls in Defence Colony Delhi 💯Call Us 🔝8264348440🔝
Call Girls in Defence Colony Delhi 💯Call Us 🔝8264348440🔝Call Girls in Defence Colony Delhi 💯Call Us 🔝8264348440🔝
Call Girls in Defence Colony Delhi 💯Call Us 🔝8264348440🔝
 
Dubai Call Girls Wifey O52&786472 Call Girls Dubai
Dubai Call Girls Wifey O52&786472 Call Girls DubaiDubai Call Girls Wifey O52&786472 Call Girls Dubai
Dubai Call Girls Wifey O52&786472 Call Girls Dubai
 
dokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.ppt
dokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.pptdokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.ppt
dokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.ppt
 

Reinforcement Learning Project

  • 2. Content INDEX ▤ RL ▤ Learning ▤ Project Reinforcement Learning Learning Methods Project
  • 3. Reinforcement Learning - RL이란? - How intelligent agents ought to take actions in an environment in order to maximize the notion of cumulative reward. (By Wikipedia) - 강화학습을 푼다는 것은 최적의 정책 함수를 찾는 것과 같다. 그리고 이 최적의 정책함수는 불확실한 미래에 얻을 수 있는 보상함수의 기댓값을 최대로 하는 행동을 매번 고른다. (By KAKAO AI REPORT) Reinforcement Learning은 무엇인가? INDEX ▤ RL ▤ Learning ▤ Project
  • 4. Reinforcement Learning - RL이란? 식당 선택의 비유와 Reinforcement Learning의 예 INDEX ▤ RL ▤ Learning ▤ Project 생전 처음 도착한 곳, 식당 A와 B중 선택해야 한다. 앞으로 이사한 동네에서 항상 최고의 식사를 하려고 한다면 당신은 어떻게 해야 하나?
  • 5. Reinforcement Learning - RL이란? 식당 선택의 비유와 Reinforcement Learning의 예 INDEX ▤ RL ▤ Learning ▤ Project 생전 처음 도착한 곳, 식당 A와 B중 선택해야 한다. 앞으로 이사한 동네에서 항상 최고의 식사를 하려고 한다면 당신은 어떻게 해야 하나? - 일단 아무 곳이나 가서 시도해본다. - 가서 먹을때마다 식사를 하고 만족도를 매김. - 가끔 다른 식당도 방문해서 만족도를 매김. - 이 작업을 반복 - 각 식당별로 만족도의 분포가 생성됨 - 축적된 정보를 바탕으로 각 식당에 대한 평균 만족도(기댓값)을 계산할 수 있음! 이처럼 아무것도 모르는 기계가 주어진 환경과 상호작용하며 최고의 선택을 배워가는 것이 강화학습!
  • 6. Reinforcement Learning - MDP INDEX ▤ RL ▤ Learning ▤ Project ● MDP 구성요소 - State - Environment - Action - State-transition Probabilities - Pr{St+1=s’ | St=s, At = a} - Reward ● 특징 - S, A, R, S, A, R ……... - State-transition Probabilities의 식을 보면, 다음 state가 어떠할지는 지금의 state와 행할 action에 의해서만 정해진다. MDP (Finite Markov Decision Process) 앞선 예시의 방법론으로 실제 세계의 문제를 풀기에는 한계가 있음. 실제 세계에서는 어떤 상황에서 내려진 action은 다음 상황을 변화시키고, 다음 상황에 따라 보상이 달라지기 때문임. 이러한 한계를 극복하기 위해 실제 세계에 맞게 만들어진 강화학습 모델이 바로 Markov Decision Process.
  • 7. Reinforcement Learning - MDP INDEX ▤ RL ▤ Learning ▤ Project ● MDP 구성요소 - State - Agent - Action - State-transition Probabilities - Pr{St+1=s’ | St=s, At = a} - Reward ● 특징 - S, A, R, S, A, R ……... - State-transition Probabilities의 식을 보면, 다음 state가 어떠할지는 지금의 state와 행할 action에 의해서만 정해진다. MDP (Finite Markov Decision Process)
  • 8. Reinforcement Learning - RL INDEX ▤ RL ▤ Learning ▤ Project ● 강화학습 구성요소 - Agent: The learner and decision maker - Environment: Everything outside the agent - Exploration: Explore actions that it has not selected before - Exploitation: Exploit actions that it has tried in the past - Policy: mapping from states to probabilities of selecting each possible action - (in stochastic system Reinforcement Learning
  • 9. Reinforcement Learning - RL INDEX ▤ RL ▤ Learning ▤ Project Policy: mapping from states to probabilities of selecting each possible action (in stochastic system) 해당 state와 해당 state에서 실행할수 있는 행동들의 확률과 연결시킨것. 최상의 보상이 기대되는 policy를 알아내는 것이 강화학습의 목표. Reinforcement Learning : Policy Policy를 경로라고 생각하면 쉽습니다. 최단경로를 찾으면 보상의 기댓값이 크다고 합시다. 미로찾는 과정에서 Goal에 도달하는 경로는 (policy) 굉장히 많습니다. 그러나 그중 최고의 경로는 S3 - S4 - S5 - S8로 이동하는 경로입니다. 이 S3-S4-S5-S8이 최적의 policy, 강화학습에서 우리가 찾고자 하는 policy입니다.
  • 10. Reinforcement Learning - RL INDEX ▤ RL ▤ Learning ▤ Project Policy: mapping from states to probabilities of selecting each possible action (in stochastic system) 해당 state와 해당 state에서 실행할수 있는 행동들의 확률과 연결시킨것. 최상의 보상이 기대되는 policy를 알아내는 것이 강화학습의 목표. Reinforcement Learning : Policy 최상의 Policy를 구하려면 결국 매 해당 state의 가치를 구해야 합니다. 그래야 어느 방향으로 나갈지 결정할 수 있기 때문입니다. 그래서 필요한 개념이 value function입니다.
  • 11. Reinforcement Learning - Value Function INDEX ▤ RL ▤ Learning ▤ Project Value Function : 해당 상황(State)의 가치를 알려주는 함수 Expected discounted return that is sum of future reward - 강화학습에서 maximize 해야하는 것 - 매번 똑같은 state를 맞닥뜨리게 될때마다 받을 수 있는 reward는 상수가 아닌 확률변수. 매번 달라지는 값, - 그래서, 해당 state에 맞닥뜨렸을때 평균적으로 reward를 많이 받을 수 있는 지 생각해야 함. - 그것이 Value function. 해당 state의 가치를 표현하는 함수. 가치 함수라고 함.
  • 12. Reinforcement Learning - Value Function INDEX ▤ RL ▤ Learning ▤ Project Value Function : 해당 상황(State)의 가치를 알려주는 함수 - Expected discounted return that is sum of future reward - 강화학습에서 maximize 해야하는 것 - 매번 똑같은 state를 맞닥뜨리게 될때마다 받을 수 있는 reward는 상수가 아닌 확률변수. 매번 달라지는 값, - 그래서, 해당 state에 맞닥뜨렸을때 평균적으로 reward를 많이 받을 수 있는 지 생각해야 함. - 그것이 Value function. 해당 state의 가치를 표현하는 함수. 가치 함수라고 함. - 어떠한 policy에 따라서 state만을 고려하느냐 혹은 action까지 고려하느냐에 따라서 두 가지로 사용 - value function vs state-value function
  • 13. Reinforcement Learning - RL이란? - How intelligent agents ought to take actions in an environment in order to maximize the notion of cumulative reward. (By Wikipedia) - 강화학습을 푼다는 것은 최적의 정책 함수를 찾는 것과 같다. 그리고 이 최적의 정책함수는 불확실한 미래에 얻을 수 있는 보상함수의 기댓값을 최대로 하는 행동을 매번 고른다. (By KAKAO AI REPORT) Reinforcement Learning은 무엇인가? INDEX ▤ RL ▤ Learning ▤ Project
  • 14. Learning Methods - GPI INDEX ▤ RL ▤ Learning ▤ Project GPI(Generalized Policy Iteration) ● Policy Evaluation - 가치함수 V 를 개선하는 작업 - v𝝅 : 현재 policy 𝝅 에서의 가치함수 - V ← v𝝅 ● Policy Improvement - policy 𝝅 를 개선하는 작업. - 가치가 큰 state로 움직이게끔. - 𝝅 ← greedy(V)
  • 15. Learning Methods - Sample-Based Reinforcement Learning INDEX ▤ RL ▤ Learning ▤ Project Sample을 이용한 강화학습 ● 학습 방법론 - Monte-Carlo - Temporal Difference Learning ● 학습 프로세스 1. 경험(environment의 탐색)을 통해 sample을 얻는다. 2. 얻은 sample을 바탕으로 가치함수 v𝝅 를 학습한다. (policy evaluation) 3. v𝝅 를 이용해 𝝅 를 개선한다. (policy improvement)
  • 16. Learning Methods - Monte Carlo INDEX ▤ RL ▤ Learning ▤ Project Monte-Carlo
  • 17. Learning Methods - Monte Carlo INDEX ▤ RL ▤ Learning ▤ Project Monte-Carlo ● 강화학습에 적용하면…. - 우리가 배우고 싶은 것: 가치함수 v𝝅 - St 의 진짜 가치는: v𝝅(St ) - 엄청나게 많은 에피소드를 통해 St 의 리턴값들 G0 G1 … Gn 을 관측하고 평균을 냄(G는 미래 얻을 수 있는 보상의 총합) - St 의 근사된 가치: (G0 +G1 +…+ Gn )/n 는 진짜 가치와 비슷할것!! ● 수학에서의 Monte-Carlo란? - 엄청나게 많은 랜덤 샘플을 통해 확률적으로 진짜 값과 가깝게 근사하는 것. - 큰 수의 법칙
  • 18. Learning Methods - Monte Carlo INDEX ▤ RL ▤ Learning ▤ Project Monte-Carlo ← 엄청나게 많은 episode를 탐색 ← St, St-1, St-2, … 에 대하여 ← 𝛾만큼 discount하며 St의 보상 G를 계산한다. ← St의 리턴값 목록에 G를 추가한다. [G0, G1, G2, … , G] ← v𝝅(St )를 근사한다. Avg([G0, G1, G2, … , G])
  • 19. Learning Methods - Monte Carlo INDEX ▤ RL ▤ Learning ▤ Project Monte-Carlo 예시 Episode #1 Returns(S0) = [7], v𝝅(S0 ) = 7 Returns(S1) = [8], v𝝅(S1 ) = 8 Returns(S2) = [8], v𝝅(S2) = 8 Returns(S3) = [2], v𝝅(S3) = 2 Returns(S4) = [2], v𝝅(S4) = 2 Returns(S5) = [0], v𝝅(S5) = 0
  • 20. Learning Methods - Monte Carlo INDEX ▤ RL ▤ Learning ▤ Project Monte-Carlo 예시 Episode #2 Returns(S0) = [7, 8.2], v𝝅(S0 ) = 7.6 Returns(S1) = [8, 8.3], v𝝅(S1 ) = 8.15 Returns(S2) = [8, 7.7], v𝝅(S2) = 7.85 Returns(S3) = [2, 3.5], v𝝅(S3) = 2.75 Returns(S4) = [2, 3], v𝝅(S4) = 2.5 Returns(S5) = [0, 0], v𝝅(S5) = 0 3 3.5 7.7 8.3 8.2
  • 21. Learning Methods - Monte Carlo INDEX ▤ RL ▤ Learning ▤ Project Monte-Carlo를 이용한 policy update Step 1. state value인 v𝝅(s) 대신 state-action value인 q𝝅(s, a) 를 사용한다. Step 2. exploring start 스텝을 추가한다. (또는 epsilon-soft 등으로 대체 가능) ⭗ exploring start: 특정 state를 영원히 거치지 않는 것을 방지하기 위해 초기 (s0, a0)을 랜덤한 값으로 설정하는 것.
  • 22. Learning Methods - Monte Carlo INDEX ▤ RL ▤ Learning ▤ Project Monte-Carlo를 이용한 policy update Step 3. St 에서 q 값을 가장 높게 하는 action을 policy로 채택 - 𝝅(St) ← argmax a q(St, a)
  • 23. Learning Methods - Monte Carlo INDEX ▤ RL ▤ Learning ▤ Project Monte-Carlo를 이용한 policy update exploring start V(S) 대신 Q(S, A) 사용 policy update
  • 24. Learning Methods - Monte Carlo INDEX ▤ RL ▤ Learning ▤ Project Monte-Carlo GPI
  • 25. Learning Methods - Temporal Difference Learning INDEX ▤ RL ▤ Learning ▤ Project Temporal Difference Learning
  • 26. Learning Methods - Temporal Difference Learning INDEX ▤ RL ▤ Learning ▤ Project Temporal Difference Learning ● 현재 value를 next value에 관한 식으로 정의 - V(St) = f (V(St+1)) ● Idea: “순간적인 차이”를 이용해 매 순간 value를 계산하자! -> 전체 에피소드를 관측할 필요 없다.
  • 27. Learning Methods - Temporal Difference Learning INDEX ▤ RL ▤ Learning ▤ Project Temporal Difference Learning ● Value update “TD Error”
  • 28. Learning Methods - Temporal Difference Learning INDEX ▤ RL ▤ Learning ▤ Project TD(0) 알고리즘 ● Terminal의 Value를 0으로 하여 수행하는 Temporal Difference Learning V(Terminal) = 0 Temporal difference learning
  • 29. Learning Methods - Temporal Difference Learning INDEX ▤ RL ▤ Learning ▤ Project Temporal Difference Learning 예시 출처: https://www.coursera.org/ - Reinforcement Learning (University of Alberta)
  • 30. Learning Methods - Temporal Difference Learning INDEX ▤ RL ▤ Learning ▤ Project TD를 이용한 policy update ● Q-learning
  • 31. Project - 지뢰찾기 INDEX ▤ RL ▤ Learning ▤ Project
  • 32. Project-Explanation A + MINE State 정의 한 칸이 표시할 수 있는 경우의 수 블럭의 수만큼 표시 Policy 정의 Q learning을 활용 Greedy하게 max(q)의 A를 선택 Value Function 정의 지뢰 밟을 시 -100 밟지 않고 차례가 지나갈 때 1 게임 클리어 시 100 Action 정의 현재 state에서 열려있지 않은 map을 여는 action들을 정의 INDEX ▤ RL ▤ Learning ▤ Project