SlideShare a Scribd company logo
1 of 205
Download to read offline
모두를 위한 PG여행 가이드
이동민
RL KOREA
Aug 25, 2018
1. PG여행
2. 7개의 논문
소개
3. 블로그 논문
정리
4. 코드 구현
모두를 위한 PG여행 가이드
Outline
PG여행 소개
멤버소개
멤버소개
멤버소개
보통 학교에는 선생님이 있죠?
멤버소개
저희 PG여행에는 ”이웅원”님이 있습니다!
이웅원
프로젝트 매니저
멤버소개
그리고 6명의 멤버도 있지요. 한 분 한 분 정말 대단하신 분들입니다!
이웅원
프로젝트 매니저
김동민 이동민 차금강
장수영 공민서 양혁렬
멤버소개
이렇게 저희는 총 7명으로 프로젝트를 시작하였습니다!
PG여행
이웅원
프로젝트 매니저
김동민 이동민 차금강
장수영 공민서 양혁렬
PG여행이란?
PG여행이란?
PG여행이란?
-> 블로그 정리 및 코드 구현
PG여행이란?
-> 블로그 정리 및 코드 구현
블로그 링크
https://reinforcement-learning-kr.github.io/2018/06/29/0_pg-travel-guide/
PG여행이란?
-> 블로그 정리 및 코드 구현
깃허브 링크
https://github.com/reinforcement-learning-kr/pg_travel
어떠한 환경에서 구현하여 실험?
Mujoco : hopper
Unity ML-Agent : walker
Unity ML-Agent : walker
네. 그래서 이렇게
PG여행이란?
까지 약 3개월동안 완료!-> 블로그 정리 및 코드 구현
PG여행이란?
?-> 블로그 정리 및 코드 구현
7개의 논문 소개
전체적인 Landscape
(직접 만들어봤습니다!)
Policy Optimization in the RL Algorithms Landscape
Policy Optimization in the RL Algorithms Landscape
Policy Optimization Dynamic Programming
DFO / Evolution Policy Gradients
NES REINFORCE
Policy Iteration Value Iteration
Q-learning
Actor-Critic Methods
ACKTR ACER
A2CA3C
DDPG
DPG
GAE
TRPO
PPO
NPG
Policy Optimization in the RL Algorithms Landscape
Policy Optimization Dynamic Programming
DFO / Evolution Policy Gradients
NES REINFORCE
Policy Iteration Value Iteration
Q-learning
Actor-Critic Methods
1
ACKTR ACER
A2CA3C
DDPG
DPG
2
3 GAE
5
TRPO
PPO
NPG
4
7
6
네.
그래서 보통
소설의 구성 단계
그래서 시작할 때 저도
’아 이렇게 되겠구나!’
Sutton_PG
DPG, DDPG
NPG
TRPO
GAE
PPO
Sutton_PG DPG, DDPG NPG TRPO GAE PPO
하지만 무엇 하나 쉬운 논문이
없었습니다..
저절로 되는 수학공부..?
아무튼 죽는 줄 알았습니다..
이어서 스터디 과정
논문리뷰는 5. 20 ~ 7. 8 까지 매 주 일요일에 행아웃을 통해 진행하였고,
7. 8 부터는 정리팀, 구현팀으로 나눠 8월말까지 진행
정리팀 구현팀
자. 그러면 먼저 논문에 대해서 간략하게 소개해드리겠습니다!
7개의 논문을 깊게 다루면 하루 종일 말해야 할 것 같습니다.
그래서 대략적으로 어떠한 문제 때문에 논문이 나오게 되었고,
어떠한 방법을 제시하는 지만 말씀드릴께요!
그리고 기본적인 강화학습 내용은 안다고 가정하겠습니다.
Policy Optimization
Policy Gradients
1
Sutton_PG (2000)
이 논문은 어떻게 강화학습을 Policy gradient로 접근할 수 있는 지를
다룹니다.
1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
3. Theorem 2 (Policy Gradient with Function Approximation)
1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
3. Theorem 2 (Policy Gradient with Function Approximation)
4. Application to Deriving Algorithms
1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
3. Theorem 2 (Policy Gradient with Function Approximation)
4. Application to Deriving Algorithms
5. Application to Advantages
1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
3. Theorem 2 (Policy Gradient with Function Approximation)
4. Application to Deriving Algorithms
5. Application to Advantages
6. Theorem 3: Convergence of Policy Iteration with Function
Approximation
Actor-Critic Methods
Policy Optimization
Policy Gradients
REINFORCE
1
2
DPG
DPG (2014)
1. Deterministic Policy Gradient (DPG)가 존재한다? (Find & Prove)
1. Deterministic Policy Gradient (DPG)가 존재한다? (Find & Prove)
- model-free, off-policy actor-critic algorithm을 제안
1. Deterministic Policy Gradient (DPG)가 존재한다? (Find & Prove)
- model-free, off-policy actor-critic algorithm을 제안
2. DPG는 Stochastic Policy Gradient (SPG)의 limiting case
- Policy variance is zero
- Many PG methods applicable to DPG
1. Deterministic Policy Gradient (DPG)가 존재한다? (Find & Prove)
- model-free, off-policy actor-critic algorithm을 제안
2. DPG는 Stochastic Policy Gradient (SPG)의 limiting case
- Policy variance is zero
- Many PG methods applicable to DPG
3. DPG는 SPG보다 performance & computation cost에서 advantage들을
가짐
- In High-Dimensional Tasks
Actor-Critic Methods
Policy Optimization
Policy Gradients
REINFORCE
1
DDPG (2015)DDPG
2
3
DPG
기존 강화학습 기법들은 High-Dimensional Observation Spaces에는 잘
동작하지만, High-Dimensional Action Spaces에는 잘 동작하지 않습니다.
어떻게 하면 High-Dimensional Task들을 더 잘할까?
Continuous Control를 위한 새로운 접근
Continuous Control를 위한 새로운 접근
1. Model-free, Off-policy Actor-Critic Algorithm을 제안
Continuous Control를 위한 새로운 접근
1. Model-free, Off-policy Actor-Critic Algorithm을 제안
2. DPG 기반
Continuous Control를 위한 새로운 접근
1. Model-free, Off-policy Actor-Critic Algorithm을 제안
2. DPG 기반
3. Actor-Critic approach + DQN
- Replay buffer : 샘플들 사이의 상관관계를 줄여줌
- Target Q Network : Update 동안 target을 안정적으로
만듦
Actor-Critic Methods
Policy Optimization
Policy Gradients
REINFORCE
1
NPG (2002)
DDPG
DPG
2
3
NPG
4
이 논문은 뒤이어 나오는 Trust Region Policy Optimization (TRPO)를
더 잘 이해하기 위해서 본 논문
상당히 무시무시한 논문입니다..
한 번 보고
두 번 보고
몇 번을 봐도
x ∞
간단히 살펴보자면
출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
우리가 기존에 알던 gradient descent method는
steepest descent direction이 아닐 수 있습니다.
출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
우리가 기존에 알던 gradient descent method는
steepest descent direction이 아닐 수 있습니다.
쉽게 말해 가장 가파른 방향을 따라서 내려가야 하는데
그러지 못할 수도 있다는 것입니다.
출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
따라서 이 논문에서는
steepest descent direction을 나타내는 natural gradient method를
policy gradient에 적용하여 좋은 policy를 찾습니다.
출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
더 깊게 다루면 정말 다양한 내용들이..
Manifold
더 깊게 다루면 정말 다양한 내용들이..
Manifold
Riemannian space
더 깊게 다루면 정말 다양한 내용들이..
더 깊게 다루면 정말 다양한 내용들이..
Manifold
Riemannian space
Line Search
Manifold
Riemannian space
Line Search
Fisher Information Matrix
더 깊게 다루면 정말 다양한 내용들이..
Manifold
Riemannian space
Conjugate Gradient MethodLine Search
Fisher Information Matrix
더 깊게 다루면 정말 다양한 내용들이..
프로젝트 내에 있는 한 팀원의 문장을 인용하겠습니다.
“머리가 아프고 힘들수록 잘하고 있는겁니다.”
NPG 보시는 분들 화이팅입니다!
Policy Optimization
Policy Gradients
REINFORCE
1
TRPO (2015)
DDPG
DPG
2
3
5
TRPONPG
4
Actor-Critic Methods
대망의 TRPO입니다!
출처 : From REINFORCE to PPO
이미지 출처 : https://www.slideshare.net/WoongwonLee/from-reinforce-to-ppo
어떠한 문제를 다루는 지?
출처 : From REINFORCE to PPO
이미지 출처 : https://www.slideshare.net/WoongwonLee/from-reinforce-to-ppo
어떠한 문제를 다루는 지?
이 논문은 Objective Function을 총 9번을 바꾸는데요.
핵심은 이 그림입니다.
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
우리가 최적화를 해야할 경사가 있다고 해봅시다!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
하지만 아무런 제약없이 학습을 하게 되면 안전하지도 못하고 빠르게 학습을 하지도 못
합니다.
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
무엇을 하고 싶은 것이냐면
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
Policy가 조금씩 변하게 하는 parameter space에서의 step size를 찾고,
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
parameter space가 아닌 policy space에서 조금씩 update를 하자!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
따라서 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
따라서 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
따라서 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
도착을 하면 다시 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
도착을 하면 다시 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
도착을 하면 다시 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
다시 한 번 더 도착을 하면 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화를
하면!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
다시 한 번 더 도착을 하면 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화를
하면!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
다시 한 번 더 도착을 하면 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화를
하면!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
도착..!!!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
Policy Optimization
Policy Gradients
REINFORCE
1
GAE (2016)DDPG
DPG
2
3
Actor-Critic Methods
GAE
5
TRPONPG
4
6
이 논문을 보기 전에 먼저
n-step Return과 𝝀-return의 차이점에 대해서 알면 이해가 더 잘됩니다!
출처 : Lecture 4: Model-Free Prediction
이미지 출처 : http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/MC-TD.pdf
요약해보자면
TRPO가 나온 뒤로도 복잡하고 어려운 control problem에서 RL은
high sample complexity 때문에 제한이 되어왔습니다.
따라서 이 논문에서 그 제한을 풀고자 advantage function의
good estimate를 얻는 “variance reduction”에 대해서 연구한
논문입니다.
“Generalized Advantage Estimator (GAE)”라는 것을 제안했고,
이것은 bias-variance tradeoff를 조절하는 두 개의 parameter 𝜸, 𝛌를
가집니다.
그래서 이렇게 함으로써 보다 더 복잡하고 어려운 control task들을 해결할 수 있었다고
합니다.
글로만 요약한 이유는 이 논문도 수식이..
Policy Optimization
Policy Gradients
REINFORCE
1
PPO (2017)
DDPG
DPG
2
3
Actor-Critic Methods
GAE
5
TRPO
PPO
NPG
4
7
6
드디어 마지막 PPO..!
앞서 소개해드린 논문들보다 나름 쉽다고 생각합니다.
강화학습 알고리즘에 고려되어야 할 사항들
1. Scalability
- large models and parallel implementations
2. Data Efficiency
3. Robustness
- hyperparameter tuning 없이 다양한 문제들을 해결할 수 있는 지
여부
강화학습 알고리즘에 고려되어야 할 사항들
1. Scalability
- large models and parallel implementations
2. Data Efficiency
3. Robustness
- hyperparameter tuning 없이 다양한 문제들을 해결할 수 있는 지
여부
강화학습 알고리즘에 고려되어야 할 사항들
1. Scalability
- large models and parallel implementations
2. Data Efficiency
3. Robustness
- hyperparameter tuning 없이 다양한 문제들을 해결할 수 있는 지
여부
강화학습 알고리즘에 고려되어야 할 사항들
1. Scalability
- large models and parallel implementations
2. Data Efficiency
3. Robustness
- hyperparameter tuning 없이 다양한 문제들을 해결할 수 있는 지
여부
기존 대표 연구들
1. DQN
- discrete action space를 가지는 문제들에서는 효과적이지만,
continuous control에도 잘 작동하는지는 검증되지 않음
2. A3C
- data efficiency와 robustness 측면이 좋지 않음
3. TRPO
- 간단히 말해 복잡함
- noise나 parameter sharing을 포함하는 architecture와의 호환성
없음
기존 대표 연구들
1. DQN
- discrete action space를 가지는 문제들에서는 효과적이지만,
continuous control에도 잘 작동하는지는 검증되지 않음
2. A3C
- data efficiency와 robustness 측면이 좋지 않음
3. TRPO
- 간단히 말해 복잡함
- noise나 parameter sharing을 포함하는 architecture와의 호환성
없음
기존 대표 연구들
1. DQN
- discrete action space를 가지는 문제들에서는 효과적이지만,
continuous control에도 잘 작동하는지는 검증되지 않음
2. A3C
- data efficiency와 robustness 측면이 좋지 않음
3. TRPO
- 간단히 말해 복잡함
- noise나 parameter sharing을 포함하는 architecture와의 호환성
없음
기존 대표 연구들
1. DQN
- discrete action space를 가지는 문제들에서는 효과적이지만,
continuous control에도 잘 작동하는지는 검증되지 않음
2. A3C
- data efficiency와 robustness 측면이 좋지 않음
3. TRPO
- 간단히 말해 복잡함
- noise나 parameter sharing을 포함하는 architecture와의 호환성
없음
그래서 PPO에서는 Clip이라는 것을 포함하는 Objective Function을
제안
+ TRPO의 data efficiency와 robustness를 유지
+ policy 성능에 대한 lower bound를 제공
그래서 PPO에서는 Clip이라는 것을 포함하는 Objective Function을
제안
+ TRPO의 data efficiency와 robustness를 유지
+ policy 성능에 대한 lower bound를 제공
그래서 PPO에서는 Clip이라는 것을 포함하는 Objective Function을
제안
+ TRPO의 data efficiency와 robustness를 유지
+ policy 성능에 대한 lower bound를 제공
TRPO에서는 문제를 단순하게 만들기 위해서 최적화 문제를 여러 번 변형시켰지만,
PPO는 단순하게 Clip이라는 개념을 사용합니다.
쉽게 말해 TRPO처럼 제약을 걸어서 “더 이상
가지마!”
네. 그래서 지금까지 논문을 소개해봤습니다!
블로그 논문 정리
블로그를 정리하면서 생각했던 점
‘어떻게 하면 많은 사람들이 보실 때 쉽게 이해하도록 글을 쓸 수 있을까..?’
‘내가 처음 어떠한 논문을 접할 때 어떠한 점들이 어려웠지?’
‘귀한 시간 내셔서 보실 텐데 헛된 시간이 되지 않도록 글을 잘 써야겠다!!’
1. 각 논문마다 요약 글 남기기
클릭!
DPG DDPG NPG
TRPO GAE PPO
2. 수식 증명
증명도 다 적어놨습니다!
3. 추가적인 내용
쉽게 보실 수 있도록 그림과 영상 링크도!
모든 분들이 보시고 도움이 되셨으면 좋겠습니다!
코드 구현
강화학습 알고리즘을 이해하는데 있어서 논문만 보고 정리하면 끝?
실제로 환경을 통해 코드로 구현하여 실험해보자!
7개의 논문 중 구현한 알고리즘은 총 4개
1. Vanilla Policy Gradient
1. Vanilla Policy Gradient
2. TNPG(Truncated Natural Policy
Gradient)
1. Vanilla Policy Gradient
2. TNPG(Truncated Natural Policy
Gradient)
3. TRPO(Trust Region Policy
Optimization)
1. Vanilla Policy Gradient
2. TNPG(Truncated Natural Policy
Gradient)
3. TRPO(Trust Region Policy
Optimization)
4. PPO(Proximal Policy Optimization)
1. Vanilla Policy Gradient
2. TNPG(Truncated Natural Policy
Gradient)
3. TRPO(Trust Region Policy
Optimization)
4. PPO(Proximal Policy Optimization)
GAE(General Advantage
Estimator)
환경은?
TRPO, GAE, PPO 논문에서 Mujoco라는 물리 시뮬레이션을 학습 환경을
사용
TRPO 논문 실험 GAE 논문 실험
PPO 논문 실험
우리도 해보자!
1. Mujoco
Hopper
Hopper
- 상태 : 관절의 위치, 각도, 가속도
Hopper
- 상태 : 관절의 위치, 각도, 가속도
- 행동 : 관절의 가해지는 토크
Hopper
- 상태 : 관절의 위치, 각도, 가속도
- 행동 : 관절의 가해지는 토크
- 보상 : 앞으로 나아가는 속도
Hopper
- 상태 : 관절의 위치, 각도, 가속도
- 행동 : 관절의 가해지는 토크
- 보상 : 앞으로 나아가는 속도
- 목표 : 최대한 앞으로 많이
나아가기
Vanilla PG Episode마다
누적보상
TNPG Episode마다
누적보상
TRPO Episode마다
누적보상
PPO Episode마다
누적보상
4가지 알고리즘의 12000 step 비교
PPOTRPO
TNPGVanilla PG
4가지 알고리즘의 80000 step 비교
PPOTRPO
TNPGVanilla PG
TRPO, GAE, PPO의 저자 John Schulman은
말합니다.
John Schulman
“봤지? 그냥 PPO 써~~”
하지만 Mujoco는 1달만 무료이고 그 이후부터 유료..
2. Unity ML-Agent
Unity ML-Agent
Unity ML-Agent에서 사용한 에이전트와
환경
- 상태 : 212개의 vector가 주어지며 다
continuous한 값
- 행동 : 39개의 행동을 할 수 있으며 다 continuous한
값
∴ Mujoco에 비해 상태나 행동의 차원이 상당히 높음
- 상태 : 212개의 vector가 주어지며 다
continuous한 값
- 행동 : 39개의 행동을 할 수 있으며 다 continuous한
값
∴ Mujoco에 비해 상태나 행동의 차원이 상당히 높음
- 상태 : 212개의 vector가 주어지며 다
continuous한 값
- 행동 : 39개의 행동을 할 수 있으며 다 continuous한
값
∴ Mujoco에 비해 상태나 행동의 차원이 상당히 높음
알고리즘은 PPO로만 적용하였습니다!
먼저 평평한 환경
평평한 환경에서의 Episode마다 누적보상Walker : score 3
Walker : score 100 평평한 환경에서의 Episode마다 누적보상
Walker : score 200 평평한 환경에서의 Episode마다 누적보상
Walker : score 700 평평한 환경에서의 Episode마다 누적보상
다음으로 굽어진 환경
진짜 굽어진 환경인지 실험
에이전트야 미안해.. 잘 굽어졌구나!
굽어진 환경에서의 Episode마다 누적보상Walker : score 5
Walker : score 100 굽어진 환경에서의 Episode마다 누적보상
Walker : score 300 굽어진 환경에서의 Episode마다 누적보상
Walker : score 700 굽어진 환경에서의 Episode마다 누적보상
네.
아무튼
마무리를 하였습니다!
PG여행 멤버분들
모두 정말 고생 많으셨습니다~!!!
PG여행
이웅원
프로젝트 매니저
김동민 이동민 차금강
장수영 공민서 양혁렬
끝으로
RL KOREA라는 좋은 커뮤니티를 만들어주시고
이렇게 좋은 프로젝트를 열어주신 RL KOREA 운영진분들께 감사드립니다!
감사합니다!

More Related Content

Similar to 모두를 위한 PG 여행 가이드

RLHF_Lessons_learned.pdf
RLHF_Lessons_learned.pdfRLHF_Lessons_learned.pdf
RLHF_Lessons_learned.pdfssuser1bc84b
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투Ubuntu Korea Community
 
2018 06-11-active-question-answering
2018 06-11-active-question-answering2018 06-11-active-question-answering
2018 06-11-active-question-answeringWoong won Lee
 
[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]
[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주][강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]
[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]ashley ryu
 
Reinforcement learning
Reinforcement learningReinforcement learning
Reinforcement learningTae Young Lee
 
[컨퍼런스] 모두콘 2018 리뷰
[컨퍼런스] 모두콘 2018 리뷰[컨퍼런스] 모두콘 2018 리뷰
[컨퍼런스] 모두콘 2018 리뷰Donghyeon Kim
 
[AKC2022] 기업의 Digital 전환을 위한 Lean Business Agility 코칭 회고(김태영)
[AKC2022] 기업의 Digital 전환을 위한 Lean Business Agility 코칭 회고(김태영) [AKC2022] 기업의 Digital 전환을 위한 Lean Business Agility 코칭 회고(김태영)
[AKC2022] 기업의 Digital 전환을 위한 Lean Business Agility 코칭 회고(김태영) AgileKoreaConference Alliance
 
포트폴리오 허준호
포트폴리오 허준호포트폴리오 허준호
포트폴리오 허준호준호 허
 
성과주의 인사제도 보고서
성과주의 인사제도 보고서성과주의 인사제도 보고서
성과주의 인사제도 보고서Vonchio KIM
 
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best PracticesPAP (Product Analytics Playground)
 
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best PracticesBokyung Choi
 
ProximalPolicyOptimization
ProximalPolicyOptimizationProximalPolicyOptimization
ProximalPolicyOptimizationtaeseon ryu
 
금뽀 장웅태 발표자료(최종)
금뽀 장웅태 발표자료(최종)금뽀 장웅태 발표자료(최종)
금뽀 장웅태 발표자료(최종)Lee Chanwoo
 
공예 온라인 클래스 트렌드 분석
공예 온라인 클래스 트렌드 분석공예 온라인 클래스 트렌드 분석
공예 온라인 클래스 트렌드 분석정재 전
 
1 linear regression
1 linear regression1 linear regression
1 linear regressionCHUN HO LEE
 
01 linear regression
01 linear regression01 linear regression
01 linear regressionCHUN HO LEE
 
[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)
[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)
[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)Wooram Hwang
 
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)Curt Park
 
성공하는 애자일을 위한 짧은 이야기
성공하는 애자일을 위한 짧은 이야기성공하는 애자일을 위한 짧은 이야기
성공하는 애자일을 위한 짧은 이야기종범 고
 

Similar to 모두를 위한 PG 여행 가이드 (20)

RLHF_Lessons_learned.pdf
RLHF_Lessons_learned.pdfRLHF_Lessons_learned.pdf
RLHF_Lessons_learned.pdf
 
Seo
SeoSeo
Seo
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투
 
2018 06-11-active-question-answering
2018 06-11-active-question-answering2018 06-11-active-question-answering
2018 06-11-active-question-answering
 
[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]
[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주][강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]
[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]
 
Reinforcement learning
Reinforcement learningReinforcement learning
Reinforcement learning
 
[컨퍼런스] 모두콘 2018 리뷰
[컨퍼런스] 모두콘 2018 리뷰[컨퍼런스] 모두콘 2018 리뷰
[컨퍼런스] 모두콘 2018 리뷰
 
[AKC2022] 기업의 Digital 전환을 위한 Lean Business Agility 코칭 회고(김태영)
[AKC2022] 기업의 Digital 전환을 위한 Lean Business Agility 코칭 회고(김태영) [AKC2022] 기업의 Digital 전환을 위한 Lean Business Agility 코칭 회고(김태영)
[AKC2022] 기업의 Digital 전환을 위한 Lean Business Agility 코칭 회고(김태영)
 
포트폴리오 허준호
포트폴리오 허준호포트폴리오 허준호
포트폴리오 허준호
 
성과주의 인사제도 보고서
성과주의 인사제도 보고서성과주의 인사제도 보고서
성과주의 인사제도 보고서
 
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
 
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
 
ProximalPolicyOptimization
ProximalPolicyOptimizationProximalPolicyOptimization
ProximalPolicyOptimization
 
금뽀 장웅태 발표자료(최종)
금뽀 장웅태 발표자료(최종)금뽀 장웅태 발표자료(최종)
금뽀 장웅태 발표자료(최종)
 
공예 온라인 클래스 트렌드 분석
공예 온라인 클래스 트렌드 분석공예 온라인 클래스 트렌드 분석
공예 온라인 클래스 트렌드 분석
 
1 linear regression
1 linear regression1 linear regression
1 linear regression
 
01 linear regression
01 linear regression01 linear regression
01 linear regression
 
[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)
[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)
[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)
 
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
 
성공하는 애자일을 위한 짧은 이야기
성공하는 애자일을 위한 짧은 이야기성공하는 애자일을 위한 짧은 이야기
성공하는 애자일을 위한 짧은 이야기
 

모두를 위한 PG 여행 가이드