모두를 위한 PG 여행 가이드

모두를 위한 PG여행 가이드
이동민
RL KOREA
Aug 25, 2018

1. PG여행
2. 7개의 논문
소개
3. 블로그 논문
정리
4. 코드 구현
모두를 위한 PG여행 가이드
Outline

멤버소개
보통 학교에는 선생님이 있죠?

멤버소개
저희 PG여행에는 ”이웅원”님이 있습니다!
이웅원
프로젝트 매니저

멤버소개
그리고 6명의 멤버도 있지요. 한 분 한 분 정말 대단하신 분들입니다!
이웅원
김동민 이동민 차금강
장수영 공민서 양혁렬

멤버소개
이렇게 저희는 총 7명으로 프로젝트를 시작하였습니다!
PG여행
이웅원

PG여행이란?
-> 블로그 정리 및 코드 구현

블로그 링크
https://reinforcement-learning-kr.github.io/2018/06/29/0_pg-travel-guide/

깃허브 링크
https://github.com/reinforcement-learning-kr/pg_travel

어떠한 환경에서 구현하여 실험?

PG여행이란?
까지 약 3개월동안 완료!-> 블로그 정리 및 코드 구현

PG여행이란?
?-> 블로그 정리 및 코드 구현

전체적인 Landscape
(직접 만들어봤습니다!)

Policy Optimization in the RL Algorithms Landscape

Policy Optimization Dynamic Programming
DFO / Evolution Policy Gradients
NES REINFORCE
Policy Iteration Value Iteration
Q-learning
Actor-Critic Methods
ACKTR ACER
A2CA3C
DDPG
DPG
GAE
TRPO
PPO
NPG

Policy Optimization Dynamic Programming
DFO / Evolution Policy Gradients
NES REINFORCE
Policy Iteration Value Iteration
Q-learning
1
ACKTR ACER
A2CA3C
DDPG
DPG
2
3 GAE
5
TRPO
PPO
NPG
4
7
6

그래서 시작할 때 저도

’아 이렇게 되겠구나!’
Sutton_PG
DPG, DDPG
NPG
TRPO
GAE
PPO

Sutton_PG DPG, DDPG NPG TRPO GAE PPO
하지만 무엇 하나 쉬운 논문이
없었습니다..

저절로 되는 수학공부..?

아무튼 죽는 줄 알았습니다..

논문리뷰는 5. 20 ~ 7. 8 까지 매 주 일요일에 행아웃을 통해 진행하였고,

7. 8 부터는 정리팀, 구현팀으로 나눠 8월말까지 진행
정리팀 구현팀

자. 그러면 먼저 논문에 대해서 간략하게 소개해드리겠습니다!

7개의 논문을 깊게 다루면 하루 종일 말해야 할 것 같습니다.

그래서 대략적으로 어떠한 문제 때문에 논문이 나오게 되었고,
어떠한 방법을 제시하는 지만 말씀드릴께요!

그리고 기본적인 강화학습 내용은 안다고 가정하겠습니다.

Policy Optimization
Policy Gradients
1
Sutton_PG (2000)

이 논문은 어떻게 강화학습을 Policy gradient로 접근할 수 있는 지를
다룹니다.

1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation

2. Theorem 1 (Policy Gradient Theorem)

3. Theorem 2 (Policy Gradient with Function Approximation)

4. Application to Deriving Algorithms

5. Application to Advantages

5. Application to Advantages
6. Theorem 3: Convergence of Policy Iteration with Function
Approximation

Policy Optimization
Policy Gradients
REINFORCE
1
2
DPG
DPG (2014)

1. Deterministic Policy Gradient (DPG)가 존재한다? (Find & Prove)

- model-free, off-policy actor-critic algorithm을 제안

2. DPG는 Stochastic Policy Gradient (SPG)의 limiting case
- Policy variance is zero
- Many PG methods applicable to DPG

2. DPG는 Stochastic Policy Gradient (SPG)의 limiting case
- Policy variance is zero
- Many PG methods applicable to DPG
3. DPG는 SPG보다 performance & computation cost에서 advantage들을
가짐
- In High-Dimensional Tasks

Policy Optimization
Policy Gradients
REINFORCE
1
DDPG (2015)DDPG
2
3
DPG

기존 강화학습 기법들은 High-Dimensional Observation Spaces에는 잘
동작하지만, High-Dimensional Action Spaces에는 잘 동작하지 않습니다.

어떻게 하면 High-Dimensional Task들을 더 잘할까?

Continuous Control를 위한 새로운 접근

1. Model-free, Off-policy Actor-Critic Algorithm을 제안

2. DPG 기반

2. DPG 기반
3. Actor-Critic approach + DQN
- Replay buffer : 샘플들 사이의 상관관계를 줄여줌
- Target Q Network : Update 동안 target을 안정적으로
만듦

Policy Optimization
Policy Gradients
REINFORCE
1
NPG (2002)
DDPG
DPG
2
3
NPG
4

이 논문은 뒤이어 나오는 Trust Region Policy Optimization (TRPO)를
더 잘 이해하기 위해서 본 논문

상당히 무시무시한 논문입니다..

출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149

우리가 기존에 알던 gradient descent method는
steepest descent direction이 아닐 수 있습니다.

우리가 기존에 알던 gradient descent method는
steepest descent direction이 아닐 수 있습니다.
쉽게 말해 가장 가파른 방향을 따라서 내려가야 하는데
그러지 못할 수도 있다는 것입니다.

따라서 이 논문에서는
steepest descent direction을 나타내는 natural gradient method를
policy gradient에 적용하여 좋은 policy를 찾습니다.

더 깊게 다루면 정말 다양한 내용들이..

Manifold

Manifold
Riemannian space

Manifold
Riemannian space
Line Search

Manifold
Riemannian space
Line Search
Fisher Information Matrix

Manifold
Riemannian space
Conjugate Gradient MethodLine Search
Fisher Information Matrix

프로젝트 내에 있는 한 팀원의 문장을 인용하겠습니다.

“머리가 아프고 힘들수록 잘하고 있는겁니다.”

NPG 보시는 분들 화이팅입니다!

Policy Optimization
Policy Gradients
REINFORCE
1
TRPO (2015)
DDPG
DPG
2
3
5
TRPONPG
4

출처 : From REINFORCE to PPO
이미지 출처 : https://www.slideshare.net/WoongwonLee/from-reinforce-to-ppo
어떠한 문제를 다루는 지?

이 논문은 Objective Function을 총 9번을 바꾸는데요.

핵심은 이 그림입니다.
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc

우리가 최적화를 해야할 경사가 있다고 해봅시다!

하지만 아무런 제약없이 학습을 하게 되면 안전하지도 못하고 빠르게 학습을 하지도 못
합니다.

무엇을 하고 싶은 것이냐면

Policy가 조금씩 변하게 하는 parameter space에서의 step size를 찾고,

parameter space가 아닌 policy space에서 조금씩 update를 하자!

따라서 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!

도착을 하면 다시 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!

다시 한 번 더 도착을 하면 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화를
하면!

도착..!!!

Policy Optimization
Policy Gradients
REINFORCE
1
GAE (2016)DDPG
DPG
2
3
GAE
5
TRPONPG
4
6

이 논문을 보기 전에 먼저

n-step Return과 𝝀-return의 차이점에 대해서 알면 이해가 더 잘됩니다!
출처 : Lecture 4: Model-Free Prediction
이미지 출처 : http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/MC-TD.pdf

TRPO가 나온 뒤로도 복잡하고 어려운 control problem에서 RL은
high sample complexity 때문에 제한이 되어왔습니다.

따라서 이 논문에서 그 제한을 풀고자 advantage function의
good estimate를 얻는 “variance reduction”에 대해서 연구한
논문입니다.

“Generalized Advantage Estimator (GAE)”라는 것을 제안했고,
이것은 bias-variance tradeoff를 조절하는 두 개의 parameter 𝜸, 𝛌를
가집니다.

그래서 이렇게 함으로써 보다 더 복잡하고 어려운 control task들을 해결할 수 있었다고
합니다.

글로만 요약한 이유는 이 논문도 수식이..

Policy Optimization
Policy Gradients
REINFORCE
1
PPO (2017)
DDPG
DPG
2
3
GAE
5
TRPO
PPO
NPG
4
7
6

앞서 소개해드린 논문들보다 나름 쉽다고 생각합니다.

강화학습 알고리즘에 고려되어야 할 사항들
1. Scalability
- large models and parallel implementations
2. Data Efficiency
3. Robustness
- hyperparameter tuning 없이 다양한 문제들을 해결할 수 있는 지
여부

기존 대표 연구들
1. DQN
- discrete action space를 가지는 문제들에서는 효과적이지만,
continuous control에도 잘 작동하는지는 검증되지 않음
2. A3C
- data efficiency와 robustness 측면이 좋지 않음
3. TRPO
- 간단히 말해 복잡함
- noise나 parameter sharing을 포함하는 architecture와의 호환성
없음

그래서 PPO에서는 Clip이라는 것을 포함하는 Objective Function을
제안
+ TRPO의 data efficiency와 robustness를 유지
+ policy 성능에 대한 lower bound를 제공

TRPO에서는 문제를 단순하게 만들기 위해서 최적화 문제를 여러 번 변형시켰지만,
PPO는 단순하게 Clip이라는 개념을 사용합니다.

쉽게 말해 TRPO처럼 제약을 걸어서 “더 이상
가지마!”

네. 그래서 지금까지 논문을 소개해봤습니다!

블로그를 정리하면서 생각했던 점

‘어떻게 하면 많은 사람들이 보실 때 쉽게 이해하도록 글을 쓸 수 있을까..?’

‘내가 처음 어떠한 논문을 접할 때 어떠한 점들이 어려웠지?’

‘귀한 시간 내셔서 보실 텐데 헛된 시간이 되지 않도록 글을 잘 써야겠다!!’

1. 각 논문마다 요약 글 남기기

증명도 다 적어놨습니다!

쉽게 보실 수 있도록 그림과 영상 링크도!

모든 분들이 보시고 도움이 되셨으면 좋겠습니다!

강화학습 알고리즘을 이해하는데 있어서 논문만 보고 정리하면 끝?

실제로 환경을 통해 코드로 구현하여 실험해보자!

7개의 논문 중 구현한 알고리즘은 총 4개

1. Vanilla Policy Gradient
2. TNPG(Truncated Natural Policy
Gradient)

Gradient)
3. TRPO(Trust Region Policy
Optimization)

Gradient)
Optimization)
4. PPO(Proximal Policy Optimization)

Gradient)
Optimization)
4. PPO(Proximal Policy Optimization)
GAE(General Advantage
Estimator)

TRPO, GAE, PPO 논문에서 Mujoco라는 물리 시뮬레이션을 학습 환경을
사용
TRPO 논문 실험 GAE 논문 실험
PPO 논문 실험

Hopper
- 상태 : 관절의 위치, 각도, 가속도

Hopper
- 행동 : 관절의 가해지는 토크

Hopper
- 보상 : 앞으로 나아가는 속도

Hopper
- 보상 : 앞으로 나아가는 속도
- 목표 : 최대한 앞으로 많이
나아가기

Vanilla PG Episode마다
누적보상

TNPG Episode마다
누적보상

TRPO Episode마다
누적보상

PPO Episode마다
누적보상

4가지 알고리즘의 12000 step 비교

4가지 알고리즘의 80000 step 비교

TRPO, GAE, PPO의 저자 John Schulman은
말합니다.

John Schulman
“봤지? 그냥 PPO 써~~”

하지만 Mujoco는 1달만 무료이고 그 이후부터 유료..

Unity ML-Agent에서 사용한 에이전트와
환경

- 상태 : 212개의 vector가 주어지며 다
continuous한 값
- 행동 : 39개의 행동을 할 수 있으며 다 continuous한
값
∴ Mujoco에 비해 상태나 행동의 차원이 상당히 높음

알고리즘은 PPO로만 적용하였습니다!

평평한 환경에서의 Episode마다 누적보상Walker : score 3

Walker : score 100 평평한 환경에서의 Episode마다 누적보상

진짜 굽어진 환경인지 실험

에이전트야 미안해.. 잘 굽어졌구나!

굽어진 환경에서의 Episode마다 누적보상Walker : score 5

Walker : score 100 굽어진 환경에서의 Episode마다 누적보상

모두 정말 고생 많으셨습니다~!!!
PG여행
이웅원

RL KOREA라는 좋은 커뮤니티를 만들어주시고

이렇게 좋은 프로젝트를 열어주신 RL KOREA 운영진분들께 감사드립니다!

모두를 위한 PG 여행 가이드

Recommended

Recommended

More Related Content

Similar to 모두를 위한 PG 여행 가이드

Similar to 모두를 위한 PG 여행 가이드 (20)

모두를 위한 PG 여행 가이드