- 프로젝트명 : 피지여행
- 발표 제목 : 모두를 위한 PG 여행 가이드
- 발표자 : 이동민 - 한양대학교
- 내용 요약 : 강화학습하면 보통 Q-learning을 떠올립니다. 그렇지만 오래전부터 Policy Gradient라는 Q-learning 못지 않은 훌륭한 방법론이 연구되어 왔고, 최근에는 강화학습의 최정점의 기술로 자리매김하고 있습니다. 본 발표에서는 이에 따른 7가지의 논문을 선정하여 쉽게 접하실 수 있도록 포스팅을 한 과정과 Unity ML-agent를 통해 관련 알고리즘들을 구현하여 적용한 과정들을 발표하고자 합니다.
45. 이 논문은 어떻게 강화학습을 Policy gradient로 접근할 수 있는 지를
다룹니다.
46. 1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
47. 1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
48. 1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
3. Theorem 2 (Policy Gradient with Function Approximation)
49. 1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
3. Theorem 2 (Policy Gradient with Function Approximation)
4. Application to Deriving Algorithms
50. 1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
3. Theorem 2 (Policy Gradient with Function Approximation)
4. Application to Deriving Algorithms
5. Application to Advantages
51. 1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
3. Theorem 2 (Policy Gradient with Function Approximation)
4. Application to Deriving Algorithms
5. Application to Advantages
6. Theorem 3: Convergence of Policy Iteration with Function
Approximation
73. 출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
74. 우리가 기존에 알던 gradient descent method는
steepest descent direction이 아닐 수 있습니다.
출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
75. 우리가 기존에 알던 gradient descent method는
steepest descent direction이 아닐 수 있습니다.
쉽게 말해 가장 가파른 방향을 따라서 내려가야 하는데
그러지 못할 수도 있다는 것입니다.
출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
76. 출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
77. 따라서 이 논문에서는
steepest descent direction을 나타내는 natural gradient method를
policy gradient에 적용하여 좋은 policy를 찾습니다.
출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
92. 핵심은 이 그림입니다.
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
93. 우리가 최적화를 해야할 경사가 있다고 해봅시다!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
94. 하지만 아무런 제약없이 학습을 하게 되면 안전하지도 못하고 빠르게 학습을 하지도 못
합니다.
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
95. 무엇을 하고 싶은 것이냐면
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
96. Policy가 조금씩 변하게 하는 parameter space에서의 step size를 찾고,
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
97. parameter space가 아닌 policy space에서 조금씩 update를 하자!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
98. 따라서 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
99. 따라서 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
100. 따라서 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
101. 도착을 하면 다시 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
102. 도착을 하면 다시 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
103. 도착을 하면 다시 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
104. 다시 한 번 더 도착을 하면 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화를
하면!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
105. 다시 한 번 더 도착을 하면 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화를
하면!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
106. 다시 한 번 더 도착을 하면 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화를
하면!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
107. 도착..!!!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
120. 강화학습 알고리즘에 고려되어야 할 사항들
1. Scalability
- large models and parallel implementations
2. Data Efficiency
3. Robustness
- hyperparameter tuning 없이 다양한 문제들을 해결할 수 있는 지
여부
121. 강화학습 알고리즘에 고려되어야 할 사항들
1. Scalability
- large models and parallel implementations
2. Data Efficiency
3. Robustness
- hyperparameter tuning 없이 다양한 문제들을 해결할 수 있는 지
여부
122. 강화학습 알고리즘에 고려되어야 할 사항들
1. Scalability
- large models and parallel implementations
2. Data Efficiency
3. Robustness
- hyperparameter tuning 없이 다양한 문제들을 해결할 수 있는 지
여부
123. 강화학습 알고리즘에 고려되어야 할 사항들
1. Scalability
- large models and parallel implementations
2. Data Efficiency
3. Robustness
- hyperparameter tuning 없이 다양한 문제들을 해결할 수 있는 지
여부
124. 기존 대표 연구들
1. DQN
- discrete action space를 가지는 문제들에서는 효과적이지만,
continuous control에도 잘 작동하는지는 검증되지 않음
2. A3C
- data efficiency와 robustness 측면이 좋지 않음
3. TRPO
- 간단히 말해 복잡함
- noise나 parameter sharing을 포함하는 architecture와의 호환성
없음
125. 기존 대표 연구들
1. DQN
- discrete action space를 가지는 문제들에서는 효과적이지만,
continuous control에도 잘 작동하는지는 검증되지 않음
2. A3C
- data efficiency와 robustness 측면이 좋지 않음
3. TRPO
- 간단히 말해 복잡함
- noise나 parameter sharing을 포함하는 architecture와의 호환성
없음
126. 기존 대표 연구들
1. DQN
- discrete action space를 가지는 문제들에서는 효과적이지만,
continuous control에도 잘 작동하는지는 검증되지 않음
2. A3C
- data efficiency와 robustness 측면이 좋지 않음
3. TRPO
- 간단히 말해 복잡함
- noise나 parameter sharing을 포함하는 architecture와의 호환성
없음
127. 기존 대표 연구들
1. DQN
- discrete action space를 가지는 문제들에서는 효과적이지만,
continuous control에도 잘 작동하는지는 검증되지 않음
2. A3C
- data efficiency와 robustness 측면이 좋지 않음
3. TRPO
- 간단히 말해 복잡함
- noise나 parameter sharing을 포함하는 architecture와의 호환성
없음
128. 그래서 PPO에서는 Clip이라는 것을 포함하는 Objective Function을
제안
+ TRPO의 data efficiency와 robustness를 유지
+ policy 성능에 대한 lower bound를 제공
129. 그래서 PPO에서는 Clip이라는 것을 포함하는 Objective Function을
제안
+ TRPO의 data efficiency와 robustness를 유지
+ policy 성능에 대한 lower bound를 제공
130. 그래서 PPO에서는 Clip이라는 것을 포함하는 Objective Function을
제안
+ TRPO의 data efficiency와 robustness를 유지
+ policy 성능에 대한 lower bound를 제공
131. TRPO에서는 문제를 단순하게 만들기 위해서 최적화 문제를 여러 번 변형시켰지만,
PPO는 단순하게 Clip이라는 개념을 사용합니다.