- 프로젝트명 : 피지여행
- 발표 제목 : 모두를 위한 PG 여행 가이드
- 발표자 : 이동민 - 한양대학교
- 내용 요약 : 강화학습하면 보통 Q-learning을 떠올립니다. 그렇지만 오래전부터 Policy Gradient라는 Q-learning 못지 않은 훌륭한 방법론이 연구되어 왔고, 최근에는 강화학습의 최정점의 기술로 자리매김하고 있습니다. 본 발표에서는 이에 따른 7가지의 논문을 선정하여 쉽게 접하실 수 있도록 포스팅을 한 과정과 Unity ML-agent를 통해 관련 알고리즘들을 구현하여 적용한 과정들을 발표하고자 합니다.
안녕하세요.
이번에 '1st 함께하는 딥러닝 컨퍼런스'에서 "안.전.제.일. 강화학습"이란 주제로 발표한 이동민이라고 합니다.
컨퍼런스 관련 링크는 다음과 같습니다.
https://tykimos.github.io/2018/06/28/ISS_1st_Deep_Learning_Conference_All_Together/
그리고 대략적인 개요는 다음과 같습니다.
1. What is Artificial Intelligence?
2. What is Reinforcement Learning?
3. What is Artificial General Intelligence?
4. Planning and Learning
5. Safe Reinforcement Learning
또한 이 자료에는 "Imagination-Augmented Agents for Deep Reinforcement Learning"이라는 논문을 자세히 설명하였습니다.
많은 분들이 보시고 도움이 되셨으면 좋겠습니다~!
3월달 "강화학습의 이론과 실제" 로 강의했던 강의자료 배포합니다.
1.Dynamic Programming
2.Policy iteration
3.Value iteration
4.Monte Carlo method
5.Temporal-Difference Learning
6.Sarsa
7.Q-learning
8.딥러닝 프레임워크 케라스 소개 및 슈퍼마리오 환경 구축
9.DQN을 이용한 인공지능 슈퍼마리오 만들기
이 흐름으로 강의를 했는데
브레이크아웃 설명은 양혁렬 (Hyuk Ryeol Yang)님의 코드를 참고 하였고
8번,9번은 새로운 환경이 나왔으니 무시해도 좋겠습니다.
이 환경에 대한 자료는 주말까지 작성하고 업로드 할 예정입니다.
안녕하세요.
이번에 '1st 함께하는 딥러닝 컨퍼런스'에서 "안.전.제.일. 강화학습"이란 주제로 발표한 이동민이라고 합니다.
컨퍼런스 관련 링크는 다음과 같습니다.
https://tykimos.github.io/2018/06/28/ISS_1st_Deep_Learning_Conference_All_Together/
그리고 대략적인 개요는 다음과 같습니다.
1. What is Artificial Intelligence?
2. What is Reinforcement Learning?
3. What is Artificial General Intelligence?
4. Planning and Learning
5. Safe Reinforcement Learning
또한 이 자료에는 "Imagination-Augmented Agents for Deep Reinforcement Learning"이라는 논문을 자세히 설명하였습니다.
많은 분들이 보시고 도움이 되셨으면 좋겠습니다~!
3월달 "강화학습의 이론과 실제" 로 강의했던 강의자료 배포합니다.
1.Dynamic Programming
2.Policy iteration
3.Value iteration
4.Monte Carlo method
5.Temporal-Difference Learning
6.Sarsa
7.Q-learning
8.딥러닝 프레임워크 케라스 소개 및 슈퍼마리오 환경 구축
9.DQN을 이용한 인공지능 슈퍼마리오 만들기
이 흐름으로 강의를 했는데
브레이크아웃 설명은 양혁렬 (Hyuk Ryeol Yang)님의 코드를 참고 하였고
8번,9번은 새로운 환경이 나왔으니 무시해도 좋겠습니다.
이 환경에 대한 자료는 주말까지 작성하고 업로드 할 예정입니다.
* 모두의연구소에서 2018년 12월에 진행한 Moducon 2018을 리뷰합니다.
* 재밌게 들었던 발표 두 가지를 정리합니다
1. Research of Clova AI toward 'AI for Everyone' - 하정우 님 (Clova AI Research Director)
2. 나만 알고싶은 논문 - 민규식 님 (한양대학교)
* 광주과학기술원 인공지능스터디 A-GIST 모임에서 발표했습니다.
* 발표영상 (한국어, 유튜브): https://youtu.be/FRvlwaqrGHM
최보경 : 실무자를 위한 인과추론 활용 - Best Practices
발표영상 https://youtu.be/wTPEZDc6fw4
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
논문은 환경과 상호작용을 통해 데이터를 샘플링하고 확률적 경사 상승법을 사용하여 "대리" 목표 함수를 최적화하는 강화 학습을 위한 새로운 정책 경사 방법들을 제안합니다. 표준 정책 경사 방법은 데이터 샘플마다 한 번의 경사 업데이트를 수행하지만, 미니배치 업데이트를 여러 에폭 수행할 수 있는 독창적인 목표 함수를 제안합니다. 이 새로운 방법을 근접 정책 최적화(Proximal Policy Optimization, PPO)라고 부르며, 신뢰 영역 정책 최적화(Trust Region Policy Optimization, TRPO)의 일부 이점이 있지만, 구현이 훨씬 간단하고 일반적이며 샘플 복잡성 면에서도 뛰어납니다(실제로). 실험에서는 PPO를 로봇 보행 시뮬레이션과 아타리 게임 등의 벤치마크 작업에 적용하였으며, 이를 통해 PPO가 다른 온라인 정책 경사 방법보다 우수하며, 전반적으로 샘플 복잡성, 단순성, 실제 소요 시간 면에서 유리한 균형을 이루고 있다는 것을 보여줍니다.
* 모두의연구소에서 2018년 12월에 진행한 Moducon 2018을 리뷰합니다.
* 재밌게 들었던 발표 두 가지를 정리합니다
1. Research of Clova AI toward 'AI for Everyone' - 하정우 님 (Clova AI Research Director)
2. 나만 알고싶은 논문 - 민규식 님 (한양대학교)
* 광주과학기술원 인공지능스터디 A-GIST 모임에서 발표했습니다.
* 발표영상 (한국어, 유튜브): https://youtu.be/FRvlwaqrGHM
최보경 : 실무자를 위한 인과추론 활용 - Best Practices
발표영상 https://youtu.be/wTPEZDc6fw4
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
논문은 환경과 상호작용을 통해 데이터를 샘플링하고 확률적 경사 상승법을 사용하여 "대리" 목표 함수를 최적화하는 강화 학습을 위한 새로운 정책 경사 방법들을 제안합니다. 표준 정책 경사 방법은 데이터 샘플마다 한 번의 경사 업데이트를 수행하지만, 미니배치 업데이트를 여러 에폭 수행할 수 있는 독창적인 목표 함수를 제안합니다. 이 새로운 방법을 근접 정책 최적화(Proximal Policy Optimization, PPO)라고 부르며, 신뢰 영역 정책 최적화(Trust Region Policy Optimization, TRPO)의 일부 이점이 있지만, 구현이 훨씬 간단하고 일반적이며 샘플 복잡성 면에서도 뛰어납니다(실제로). 실험에서는 PPO를 로봇 보행 시뮬레이션과 아타리 게임 등의 벤치마크 작업에 적용하였으며, 이를 통해 PPO가 다른 온라인 정책 경사 방법보다 우수하며, 전반적으로 샘플 복잡성, 단순성, 실제 소요 시간 면에서 유리한 균형을 이루고 있다는 것을 보여줍니다.
45. 이 논문은 어떻게 강화학습을 Policy gradient로 접근할 수 있는 지를
다룹니다.
46. 1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
47. 1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
48. 1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
3. Theorem 2 (Policy Gradient with Function Approximation)
49. 1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
3. Theorem 2 (Policy Gradient with Function Approximation)
4. Application to Deriving Algorithms
50. 1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
3. Theorem 2 (Policy Gradient with Function Approximation)
4. Application to Deriving Algorithms
5. Application to Advantages
51. 1. Reward를 표현하는 두 가지 방법
- Average Reward Formulation
- Start-State Formulation
2. Theorem 1 (Policy Gradient Theorem)
3. Theorem 2 (Policy Gradient with Function Approximation)
4. Application to Deriving Algorithms
5. Application to Advantages
6. Theorem 3: Convergence of Policy Iteration with Function
Approximation
73. 출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
74. 우리가 기존에 알던 gradient descent method는
steepest descent direction이 아닐 수 있습니다.
출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
75. 우리가 기존에 알던 gradient descent method는
steepest descent direction이 아닐 수 있습니다.
쉽게 말해 가장 가파른 방향을 따라서 내려가야 하는데
그러지 못할 수도 있다는 것입니다.
출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
76. 출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
77. 따라서 이 논문에서는
steepest descent direction을 나타내는 natural gradient method를
policy gradient에 적용하여 좋은 policy를 찾습니다.
출처 : 최적화 기법의 직관적 이해
이미지 출처 : http://darkpgmr.tistory.com/149
92. 핵심은 이 그림입니다.
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
93. 우리가 최적화를 해야할 경사가 있다고 해봅시다!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
94. 하지만 아무런 제약없이 학습을 하게 되면 안전하지도 못하고 빠르게 학습을 하지도 못
합니다.
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
95. 무엇을 하고 싶은 것이냐면
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
96. Policy가 조금씩 변하게 하는 parameter space에서의 step size를 찾고,
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
97. parameter space가 아닌 policy space에서 조금씩 update를 하자!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
98. 따라서 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
99. 따라서 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
100. 따라서 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
101. 도착을 하면 다시 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
102. 도착을 하면 다시 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
103. 도착을 하면 다시 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
104. 다시 한 번 더 도착을 하면 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화를
하면!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
105. 다시 한 번 더 도착을 하면 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화를
하면!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
106. 다시 한 번 더 도착을 하면 Trust Region으로 제약을 걸어서 lower bound를 정의하고 최적화를
하면!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
107. 도착..!!!
출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review
이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
120. 강화학습 알고리즘에 고려되어야 할 사항들
1. Scalability
- large models and parallel implementations
2. Data Efficiency
3. Robustness
- hyperparameter tuning 없이 다양한 문제들을 해결할 수 있는 지
여부
121. 강화학습 알고리즘에 고려되어야 할 사항들
1. Scalability
- large models and parallel implementations
2. Data Efficiency
3. Robustness
- hyperparameter tuning 없이 다양한 문제들을 해결할 수 있는 지
여부
122. 강화학습 알고리즘에 고려되어야 할 사항들
1. Scalability
- large models and parallel implementations
2. Data Efficiency
3. Robustness
- hyperparameter tuning 없이 다양한 문제들을 해결할 수 있는 지
여부
123. 강화학습 알고리즘에 고려되어야 할 사항들
1. Scalability
- large models and parallel implementations
2. Data Efficiency
3. Robustness
- hyperparameter tuning 없이 다양한 문제들을 해결할 수 있는 지
여부
124. 기존 대표 연구들
1. DQN
- discrete action space를 가지는 문제들에서는 효과적이지만,
continuous control에도 잘 작동하는지는 검증되지 않음
2. A3C
- data efficiency와 robustness 측면이 좋지 않음
3. TRPO
- 간단히 말해 복잡함
- noise나 parameter sharing을 포함하는 architecture와의 호환성
없음
125. 기존 대표 연구들
1. DQN
- discrete action space를 가지는 문제들에서는 효과적이지만,
continuous control에도 잘 작동하는지는 검증되지 않음
2. A3C
- data efficiency와 robustness 측면이 좋지 않음
3. TRPO
- 간단히 말해 복잡함
- noise나 parameter sharing을 포함하는 architecture와의 호환성
없음
126. 기존 대표 연구들
1. DQN
- discrete action space를 가지는 문제들에서는 효과적이지만,
continuous control에도 잘 작동하는지는 검증되지 않음
2. A3C
- data efficiency와 robustness 측면이 좋지 않음
3. TRPO
- 간단히 말해 복잡함
- noise나 parameter sharing을 포함하는 architecture와의 호환성
없음
127. 기존 대표 연구들
1. DQN
- discrete action space를 가지는 문제들에서는 효과적이지만,
continuous control에도 잘 작동하는지는 검증되지 않음
2. A3C
- data efficiency와 robustness 측면이 좋지 않음
3. TRPO
- 간단히 말해 복잡함
- noise나 parameter sharing을 포함하는 architecture와의 호환성
없음
128. 그래서 PPO에서는 Clip이라는 것을 포함하는 Objective Function을
제안
+ TRPO의 data efficiency와 robustness를 유지
+ policy 성능에 대한 lower bound를 제공
129. 그래서 PPO에서는 Clip이라는 것을 포함하는 Objective Function을
제안
+ TRPO의 data efficiency와 robustness를 유지
+ policy 성능에 대한 lower bound를 제공
130. 그래서 PPO에서는 Clip이라는 것을 포함하는 Objective Function을
제안
+ TRPO의 data efficiency와 robustness를 유지
+ policy 성능에 대한 lower bound를 제공
131. TRPO에서는 문제를 단순하게 만들기 위해서 최적화 문제를 여러 번 변형시켰지만,
PPO는 단순하게 Clip이라는 개념을 사용합니다.