안녕하세요.
강화학습을 공부하면서 처음 접하시는 분들을 위해 ppt로 '강화학습의 개요'에 대해서 정리했습니다.
동물이 학습하는 것과 똑같이 시행착오를 겪으면서 학습하는 강화학습은 기계학습 분야에서 상당히 매력적이라고 생각합니다.
https://www.youtube.com/watch?v=PQtDTdDr8vs&feature=youtu.be
위의 링크는 스키너의 쥐 실험 영상입니다.
감사합니다.
안녕하세요.
이번에 '1st 함께하는 딥러닝 컨퍼런스'에서 "안.전.제.일. 강화학습"이란 주제로 발표한 이동민이라고 합니다.
컨퍼런스 관련 링크는 다음과 같습니다.
https://tykimos.github.io/2018/06/28/ISS_1st_Deep_Learning_Conference_All_Together/
그리고 대략적인 개요는 다음과 같습니다.
1. What is Artificial Intelligence?
2. What is Reinforcement Learning?
3. What is Artificial General Intelligence?
4. Planning and Learning
5. Safe Reinforcement Learning
또한 이 자료에는 "Imagination-Augmented Agents for Deep Reinforcement Learning"이라는 논문을 자세히 설명하였습니다.
많은 분들이 보시고 도움이 되셨으면 좋겠습니다~!
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
발표자: 곽동현(서울대 박사과정, 현 NAVER Clova)
강화학습(Reinforcement learning)의 개요 및 최근 Deep learning 기반의 RL 트렌드를 소개합니다.
발표영상:
http://tv.naver.com/v/2024376
https://youtu.be/dw0sHzE1oAc
안녕하세요.
강화학습을 공부하면서 처음 접하시는 분들을 위해 ppt로 '강화학습의 개요'에 대해서 정리했습니다.
동물이 학습하는 것과 똑같이 시행착오를 겪으면서 학습하는 강화학습은 기계학습 분야에서 상당히 매력적이라고 생각합니다.
https://www.youtube.com/watch?v=PQtDTdDr8vs&feature=youtu.be
위의 링크는 스키너의 쥐 실험 영상입니다.
감사합니다.
안녕하세요.
이번에 '1st 함께하는 딥러닝 컨퍼런스'에서 "안.전.제.일. 강화학습"이란 주제로 발표한 이동민이라고 합니다.
컨퍼런스 관련 링크는 다음과 같습니다.
https://tykimos.github.io/2018/06/28/ISS_1st_Deep_Learning_Conference_All_Together/
그리고 대략적인 개요는 다음과 같습니다.
1. What is Artificial Intelligence?
2. What is Reinforcement Learning?
3. What is Artificial General Intelligence?
4. Planning and Learning
5. Safe Reinforcement Learning
또한 이 자료에는 "Imagination-Augmented Agents for Deep Reinforcement Learning"이라는 논문을 자세히 설명하였습니다.
많은 분들이 보시고 도움이 되셨으면 좋겠습니다~!
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
발표자: 곽동현(서울대 박사과정, 현 NAVER Clova)
강화학습(Reinforcement learning)의 개요 및 최근 Deep learning 기반의 RL 트렌드를 소개합니다.
발표영상:
http://tv.naver.com/v/2024376
https://youtu.be/dw0sHzE1oAc
Maximum Entropy Reinforcement Learning (Stochastic Control)Dongmin Lee
I reviewed the following papers.
- T. Haarnoja, et al., “Reinforcement Learning with Deep Energy-Based Policies", ICML 2017
- T. Haarnoja, et al., “Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor", ICML 2018
- T. Haarnoja, et al., “Soft Actor-Critic Algorithms and Applications", arXiv preprint 2018
Thank you.
The document discusses two recent papers on off-policy meta-reinforcement learning:
1) "Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables" which introduces PEARL, an off-policy method for meta RL using context variables to enable efficient adaptation.
2) "Guided Meta-Policy Search" which uses a two-level approach of task learning and meta-learning, where task learning trains policies via RL and meta-learning trains a meta-objective via imitation. Both papers aim to enable efficient off-policy adaptation in meta RL.
Randomized smoothing is a method to make a classifier robust against adversarial attacks. I introduce two papers to improve the performance of a method using randomized smoothing technique.
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 기린그림 팀에서는 아래와 같은 프로젝트를 진행했습니다.
기린그림 팀은 사용자의 글씨체를 학습하여 나만의 폰트로 일기를 쓰고, 사진을 업로드 하면 직접 그림을 그린 것처럼 변환하여 그림일기를 쓸 수 있도록 하는 프로젝트를 진행 했습니다.
16기 김유진 이화여자대학교 과학교육과
17기 김송성 고려대학교 통계학과
17기 박종은 연세대학교 언더우드국제학부
17기 여해인 동덕여자대학교 컴퓨터학과
17기 이보림 중앙대학교 소프트웨어학부
Machine Learning Foundations (a case study approach) 강의 정리SANG WON PARK
실제 비즈니스에서 많이 활용되는 사례를 중심으로 어떻게 기존 데이터를 이용하여 알고리즘을 선택하고, 학습하여, 예측모델을 구축 하는지 jupyter notebook을 이용하여 실제 코드를 이용하여 실습할 수 있다.
강의 초반에 강조하는 것 처럼, 머신러닝 알고리즘은 나중에 자세히 설명하는 과정이 따로 있고, 이번 강의는 실제 어떻게 활용하는지에 완전히 초점이 맞추어져 있어서, 알고리즘은 아주 간략한 수준으로 설명해 준다. (좀 더 구체적인 내용은 심화과정이 따로 있음)
http://blog.naver.com/freepsw/221113685916 참고
https://github.com/freepsw/coursera/tree/master/ML_Foundations/A_Case_Study 코드 샘플
Maximum Entropy Reinforcement Learning (Stochastic Control)Dongmin Lee
I reviewed the following papers.
- T. Haarnoja, et al., “Reinforcement Learning with Deep Energy-Based Policies", ICML 2017
- T. Haarnoja, et al., “Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor", ICML 2018
- T. Haarnoja, et al., “Soft Actor-Critic Algorithms and Applications", arXiv preprint 2018
Thank you.
The document discusses two recent papers on off-policy meta-reinforcement learning:
1) "Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables" which introduces PEARL, an off-policy method for meta RL using context variables to enable efficient adaptation.
2) "Guided Meta-Policy Search" which uses a two-level approach of task learning and meta-learning, where task learning trains policies via RL and meta-learning trains a meta-objective via imitation. Both papers aim to enable efficient off-policy adaptation in meta RL.
Randomized smoothing is a method to make a classifier robust against adversarial attacks. I introduce two papers to improve the performance of a method using randomized smoothing technique.
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 기린그림 팀에서는 아래와 같은 프로젝트를 진행했습니다.
기린그림 팀은 사용자의 글씨체를 학습하여 나만의 폰트로 일기를 쓰고, 사진을 업로드 하면 직접 그림을 그린 것처럼 변환하여 그림일기를 쓸 수 있도록 하는 프로젝트를 진행 했습니다.
16기 김유진 이화여자대학교 과학교육과
17기 김송성 고려대학교 통계학과
17기 박종은 연세대학교 언더우드국제학부
17기 여해인 동덕여자대학교 컴퓨터학과
17기 이보림 중앙대학교 소프트웨어학부
Machine Learning Foundations (a case study approach) 강의 정리SANG WON PARK
실제 비즈니스에서 많이 활용되는 사례를 중심으로 어떻게 기존 데이터를 이용하여 알고리즘을 선택하고, 학습하여, 예측모델을 구축 하는지 jupyter notebook을 이용하여 실제 코드를 이용하여 실습할 수 있다.
강의 초반에 강조하는 것 처럼, 머신러닝 알고리즘은 나중에 자세히 설명하는 과정이 따로 있고, 이번 강의는 실제 어떻게 활용하는지에 완전히 초점이 맞추어져 있어서, 알고리즘은 아주 간략한 수준으로 설명해 준다. (좀 더 구체적인 내용은 심화과정이 따로 있음)
http://blog.naver.com/freepsw/221113685916 참고
https://github.com/freepsw/coursera/tree/master/ML_Foundations/A_Case_Study 코드 샘플
- 프로젝트명 : 피지여행
- 발표 제목 : 모두를 위한 PG 여행 가이드
- 발표자 : 이동민 - 한양대학교
- 내용 요약 : 강화학습하면 보통 Q-learning을 떠올립니다. 그렇지만 오래전부터 Policy Gradient라는 Q-learning 못지 않은 훌륭한 방법론이 연구되어 왔고, 최근에는 강화학습의 최정점의 기술로 자리매김하고 있습니다. 본 발표에서는 이에 따른 7가지의 논문을 선정하여 쉽게 접하실 수 있도록 포스팅을 한 과정과 Unity ML-agent를 통해 관련 알고리즘들을 구현하여 적용한 과정들을 발표하고자 합니다.
- 애자일 선언문의 원칙들
- 애자일의 오해
- 스크럼(Scrum)
- User Story
- Estimation
- XP(eXtreme Programming)
- XP Practice #1 – TDD와 테스트 자동화
- XP Practice #2 – Refactoring, CI
- 애자일 사례 소개
3월달 "강화학습의 이론과 실제" 로 강의했던 강의자료 배포합니다.
1.Dynamic Programming
2.Policy iteration
3.Value iteration
4.Monte Carlo method
5.Temporal-Difference Learning
6.Sarsa
7.Q-learning
8.딥러닝 프레임워크 케라스 소개 및 슈퍼마리오 환경 구축
9.DQN을 이용한 인공지능 슈퍼마리오 만들기
이 흐름으로 강의를 했는데
브레이크아웃 설명은 양혁렬 (Hyuk Ryeol Yang)님의 코드를 참고 하였고
8번,9번은 새로운 환경이 나왔으니 무시해도 좋겠습니다.
이 환경에 대한 자료는 주말까지 작성하고 업로드 할 예정입니다.
38. !38
1. Clipped Double-Q Learning
TD3는 한개가 아닌 두개의 Q함수를 배웁니다(그래서 “Twin”입니다!),
그리고 Bellman error loss 함수를 사용하여 타겟으로 부터 얻은 두 Q함수중 작은 Q값을 사용합니다.
2. “Delayed” Policy Updates
TD3는 policy(와 타겟 네트워크)를 Q함수보다 덜 자주 업데이트 합니다.
논문에서는 Q함수가 두번 업데이트 될 때마다 정책을 한 번 업데이트하는 것을 권장합니다.
3. Target Policy Smoothing
TD3는 타겟 액션에 노이즈를 추가하여 액션 변경사항에 따라 Q를 부드럽게 만들어
Q함수 에러를 탐험하는 정책을 만드는 것을 피합니다.
TD3 ?
53. Environment
!53
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Reward
Discount rate
Value func
Value func
Discount rate
Reward
0 아니면 -1
Subgoal test때 패널티
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기
0 아니면 -1
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기
93. 1. High level의 출력(goal) 이 descrete하며 추상화 되어있음
일반적 계층형 강화학습
94. High-level
Low-level
1. 팔 올리기
2. 왼쪽으로 돌기
3. 오른쪽으로 돌기
4. 앞으로 움직이기
5. 뒤로 움직이기
1. High level의 출력(goal) 이 descrete하며 추상화 되어있음
일반적 계층형 강화학습
95. High-level
Low-level
1. 팔 올리기
2. 왼쪽으로 돌기
3. 오른쪽으로 돌기
4. 앞으로 움직이기
5. 뒤로 움직이기
1번!
1번 모터 3도, 2번 모터 12
도 ...
Reward
1. High level의 출력(goal) 이 descrete하며 추상화 되어있음
일반적 계층형 강화학습
96. High-level
Low-level
1. 팔 올리기
2. 왼쪽으로 돌기
3. 오른쪽으로 돌기
4. 앞으로 움직이기
5. 뒤로 움직이기
1번!
1번 모터 3도, 2번 모터 12
도 ...
문제점 : 명령어와 리워드를 task가
바뀔 때마다 재정의해주어야 함
Reward
1. High level의 출력(goal) 이 descrete하며 추상화 되어있음
일반적 계층형 강화학습
100. 2. Off-policy 학습이 불가하여 data efficiency 가 낮음
일반적 계층형 강화학습
•Off-policy는 다수의 policy가 맞물리는 상황에서 불안정해짐
Q-prop: Sample-efficient policy gradient with an off-policy critic (Shixiang et al, 2016)
101. 2. Off-policy 학습이 불가하여 data efficiency 가 낮음
일반적 계층형 강화학습
•Off-policy는 다수의 policy가 맞물리는 상황에서 불안정해짐
•High-policy 와 Low-policy 에 on-policy 적용 -> low-efficiency
Q-prop: Sample-efficient policy gradient with an off-policy critic (Shixiang et al, 2016)
102. •과거 high-policy 가 low-policy 에게 준 goal을
현재 low-policy 에게 줘도 같은 결과를 도출할까?
Hiro 는 어떻게 해결했을까
103. •과거 high-policy 가 low-policy 에게 준 goal을
현제 low-policy 에게 줘도 같은 결과를 도출할까?
No!
Hiro 는 어떻게 해결했을까
104. •과거 high-policy 가 low-policy 에게 준 goal을
현제 low-policy 에게 줘도 같은 결과를 도출할까?
No!
해결 방안 : Goal에 노이즈를 준 10개의 선택지
중 현제 low-policy 가 과거 행동과 가장 유사한
결과를 도출하는 선택지를 택하여 학습시킴
Hiro 는 어떻게 해결했을까