[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]

RL Korea와
함께 성장하기
17/Apr/2019
유지원

2
- (전) ETRI 인턴
- (전) 모두의연구소 실물강화학습Lab
- (전) Infineon Technologies Korea
- SSAFY 대전 
Samsung SW Academy For Youth

3
- (전) ETRI 인턴
- (전) 모두의연구소 실물강화학습Lab
- (전) Infineon Technologies Korea
- SSAFY 대전 
Samsung SW Academy For Youth

4
강화학습이란
강화학습의 간단한 코드
강화학습 코리아에서는

5
강화학습이란
Reference

6
강화학습이란

9
Intro
기계 학습
코드로 명시하지 않은 동작을 스스로 학습하게

10
강화학습 ?
강화 학습

11
강화학습 ?
강화 학습
시행착오를 통해

12
자전거, 어떻게 배우셨나요?

13
자전거 필승전략?
많이 넘어지세요.
(전 자전거를 못탑니다)

14
Picture source - David Silver
강화학습이 세계를 바라보는 방법

15
강화학습이 풀고싶은 것
결정을 순차적으로 내려야 하는 문제

16
강화학습이 풀고싶은 것
결정을 순차적으로 내려야 하는 문제
MDP
Markov Decision Process

17
다시, 세계를 어떻게 본다구?

18
다시, 세계를 어떻게 본다구?
State Action
Reward

19
MDP
State
Action
Reward
현재 에이전트의 정보 (방위값, 속도값 등)
어떤 상태에서 취할 수 있는 행동 (상,하,좌,우)
어떤 상태에서 어떤 행동을 취해서 얻는 값 (경험치)

20
State
Action
Reward
Policy 모든 상태에서 어떤 행동을 해야하는지
미리 정해놓은 해답 (공략법)
MDP

21
State
Action
Reward
Policy 모든 상태에서 어떤 행동을 해야하는지
미리 정해놓은 해답 (공략법)
강화학습의 목적은 optimal policy를 찾는 것
( accumulative reward = return 을 최대화하는 policy)
MDP

25
Reward
Picture source - https://www.instagram.com/p/Bsmb9Ful-c7/

26
Picture source - Sung Kim
어떻게 Reward를 설정할까?

27

28
0.1
1

29
0.1
1
0.1
0.7
0.1
0.3
0.2
0.3
0.1
1
0.7
0.4 0.2
0.1
0
0.5
0.1
0.1 0.1 0.1
0.1

30
Baselines
한번 코드를 볼까요?

35
메인은 짧습니다. ( 케라스 라서 .. )

36
쉽네요. 강화학습
0.1
1
0.1
0.7
0.1
0.3
0.2
0.3
0.1
1
0.7
0.4 0.2
0.1
0
0.5
0.1
0.1 0.1 0.1
0.1

39
Value - based Policy - based

RL로 무엇을 할수있을까요?
Etc…
Picture source - https://www.slideshare.net/deview/ai-67608549 Picture source - https://onestore.co.kr/userpoc/apps/view?pid=0000723969

RL로 무엇을 할수있을까요?
Video source - OpenAI Blog

Environment
!44
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Reward
Discount rate
Value func
Value func
Discount rate
Reward

Environment
!45
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Reward
Discount rate
Value func
Value func
Discount rate
Reward
0 아니면 -1
Subgoal test때 패널티
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기
0 아니면 -1
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기

Environment
!46
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Reward
Discount rate
Value func
Value func
Discount rate
Reward

47
차금강님 Spinningup KR
번역해요

48
강화학습이란

50
RL Korea는 어떤 곳인가요?

51
“다양한 커뮤니케이션 창구를 통해
한국의 강화학습의 장벽을 낮추고,
함께 성장한다”
RL Korea의 역할은 무엇인가요?

52

53
장벽?
영어!!!!!
수학!!!!!
어떻게 시작하지 ?

55
https://reinforcement-learning-kr.github.io/

56
장벽을 낮추기
#피지여행
피지여행 링크
#GAIL하자 #How to Study RL
GAIL하자 링크
How to Study RL 링크

57

60
함께 성장
RL Korea GitHub
알파오목 Webpage NVIDIA Conf. 발표
RL Korea Blog

62
함께 성장
RL Korea GitHub
발표영상 Youtube
RL Korea Blog

63
어떻게 신청하나요?
모든 행사는
페이스북 페이지를 통해
먼저 공지합니다!
세미나 신청도
페이스북 링크를 통해 접근!
(속닥)앞으로는 다른
행사들로 기획중입니다 :)

64

65
다양한 커뮤니케이션 창구
페이스북 커뮤니티 Slack Github
Slack 참여링크 Github 링크Facebook 링크

66
아하!

67
RL Korea에 참여하기
페이스북
커뮤니티
블로그

68
RL Korea는 어딜 향해 가고있나요?
“한국의 강화학습 레벨 에 기여”UP
온라인 프로젝트를 통해 다양한 사람들이 재밌게 강화학습을 하고 결과물을 남기자

69
우리,
“함께 성장해요”

[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]

Recommended

Recommended

More Related Content

Similar to [강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]

Similar to [강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주] (20)

[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]