SlideShare a Scribd company logo
RL Korea와
함께 성장하기
17/Apr/2019
유지원
2
- (전) ETRI 인턴
- (전) 모두의연구소 실물강화학습Lab
- (전) Infineon Technologies Korea
- SSAFY 대전

Samsung SW Academy For Youth
3
- (전) ETRI 인턴
- (전) 모두의연구소 실물강화학습Lab
- (전) Infineon Technologies Korea
- SSAFY 대전

Samsung SW Academy For Youth
4
강화학습이란
강화학습의 간단한 코드
강화학습 코리아에서는
5
강화학습이란
강화학습의 간단한 코드
강화학습 코리아에서는
Reference
6
강화학습이란
강화학습의 간단한 코드
강화학습 코리아에서는
7
강화학습은..?
8
Intro
기계 학습
9
Intro
기계 학습
코드로 명시하지 않은 동작을 스스로 학습하게
10
강화학습 ?
강화 학습
11
강화학습 ?
강화 학습
시행착오를 통해
12
자전거, 어떻게 배우셨나요?
13
자전거 필승전략?
많이 넘어지세요.
(전 자전거를 못탑니다)
14
Picture source - David Silver
강화학습이 세계를 바라보는 방법
15
강화학습이 풀고싶은 것
결정을 순차적으로 내려야 하는 문제
16
강화학습이 풀고싶은 것
결정을 순차적으로 내려야 하는 문제
MDP
Markov Decision Process
17
Picture source - David Silver
다시, 세계를 어떻게 본다구?
18
Picture source - David Silver
다시, 세계를 어떻게 본다구?
State Action
Reward
19
MDP
State
Action
Reward
현재 에이전트의 정보 (방위값, 속도값 등)
어떤 상태에서 취할 수 있는 행동 (상,하,좌,우)
어떤 상태에서 어떤 행동을 취해서 얻는 값 (경험치)
20
State
Action
Reward
Policy 모든 상태에서 어떤 행동을 해야하는지
미리 정해놓은 해답 (공략법)
현재 에이전트의 정보 (방위값, 속도값 등)
어떤 상태에서 취할 수 있는 행동 (상,하,좌,우)
어떤 상태에서 어떤 행동을 취해서 얻는 값 (경험치)
MDP
21
State
Action
Reward
Policy 모든 상태에서 어떤 행동을 해야하는지
미리 정해놓은 해답 (공략법)
강화학습의 목적은 optimal policy를 찾는 것
( accumulative reward = return 을 최대화하는 policy)
현재 에이전트의 정보 (방위값, 속도값 등)
어떤 상태에서 취할 수 있는 행동 (상,하,좌,우)
어떤 상태에서 어떤 행동을 취해서 얻는 값 (경험치)
MDP
22
23
State
24
Action
25
Reward
Picture source - https://www.instagram.com/p/Bsmb9Ful-c7/
26
Picture source - Sung Kim
어떻게 Reward를 설정할까?
27
Picture source - Sung Kim
어떻게 Reward를 설정할까?
28
Picture source - Sung Kim
어떻게 Reward를 설정할까?
0.1
1
29
Picture source - Sung Kim
어떻게 Reward를 설정할까?
0.1
1
0.1
0.7
0.1
0.3
0.2
0.3
0.1
1
0.7
0.4 0.2
0.1
0
0.5
0.1
0.1 0.1 0.1
0.1
30
Baselines
한번 코드를 볼까요?
31
32
State Action
Reward
33
State Action
Reward
34
35
메인은 짧습니다. ( 케라스 라서 .. )
36
Picture source - Sung Kim
쉽네요. 강화학습
0.1
1
0.1
0.7
0.1
0.3
0.2
0.3
0.1
1
0.7
0.4 0.2
0.1
0
0.5
0.1
0.1 0.1 0.1
0.1
37
38
THE END
39
Value - based Policy - based
RL로 무엇을 할수있을까요?
Etc…
Picture source - https://www.slideshare.net/deview/ai-67608549 Picture source - https://onestore.co.kr/userpoc/apps/view?pid=0000723969
RL로 무엇을 할수있을까요?
Video source - OpenAI Blog
42
결과는 이렇습니다.
Environment
!44
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Reward
Discount rate
Value func
Value func
Discount rate
Reward
Environment
!45
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Reward
Discount rate
Value func
Value func
Discount rate
Reward
0 아니면 -1
Subgoal test때 패널티
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기
0 아니면 -1
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기
Environment
!46
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Reward
Discount rate
Value func
Value func
Discount rate
Reward
47
차금강님 Spinningup KR
번역해요
48
강화학습이란
강화학습의 간단한 코드
강화학습 코리아에서는
49
50
RL Korea는 어떤 곳인가요?
51
“다양한 커뮤니케이션 창구를 통해
한국의 강화학습의 장벽을 낮추고,
함께 성장한다”
RL Korea의 역할은 무엇인가요?
52
“다양한 커뮤니케이션 창구를 통해
한국의 강화학습의 장벽을 낮추고,
함께 성장한다”
RL Korea의 역할은 무엇인가요?
53
장벽?
영어!!!!!
수학!!!!!
어떻게 시작하지 ?
54
네. 그래서
장벽!
55
https://reinforcement-learning-kr.github.io/
56
장벽을 낮추기
#피지여행
피지여행 링크
#GAIL하자 #How to Study RL
GAIL하자 링크
How to Study RL 링크
57
“다양한 커뮤니케이션 창구를 통해
한국의 강화학습의 장벽을 낮추고,
함께 성장한다”
RL Korea의 역할은 무엇인가요?
58
함께 성장?
59
함께 성장
60
함께 성장
RL Korea GitHub
알파오목 Webpage NVIDIA Conf. 발표
RL Korea Blog
61
함께 성장
62
함께 성장
RL Korea GitHub
발표영상 Youtube
RL Korea Blog
63
어떻게 신청하나요?
모든 행사는
페이스북 페이지를 통해
먼저 공지합니다!
세미나 신청도
페이스북 링크를 통해 접근!
(속닥)앞으로는 다른
행사들로 기획중입니다 :)
64
“다양한 커뮤니케이션 창구를 통해
한국의 강화학습의 장벽을 낮추고,
함께 성장한다”
RL Korea의 역할은 무엇인가요?
65
다양한 커뮤니케이션 창구
페이스북 커뮤니티 Slack Github
Slack 참여링크 Github 링크Facebook 링크
66
“다양한 커뮤니케이션 창구를 통해
한국의 강화학습의 장벽을 낮추고,
함께 성장한다”
아하!
67
RL Korea에 참여하기
페이스북
커뮤니티
블로그
68
RL Korea는 어딜 향해 가고있나요?
“한국의 강화학습 레벨 에 기여”UP
온라인 프로젝트를 통해 다양한 사람들이 재밌게 강화학습을 하고 결과물을 남기자
69
우리,
“함께 성장해요”
70

More Related Content

Similar to [강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]

소셜커머스 애플리케이션의 모바일 접근성 및 개선 방안
소셜커머스 애플리케이션의 모바일 접근성 및 개선 방안소셜커머스 애플리케이션의 모바일 접근성 및 개선 방안
소셜커머스 애플리케이션의 모바일 접근성 및 개선 방안선영 박
 
성공하는 애자일을 위한 짧은 이야기
성공하는 애자일을 위한 짧은 이야기성공하는 애자일을 위한 짧은 이야기
성공하는 애자일을 위한 짧은 이야기종범 고
 
[NDC18] 나는 테스트 정책대로 살기로 했다.
[NDC18] 나는 테스트 정책대로 살기로 했다.[NDC18] 나는 테스트 정책대로 살기로 했다.
[NDC18] 나는 테스트 정책대로 살기로 했다.Wooram Hwang
 
강화학습 & Unity ML Agents
강화학습 & Unity ML Agents강화학습 & Unity ML Agents
강화학습 & Unity ML AgentsHyunjong Lee
 
Alpha Go Introduction
Alpha Go IntroductionAlpha Go Introduction
Alpha Go IntroductionIldoo Kim
 
Coding interview
Coding interviewCoding interview
Coding interviewSoohan Ahn
 
모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드RLKorea
 
Unity ml agent quick guide
Unity ml agent quick guideUnity ml agent quick guide
Unity ml agent quick guideKyoungman Lee
 
개발자로 사는 길!!! 20141114
개발자로 사는 길!!! 20141114개발자로 사는 길!!! 20141114
개발자로 사는 길!!! 20141114GeniNetworks
 
한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서Euijin Jeong
 
[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현
[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현
[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현강 민우
 
[Atlassian in 부산]해외 자동차 업체 b사의 agile 적용 사례_모우소프트
[Atlassian in 부산]해외 자동차 업체 b사의 agile 적용 사례_모우소프트[Atlassian in 부산]해외 자동차 업체 b사의 agile 적용 사례_모우소프트
[Atlassian in 부산]해외 자동차 업체 b사의 agile 적용 사례_모우소프트Atlassian 대한민국
 
[취업특강] IT분야에서 행복하게 일하기 - SW 개발자를 중심으로
[취업특강] IT분야에서 행복하게 일하기 - SW 개발자를 중심으로[취업특강] IT분야에서 행복하게 일하기 - SW 개발자를 중심으로
[취업특강] IT분야에서 행복하게 일하기 - SW 개발자를 중심으로Sungwoo Park
 
애자일 게임 개발: 현실 세계의 혼돈을 다루는 법 (Agile Game Development: Dealing With Chaos In Th...
애자일 게임 개발: 현실 세계의 혼돈을 다루는 법 (Agile Game Development: Dealing With Chaos In Th...애자일 게임 개발: 현실 세계의 혼돈을 다루는 법 (Agile Game Development: Dealing With Chaos In Th...
애자일 게임 개발: 현실 세계의 혼돈을 다루는 법 (Agile Game Development: Dealing With Chaos In Th...Kay Kim
 
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망NAVER Engineering
 
Digitalfoundation ugong2san jinyoung_191011
Digitalfoundation ugong2san jinyoung_191011Digitalfoundation ugong2san jinyoung_191011
Digitalfoundation ugong2san jinyoung_191011JinyoungSong18
 
손코딩뇌컴파일눈디버깅을 소개합니다.
손코딩뇌컴파일눈디버깅을 소개합니다.손코딩뇌컴파일눈디버깅을 소개합니다.
손코딩뇌컴파일눈디버깅을 소개합니다.Kwangsung Ha
 
Visual ActionBoard 소개
Visual ActionBoard 소개Visual ActionBoard 소개
Visual ActionBoard 소개The Innovation Lab
 
Airtest Mobile Game Automation
Airtest Mobile Game AutomationAirtest Mobile Game Automation
Airtest Mobile Game AutomationJiwon Lee
 

Similar to [강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주] (20)

소셜커머스 애플리케이션의 모바일 접근성 및 개선 방안
소셜커머스 애플리케이션의 모바일 접근성 및 개선 방안소셜커머스 애플리케이션의 모바일 접근성 및 개선 방안
소셜커머스 애플리케이션의 모바일 접근성 및 개선 방안
 
성공하는 애자일을 위한 짧은 이야기
성공하는 애자일을 위한 짧은 이야기성공하는 애자일을 위한 짧은 이야기
성공하는 애자일을 위한 짧은 이야기
 
[NDC18] 나는 테스트 정책대로 살기로 했다.
[NDC18] 나는 테스트 정책대로 살기로 했다.[NDC18] 나는 테스트 정책대로 살기로 했다.
[NDC18] 나는 테스트 정책대로 살기로 했다.
 
강화학습 & Unity ML Agents
강화학습 & Unity ML Agents강화학습 & Unity ML Agents
강화학습 & Unity ML Agents
 
Alpha Go Introduction
Alpha Go IntroductionAlpha Go Introduction
Alpha Go Introduction
 
Coding interview
Coding interviewCoding interview
Coding interview
 
모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드
 
Unity ml agent quick guide
Unity ml agent quick guideUnity ml agent quick guide
Unity ml agent quick guide
 
개발자로 사는 길!!! 20141114
개발자로 사는 길!!! 20141114개발자로 사는 길!!! 20141114
개발자로 사는 길!!! 20141114
 
나의 Tstore 공모전 체험수기 (김재철)
나의 Tstore 공모전 체험수기 (김재철)나의 Tstore 공모전 체험수기 (김재철)
나의 Tstore 공모전 체험수기 (김재철)
 
한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서
 
[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현
[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현
[IGC] 엔씨소프트 이경종 - 강화 학습을 이용한 NPC AI 구현
 
[Atlassian in 부산]해외 자동차 업체 b사의 agile 적용 사례_모우소프트
[Atlassian in 부산]해외 자동차 업체 b사의 agile 적용 사례_모우소프트[Atlassian in 부산]해외 자동차 업체 b사의 agile 적용 사례_모우소프트
[Atlassian in 부산]해외 자동차 업체 b사의 agile 적용 사례_모우소프트
 
[취업특강] IT분야에서 행복하게 일하기 - SW 개발자를 중심으로
[취업특강] IT분야에서 행복하게 일하기 - SW 개발자를 중심으로[취업특강] IT분야에서 행복하게 일하기 - SW 개발자를 중심으로
[취업특강] IT분야에서 행복하게 일하기 - SW 개발자를 중심으로
 
애자일 게임 개발: 현실 세계의 혼돈을 다루는 법 (Agile Game Development: Dealing With Chaos In Th...
애자일 게임 개발: 현실 세계의 혼돈을 다루는 법 (Agile Game Development: Dealing With Chaos In Th...애자일 게임 개발: 현실 세계의 혼돈을 다루는 법 (Agile Game Development: Dealing With Chaos In Th...
애자일 게임 개발: 현실 세계의 혼돈을 다루는 법 (Agile Game Development: Dealing With Chaos In Th...
 
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망
 
Digitalfoundation ugong2san jinyoung_191011
Digitalfoundation ugong2san jinyoung_191011Digitalfoundation ugong2san jinyoung_191011
Digitalfoundation ugong2san jinyoung_191011
 
손코딩뇌컴파일눈디버깅을 소개합니다.
손코딩뇌컴파일눈디버깅을 소개합니다.손코딩뇌컴파일눈디버깅을 소개합니다.
손코딩뇌컴파일눈디버깅을 소개합니다.
 
Visual ActionBoard 소개
Visual ActionBoard 소개Visual ActionBoard 소개
Visual ActionBoard 소개
 
Airtest Mobile Game Automation
Airtest Mobile Game AutomationAirtest Mobile Game Automation
Airtest Mobile Game Automation
 

[강화학습 입문] RL korea와 함께 성장하기 [케라스&캐글&강화학습 전국콘서트 with GDG광주]