SlideShare a Scribd company logo
1 of 126
Download to read offline
로봇팔,
각 잡아 볼까요?
!2
안녕하세요,
각잡고 로봇팔 팀입니다.
!3
소개에 앞서,
!4
생각보다
많은 분들이
하드웨어에 관심을
보이셨습니다.
!5
저희 팀원들
그래서 모인
- (전) ETRI 인턴
- (전) 모두의연구소

실물강화학습Lab
- (전) Infineon

Technologies Korea
- SSAFY 대전
- (전) 고삼
- 세종대학교 예비 1학년
- 시드니에서 

RL을 연구하는 한국인!
- 박사 입학 예정
!7
1 2 3
진행 방향
!8
목표 / 논문 설정
1 2 3
진행 방향
!9
목표 / 논문 설정
1 2 3
진행 방향
퇴사 수능
!10
목표 / 논문 설정
1 2 3
논문 코드 리뷰 / 환경 설정
진행 방향
!11
목표 / 논문 설정
1 2 3
논문 코드 리뷰 / 환경 설정
개발 시작
진행 방향
박사 시작
!12
저희의
초기 목표
손가락 관절이나 몸 관절의 움직임을
자연스럽게 학습시키고 싶다!
!14
하지만 현실의 제약,
!15
1. 로봇팔을 학습시키는데 효과적인 방법 찾기
2. Baseline HER를 이용하여 코드 연장하기
수정된 목표
HER를
이용합시다 !
!16
수정된 목표
!17
수정된 목표
Baselines
 리뷰한 논문 리스트
• Data-Efficient HRL(Data-Efficient Hierarchical Reinforcement
Learning)
• Deepmimic
• HER(Hindsight Experiece Replay)
수정된 목표
!19
자. 그럼
!20
HER
Hindsight Experience Replay
!21
Off-policy RL algorithm
!22
빨간 콕을 잡아!
!23
Nope.
!24
Nope.
Reward = -1
!25
Nope.
Reward = -1
Reward = -1
!26
Nope.
Reward = -1
Reward = -1
…
Reward = -1 Reward를
한번도 못받았어...
!27
Nope.
!28
Nope. Yes!
!29
Nope. Yes!
Hindsight Experience Replay
!30
Yes!
Reward = -1
Reward = -1
…
Reward = 0 Reward를
한번 받았어 !
!31
어떻게 구현하나?
!32
1 1 0 𝑠0 … 1 0 0 𝑠 𝑇
≠
0 1 1 𝑔
𝑅
𝑟0(𝑠0, 𝑎0, 𝑟0, 𝑠1, 𝑔)
𝑟1(𝑠1, 𝑎1, 𝑟1, 𝑠2, 𝑔)
𝑟𝑡(𝑠𝑡, 𝑎𝑡, 𝑟𝑡, 𝑠𝑡+1, 𝑔)
𝑟 𝑇−1(𝑠 𝑇−1, 𝑎 𝑇−1, 𝑟 𝑇−1, 𝑠 𝑇, 𝑔)
Episode Reward = {-1, -1, …, -1}
!33
1 1 0 𝑠0 … 1 0 0 𝑠 𝑇
≠
𝑅
𝑟0(𝑠0, 𝑎0, 𝑟0, 𝑠1, 𝑔)
𝑟1(𝑠1, 𝑎1, 𝑟1, 𝑠2, 𝑔)
𝑟𝑡(𝑠𝑡, 𝑎𝑡, 𝑟𝑡, 𝑠𝑡+1, 𝑔)
𝑟 𝑇−1(𝑠 𝑇−1, 𝑎 𝑇−1, 𝑟 𝑇−1, 𝑠 𝑇, 𝑔)
1 0 0 𝑠 𝑇
!34
1 1 0 𝑠0 … 1 0 0 𝑠 𝑇
Episode Reward = {-1, -1, …, 0}
1 0 0 𝑠 𝑇
=
𝑅′
𝑟0(𝑠0, 𝑎0, 𝑟0, 𝑠1, 𝑠 𝑇)
𝑟1(𝑠1, 𝑎1, 𝑟1, 𝑠2, 𝑠 𝑇)
𝑟𝑡(𝑠𝑡, 𝑎𝑡, 𝑟𝑡, 𝑠𝑡+1, 𝑠 𝑇)
𝑟 𝑇−1(𝑠 𝑇−1, 𝑎 𝑇−1, 𝑟 𝑇−1, 𝑠 𝑇, 𝑠 𝑇)
!35
언제 reward를 설정해줘야 할까 ?
시간
FutureRandom Final
수정된 목표
구현 이야기
(삽질 이야기)
!37
Agent를
DDPG 에서 TD3로 바꾸고 싶었다.
!38
1. Clipped Double-Q Learning 

TD3는 한개가 아닌 두개의 Q함수를 배웁니다(그래서 “Twin”입니다!),
그리고 Bellman error loss 함수를 사용하여 타겟으로 부터 얻은 두 Q함수중 작은 Q값을 사용합니다.
2. “Delayed” Policy Updates

TD3는 policy(와 타겟 네트워크)를 Q함수보다 덜 자주 업데이트 합니다.
논문에서는 Q함수가 두번 업데이트 될 때마다 정책을 한 번 업데이트하는 것을 권장합니다.
3. Target Policy Smoothing

TD3는 타겟 액션에 노이즈를 추가하여 액션 변경사항에 따라 Q를 부드럽게 만들어
Q함수 에러를 탐험하는 정책을 만드는 것을 피합니다.
TD3 ?
1. Clipped Double-Q Learning 

2. “Delayed” Policy Updates

3. Target Policy Smoothing

적용 하지 않음
!39
TD3 ?
Target 1
Target 2
min( Q1, Q2)
Target Policy update
X2
구현 이야기
(삽질 이야기)
시연 Time!
결과는 이렇습니다.
구현 이야기
(삽질 이야기)
시연 Time!
결과는 이렇습니다.
하지만, 더 어려운 환경에서는..
아닌데요.
뚱인데요
결과는 이렇습니다.
앗.. 아아..
!45
HER+TD3에
HRL을 적용시키고 싶었다.
그래서
!46
TD3 +
Data-efficient HRL
그래서
myHAC
(HER + TD3 + HRL)
재윤님
의진님
지원님
!48
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Goal array
Worker
Worker
Evaluator
Evaluator
Environment
TD3 Agent
Layer 2
Worker
Evaluator
1 1 0 garr
!49
Goal array
End goal
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Environment
TD3 Agent
Layer 2
Worker
Evaluator
Goal array 1 1 0 garr
!50
Goal array
A(i)=G(i−1)=S.
아무 state나 될 수 있다
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Environment
TD3 Agent
Layer 2
Worker
Evaluator
Goal array 1 1 0 garr
!51
Goal array
Goal ACHIEVED!
오,
어느 layer까지 올라왔어?
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Environment
TD3 Agent
Layer 2
Worker
Evaluator
Goal array 1 1 0 garr
Environment
!52
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Reward
Discount rate
Value func
Value func
Discount rate
Reward
Environment
!53
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Reward
Discount rate
Value func
Value func
Discount rate
Reward
0 아니면 -1
Subgoal test때 패널티
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기
0 아니면 -1
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기
!54
Goal array
Goal FAILED!
Hindsight Experience
Replay
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Environment
TD3 Agent
Layer 2
Worker
Evaluator
Goal array 1 1 0 garr
It’s now under review
정리 현황
Mujoco 설치 가이드 Mujoco 사용 가이드 논문 여행 가이드
!57
NOW HANDOVER TO…
!58
Data-efficient hrl
Hiro
논문 소개 2
!59
계층형 강화학습이란?
!60
테스크를 

계층으로 나누어 해결할 수 있도록!
!61
굳이 그래야 하나..?
강화학습은?
강화학습은?
시행착오를 통해 겪은 경험을 통해
정책을 최적화해 나간다
시행착오
액션에 노이즈를 준 임의의 행동
= 휘적휘적거리다
시행착오
액션에 노이즈를 준 임의의 행동
강화학습은?
휘적휘적대며 최적의 정책을 찾아나감
맞는것 같다…
“ 어쨋든 작동 잘 되잖아요~ ”
“그럼”
“커피 뽑아주는 로봇 만들어봐”
1. 동전을 넣는다
2. 믹스커피 버튼을 누른다
3. 30초동안 기다린다
4. 완성된 커피를 꺼낸다
5. 커피를 건네준다
흠..
1. 동전을 넣는다
2. 믹스커피 버튼을 누른다
3. 30초동안 기다린다
4. 완성된 커피를 꺼낸다
5. 커피를 건네준다 +Reward
1. 동전을 넣는다
2. 믹스커피 버튼을 누른다
3. 30초동안 기다린다
4. 완성된 커피를 꺼낸다
5. 커피를 건네준다 +Reward
“난 학습시킬 의향이 없다”
1. 동전을 넣는다
2. 믹스커피 버튼을 누른다
3. 30초동안 기다린다
4. 완성된 커피를 꺼낸다
5. 커피를 건네준다 +Reward
+Reward
+Reward
+Reward
+Reward
1. 동전을 넣는다
2. 믹스커피 버튼을 누른다
3. 30초동안 기다린다
4. 완성된 커피를 꺼낸다
5. 커피를 건네준다
1. 동전을 넣는다
2. 믹스커피 버튼을 누른다
3. 30초동안 기다린다
4. 완성된 커피를 꺼낸다
5. 커피를 건네준다
“세상에서 가장 빨리
동전을 넣을 수 있답니다”
모든 어려운 테스크는
모든 어려운 테스크는
여러 쉬운 동작으로 구성되어 있다.
이것이
이것이
계층형 강화학습!
hiro 작동 장면
https://www.google.com/url?
sa=t&rct=j&q=&esrc=s&source=web&cd=5&ved=2ahUKEwjTgobxidHgAhUI97wKHX1zAAkQFjAEegQIBBAB&url
=https%3A%2F%2Fsites.google.com%2Fview%2Fefficient-hrl&usg=AOvVaw09TM1cRyVWb9fDN5DBhYcK
계층형 강화학습은 어떤 구조일까?
모델 프리 강화학습과
비교해보자!
모델 프리
모델 프리
1번 모터 10도, 2번 모터 5도 ...
모델 프리
High-level
Low-level
계층형
High-level
Low-level
계층형
왼쪽으로 움직여
High-level
Low-level
계층형
왼쪽으로 움직여
1번 모터 3도, 2번 모터 12도 ...
High-level
Low-level
계층형
왼쪽으로 움직여
Reward
Reward
High-level
Low-level
계층형
1번 모터 3도, 2번 모터 12도 ...
그럼 hiro 는 뭔가요??
Data-Efficient Hierarchical Reinforcement Learning
(Ofir Nachum et al, 2018)
1. High level의 출력(goal) 이 descrete하며 추상화 되어있음
일반적 계층형 강화학습
High-level
Low-level
1. 팔 올리기
2. 왼쪽으로 돌기
3. 오른쪽으로 돌기
4. 앞으로 움직이기
5. 뒤로 움직이기
1. High level의 출력(goal) 이 descrete하며 추상화 되어있음
일반적 계층형 강화학습
High-level
Low-level
1. 팔 올리기
2. 왼쪽으로 돌기
3. 오른쪽으로 돌기
4. 앞으로 움직이기
5. 뒤로 움직이기
1번!
1번 모터 3도, 2번 모터 12
도 ...
Reward
1. High level의 출력(goal) 이 descrete하며 추상화 되어있음
일반적 계층형 강화학습
High-level
Low-level
1. 팔 올리기
2. 왼쪽으로 돌기
3. 오른쪽으로 돌기
4. 앞으로 움직이기
5. 뒤로 움직이기
1번!
1번 모터 3도, 2번 모터 12
도 ...
문제점 : 명령어와 리워드를 task가
바뀔 때마다 재정의해주어야 함
Reward
1. High level의 출력(goal) 이 descrete하며 추상화 되어있음
일반적 계층형 강화학습
High-level
1. Goal 이 observation 과 같은 차원을 가짐
Low-level
Hiro
High-level
Low-level
1번 모터 3도, 2번 모터 12
도 ...
Hiro
2. Off-policy 학습이 불가하여 data efficiency 가 낮음
일반적 계층형 강화학습
2. Off-policy 학습이 불가하여 data efficiency 가 낮음
일반적 계층형 강화학습
•Off-policy는 다수의 policy가 맞물리는 상황에서 불안정해짐
Q-prop: Sample-efficient policy gradient with an off-policy critic (Shixiang et al, 2016)
2. Off-policy 학습이 불가하여 data efficiency 가 낮음
일반적 계층형 강화학습
•Off-policy는 다수의 policy가 맞물리는 상황에서 불안정해짐
•High-policy 와 Low-policy 에 on-policy 적용 -> low-efficiency
Q-prop: Sample-efficient policy gradient with an off-policy critic (Shixiang et al, 2016)
•과거 high-policy 가 low-policy 에게 준 goal을
현재 low-policy 에게 줘도 같은 결과를 도출할까?
Hiro 는 어떻게 해결했을까
•과거 high-policy 가 low-policy 에게 준 goal을
현제 low-policy 에게 줘도 같은 결과를 도출할까?
No!
Hiro 는 어떻게 해결했을까
•과거 high-policy 가 low-policy 에게 준 goal을
현제 low-policy 에게 줘도 같은 결과를 도출할까?
No!
해결 방안 : Goal에 노이즈를 준 10개의 선택지
중 현제 low-policy 가 과거 행동과 가장 유사한
결과를 도출하는 선택지를 택하여 학습시킴
Hiro 는 어떻게 해결했을까
일반 계층형 Hiro
범용성
Data
Efficiency
로봇팔에 적용시켜보자!
Hiro를
일단
Hiro 를 구현해보자
공식 Her 코드를 고쳐
Hiro 구현
(Tensorflow)
공식 TD3 코드를 고쳐
Hiro 구현
(Pytorch)
공식 Hiro 코드 공개
하지만 진행중..
아름다운 학습 장면!
우리도 볼 수 있다!
공식 hiro 코드를 버린 이유
1. 모듈간 충돌
•Issue 업로드로 모듈 업데이트 요구 -> 해결
2. 난해한 코드
•시간 소모가 컸지만 해석 가능
3. Gym 환경 고려 X
•Gym 적용을 위해서 코드를 엎어야 함
공식 hiro 코드를 버린 이유
못 쓴..
드를 엎어야 함
코드를
엎어야
함
코
드
어
야
직접 구현하자..
코
드
어
야
GitHub 주소
구현 현황
구현 현황
high_policy, low_policy 제작
goal_transition function 제작
Off-policy correction 제작
Openai Gym 환경 최적화
논문 하이퍼파라메터 적용
High-level
Low-level
2* 1 = 2
2 * 2 = 4..
2 * 1 = 81
2 * 2 = 81...
느낀 점
느낀 점
•RL은 활용보다는 개발단계! model-free에 편향
느낀 점
•로봇팔 = Control-task & real-world
•RL은 활용보다는 개발단계! model-free에 편향
느낀 점
느낀 점
•로봇팔 = Control-task & real-world
•제어에 있어서 UMDP 환경의 필요성
•RL은 활용보다는 개발단계! model-free에 편향
감사합니다

More Related Content

What's hot

多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기정주 김
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Shohei Taniguchi
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまでharmonylab
 
自然方策勾配法の基礎と応用
自然方策勾配法の基礎と応用自然方策勾配法の基礎と応用
自然方策勾配法の基礎と応用Ryo Iwaki
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)Takuma Yagi
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめたKatsuya Ito
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018佑 甲野
 
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介Preferred Networks
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
2値分類・多クラス分類
2値分類・多クラス分類2値分類・多クラス分類
2値分類・多クラス分類t dev
 
[Dl輪読会]dl hacks輪読
[Dl輪読会]dl hacks輪読[Dl輪読会]dl hacks輪読
[Dl輪読会]dl hacks輪読Deep Learning JP
 

What's hot (20)

多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
 
파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
自然方策勾配法の基礎と応用
自然方策勾配法の基礎と応用自然方策勾配法の基礎と応用
自然方策勾配法の基礎と応用
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
 
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
2値分類・多クラス分類
2値分類・多クラス分類2値分類・多クラス分類
2値分類・多クラス分類
 
[Dl輪読会]dl hacks輪読
[Dl輪読会]dl hacks輪読[Dl輪読会]dl hacks輪読
[Dl輪読会]dl hacks輪読
 

Similar to [RLkorea] 각잡고 로봇팔 발표

Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical MethodologyKyeongUkJang
 
Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리SANG WON PARK
 
[NDC18] 나는 테스트 정책대로 살기로 했다.
[NDC18] 나는 테스트 정책대로 살기로 했다.[NDC18] 나는 테스트 정책대로 살기로 했다.
[NDC18] 나는 테스트 정책대로 살기로 했다.Wooram Hwang
 
모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드RLKorea
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투Ubuntu Korea Community
 
2018 06-11-active-question-answering
2018 06-11-active-question-answering2018 06-11-active-question-answering
2018 06-11-active-question-answeringWoong won Lee
 
2020.01.31 퍼블리 뉴스 큐레이터 모임
2020.01.31 퍼블리 뉴스 큐레이터 모임2020.01.31 퍼블리 뉴스 큐레이터 모임
2020.01.31 퍼블리 뉴스 큐레이터 모임Publy-co
 
강화학습 & Unity ML Agents
강화학습 & Unity ML Agents강화학습 & Unity ML Agents
강화학습 & Unity ML AgentsHyunjong Lee
 
[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)
[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)
[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)Wooram Hwang
 
Test Driven Development (TDD) basic
Test Driven Development (TDD) basicTest Driven Development (TDD) basic
Test Driven Development (TDD) basicCurt Park
 
애자일 도입과 사례 공유
애자일 도입과 사례 공유애자일 도입과 사례 공유
애자일 도입과 사례 공유agilekorea
 
RLHF_Lessons_learned.pdf
RLHF_Lessons_learned.pdfRLHF_Lessons_learned.pdf
RLHF_Lessons_learned.pdfssuser1bc84b
 
데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력Youngjae Kim
 
[TOCfE] 생각하는 어른들의 문제해결 사고도구
[TOCfE] 생각하는 어른들의 문제해결 사고도구[TOCfE] 생각하는 어른들의 문제해결 사고도구
[TOCfE] 생각하는 어른들의 문제해결 사고도구Youngok Kim
 
12 해결한 도출
12 해결한 도출12 해결한 도출
12 해결한 도출humana12
 
Open domain dialogue Chatbot(잡담봇 삽질기)
Open domain dialogue Chatbot(잡담봇 삽질기)Open domain dialogue Chatbot(잡담봇 삽질기)
Open domain dialogue Chatbot(잡담봇 삽질기)NAVER Engineering
 
20141019 액션러닝 원장님강의04
20141019 액션러닝 원장님강의0420141019 액션러닝 원장님강의04
20141019 액션러닝 원장님강의04humana12
 
Sk planet 이야기
Sk planet 이야기Sk planet 이야기
Sk planet 이야기종범 고
 

Similar to [RLkorea] 각잡고 로봇팔 발표 (20)

Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 
Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리
 
[NDC18] 나는 테스트 정책대로 살기로 했다.
[NDC18] 나는 테스트 정책대로 살기로 했다.[NDC18] 나는 테스트 정책대로 살기로 했다.
[NDC18] 나는 테스트 정책대로 살기로 했다.
 
모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투
 
2018 06-11-active-question-answering
2018 06-11-active-question-answering2018 06-11-active-question-answering
2018 06-11-active-question-answering
 
2020.01.31 퍼블리 뉴스 큐레이터 모임
2020.01.31 퍼블리 뉴스 큐레이터 모임2020.01.31 퍼블리 뉴스 큐레이터 모임
2020.01.31 퍼블리 뉴스 큐레이터 모임
 
강화학습 & Unity ML Agents
강화학습 & Unity ML Agents강화학습 & Unity ML Agents
강화학습 & Unity ML Agents
 
[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)
[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)
[NDC18] 나는 테스트 정책대로 살기로 했다.(코멘터리)
 
Test Driven Development (TDD) basic
Test Driven Development (TDD) basicTest Driven Development (TDD) basic
Test Driven Development (TDD) basic
 
애자일 도입과 사례 공유
애자일 도입과 사례 공유애자일 도입과 사례 공유
애자일 도입과 사례 공유
 
RLHF_Lessons_learned.pdf
RLHF_Lessons_learned.pdfRLHF_Lessons_learned.pdf
RLHF_Lessons_learned.pdf
 
애자일의 모든것
애자일의 모든것애자일의 모든것
애자일의 모든것
 
데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력
 
[TOCfE] 생각하는 어른들의 문제해결 사고도구
[TOCfE] 생각하는 어른들의 문제해결 사고도구[TOCfE] 생각하는 어른들의 문제해결 사고도구
[TOCfE] 생각하는 어른들의 문제해결 사고도구
 
12 해결한 도출
12 해결한 도출12 해결한 도출
12 해결한 도출
 
Open domain dialogue Chatbot(잡담봇 삽질기)
Open domain dialogue Chatbot(잡담봇 삽질기)Open domain dialogue Chatbot(잡담봇 삽질기)
Open domain dialogue Chatbot(잡담봇 삽질기)
 
Rl
RlRl
Rl
 
20141019 액션러닝 원장님강의04
20141019 액션러닝 원장님강의0420141019 액션러닝 원장님강의04
20141019 액션러닝 원장님강의04
 
Sk planet 이야기
Sk planet 이야기Sk planet 이야기
Sk planet 이야기
 

[RLkorea] 각잡고 로봇팔 발표