[RLkorea] 각잡고 로봇팔 발표

로봇팔,
각 잡아 볼까요?

!2
안녕하세요,
각잡고 로봇팔 팀입니다.

!4
생각보다
많은 분들이
하드웨어에 관심을
보이셨습니다.

!5
저희 팀원들
그래서 모인

- (전) ETRI 인턴
- (전) 모두의연구소 
실물강화학습Lab
- (전) Infineon 
Technologies Korea
- SSAFY 대전
- (전) 고삼
- 세종대학교 예비 1학년
- 시드니에서  
RL을 연구하는 한국인!
- 박사 입학 예정

!8
목표 / 논문 설정
1 2 3
진행 방향

!9
1 2 3
진행 방향
퇴사 수능

!10
1 2 3
논문 코드 리뷰 / 환경 설정
진행 방향

!11
1 2 3
논문 코드 리뷰 / 환경 설정
개발 시작
진행 방향
박사 시작

손가락 관절이나 몸 관절의 움직임을
자연스럽게 학습시키고 싶다!

!14
하지만 현실의 제약,

!15
1. 로봇팔을 학습시키는데 효과적인 방법 찾기
2. Baseline HER를 이용하여 코드 연장하기
수정된 목표
HER를
이용합시다 !

!17
수정된 목표
Baselines

리뷰한 논문 리스트
• Data-Efﬁcient HRL(Data-Efﬁcient Hierarchical Reinforcement
Learning)
• Deepmimic
• HER(Hindsight Experiece Replay)
수정된 목표

!20
HER
Hindsight Experience Replay

!25
Nope.
Reward = -1
Reward = -1

!26
Nope.
Reward = -1
Reward = -1
…
Reward = -1 Reward를
한번도 못받았어...

!29
Nope. Yes!
Hindsight Experience Replay

!30
Yes!
Reward = -1
Reward = -1
…
Reward = 0 Reward를
한번 받았어 !

!32
1 1 0 𝑠0 … 1 0 0 𝑠 𝑇
≠
0 1 1 𝑔
𝑅
𝑟0(𝑠0, 𝑎0, 𝑟0, 𝑠1, 𝑔)
𝑟1(𝑠1, 𝑎1, 𝑟1, 𝑠2, 𝑔)
𝑟𝑡(𝑠𝑡, 𝑎𝑡, 𝑟𝑡, 𝑠𝑡+1, 𝑔)
𝑟 𝑇−1(𝑠 𝑇−1, 𝑎 𝑇−1, 𝑟 𝑇−1, 𝑠 𝑇, 𝑔)
Episode Reward = {-1, -1, …, -1}

!33
1 1 0 𝑠0 … 1 0 0 𝑠 𝑇
≠
𝑅
𝑟0(𝑠0, 𝑎0, 𝑟0, 𝑠1, 𝑔)
𝑟1(𝑠1, 𝑎1, 𝑟1, 𝑠2, 𝑔)
𝑟𝑡(𝑠𝑡, 𝑎𝑡, 𝑟𝑡, 𝑠𝑡+1, 𝑔)
𝑟 𝑇−1(𝑠 𝑇−1, 𝑎 𝑇−1, 𝑟 𝑇−1, 𝑠 𝑇, 𝑔)
1 0 0 𝑠 𝑇

!34
1 1 0 𝑠0 … 1 0 0 𝑠 𝑇
Episode Reward = {-1, -1, …, 0}
1 0 0 𝑠 𝑇
=
𝑅′
𝑟0(𝑠0, 𝑎0, 𝑟0, 𝑠1, 𝑠 𝑇)
𝑟1(𝑠1, 𝑎1, 𝑟1, 𝑠2, 𝑠 𝑇)
𝑟𝑡(𝑠𝑡, 𝑎𝑡, 𝑟𝑡, 𝑠𝑡+1, 𝑠 𝑇)
𝑟 𝑇−1(𝑠 𝑇−1, 𝑎 𝑇−1, 𝑟 𝑇−1, 𝑠 𝑇, 𝑠 𝑇)

!35
언제 reward를 설정해줘야 할까 ?
시간
FutureRandom Final
수정된 목표

구현 이야기
(삽질 이야기)

!37
Agent를
DDPG 에서 TD3로 바꾸고 싶었다.

!38
1. Clipped Double-Q Learning  
TD3는 한개가 아닌 두개의 Q함수를 배웁니다(그래서 “Twin”입니다!),
그리고 Bellman error loss 함수를 사용하여 타겟으로 부터 얻은 두 Q함수중 작은 Q값을 사용합니다.
2. “Delayed” Policy Updates 
TD3는 policy(와 타겟 네트워크)를 Q함수보다 덜 자주 업데이트 합니다.
논문에서는 Q함수가 두번 업데이트 될 때마다 정책을 한 번 업데이트하는 것을 권장합니다.
3. Target Policy Smoothing 
TD3는 타겟 액션에 노이즈를 추가하여 액션 변경사항에 따라 Q를 부드럽게 만들어
Q함수 에러를 탐험하는 정책을 만드는 것을 피합니다.
TD3 ?

1. Clipped Double-Q Learning  
2. “Delayed” Policy Updates 
3. Target Policy Smoothing 
적용 하지 않음
!39
TD3 ?
Target 1
Target 2
min( Q1, Q2)
Target Policy update
X2

구현 이야기
(삽질 이야기)
시연 Time!
결과는 이렇습니다.

하지만, 더 어려운 환경에서는..
아닌데요.
뚱인데요

!45
HER+TD3에
HRL을 적용시키고 싶었다.
그래서

!46
TD3 +
Data-efficient HRL
그래서
myHAC
(HER + TD3 + HRL)
재윤님
의진님
지원님

!48
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Goal array
Worker
Worker
Evaluator
Evaluator
Environment
TD3 Agent
Layer 2
Worker
Evaluator
1 1 0 garr

!49
Goal array
End goal
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Environment
TD3 Agent
Layer 2
Worker
Evaluator
Goal array 1 1 0 garr

!50
Goal array
A(i)=G(i−1)=S.
아무 state나 될 수 있다
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Environment
TD3 Agent
Layer 2
Worker
Evaluator

!51
Goal array
Goal ACHIEVED!
오,
어느 layer까지 올라왔어?
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Environment
TD3 Agent
Layer 2
Worker
Evaluator

Environment
!52
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Reward
Discount rate
Value func
Value func
Discount rate
Reward

Environment
!53
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Reward
Discount rate
Value func
Value func
Discount rate
Reward
0 아니면 -1
Subgoal test때 패널티
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기
0 아니면 -1
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기

!54
Goal array
Goal FAILED!
Hindsight Experience
Replay
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Environment
TD3 Agent
Layer 2
Worker
Evaluator

정리 현황
Mujoco 설치 가이드 Mujoco 사용 가이드 논문 여행 가이드

!58
Data-efficient hrl
Hiro
논문 소개 2

!59
계층형 강화학습이란?

!60
테스크를  
계층으로 나누어 해결할 수 있도록!

!61
굳이 그래야 하나..?

강화학습은?
시행착오를 통해 겪은 경험을 통해
정책을 최적화해 나간다

시행착오
액션에 노이즈를 준 임의의 행동

= 휘적휘적거리다
시행착오
액션에 노이즈를 준 임의의 행동

강화학습은?
휘적휘적대며 최적의 정책을 찾아나감

“ 어쨋든 작동 잘 되잖아요~ ”

“그럼”
“커피 뽑아주는 로봇 만들어봐”

1. 동전을 넣는다
2. 믹스커피 버튼을 누른다
3. 30초동안 기다린다
4. 완성된 커피를 꺼낸다
5. 커피를 건네준다
흠..

5. 커피를 건네준다 +Reward

“난 학습시킬 의향이 없다”

+Reward
+Reward
+Reward
+Reward

“세상에서 가장 빨리
동전을 넣을 수 있답니다”

모든 어려운 테스크는
여러 쉬운 동작으로 구성되어 있다.

이것이
계층형 강화학습!

hiro 작동 장면
https://www.google.com/url?
sa=t&rct=j&q=&esrc=s&source=web&cd=5&ved=2ahUKEwjTgobxidHgAhUI97wKHX1zAAkQFjAEegQIBBAB&url
=https%3A%2F%2Fsites.google.com%2Fview%2Fefficient-hrl&usg=AOvVaw09TM1cRyVWb9fDN5DBhYcK

계층형 강화학습은 어떤 구조일까?

모델 프리 강화학습과
비교해보자!

1번 모터 10도, 2번 모터 5도 ...
모델 프리

High-level
Low-level
계층형

왼쪽으로 움직여
High-level
Low-level
계층형

1번 모터 3도, 2번 모터 12도 ...
High-level
Low-level
계층형

Reward
Reward
High-level
Low-level
계층형
1번 모터 3도, 2번 모터 12도 ...

Data-Efﬁcient Hierarchical Reinforcement Learning
(Oﬁr Nachum et al, 2018)

1. High level의 출력(goal) 이 descrete하며 추상화 되어있음
일반적 계층형 강화학습

High-level
Low-level
1. 팔 올리기
2. 왼쪽으로 돌기
3. 오른쪽으로 돌기
4. 앞으로 움직이기
5. 뒤로 움직이기

High-level
Low-level
1. 팔 올리기
1번!
1번 모터 3도, 2번 모터 12
도 ...
Reward

High-level
Low-level
1. 팔 올리기
1번!
1번 모터 3도, 2번 모터 12
도 ...
문제점 : 명령어와 리워드를 task가
바뀔 때마다 재정의해주어야 함
Reward

High-level
1. Goal 이 observation 과 같은 차원을 가짐
Low-level
Hiro

High-level
Low-level
1번 모터 3도, 2번 모터 12
도 ...
Hiro

2. Off-policy 학습이 불가하여 data efficiency 가 낮음

•Off-policy는 다수의 policy가 맞물리는 상황에서 불안정해짐
Q-prop: Sample-efﬁcient policy gradient with an off-policy critic (Shixiang et al, 2016)

•Off-policy는 다수의 policy가 맞물리는 상황에서 불안정해짐
•High-policy 와 Low-policy 에 on-policy 적용 -> low-efficiency
Q-prop: Sample-efﬁcient policy gradient with an off-policy critic (Shixiang et al, 2016)

•과거 high-policy 가 low-policy 에게 준 goal을
현재 low-policy 에게 줘도 같은 결과를 도출할까?
Hiro 는 어떻게 해결했을까

현제 low-policy 에게 줘도 같은 결과를 도출할까?
No!

현제 low-policy 에게 줘도 같은 결과를 도출할까?
No!
해결 방안 : Goal에 노이즈를 준 10개의 선택지
중 현제 low-policy 가 과거 행동과 가장 유사한
결과를 도출하는 선택지를 택하여 학습시킴

일반 계층형 Hiro
범용성
Data
Efficiency

로봇팔에 적용시켜보자!
Hiro를

일단
Hiro 를 구현해보자
공식 Her 코드를 고쳐
Hiro 구현
(Tensorflow)
공식 TD3 코드를 고쳐
Hiro 구현
(Pytorch)

공식 Hiro 코드 공개
하지만 진행중..

아름다운 학습 장면!
우리도 볼 수 있다!

공식 hiro 코드를 버린 이유

1. 모듈간 충돌
•Issue 업로드로 모듈 업데이트 요구 -> 해결
2. 난해한 코드
•시간 소모가 컸지만 해석 가능
3. Gym 환경 고려 X
•Gym 적용을 위해서 코드를 엎어야 함
공식 hiro 코드를 버린 이유
못 쓴..

직접 구현하자..
코
드
어
야

high_policy, low_policy 제작
goal_transition function 제작
Oﬀ-policy correction 제작
Openai Gym 환경 최적화
논문 하이퍼파라메터 적용

High-level
Low-level
2* 1 = 2
2 * 2 = 4..
2 * 1 = 81
2 * 2 = 81...

느낀 점
•RL은 활용보다는 개발단계! model-free에 편향

느낀 점
•로봇팔 = Control-task & real-world

느낀 점
•로봇팔 = Control-task & real-world
•제어에 있어서 UMDP 환경의 필요성

[RLkorea] 각잡고 로봇팔 발표

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [RLkorea] 각잡고 로봇팔 발표

Similar to [RLkorea] 각잡고 로봇팔 발표 (20)

[RLkorea] 각잡고 로봇팔 발표