38. !38
1. Clipped Double-Q Learning
TD3는 한개가 아닌 두개의 Q함수를 배웁니다(그래서 “Twin”입니다!),
그리고 Bellman error loss 함수를 사용하여 타겟으로 부터 얻은 두 Q함수중 작은 Q값을 사용합니다.
2. “Delayed” Policy Updates
TD3는 policy(와 타겟 네트워크)를 Q함수보다 덜 자주 업데이트 합니다.
논문에서는 Q함수가 두번 업데이트 될 때마다 정책을 한 번 업데이트하는 것을 권장합니다.
3. Target Policy Smoothing
TD3는 타겟 액션에 노이즈를 추가하여 액션 변경사항에 따라 Q를 부드럽게 만들어
Q함수 에러를 탐험하는 정책을 만드는 것을 피합니다.
TD3 ?
53. Environment
!53
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Reward
Discount rate
Value func
Value func
Discount rate
Reward
0 아니면 -1
Subgoal test때 패널티
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기
0 아니면 -1
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기
93. 1. High level의 출력(goal) 이 descrete하며 추상화 되어있음
일반적 계층형 강화학습
94. High-level
Low-level
1. 팔 올리기
2. 왼쪽으로 돌기
3. 오른쪽으로 돌기
4. 앞으로 움직이기
5. 뒤로 움직이기
1. High level의 출력(goal) 이 descrete하며 추상화 되어있음
일반적 계층형 강화학습
95. High-level
Low-level
1. 팔 올리기
2. 왼쪽으로 돌기
3. 오른쪽으로 돌기
4. 앞으로 움직이기
5. 뒤로 움직이기
1번!
1번 모터 3도, 2번 모터 12
도 ...
Reward
1. High level의 출력(goal) 이 descrete하며 추상화 되어있음
일반적 계층형 강화학습
96. High-level
Low-level
1. 팔 올리기
2. 왼쪽으로 돌기
3. 오른쪽으로 돌기
4. 앞으로 움직이기
5. 뒤로 움직이기
1번!
1번 모터 3도, 2번 모터 12
도 ...
문제점 : 명령어와 리워드를 task가
바뀔 때마다 재정의해주어야 함
Reward
1. High level의 출력(goal) 이 descrete하며 추상화 되어있음
일반적 계층형 강화학습
100. 2. Off-policy 학습이 불가하여 data efficiency 가 낮음
일반적 계층형 강화학습
•Off-policy는 다수의 policy가 맞물리는 상황에서 불안정해짐
Q-prop: Sample-efficient policy gradient with an off-policy critic (Shixiang et al, 2016)
101. 2. Off-policy 학습이 불가하여 data efficiency 가 낮음
일반적 계층형 강화학습
•Off-policy는 다수의 policy가 맞물리는 상황에서 불안정해짐
•High-policy 와 Low-policy 에 on-policy 적용 -> low-efficiency
Q-prop: Sample-efficient policy gradient with an off-policy critic (Shixiang et al, 2016)
102. •과거 high-policy 가 low-policy 에게 준 goal을
현재 low-policy 에게 줘도 같은 결과를 도출할까?
Hiro 는 어떻게 해결했을까
103. •과거 high-policy 가 low-policy 에게 준 goal을
현제 low-policy 에게 줘도 같은 결과를 도출할까?
No!
Hiro 는 어떻게 해결했을까
104. •과거 high-policy 가 low-policy 에게 준 goal을
현제 low-policy 에게 줘도 같은 결과를 도출할까?
No!
해결 방안 : Goal에 노이즈를 준 10개의 선택지
중 현제 low-policy 가 과거 행동과 가장 유사한
결과를 도출하는 선택지를 택하여 학습시킴
Hiro 는 어떻게 해결했을까