20. 20
State
Action
Reward
Policy 모든 상태에서 어떤 행동을 해야하는지
미리 정해놓은 해답 (공략법)
현재 에이전트의 정보 (방위값, 속도값 등)
어떤 상태에서 취할 수 있는 행동 (상,하,좌,우)
어떤 상태에서 어떤 행동을 취해서 얻는 값 (경험치)
MDP
21. 21
State
Action
Reward
Policy 모든 상태에서 어떤 행동을 해야하는지
미리 정해놓은 해답 (공략법)
강화학습의 목적은 optimal policy를 찾는 것
( accumulative reward = return 을 최대화하는 policy)
현재 에이전트의 정보 (방위값, 속도값 등)
어떤 상태에서 취할 수 있는 행동 (상,하,좌,우)
어떤 상태에서 어떤 행동을 취해서 얻는 값 (경험치)
MDP
45. Environment
!45
TD3 Agent
Layer 1
Layer 0
TD3 Agent
Worker
Worker
Evaluator
Evaluator
Reward
Discount rate
Value func
Value func
Discount rate
Reward
0 아니면 -1
Subgoal test때 패널티
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기
0 아니면 -1
0 아니면 원래 감가율
Value func을 최대화 하는 정책 구하기