Experience Replay
• ExperienceReplay memory에 보상과 액션을 포함한 State를 튜플
형태로 차곡차곡 저장한다.
• Experience replay memor에서 배치 사이즈만큼 랜덤으로 튜플을
뽑아서 학습시킨다.
• 과적합 방지
9.
Target network
• Bootstrapping은 편향을 일으킨다.
• 이미 존재하는 뉴럴넷을 Target network라는 이름으로 복사하고,
Target network는 bootstrapping한 label값을 내는데 쓴다.
• Neural network가 약 10번정도 업데이트 할 동안 target network는
1번 정도 업데이트를 주기적으로 한다(기준값이 계속 움직이지 않도록
하여 편향을 방지한다).