SlideShare a Scribd company logo
1 of 12
탐색 강화 계층적 강화 학
습
탐색 강화 계층적 강화 학습
이승준 장병탁
신동인
요약
 Q-Learning과 같은 기본적인 강화 학습 알고리
즘은 문제의 사이즈가 커짐에 따라 성능이 크게
떨어지게 된다.
 계층적 강화 학습 모델에 지향적 탐색을 가능하
게 하는 탐색 보너스를 도입한 강화 학습 모델
을 제시
강화학습은 상호작용으로 학습
한다.
 에이전트가 일시적
인 상황을 학습하고
환경에 영향을 미칠
목표를 계획을 계속
하여 추론적이고 불
확실한 환경을 완전
하게 한다.
Markov 결정 과정(MDPs)
 강화학습에서 환경은 다음과 같이 정의된MDP로 모델링된다.
 S - 환경의 상태 집합
 A(s) – S 상태에서 가능한 행동의 집합
 P(s, s’, a) - 주어진 a 에서 s에서 s’으로 전이할 가능성
 R(s, s’, a) - 주어진 a에서 s에서 s’으로 전이시 기대되는 보상
 r - 지연된 보상의 할인율
 불연속적인 시간 t = 0, 1, 2
목표는 보상의 최대화이다.
 각 S의 기대되는 미래의 보상을 최대화하는 정
책π를 찾는다.
 각 s, a 는 한 쌍
 Value function - cf. 평가 함수
최적화된 평가함수와 정책
 Optimal value functions은 존재한다.
 따라서 Optimal policy
 π*는 Q*를 기대하는 greedy policy이다.
Q-Learning
 각 상태 전이 시:
 갱신한다:
행위 선택(탐험)
 탐욕 행위 선택: 항상 제일 좋아 보이는 것을 선
택한다.
 E – 탐욕 행위 선택: 대부분 탐욕적이고 가끔 랜
덤 행위를 한다.
 개척 vs 탐험
탐색 보너스
계층적 Q-Learning
 정의된 상위 행동을 사용할 경우
 정의된 하위 목표를 사용하는 경우
 다단계 행동을 사용하는 경우
 논문에서는 다단계 행동으로 계층화
 상태카운트를 사용하여 전역적 탐색 보너스를
사용
실험
결과

More Related Content

More from Daniel Shin

뚝딱한국요리 화면설계 2024년 1월 26일 발행 원작자: 김덕호, 신동인
뚝딱한국요리 화면설계 2024년 1월 26일 발행 원작자: 김덕호, 신동인뚝딱한국요리 화면설계 2024년 1월 26일 발행 원작자: 김덕호, 신동인
뚝딱한국요리 화면설계 2024년 1월 26일 발행 원작자: 김덕호, 신동인Daniel Shin
 
3D창작동화전집 디지털컨텐츠 사업계획서 20230404v2.doc
3D창작동화전집 디지털컨텐츠 사업계획서 20230404v2.doc3D창작동화전집 디지털컨텐츠 사업계획서 20230404v2.doc
3D창작동화전집 디지털컨텐츠 사업계획서 20230404v2.docDaniel Shin
 
인터넷 오락실게임 사업계획서_20230320v2.doc
인터넷 오락실게임 사업계획서_20230320v2.doc인터넷 오락실게임 사업계획서_20230320v2.doc
인터넷 오락실게임 사업계획서_20230320v2.docDaniel Shin
 
덴티스 면접 포트폴리오_신동인v1.docx
덴티스 면접 포트폴리오_신동인v1.docx덴티스 면접 포트폴리오_신동인v1.docx
덴티스 면접 포트폴리오_신동인v1.docxDaniel Shin
 
C언어강의 발표자료 1강.pptx
C언어강의 발표자료 1강.pptxC언어강의 발표자료 1강.pptx
C언어강의 발표자료 1강.pptxDaniel Shin
 
포인터와 참조_20220908v2_신동인.pptx
포인터와 참조_20220908v2_신동인.pptx포인터와 참조_20220908v2_신동인.pptx
포인터와 참조_20220908v2_신동인.pptxDaniel Shin
 
resume20220510v3.pptx
resume20220510v3.pptxresume20220510v3.pptx
resume20220510v3.pptxDaniel Shin
 
미니메타버스v5.pptx
미니메타버스v5.pptx미니메타버스v5.pptx
미니메타버스v5.pptxDaniel Shin
 
카툰월드기획서.pptx
카툰월드기획서.pptx카툰월드기획서.pptx
카툰월드기획서.pptxDaniel Shin
 
프로젝트_성공하는_법.pptx
프로젝트_성공하는_법.pptx프로젝트_성공하는_법.pptx
프로젝트_성공하는_법.pptxDaniel Shin
 
3D카툰메이커 완료세미나(복구됨)
3D카툰메이커 완료세미나(복구됨)3D카툰메이커 완료세미나(복구됨)
3D카툰메이커 완료세미나(복구됨)Daniel Shin
 
3D 기술 세미나2주차
3D 기술 세미나2주차3D 기술 세미나2주차
3D 기술 세미나2주차Daniel Shin
 
백업을 위한 USB운영체제 완료세미나
백업을 위한 USB운영체제 완료세미나백업을 위한 USB운영체제 완료세미나
백업을 위한 USB운영체제 완료세미나Daniel Shin
 
통한의원 안드로이드앱 기획서
통한의원 안드로이드앱 기획서통한의원 안드로이드앱 기획서
통한의원 안드로이드앱 기획서Daniel Shin
 
ASP.NET의 이해
ASP.NET의 이해ASP.NET의 이해
ASP.NET의 이해Daniel Shin
 
한국사RPG 사업기획서 신동인
한국사RPG 사업기획서 신동인한국사RPG 사업기획서 신동인
한국사RPG 사업기획서 신동인Daniel Shin
 
메트릭스 사업계획서 신동인
메트릭스 사업계획서 신동인메트릭스 사업계획서 신동인
메트릭스 사업계획서 신동인Daniel Shin
 
Rain Rendering 2/2
Rain Rendering 2/2Rain Rendering 2/2
Rain Rendering 2/2Daniel Shin
 

More from Daniel Shin (20)

뚝딱한국요리 화면설계 2024년 1월 26일 발행 원작자: 김덕호, 신동인
뚝딱한국요리 화면설계 2024년 1월 26일 발행 원작자: 김덕호, 신동인뚝딱한국요리 화면설계 2024년 1월 26일 발행 원작자: 김덕호, 신동인
뚝딱한국요리 화면설계 2024년 1월 26일 발행 원작자: 김덕호, 신동인
 
3D창작동화전집 디지털컨텐츠 사업계획서 20230404v2.doc
3D창작동화전집 디지털컨텐츠 사업계획서 20230404v2.doc3D창작동화전집 디지털컨텐츠 사업계획서 20230404v2.doc
3D창작동화전집 디지털컨텐츠 사업계획서 20230404v2.doc
 
인터넷 오락실게임 사업계획서_20230320v2.doc
인터넷 오락실게임 사업계획서_20230320v2.doc인터넷 오락실게임 사업계획서_20230320v2.doc
인터넷 오락실게임 사업계획서_20230320v2.doc
 
덴티스 면접 포트폴리오_신동인v1.docx
덴티스 면접 포트폴리오_신동인v1.docx덴티스 면접 포트폴리오_신동인v1.docx
덴티스 면접 포트폴리오_신동인v1.docx
 
C언어강의 발표자료 1강.pptx
C언어강의 발표자료 1강.pptxC언어강의 발표자료 1강.pptx
C언어강의 발표자료 1강.pptx
 
포인터와 참조_20220908v2_신동인.pptx
포인터와 참조_20220908v2_신동인.pptx포인터와 참조_20220908v2_신동인.pptx
포인터와 참조_20220908v2_신동인.pptx
 
resume20220510v3.pptx
resume20220510v3.pptxresume20220510v3.pptx
resume20220510v3.pptx
 
미니메타버스v5.pptx
미니메타버스v5.pptx미니메타버스v5.pptx
미니메타버스v5.pptx
 
카툰월드기획서.pptx
카툰월드기획서.pptx카툰월드기획서.pptx
카툰월드기획서.pptx
 
STL.doc
STL.docSTL.doc
STL.doc
 
프로젝트_성공하는_법.pptx
프로젝트_성공하는_법.pptx프로젝트_성공하는_법.pptx
프로젝트_성공하는_법.pptx
 
3D카툰메이커 완료세미나(복구됨)
3D카툰메이커 완료세미나(복구됨)3D카툰메이커 완료세미나(복구됨)
3D카툰메이커 완료세미나(복구됨)
 
3D 기술 세미나2주차
3D 기술 세미나2주차3D 기술 세미나2주차
3D 기술 세미나2주차
 
백업을 위한 USB운영체제 완료세미나
백업을 위한 USB운영체제 완료세미나백업을 위한 USB운영체제 완료세미나
백업을 위한 USB운영체제 완료세미나
 
통한의원 안드로이드앱 기획서
통한의원 안드로이드앱 기획서통한의원 안드로이드앱 기획서
통한의원 안드로이드앱 기획서
 
ASP.NET의 이해
ASP.NET의 이해ASP.NET의 이해
ASP.NET의 이해
 
한국사RPG 사업기획서 신동인
한국사RPG 사업기획서 신동인한국사RPG 사업기획서 신동인
한국사RPG 사업기획서 신동인
 
메트릭스 사업계획서 신동인
메트릭스 사업계획서 신동인메트릭스 사업계획서 신동인
메트릭스 사업계획서 신동인
 
PC게임마켓
PC게임마켓PC게임마켓
PC게임마켓
 
Rain Rendering 2/2
Rain Rendering 2/2Rain Rendering 2/2
Rain Rendering 2/2
 

인공지능수업 발표자료

  • 1. 탐색 강화 계층적 강화 학 습 탐색 강화 계층적 강화 학습 이승준 장병탁 신동인
  • 2. 요약  Q-Learning과 같은 기본적인 강화 학습 알고리 즘은 문제의 사이즈가 커짐에 따라 성능이 크게 떨어지게 된다.  계층적 강화 학습 모델에 지향적 탐색을 가능하 게 하는 탐색 보너스를 도입한 강화 학습 모델 을 제시
  • 3. 강화학습은 상호작용으로 학습 한다.  에이전트가 일시적 인 상황을 학습하고 환경에 영향을 미칠 목표를 계획을 계속 하여 추론적이고 불 확실한 환경을 완전 하게 한다.
  • 4. Markov 결정 과정(MDPs)  강화학습에서 환경은 다음과 같이 정의된MDP로 모델링된다.  S - 환경의 상태 집합  A(s) – S 상태에서 가능한 행동의 집합  P(s, s’, a) - 주어진 a 에서 s에서 s’으로 전이할 가능성  R(s, s’, a) - 주어진 a에서 s에서 s’으로 전이시 기대되는 보상  r - 지연된 보상의 할인율  불연속적인 시간 t = 0, 1, 2
  • 5. 목표는 보상의 최대화이다.  각 S의 기대되는 미래의 보상을 최대화하는 정 책π를 찾는다.  각 s, a 는 한 쌍  Value function - cf. 평가 함수
  • 6. 최적화된 평가함수와 정책  Optimal value functions은 존재한다.  따라서 Optimal policy  π*는 Q*를 기대하는 greedy policy이다.
  • 7. Q-Learning  각 상태 전이 시:  갱신한다:
  • 8. 행위 선택(탐험)  탐욕 행위 선택: 항상 제일 좋아 보이는 것을 선 택한다.  E – 탐욕 행위 선택: 대부분 탐욕적이고 가끔 랜 덤 행위를 한다.  개척 vs 탐험
  • 10. 계층적 Q-Learning  정의된 상위 행동을 사용할 경우  정의된 하위 목표를 사용하는 경우  다단계 행동을 사용하는 경우  논문에서는 다단계 행동으로 계층화  상태카운트를 사용하여 전역적 탐색 보너스를 사용