SlideShare a Scribd company logo
1 of 18
MOReL: Model-Based Offline Reinforcement
Learning
김현성(발표자),백승언
NeurIPS2020
Introduction
Part 1
 Offline RL
 개요 : 오직 정적 데이터셋을 이용하여 정책을 학습시키는 방법론
 활용분야
1) 안전에 민감한 도메인에 적합 ex) 의료 분야, 산업 현장 자동화
2) 학습된 정책을 데이터셋만으로 개선 시킴
 문제점
1) distributional shift 문제 발생
2) model-free 알고리즘에서 approximator에 의한 Error
RelatedWork
Part 2
 Algorithms for Offline RL : 3 Categories
 Importance sampling
 가장 대중적으로 적용되는 알고리즘
 수집된 데이터셋에 최적의 정책의 영역이 포함되어 있지 않으면 성능 보장이 어려움
 Approximate Dynamic Programming
 최근에 활발하게 연구되고 있는 알고리즘
 수집된 데이터셋에 최적의 정책의 영역이 포함되어 있지 않은 경우에 대한 연구 부족
 Model-based RL
 Offline RL 쪽에서 드물게 연구되고 있는 알고리즘.
 본 논문에서 활용한 알고리즘
ProblemFormulation
Part 3
 Problem Formula for Model-Based RL Algorithm
𝑀𝐷𝑃 = {𝑆, 𝐴, 𝑟, 𝑃, 𝜌0, 𝛾} 𝐷 = { 𝑠𝑖, 𝑎𝑖, 𝑟𝑖, 𝑠′
𝑖 }𝑖=1−𝑁
𝐿𝑒𝑎𝑟𝑛𝑒𝑑 𝑀𝐷𝑃 𝑀
𝑀𝑜𝑑𝑒𝑙 𝐹𝑟𝑒𝑒 𝑜𝑟 𝑀𝑜𝑑𝑒𝑙 𝐵𝑎𝑠𝑒𝑑 𝑅𝐿 𝑀𝑜𝑑𝑒𝑙 𝐵𝑎𝑠𝑒𝑑 𝑅𝐿
𝐿𝑒𝑎𝑟𝑛𝑒𝑑 𝑃𝑜𝑙𝑖𝑐𝑦 𝑂𝑝𝑡𝑖𝑚𝑎𝑙 𝑃𝑜𝑙𝑖𝑐𝑦 𝐿𝑒𝑎𝑟𝑛𝑒𝑑 𝑃𝑜𝑙𝑖𝑐𝑦
≓ ≓
< 𝑹𝑳 > < 𝑴𝑶𝑹𝒆𝑳 >
AlgorithmicFramework
Part 4
 Overview
AlgorithmicFramework
Part 4
 Learning Dynamics model
 정적 데이터셋 기반 𝑃 ∙ 𝑠, 𝑎 를 학습하여 다음 state와 reward를 예측하는 모델 생성
 사용 가능한 알고리즘
1) Maximum Likelihood Estimation
2) Time-Series model
3) Recurrent Neural Network
4) Transformer
 한계 : 정적 데이터셋에 모든 state가 포함되지 않았을 수 있음.
AlgorithmicFramework
Part 4
 Unknown State-Action Detector
 state-action space를 알고 있는 영역과 모르는 영역으로 구분하는 모델
 𝐷𝑒𝑓𝑖𝑛e 𝛼 − 𝑈𝑆𝐴𝐷 𝑚𝑜𝑑𝑒𝑙
 𝐷𝑇𝑉(𝑃 ∙ 𝑠, 𝑎 , 𝑃(∙ |𝑠, 𝑎)) : 학습된 Dynamic model의 결과와 실제 Dynamics와의 차이
 학습된 모델과 실제와의 차이가 특정값(𝛼) 이하이면 Known, 아니면 Unkown으로 구분
AlgorithmicFramework
Part 4
 Pessimistic MDP
 USAD와 Dynamics model을 이용하여 Unknown 공간을 탐색하려는 정책에 페널티를 부
여하는 Pessimistic MDP를 생성함.
 𝑃𝑒𝑠𝑠𝑖𝑚𝑖𝑠𝑡𝑖𝑐 𝑀𝐷𝑃
 HALT : MDP에서 absorbing state가 되도록 추가한 state
 모르는 영역에 들어가면 HALT에서 머물게 하고 보상 –K 를 받도록 페널티를 부여
 P-MDP를 토대로 Model-Based RL(Planning)로 정책 학습
AlgorithmicFramework
Part 4
 Theoretical Results
 P-MDP에 의해 학습된 정책의 성능이 실제 환경에서 학습된 정책의 성능의 상한과 하한
을 이룬다는 것을 이론적으로 제시함.
초기 state dist.에 의한 성능 차이
𝛼에 의해 발생하는 성능 차이
𝑈𝑛𝑘𝑛𝑜𝑤𝑛 영역에 들어가서 발생하는 페널티
(하한)
(상한)
AlgorithmicFramework
Part 4
 Practical Implementation of MOReL
 Learning Gaussian Dynamics Model
 𝑃 ∙ 𝑠, 𝑎 = 𝑁 𝑓𝜙 𝑠, 𝑎 , Σ
 𝑓𝜙 𝑠, 𝑎 = 𝑠 + 𝜎Δ𝑀𝐿𝑃𝜙 𝑛𝑜𝑟𝑚 𝑠 , 𝑛𝑜𝑟𝑚 𝑎 ; 𝜎∆ = 𝑠𝑡𝑑 𝑜𝑓 𝑠𝑡𝑎𝑡𝑒 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒
 MLP는 state difference를 학습하도록 하는 것
 U-SAD
 모델 앙상블을 이용하여 학습된 모델들의 예측의 차이의 최대값을 기준으로 구분함.
Experiment
Part 5
 Answer for 4 Question
1) Comparison to prior work : MOReL이 다른 offline RL과 비교할 때 어떤가?
2) Quality of logging policy : 데이터가 수집될 때의 정책이 MOReL에 의해 학습 된 정
책의 성능에 어떻게 영향을 미치는가?
3) Importance of pessimistic MDP : 어떠한 안전장치 없이 학습된 MDP에서 model-
based RL과 비교할 때 어떤가?
4) Transfer from pessimistic MDP to environment : P-MDP에서의 학습 과정이 효
과적으로 실제 환경에서의 학습으로 효율적으로 전이되는가?
Experiment
Part 5
 Setting for Experiment
 Benchmark Task : OpenAI gym – MuJoCo 중 4개의 태스크
 Logged Dataset : 4개의 task에 대해 5개씩 다르게 수집된 데이터 구축
 Dynamics model Architecture : 2-layer ReLU-MLP
 Ensemble : 4 Dynamics model 사용
 Policy Architecture / Learning Policy : 2-layer Tanh-MLP / model-based NPG
Experiment
Part 5
 Comparison to prior work
Experiment
Part 5
 Quality of logging policy
 최적의 정책과 데이터셋 사이의 간극이 생길 때 어떤 오프라인 알고리즘이든 근사적으로
최적의 정책을 찾는 것은 불가능하다는 것을 실험적으로 확인함.
 부분적으로 학습된 모델(Pure-partial)에 의해 수집된 데이터셋과 랜덤 정책(Pure-random)
으로 수집된 데이터셋을 토대로 학습된 정책의 성능을 비교
 실험을 통해 데이터 수집 정책의 성능이 학습 정책의 성능에 영향을 미침을 확인함.
Experiment
Part 5
 Importance of Pessimistic MDP
 MOReL에서 P-MDP와 다른 Naive Model-Based RL에서 dynamics model 비교
 P-MDP와 같이 어떠한 안전 장치 없이도 다른 offline RL(BCQ, BEAR)의 성능과 비슷한
성능에 도달함.
 But, MOReL은 안정적으로 성능이 증가하지만 다른 MBRL은 불안정함.
Experiment
Part 5
 Transfer from P-MDP to environment
 이론적 분석 결과의 내용대로 P-MDP에서의 성능이 근사적으로 실제 환경에서의 성능의
하한이 이루며 크게 능가하지도 않음을 실험을 통해 확인함.
 P-MDP에서의 성능이 실제 환경에서의 성능을 근접하게 쫓아감을 확인함.
 이는 P-MDP가 offline policy 학습과 평가를 위한 좋은 대체자가 될 것을 의미함.
Conclusion
Part 6
 New model-based framework for offline RL : MOReL
 MOReL은 generalization과 pessimism (or conservatism)을 포함함.
 Generalization : known state 예측을 위한 일반화 성능을 가진 모델을 사용함.
 Pessimisim : 정책이 unknown state로 가지 못하도록 제한함.
 MOReL에서의 성능이 Open AI gym 태스크에서 SOTA를 달성함.
 MOReL의 모듈식 구조는 다른 다양한 알고리즘을 추가할 수 있는 형태임.
Q&A

More Related Content

What's hot

InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...홍배 김
 
Reproducible AI using MLflow and PyTorch
Reproducible AI using MLflow and PyTorchReproducible AI using MLflow and PyTorch
Reproducible AI using MLflow and PyTorchDatabricks
 
Facebook Talk at Netflix ML Platform meetup Sep 2019
Facebook Talk at Netflix ML Platform meetup Sep 2019Facebook Talk at Netflix ML Platform meetup Sep 2019
Facebook Talk at Netflix ML Platform meetup Sep 2019Faisal Siddiqi
 
Multi-Agent Reinforcement Learning
Multi-Agent Reinforcement LearningMulti-Agent Reinforcement Learning
Multi-Agent Reinforcement LearningSeolhokim
 
Reinforcement Learning 2. Multi-armed Bandits
Reinforcement Learning 2. Multi-armed BanditsReinforcement Learning 2. Multi-armed Bandits
Reinforcement Learning 2. Multi-armed BanditsSeung Jae Lee
 
An introduction to deep reinforcement learning
An introduction to deep reinforcement learningAn introduction to deep reinforcement learning
An introduction to deep reinforcement learningBig Data Colombia
 
Intro to Reinforcement learning - part III
Intro to Reinforcement learning - part IIIIntro to Reinforcement learning - part III
Intro to Reinforcement learning - part IIIMikko Mäkipää
 
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied ControlDeep Learning JP
 
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RLDeep Learning JP
 
Application of Monte Carlo Tree Search in a Fighting Game AI (GCCE 2016)
Application of Monte Carlo Tree Search in a Fighting Game AI (GCCE 2016)Application of Monte Carlo Tree Search in a Fighting Game AI (GCCE 2016)
Application of Monte Carlo Tree Search in a Fighting Game AI (GCCE 2016)ftgaic
 
RL4J で始める深層強化学習
RL4J で始める深層強化学習RL4J で始める深層強化学習
RL4J で始める深層強化学習Yuki Tagami
 
Deferred Rendering in Killzone 2
Deferred Rendering in Killzone 2Deferred Rendering in Killzone 2
Deferred Rendering in Killzone 2Guerrilla
 
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017mooopan
 
Introduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningIntroduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningNAVER Engineering
 
[RLkorea] 각잡고 로봇팔 발표
[RLkorea] 각잡고 로봇팔 발표[RLkorea] 각잡고 로봇팔 발표
[RLkorea] 각잡고 로봇팔 발표ashley ryu
 
配送最適化
配送最適化配送最適化
配送最適化春 根上
 
파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기정주 김
 
Ue4 에서의 환경변화 구현
Ue4 에서의 환경변화 구현Ue4 에서의 환경변화 구현
Ue4 에서의 환경변화 구현kyuil choi
 

What's hot (20)

High dynamic range
High dynamic rangeHigh dynamic range
High dynamic range
 
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
 
Reproducible AI using MLflow and PyTorch
Reproducible AI using MLflow and PyTorchReproducible AI using MLflow and PyTorch
Reproducible AI using MLflow and PyTorch
 
Facebook Talk at Netflix ML Platform meetup Sep 2019
Facebook Talk at Netflix ML Platform meetup Sep 2019Facebook Talk at Netflix ML Platform meetup Sep 2019
Facebook Talk at Netflix ML Platform meetup Sep 2019
 
Multi-Agent Reinforcement Learning
Multi-Agent Reinforcement LearningMulti-Agent Reinforcement Learning
Multi-Agent Reinforcement Learning
 
Reinforcement Learning 2. Multi-armed Bandits
Reinforcement Learning 2. Multi-armed BanditsReinforcement Learning 2. Multi-armed Bandits
Reinforcement Learning 2. Multi-armed Bandits
 
An introduction to deep reinforcement learning
An introduction to deep reinforcement learningAn introduction to deep reinforcement learning
An introduction to deep reinforcement learning
 
Intro to Reinforcement learning - part III
Intro to Reinforcement learning - part IIIIntro to Reinforcement learning - part III
Intro to Reinforcement learning - part III
 
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
 
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
 
Application of Monte Carlo Tree Search in a Fighting Game AI (GCCE 2016)
Application of Monte Carlo Tree Search in a Fighting Game AI (GCCE 2016)Application of Monte Carlo Tree Search in a Fighting Game AI (GCCE 2016)
Application of Monte Carlo Tree Search in a Fighting Game AI (GCCE 2016)
 
RL4J で始める深層強化学習
RL4J で始める深層強化学習RL4J で始める深層強化学習
RL4J で始める深層強化学習
 
Deferred Rendering in Killzone 2
Deferred Rendering in Killzone 2Deferred Rendering in Killzone 2
Deferred Rendering in Killzone 2
 
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017
 
Introduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningIntroduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement Learning
 
[RLkorea] 각잡고 로봇팔 발표
[RLkorea] 각잡고 로봇팔 발표[RLkorea] 각잡고 로봇팔 발표
[RLkorea] 각잡고 로봇팔 발표
 
配送最適化
配送最適化配送最適化
配送最適化
 
파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기
 
Policy gradient
Policy gradientPolicy gradient
Policy gradient
 
Ue4 에서의 환경변화 구현
Ue4 에서의 환경변화 구현Ue4 에서의 환경변화 구현
Ue4 에서의 환경변화 구현
 

Similar to MOReL: Model-Based Offline Reinforcement Learning

ProximalPolicyOptimization
ProximalPolicyOptimizationProximalPolicyOptimization
ProximalPolicyOptimizationtaeseon ryu
 
Chapter 8 - optimization for training deep models
Chapter 8 - optimization for training deep modelsChapter 8 - optimization for training deep models
Chapter 8 - optimization for training deep modelsKyeongUkJang
 
Soft Actor-Critic Algorithms and Applications 한국어 리뷰
Soft Actor-Critic Algorithms and Applications 한국어 리뷰Soft Actor-Critic Algorithms and Applications 한국어 리뷰
Soft Actor-Critic Algorithms and Applications 한국어 리뷰태영 정
 
앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발Jungkyu Lee
 
Transfer learning usage
Transfer learning usageTransfer learning usage
Transfer learning usageTae Young Lee
 
[Paper] auto ml part 1
[Paper] auto ml part 1[Paper] auto ml part 1
[Paper] auto ml part 1Susang Kim
 
"From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ..."From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ...LEE HOSEONG
 
Bert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP ChallengeBert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP ChallengeOverDeep
 
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...Sunghoon Joo
 
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...gohyunwoong
 
Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터JEEHYUN PAIK
 
생체 광학 데이터 분석 AI 경진대회 9위 수상작
생체 광학 데이터 분석 AI 경진대회 9위 수상작생체 광학 데이터 분석 AI 경진대회 9위 수상작
생체 광학 데이터 분석 AI 경진대회 9위 수상작DACON AI 데이콘
 
Image data augmentatiion
Image data augmentatiionImage data augmentatiion
Image data augmentatiionSubin An
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝Haesun Park
 

Similar to MOReL: Model-Based Offline Reinforcement Learning (16)

ProximalPolicyOptimization
ProximalPolicyOptimizationProximalPolicyOptimization
ProximalPolicyOptimization
 
Chapter 8 - optimization for training deep models
Chapter 8 - optimization for training deep modelsChapter 8 - optimization for training deep models
Chapter 8 - optimization for training deep models
 
Soft Actor-Critic Algorithms and Applications 한국어 리뷰
Soft Actor-Critic Algorithms and Applications 한국어 리뷰Soft Actor-Critic Algorithms and Applications 한국어 리뷰
Soft Actor-Critic Algorithms and Applications 한국어 리뷰
 
NN and PDF
NN and PDFNN and PDF
NN and PDF
 
앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발
 
Transfer learning usage
Transfer learning usageTransfer learning usage
Transfer learning usage
 
[Paper] auto ml part 1
[Paper] auto ml part 1[Paper] auto ml part 1
[Paper] auto ml part 1
 
"From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ..."From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ...
 
Bert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP ChallengeBert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP Challenge
 
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
 
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
 
Ai nlp challenge
Ai nlp challengeAi nlp challenge
Ai nlp challenge
 
Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터
 
생체 광학 데이터 분석 AI 경진대회 9위 수상작
생체 광학 데이터 분석 AI 경진대회 9위 수상작생체 광학 데이터 분석 AI 경진대회 9위 수상작
생체 광학 데이터 분석 AI 경진대회 9위 수상작
 
Image data augmentatiion
Image data augmentatiionImage data augmentatiion
Image data augmentatiion
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
 

More from taeseon ryu

OpineSum Entailment-based self-training for abstractive opinion summarization...
OpineSum Entailment-based self-training for abstractive opinion summarization...OpineSum Entailment-based self-training for abstractive opinion summarization...
OpineSum Entailment-based self-training for abstractive opinion summarization...taeseon ryu
 
3D Gaussian Splatting
3D Gaussian Splatting3D Gaussian Splatting
3D Gaussian Splattingtaeseon ryu
 
Hyperbolic Image Embedding.pptx
Hyperbolic  Image Embedding.pptxHyperbolic  Image Embedding.pptx
Hyperbolic Image Embedding.pptxtaeseon ryu
 
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정taeseon ryu
 
LLaMA Open and Efficient Foundation Language Models - 230528.pdf
LLaMA Open and Efficient Foundation Language Models - 230528.pdfLLaMA Open and Efficient Foundation Language Models - 230528.pdf
LLaMA Open and Efficient Foundation Language Models - 230528.pdftaeseon ryu
 
Dataset Distillation by Matching Training Trajectories
Dataset Distillation by Matching Training Trajectories Dataset Distillation by Matching Training Trajectories
Dataset Distillation by Matching Training Trajectories taeseon ryu
 
Packed Levitated Marker for Entity and Relation Extraction
Packed Levitated Marker for Entity and Relation ExtractionPacked Levitated Marker for Entity and Relation Extraction
Packed Levitated Marker for Entity and Relation Extractiontaeseon ryu
 
Scaling Instruction-Finetuned Language Models
Scaling Instruction-Finetuned Language ModelsScaling Instruction-Finetuned Language Models
Scaling Instruction-Finetuned Language Modelstaeseon ryu
 
Visual prompt tuning
Visual prompt tuningVisual prompt tuning
Visual prompt tuningtaeseon ryu
 
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdfvariBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdftaeseon ryu
 
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdfReinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdftaeseon ryu
 
The Forward-Forward Algorithm
The Forward-Forward AlgorithmThe Forward-Forward Algorithm
The Forward-Forward Algorithmtaeseon ryu
 
Towards Robust and Reproducible Active Learning using Neural Networks
Towards Robust and Reproducible Active Learning using Neural NetworksTowards Robust and Reproducible Active Learning using Neural Networks
Towards Robust and Reproducible Active Learning using Neural Networkstaeseon ryu
 
BRIO: Bringing Order to Abstractive Summarization
BRIO: Bringing Order to Abstractive SummarizationBRIO: Bringing Order to Abstractive Summarization
BRIO: Bringing Order to Abstractive Summarizationtaeseon ryu
 
Dream2Control paper review
Dream2Control paper reviewDream2Control paper review
Dream2Control paper reviewtaeseon ryu
 

More from taeseon ryu (20)

VoxelNet
VoxelNetVoxelNet
VoxelNet
 
OpineSum Entailment-based self-training for abstractive opinion summarization...
OpineSum Entailment-based self-training for abstractive opinion summarization...OpineSum Entailment-based self-training for abstractive opinion summarization...
OpineSum Entailment-based self-training for abstractive opinion summarization...
 
3D Gaussian Splatting
3D Gaussian Splatting3D Gaussian Splatting
3D Gaussian Splatting
 
JetsonTX2 Python
 JetsonTX2 Python  JetsonTX2 Python
JetsonTX2 Python
 
Hyperbolic Image Embedding.pptx
Hyperbolic  Image Embedding.pptxHyperbolic  Image Embedding.pptx
Hyperbolic Image Embedding.pptx
 
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
 
LLaMA Open and Efficient Foundation Language Models - 230528.pdf
LLaMA Open and Efficient Foundation Language Models - 230528.pdfLLaMA Open and Efficient Foundation Language Models - 230528.pdf
LLaMA Open and Efficient Foundation Language Models - 230528.pdf
 
YOLO V6
YOLO V6YOLO V6
YOLO V6
 
Dataset Distillation by Matching Training Trajectories
Dataset Distillation by Matching Training Trajectories Dataset Distillation by Matching Training Trajectories
Dataset Distillation by Matching Training Trajectories
 
RL_UpsideDown
RL_UpsideDownRL_UpsideDown
RL_UpsideDown
 
Packed Levitated Marker for Entity and Relation Extraction
Packed Levitated Marker for Entity and Relation ExtractionPacked Levitated Marker for Entity and Relation Extraction
Packed Levitated Marker for Entity and Relation Extraction
 
Scaling Instruction-Finetuned Language Models
Scaling Instruction-Finetuned Language ModelsScaling Instruction-Finetuned Language Models
Scaling Instruction-Finetuned Language Models
 
Visual prompt tuning
Visual prompt tuningVisual prompt tuning
Visual prompt tuning
 
mPLUG
mPLUGmPLUG
mPLUG
 
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdfvariBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
 
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdfReinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
 
The Forward-Forward Algorithm
The Forward-Forward AlgorithmThe Forward-Forward Algorithm
The Forward-Forward Algorithm
 
Towards Robust and Reproducible Active Learning using Neural Networks
Towards Robust and Reproducible Active Learning using Neural NetworksTowards Robust and Reproducible Active Learning using Neural Networks
Towards Robust and Reproducible Active Learning using Neural Networks
 
BRIO: Bringing Order to Abstractive Summarization
BRIO: Bringing Order to Abstractive SummarizationBRIO: Bringing Order to Abstractive Summarization
BRIO: Bringing Order to Abstractive Summarization
 
Dream2Control paper review
Dream2Control paper reviewDream2Control paper review
Dream2Control paper review
 

MOReL: Model-Based Offline Reinforcement Learning

  • 1. MOReL: Model-Based Offline Reinforcement Learning 김현성(발표자),백승언 NeurIPS2020
  • 2. Introduction Part 1  Offline RL  개요 : 오직 정적 데이터셋을 이용하여 정책을 학습시키는 방법론  활용분야 1) 안전에 민감한 도메인에 적합 ex) 의료 분야, 산업 현장 자동화 2) 학습된 정책을 데이터셋만으로 개선 시킴  문제점 1) distributional shift 문제 발생 2) model-free 알고리즘에서 approximator에 의한 Error
  • 3. RelatedWork Part 2  Algorithms for Offline RL : 3 Categories  Importance sampling  가장 대중적으로 적용되는 알고리즘  수집된 데이터셋에 최적의 정책의 영역이 포함되어 있지 않으면 성능 보장이 어려움  Approximate Dynamic Programming  최근에 활발하게 연구되고 있는 알고리즘  수집된 데이터셋에 최적의 정책의 영역이 포함되어 있지 않은 경우에 대한 연구 부족  Model-based RL  Offline RL 쪽에서 드물게 연구되고 있는 알고리즘.  본 논문에서 활용한 알고리즘
  • 4. ProblemFormulation Part 3  Problem Formula for Model-Based RL Algorithm 𝑀𝐷𝑃 = {𝑆, 𝐴, 𝑟, 𝑃, 𝜌0, 𝛾} 𝐷 = { 𝑠𝑖, 𝑎𝑖, 𝑟𝑖, 𝑠′ 𝑖 }𝑖=1−𝑁 𝐿𝑒𝑎𝑟𝑛𝑒𝑑 𝑀𝐷𝑃 𝑀 𝑀𝑜𝑑𝑒𝑙 𝐹𝑟𝑒𝑒 𝑜𝑟 𝑀𝑜𝑑𝑒𝑙 𝐵𝑎𝑠𝑒𝑑 𝑅𝐿 𝑀𝑜𝑑𝑒𝑙 𝐵𝑎𝑠𝑒𝑑 𝑅𝐿 𝐿𝑒𝑎𝑟𝑛𝑒𝑑 𝑃𝑜𝑙𝑖𝑐𝑦 𝑂𝑝𝑡𝑖𝑚𝑎𝑙 𝑃𝑜𝑙𝑖𝑐𝑦 𝐿𝑒𝑎𝑟𝑛𝑒𝑑 𝑃𝑜𝑙𝑖𝑐𝑦 ≓ ≓ < 𝑹𝑳 > < 𝑴𝑶𝑹𝒆𝑳 >
  • 6. AlgorithmicFramework Part 4  Learning Dynamics model  정적 데이터셋 기반 𝑃 ∙ 𝑠, 𝑎 를 학습하여 다음 state와 reward를 예측하는 모델 생성  사용 가능한 알고리즘 1) Maximum Likelihood Estimation 2) Time-Series model 3) Recurrent Neural Network 4) Transformer  한계 : 정적 데이터셋에 모든 state가 포함되지 않았을 수 있음.
  • 7. AlgorithmicFramework Part 4  Unknown State-Action Detector  state-action space를 알고 있는 영역과 모르는 영역으로 구분하는 모델  𝐷𝑒𝑓𝑖𝑛e 𝛼 − 𝑈𝑆𝐴𝐷 𝑚𝑜𝑑𝑒𝑙  𝐷𝑇𝑉(𝑃 ∙ 𝑠, 𝑎 , 𝑃(∙ |𝑠, 𝑎)) : 학습된 Dynamic model의 결과와 실제 Dynamics와의 차이  학습된 모델과 실제와의 차이가 특정값(𝛼) 이하이면 Known, 아니면 Unkown으로 구분
  • 8. AlgorithmicFramework Part 4  Pessimistic MDP  USAD와 Dynamics model을 이용하여 Unknown 공간을 탐색하려는 정책에 페널티를 부 여하는 Pessimistic MDP를 생성함.  𝑃𝑒𝑠𝑠𝑖𝑚𝑖𝑠𝑡𝑖𝑐 𝑀𝐷𝑃  HALT : MDP에서 absorbing state가 되도록 추가한 state  모르는 영역에 들어가면 HALT에서 머물게 하고 보상 –K 를 받도록 페널티를 부여  P-MDP를 토대로 Model-Based RL(Planning)로 정책 학습
  • 9. AlgorithmicFramework Part 4  Theoretical Results  P-MDP에 의해 학습된 정책의 성능이 실제 환경에서 학습된 정책의 성능의 상한과 하한 을 이룬다는 것을 이론적으로 제시함. 초기 state dist.에 의한 성능 차이 𝛼에 의해 발생하는 성능 차이 𝑈𝑛𝑘𝑛𝑜𝑤𝑛 영역에 들어가서 발생하는 페널티 (하한) (상한)
  • 10. AlgorithmicFramework Part 4  Practical Implementation of MOReL  Learning Gaussian Dynamics Model  𝑃 ∙ 𝑠, 𝑎 = 𝑁 𝑓𝜙 𝑠, 𝑎 , Σ  𝑓𝜙 𝑠, 𝑎 = 𝑠 + 𝜎Δ𝑀𝐿𝑃𝜙 𝑛𝑜𝑟𝑚 𝑠 , 𝑛𝑜𝑟𝑚 𝑎 ; 𝜎∆ = 𝑠𝑡𝑑 𝑜𝑓 𝑠𝑡𝑎𝑡𝑒 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒  MLP는 state difference를 학습하도록 하는 것  U-SAD  모델 앙상블을 이용하여 학습된 모델들의 예측의 차이의 최대값을 기준으로 구분함.
  • 11. Experiment Part 5  Answer for 4 Question 1) Comparison to prior work : MOReL이 다른 offline RL과 비교할 때 어떤가? 2) Quality of logging policy : 데이터가 수집될 때의 정책이 MOReL에 의해 학습 된 정 책의 성능에 어떻게 영향을 미치는가? 3) Importance of pessimistic MDP : 어떠한 안전장치 없이 학습된 MDP에서 model- based RL과 비교할 때 어떤가? 4) Transfer from pessimistic MDP to environment : P-MDP에서의 학습 과정이 효 과적으로 실제 환경에서의 학습으로 효율적으로 전이되는가?
  • 12. Experiment Part 5  Setting for Experiment  Benchmark Task : OpenAI gym – MuJoCo 중 4개의 태스크  Logged Dataset : 4개의 task에 대해 5개씩 다르게 수집된 데이터 구축  Dynamics model Architecture : 2-layer ReLU-MLP  Ensemble : 4 Dynamics model 사용  Policy Architecture / Learning Policy : 2-layer Tanh-MLP / model-based NPG
  • 14. Experiment Part 5  Quality of logging policy  최적의 정책과 데이터셋 사이의 간극이 생길 때 어떤 오프라인 알고리즘이든 근사적으로 최적의 정책을 찾는 것은 불가능하다는 것을 실험적으로 확인함.  부분적으로 학습된 모델(Pure-partial)에 의해 수집된 데이터셋과 랜덤 정책(Pure-random) 으로 수집된 데이터셋을 토대로 학습된 정책의 성능을 비교  실험을 통해 데이터 수집 정책의 성능이 학습 정책의 성능에 영향을 미침을 확인함.
  • 15. Experiment Part 5  Importance of Pessimistic MDP  MOReL에서 P-MDP와 다른 Naive Model-Based RL에서 dynamics model 비교  P-MDP와 같이 어떠한 안전 장치 없이도 다른 offline RL(BCQ, BEAR)의 성능과 비슷한 성능에 도달함.  But, MOReL은 안정적으로 성능이 증가하지만 다른 MBRL은 불안정함.
  • 16. Experiment Part 5  Transfer from P-MDP to environment  이론적 분석 결과의 내용대로 P-MDP에서의 성능이 근사적으로 실제 환경에서의 성능의 하한이 이루며 크게 능가하지도 않음을 실험을 통해 확인함.  P-MDP에서의 성능이 실제 환경에서의 성능을 근접하게 쫓아감을 확인함.  이는 P-MDP가 offline policy 학습과 평가를 위한 좋은 대체자가 될 것을 의미함.
  • 17. Conclusion Part 6  New model-based framework for offline RL : MOReL  MOReL은 generalization과 pessimism (or conservatism)을 포함함.  Generalization : known state 예측을 위한 일반화 성능을 가진 모델을 사용함.  Pessimisim : 정책이 unknown state로 가지 못하도록 제한함.  MOReL에서의 성능이 Open AI gym 태스크에서 SOTA를 달성함.  MOReL의 모듈식 구조는 다른 다양한 알고리즘을 추가할 수 있는 형태임.
  • 18. Q&A

Editor's Notes

  1. Npg : Natural Policy Gradient
  2. 표 결과 : (1) 12 of 20 SOTA, (2) (± 로 표시된) Error bar는 5번의 서로 다른 랜덤 시드로 설정되어 학습되 모델의 성능의 표준편차
  3. 그래프 결과 : (1) MOReL은 단조증가 (2) Naiive는 불안정
  4. Known unknown을 구분하는 모델은 주어진 데이터셋을 general하게 잘 이해할 수 있도록 학습하는 것임.