MOReL: Model-Based Offline Reinforcement Learning

MOReL: Model-Based Offline Reinforcement
Learning
김현성(발표자),백승언
NeurIPS2020

Introduction
Part 1
 Offline RL
 개요 : 오직 정적 데이터셋을 이용하여 정책을 학습시키는 방법론
 활용분야
1) 안전에 민감한 도메인에 적합 ex) 의료 분야, 산업 현장 자동화
2) 학습된 정책을 데이터셋만으로 개선 시킴
 문제점
1) distributional shift 문제 발생
2) model-free 알고리즘에서 approximator에 의한 Error

RelatedWork
Part 2
 Algorithms for Offline RL : 3 Categories
 Importance sampling
 가장 대중적으로 적용되는 알고리즘
 수집된 데이터셋에 최적의 정책의 영역이 포함되어 있지 않으면 성능 보장이 어려움
 Approximate Dynamic Programming
 최근에 활발하게 연구되고 있는 알고리즘
 수집된 데이터셋에 최적의 정책의 영역이 포함되어 있지 않은 경우에 대한 연구 부족
 Model-based RL
 Offline RL 쪽에서 드물게 연구되고 있는 알고리즘.
 본 논문에서 활용한 알고리즘

ProblemFormulation
Part 3
 Problem Formula for Model-Based RL Algorithm
𝑀𝐷𝑃 = {𝑆, 𝐴, 𝑟, 𝑃, 𝜌0, 𝛾} 𝐷 = { 𝑠𝑖, 𝑎𝑖, 𝑟𝑖, 𝑠′
𝑖 }𝑖=1−𝑁
𝐿𝑒𝑎𝑟𝑛𝑒𝑑 𝑀𝐷𝑃 𝑀
𝑀𝑜𝑑𝑒𝑙 𝐹𝑟𝑒𝑒 𝑜𝑟 𝑀𝑜𝑑𝑒𝑙 𝐵𝑎𝑠𝑒𝑑 𝑅𝐿 𝑀𝑜𝑑𝑒𝑙 𝐵𝑎𝑠𝑒𝑑 𝑅𝐿
𝐿𝑒𝑎𝑟𝑛𝑒𝑑 𝑃𝑜𝑙𝑖𝑐𝑦 𝑂𝑝𝑡𝑖𝑚𝑎𝑙 𝑃𝑜𝑙𝑖𝑐𝑦 𝐿𝑒𝑎𝑟𝑛𝑒𝑑 𝑃𝑜𝑙𝑖𝑐𝑦
≓ ≓
< 𝑹𝑳 > < 𝑴𝑶𝑹𝒆𝑳 >

AlgorithmicFramework
Part 4
 Overview

Part 4
 Learning Dynamics model
 정적 데이터셋 기반 𝑃 ∙ 𝑠, 𝑎 를 학습하여 다음 state와 reward를 예측하는 모델 생성
 사용 가능한 알고리즘
1) Maximum Likelihood Estimation
2) Time-Series model
3) Recurrent Neural Network
4) Transformer
 한계 : 정적 데이터셋에 모든 state가 포함되지 않았을 수 있음.

Part 4
 Unknown State-Action Detector
 state-action space를 알고 있는 영역과 모르는 영역으로 구분하는 모델
 𝐷𝑒𝑓𝑖𝑛e 𝛼 − 𝑈𝑆𝐴𝐷 𝑚𝑜𝑑𝑒𝑙
 𝐷𝑇𝑉(𝑃 ∙ 𝑠, 𝑎 , 𝑃(∙ |𝑠, 𝑎)) : 학습된 Dynamic model의 결과와 실제 Dynamics와의 차이
 학습된 모델과 실제와의 차이가 특정값(𝛼) 이하이면 Known, 아니면 Unkown으로 구분

Part 4
 Pessimistic MDP
 USAD와 Dynamics model을 이용하여 Unknown 공간을 탐색하려는 정책에 페널티를 부
여하는 Pessimistic MDP를 생성함.
 𝑃𝑒𝑠𝑠𝑖𝑚𝑖𝑠𝑡𝑖𝑐 𝑀𝐷𝑃
 HALT : MDP에서 absorbing state가 되도록 추가한 state
 모르는 영역에 들어가면 HALT에서 머물게 하고 보상 –K 를 받도록 페널티를 부여
 P-MDP를 토대로 Model-Based RL(Planning)로 정책 학습

Part 4
 Theoretical Results
 P-MDP에 의해 학습된 정책의 성능이 실제 환경에서 학습된 정책의 성능의 상한과 하한
을 이룬다는 것을 이론적으로 제시함.
초기 state dist.에 의한 성능 차이
𝛼에 의해 발생하는 성능 차이
𝑈𝑛𝑘𝑛𝑜𝑤𝑛 영역에 들어가서 발생하는 페널티
(하한)
(상한)

Part 4
 Practical Implementation of MOReL
 Learning Gaussian Dynamics Model
 𝑃 ∙ 𝑠, 𝑎 = 𝑁 𝑓𝜙 𝑠, 𝑎 , Σ
 𝑓𝜙 𝑠, 𝑎 = 𝑠 + 𝜎Δ𝑀𝐿𝑃𝜙 𝑛𝑜𝑟𝑚 𝑠 , 𝑛𝑜𝑟𝑚 𝑎 ; 𝜎∆ = 𝑠𝑡𝑑 𝑜𝑓 𝑠𝑡𝑎𝑡𝑒 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒
 MLP는 state difference를 학습하도록 하는 것
 U-SAD
 모델 앙상블을 이용하여 학습된 모델들의 예측의 차이의 최대값을 기준으로 구분함.

Experiment
Part 5
 Answer for 4 Question
1) Comparison to prior work : MOReL이 다른 offline RL과 비교할 때 어떤가?
2) Quality of logging policy : 데이터가 수집될 때의 정책이 MOReL에 의해 학습 된 정
책의 성능에 어떻게 영향을 미치는가?
3) Importance of pessimistic MDP : 어떠한 안전장치 없이 학습된 MDP에서 model-
based RL과 비교할 때 어떤가?
4) Transfer from pessimistic MDP to environment : P-MDP에서의 학습 과정이 효
과적으로 실제 환경에서의 학습으로 효율적으로 전이되는가?

Experiment
Part 5
 Setting for Experiment
 Benchmark Task : OpenAI gym – MuJoCo 중 4개의 태스크
 Logged Dataset : 4개의 task에 대해 5개씩 다르게 수집된 데이터 구축
 Dynamics model Architecture : 2-layer ReLU-MLP
 Ensemble : 4 Dynamics model 사용
 Policy Architecture / Learning Policy : 2-layer Tanh-MLP / model-based NPG

Experiment
Part 5
 Comparison to prior work

Experiment
Part 5
 Quality of logging policy
 최적의 정책과 데이터셋 사이의 간극이 생길 때 어떤 오프라인 알고리즘이든 근사적으로
최적의 정책을 찾는 것은 불가능하다는 것을 실험적으로 확인함.
 부분적으로 학습된 모델(Pure-partial)에 의해 수집된 데이터셋과 랜덤 정책(Pure-random)
으로 수집된 데이터셋을 토대로 학습된 정책의 성능을 비교
 실험을 통해 데이터 수집 정책의 성능이 학습 정책의 성능에 영향을 미침을 확인함.

Experiment
Part 5
 Importance of Pessimistic MDP
 MOReL에서 P-MDP와 다른 Naive Model-Based RL에서 dynamics model 비교
 P-MDP와 같이 어떠한 안전 장치 없이도 다른 offline RL(BCQ, BEAR)의 성능과 비슷한
성능에 도달함.
 But, MOReL은 안정적으로 성능이 증가하지만 다른 MBRL은 불안정함.

Experiment
Part 5
 Transfer from P-MDP to environment
 이론적 분석 결과의 내용대로 P-MDP에서의 성능이 근사적으로 실제 환경에서의 성능의
하한이 이루며 크게 능가하지도 않음을 실험을 통해 확인함.
 P-MDP에서의 성능이 실제 환경에서의 성능을 근접하게 쫓아감을 확인함.
 이는 P-MDP가 offline policy 학습과 평가를 위한 좋은 대체자가 될 것을 의미함.

Conclusion
Part 6
 New model-based framework for offline RL : MOReL
 MOReL은 generalization과 pessimism (or conservatism)을 포함함.
 Generalization : known state 예측을 위한 일반화 성능을 가진 모델을 사용함.
 Pessimisim : 정책이 unknown state로 가지 못하도록 제한함.
 MOReL에서의 성능이 Open AI gym 태스크에서 SOTA를 달성함.
 MOReL의 모듈식 구조는 다른 다양한 알고리즘을 추가할 수 있는 형태임.

MOReL: Model-Based Offline Reinforcement Learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to MOReL: Model-Based Offline Reinforcement Learning

Similar to MOReL: Model-Based Offline Reinforcement Learning (16)

More from taeseon ryu

More from taeseon ryu (20)

MOReL: Model-Based Offline Reinforcement Learning

Editor's Notes