오늘 소개할 논문은 'MOReL: Model-Based Offline Reinforcement Learning'입니다.
이 논문은 오프라인 강화 학습(Reinforcement Learning, RL)에 초점을 맞추고 있습니다. 오프라인 RL은 행동 정책을 개선하기 위해 사전에 수집된 데이터만을 사용하는 학습 방법입니다. 이 논문에서는 MOReL이라는 새로운 알고리즘 프레임워크를 제시하며, 이는 오프라인 RL을 위한 것입니다.
MOReL은 두 단계로 구성되어 있습니다: 첫째, 오프라인 데이터셋을 사용하여 비관적인 MDP(Model-based Decision Process)를 학습하고, 둘째, 이 P-MDP에서 거의 최적의 정책을 학습합니다. 학습된 P-MDP는 정책 평가와 학습에 대한 좋은 대리자 역할을 하며, 모델 기반 RL의 일반적인 함정인 모델 활용을 극복합니다.
이 논문에서는 MOReL이 오프라인 RL에 대해 최소최대 최적(minimax optimal)이며, 널리 연구된 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 또한, 이 논문은 오프라인 RL의 중요한 문제인 행동 정책의 안전성에 대한 중요한 통찰력을 제공합니다.
이 논문은 오프라인 강화 학습의 새로운 접근법을 제시하며, 이를 통해 더 효율적인 방식으로 다양한 강화 학습 작업에 대한 성능을 향상시킬 수 있음을 보여줍니다.
2. Introduction
Part 1
Offline RL
개요 : 오직 정적 데이터셋을 이용하여 정책을 학습시키는 방법론
활용분야
1) 안전에 민감한 도메인에 적합 ex) 의료 분야, 산업 현장 자동화
2) 학습된 정책을 데이터셋만으로 개선 시킴
문제점
1) distributional shift 문제 발생
2) model-free 알고리즘에서 approximator에 의한 Error
3. RelatedWork
Part 2
Algorithms for Offline RL : 3 Categories
Importance sampling
가장 대중적으로 적용되는 알고리즘
수집된 데이터셋에 최적의 정책의 영역이 포함되어 있지 않으면 성능 보장이 어려움
Approximate Dynamic Programming
최근에 활발하게 연구되고 있는 알고리즘
수집된 데이터셋에 최적의 정책의 영역이 포함되어 있지 않은 경우에 대한 연구 부족
Model-based RL
Offline RL 쪽에서 드물게 연구되고 있는 알고리즘.
본 논문에서 활용한 알고리즘
6. AlgorithmicFramework
Part 4
Learning Dynamics model
정적 데이터셋 기반 𝑃 ∙ 𝑠, 𝑎 를 학습하여 다음 state와 reward를 예측하는 모델 생성
사용 가능한 알고리즘
1) Maximum Likelihood Estimation
2) Time-Series model
3) Recurrent Neural Network
4) Transformer
한계 : 정적 데이터셋에 모든 state가 포함되지 않았을 수 있음.
7. AlgorithmicFramework
Part 4
Unknown State-Action Detector
state-action space를 알고 있는 영역과 모르는 영역으로 구분하는 모델
𝐷𝑒𝑓𝑖𝑛e 𝛼 − 𝑈𝑆𝐴𝐷 𝑚𝑜𝑑𝑒𝑙
𝐷𝑇𝑉(𝑃 ∙ 𝑠, 𝑎 , 𝑃(∙ |𝑠, 𝑎)) : 학습된 Dynamic model의 결과와 실제 Dynamics와의 차이
학습된 모델과 실제와의 차이가 특정값(𝛼) 이하이면 Known, 아니면 Unkown으로 구분
8. AlgorithmicFramework
Part 4
Pessimistic MDP
USAD와 Dynamics model을 이용하여 Unknown 공간을 탐색하려는 정책에 페널티를 부
여하는 Pessimistic MDP를 생성함.
𝑃𝑒𝑠𝑠𝑖𝑚𝑖𝑠𝑡𝑖𝑐 𝑀𝐷𝑃
HALT : MDP에서 absorbing state가 되도록 추가한 state
모르는 영역에 들어가면 HALT에서 머물게 하고 보상 –K 를 받도록 페널티를 부여
P-MDP를 토대로 Model-Based RL(Planning)로 정책 학습
9. AlgorithmicFramework
Part 4
Theoretical Results
P-MDP에 의해 학습된 정책의 성능이 실제 환경에서 학습된 정책의 성능의 상한과 하한
을 이룬다는 것을 이론적으로 제시함.
초기 state dist.에 의한 성능 차이
𝛼에 의해 발생하는 성능 차이
𝑈𝑛𝑘𝑛𝑜𝑤𝑛 영역에 들어가서 발생하는 페널티
(하한)
(상한)
10. AlgorithmicFramework
Part 4
Practical Implementation of MOReL
Learning Gaussian Dynamics Model
𝑃 ∙ 𝑠, 𝑎 = 𝑁 𝑓𝜙 𝑠, 𝑎 , Σ
𝑓𝜙 𝑠, 𝑎 = 𝑠 + 𝜎Δ𝑀𝐿𝑃𝜙 𝑛𝑜𝑟𝑚 𝑠 , 𝑛𝑜𝑟𝑚 𝑎 ; 𝜎∆ = 𝑠𝑡𝑑 𝑜𝑓 𝑠𝑡𝑎𝑡𝑒 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒
MLP는 state difference를 학습하도록 하는 것
U-SAD
모델 앙상블을 이용하여 학습된 모델들의 예측의 차이의 최대값을 기준으로 구분함.
11. Experiment
Part 5
Answer for 4 Question
1) Comparison to prior work : MOReL이 다른 offline RL과 비교할 때 어떤가?
2) Quality of logging policy : 데이터가 수집될 때의 정책이 MOReL에 의해 학습 된 정
책의 성능에 어떻게 영향을 미치는가?
3) Importance of pessimistic MDP : 어떠한 안전장치 없이 학습된 MDP에서 model-
based RL과 비교할 때 어떤가?
4) Transfer from pessimistic MDP to environment : P-MDP에서의 학습 과정이 효
과적으로 실제 환경에서의 학습으로 효율적으로 전이되는가?
12. Experiment
Part 5
Setting for Experiment
Benchmark Task : OpenAI gym – MuJoCo 중 4개의 태스크
Logged Dataset : 4개의 task에 대해 5개씩 다르게 수집된 데이터 구축
Dynamics model Architecture : 2-layer ReLU-MLP
Ensemble : 4 Dynamics model 사용
Policy Architecture / Learning Policy : 2-layer Tanh-MLP / model-based NPG
14. Experiment
Part 5
Quality of logging policy
최적의 정책과 데이터셋 사이의 간극이 생길 때 어떤 오프라인 알고리즘이든 근사적으로
최적의 정책을 찾는 것은 불가능하다는 것을 실험적으로 확인함.
부분적으로 학습된 모델(Pure-partial)에 의해 수집된 데이터셋과 랜덤 정책(Pure-random)
으로 수집된 데이터셋을 토대로 학습된 정책의 성능을 비교
실험을 통해 데이터 수집 정책의 성능이 학습 정책의 성능에 영향을 미침을 확인함.
15. Experiment
Part 5
Importance of Pessimistic MDP
MOReL에서 P-MDP와 다른 Naive Model-Based RL에서 dynamics model 비교
P-MDP와 같이 어떠한 안전 장치 없이도 다른 offline RL(BCQ, BEAR)의 성능과 비슷한
성능에 도달함.
But, MOReL은 안정적으로 성능이 증가하지만 다른 MBRL은 불안정함.
16. Experiment
Part 5
Transfer from P-MDP to environment
이론적 분석 결과의 내용대로 P-MDP에서의 성능이 근사적으로 실제 환경에서의 성능의
하한이 이루며 크게 능가하지도 않음을 실험을 통해 확인함.
P-MDP에서의 성능이 실제 환경에서의 성능을 근접하게 쫓아감을 확인함.
이는 P-MDP가 offline policy 학습과 평가를 위한 좋은 대체자가 될 것을 의미함.
17. Conclusion
Part 6
New model-based framework for offline RL : MOReL
MOReL은 generalization과 pessimism (or conservatism)을 포함함.
Generalization : known state 예측을 위한 일반화 성능을 가진 모델을 사용함.
Pessimisim : 정책이 unknown state로 가지 못하도록 제한함.
MOReL에서의 성능이 Open AI gym 태스크에서 SOTA를 달성함.
MOReL의 모듈식 구조는 다른 다양한 알고리즘을 추가할 수 있는 형태임.