SlideShare a Scribd company logo
1 of 13
Imagination-Augmented Agents
for Deep Reinforcement Learning
Theophane Weber, Sebastien Racaniere, David P. Reichert, Lars Buesing et al.
DeepMind
Presented by Choi Seong Jae
Introduction
• Reinforcement Learning은 Markov Decision Process(MDP) Problem을
해결하기 위한 방법
• 𝑆: a set of states
• 𝐴: a set of actions
• 𝑇(𝑠’|𝑠, 𝑎): the transition function maps
• 𝑅(𝑠, 𝑎, 𝑠’) -> r: the reinforcement function mapping state-action-successor state
triples to a scalar return
𝜋∗(𝑠) ← 𝑎𝑟𝑔𝑚𝑎𝑥
𝑎 ∈ 𝐴
𝑄(𝑠, 𝑎)
𝑄(𝑠, 𝑎)= 𝔼 𝑡=0
∞
𝑟𝑡|𝑠, 𝑎
Introduction
• Model-Free RL
• Raw observation을 직접적으로 values 혹은 actions에 mapping 하는 함수를 찾음
(Neural Network 이용)
• 대량의 training data 필요, 같은 환경에서 novel task로 일반화 할 수 없음
• DQN, A3C, Policy Gradient ETC.
• Model-Based RL
• Transition matrix 𝑇, reward function 𝑅, state-action space인 𝑆, 𝐴를 알고 있다고 가정
• 𝑆, 𝐴가 커지면 계산 불가
• Model-Free RL의 단점을 해결 가능
Overview: I2A
• Model-Free Model에 Model-Based의 개념을 추가
• 미래의 상황을 미리 simulation 해 보고, simulation에서 나온
정보를 현재에 적용해 적절한 action을 선택
• https://www.youtube.com/watch?v=iUowxivGfv0
Overview: I2A Architecture
I2A: Environment Model
• ResNet으로 만들어졌고, Recurrent한 구성
• 𝑂𝑡 or 𝑂𝑡와 action을 Input으로 받고, Trajectory 𝑇
를 Output으로 함
• 𝑇는 next observation 𝑂𝑡+𝑖과 next reward 𝑟𝑡+𝑖를 포함
• Environment Model의 경우 Standard Model-Free
Agent에서 생성된 데이터를 이용해 Pre-train 된
Model
• Predicted 𝑂𝑡+𝑖와 𝑟𝑡+𝑖은 완벽하지 않지만, 𝑂𝑡+𝑖와
𝑟𝑡+𝑖 을 넘어서는 정보를 갖고 있다고 가정
I2A: Rollout Encoder
• 각 action 별로 Rollout Encoder가 존재
• Rollout Encoder의 각 Encoder는 LSTM cell
로 구성
• Predicted 𝑂𝑡+𝑖와 𝑟𝑡+𝑖이 완벽하지 않으므로
Encoder를 통해 추가적인 정보를 추출
• Aggregator에서 각 Rollout Encoder에서 나
온 Encoded values를 단순 concatenate
Experiments
• I2A가 다른 방법들 보다 월등한 성능을 보임
• Copy-Model IAA의 경우 standard와 유사한 성
능을 보임
• No reward IAA의 경우 3e9 steps를 학습할 경
우 I2A 만큼의 성능이 나옴
• Predicted rewards가 도움은 될 수 있지만, Predicted
Observations만으로 충분히 Informative 함
• 5 이상의 rolling step에서는 더 이상의 성능 향
상은 없음
Experiments
• Noisy Environment Model에서 I2A의 성능
상 차이는 없음
• 그러나 poor model의 경우 3 rolling step과 5
rolling step에서 성능 차이를 확인할 수 없음
• Rollout Encoder가 Env. Model에서 불필요한 정보
를 Ignoring 하는 것을 알 수 있음
• Rollout Encoder-free agent의 경우 Env.
Model의 정확도가 성능 상 큰 영향을 미침
• Accurate Env. Model에서는 standard와 유사한 성
능을 보임
Experiments
• AlphaGo에 쓰인 MCTS의 경우 최대 95%의
성능을 보임(Perfect Model)
• 하지만 유사한 성능을 낼 때, computation
cost가 18배 정도 차이 남
• 4 boxes 상태에서 학습을 하고, box 개수를
늘려보았으나, 여전히 4 boxes standard와
유사한 성능을 냄
Conclusion
• 단순 과거의 데이터만 이용해 현재 유용한 action을 취하는 것이 아닌, 미래의 상황을 추론하여 정보로 받아들
이고 성능을 향상시킴
• Model-Free RL에 Model-Based RL 개념을 추가
• 기존의 Model-Based Planning Method인 Monte Carlo Tree Search(MCTS)와 병합할 경우 낮은 computation
cost로 동일한 성능을 확보
• 의문
• 실험에서 나온 Sokoban 환경의 경우, 하나의 action을 취했을 때 다음 상황은 항상 중요한 정보를 지니는데, 프레임 별로
진행되는 실시간 환경의 경우 다음 상황이 크게 의미 없는 상황일 수 있음. 이러한 환경에서는 어떠한 성능을 보이는지?
• 본 논문에서는 Pre-trained Environment Model을 이용해, predicted observation과 reward를 얻어 여기서 정보를 추출했
지만, predicted가 아닌 시뮬레이션을 할 수 있는 환경이라면 좀 더 좋은 성능을 내지는 않을지?
Appendix
• Standard model-free baseline agent
• For Sokoban: 3 layers CNN, kernel sizes 8x8, 4x4, 3x3, strides of 4, 2, 1 and
number of output channels 32, 64, 64; following FC has 512 units
• Rollout Encoder LSTM has 512(for Sokoban) hidden units.
And all rollouts are concatenated into a single vector 𝑐𝑖𝑎 of
length 2560(a rollout encoder per action).
Appendix
• Sokoban environment
• Every time step, a penalty of -0.1 is applied to the agent
• Whenever the agent pushes a box on target, it receives a reward of +1
• Whenever the agent pushes a box off target, it receives a penalty of -1
• Finishing the level gives the agent a reward of +10 and the level terminates.

More Related Content

What's hot

PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...Sunghoon Joo
 
"simple does it weakly supervised instance and semantic segmentation" Paper r...
"simple does it weakly supervised instance and semantic segmentation" Paper r..."simple does it weakly supervised instance and semantic segmentation" Paper r...
"simple does it weakly supervised instance and semantic segmentation" Paper r...LEE HOSEONG
 
Lecture 4: Neural Networks I
Lecture 4: Neural Networks ILecture 4: Neural Networks I
Lecture 4: Neural Networks ISang Jun Lee
 
네이버 NLP Challenge 후기
네이버 NLP Challenge 후기네이버 NLP Challenge 후기
네이버 NLP Challenge 후기Jangwon Park
 
neural network 기초
neural network 기초neural network 기초
neural network 기초Dea-hwan Ki
 
AlexNet, VGG, GoogleNet, Resnet
AlexNet, VGG, GoogleNet, ResnetAlexNet, VGG, GoogleNet, Resnet
AlexNet, VGG, GoogleNet, ResnetJungwon Kim
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement LearningKiho Suh
 
"How does batch normalization help optimization" Paper Review
"How does batch normalization help optimization" Paper Review"How does batch normalization help optimization" Paper Review
"How does batch normalization help optimization" Paper ReviewLEE HOSEONG
 
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper ReviewLEE HOSEONG
 
PR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesPR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesSunghoon Joo
 

What's hot (11)

DL from scratch(1~3)
DL from scratch(1~3)DL from scratch(1~3)
DL from scratch(1~3)
 
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
 
"simple does it weakly supervised instance and semantic segmentation" Paper r...
"simple does it weakly supervised instance and semantic segmentation" Paper r..."simple does it weakly supervised instance and semantic segmentation" Paper r...
"simple does it weakly supervised instance and semantic segmentation" Paper r...
 
Lecture 4: Neural Networks I
Lecture 4: Neural Networks ILecture 4: Neural Networks I
Lecture 4: Neural Networks I
 
네이버 NLP Challenge 후기
네이버 NLP Challenge 후기네이버 NLP Challenge 후기
네이버 NLP Challenge 후기
 
neural network 기초
neural network 기초neural network 기초
neural network 기초
 
AlexNet, VGG, GoogleNet, Resnet
AlexNet, VGG, GoogleNet, ResnetAlexNet, VGG, GoogleNet, Resnet
AlexNet, VGG, GoogleNet, Resnet
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning
 
"How does batch normalization help optimization" Paper Review
"How does batch normalization help optimization" Paper Review"How does batch normalization help optimization" Paper Review
"How does batch normalization help optimization" Paper Review
 
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review
 
PR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesPR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of Samples
 

Similar to Imagination-Augmented Agents for Deep Reinforcement Learning

Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...
Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...
Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...태엽 김
 
Nationality recognition
Nationality recognitionNationality recognition
Nationality recognition준영 박
 
Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리SANG WON PARK
 
SQL performance and UDF
SQL performance and UDFSQL performance and UDF
SQL performance and UDFJAEGEUN YU
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝Jinwon Lee
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작DACON AI 데이콘
 
파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강Woong won Lee
 
[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networks[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networksKorea, Sejong University.
 
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...Gyubin Son
 
Introduction toDQN
Introduction toDQNIntroduction toDQN
Introduction toDQNCurt Park
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLDKim Junghoon
 
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)Curt Park
 
Image data augmentatiion
Image data augmentatiionImage data augmentatiion
Image data augmentatiionSubin An
 
03.12 cnn backpropagation
03.12 cnn backpropagation03.12 cnn backpropagation
03.12 cnn backpropagationDea-hwan Ki
 
파이콘 한국 2019 튜토리얼 - LRP (Part 2)
파이콘 한국 2019 튜토리얼 - LRP (Part 2)파이콘 한국 2019 튜토리얼 - LRP (Part 2)
파이콘 한국 2019 튜토리얼 - LRP (Part 2)XAIC
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용Youngjae Kim
 
한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서Euijin Jeong
 
딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기Myeongju Kim
 
임태현, MMO 서버 개발 포스트 모템, NDC2012
임태현, MMO 서버 개발 포스트 모템, NDC2012임태현, MMO 서버 개발 포스트 모템, NDC2012
임태현, MMO 서버 개발 포스트 모템, NDC2012devCAT Studio, NEXON
 

Similar to Imagination-Augmented Agents for Deep Reinforcement Learning (20)

Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...
Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...
Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...
 
Nationality recognition
Nationality recognitionNationality recognition
Nationality recognition
 
Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리
 
SQL performance and UDF
SQL performance and UDFSQL performance and UDF
SQL performance and UDF
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝
 
Review MLP Mixer
Review MLP MixerReview MLP Mixer
Review MLP Mixer
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
 
파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강
 
[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networks[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networks
 
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
 
Introduction toDQN
Introduction toDQNIntroduction toDQN
Introduction toDQN
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD
 
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
 
Image data augmentatiion
Image data augmentatiionImage data augmentatiion
Image data augmentatiion
 
03.12 cnn backpropagation
03.12 cnn backpropagation03.12 cnn backpropagation
03.12 cnn backpropagation
 
파이콘 한국 2019 튜토리얼 - LRP (Part 2)
파이콘 한국 2019 튜토리얼 - LRP (Part 2)파이콘 한국 2019 튜토리얼 - LRP (Part 2)
파이콘 한국 2019 튜토리얼 - LRP (Part 2)
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용
 
한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서
 
딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기
 
임태현, MMO 서버 개발 포스트 모템, NDC2012
임태현, MMO 서버 개발 포스트 모템, NDC2012임태현, MMO 서버 개발 포스트 모템, NDC2012
임태현, MMO 서버 개발 포스트 모템, NDC2012
 

Imagination-Augmented Agents for Deep Reinforcement Learning

  • 1. Imagination-Augmented Agents for Deep Reinforcement Learning Theophane Weber, Sebastien Racaniere, David P. Reichert, Lars Buesing et al. DeepMind Presented by Choi Seong Jae
  • 2. Introduction • Reinforcement Learning은 Markov Decision Process(MDP) Problem을 해결하기 위한 방법 • 𝑆: a set of states • 𝐴: a set of actions • 𝑇(𝑠’|𝑠, 𝑎): the transition function maps • 𝑅(𝑠, 𝑎, 𝑠’) -> r: the reinforcement function mapping state-action-successor state triples to a scalar return 𝜋∗(𝑠) ← 𝑎𝑟𝑔𝑚𝑎𝑥 𝑎 ∈ 𝐴 𝑄(𝑠, 𝑎) 𝑄(𝑠, 𝑎)= 𝔼 𝑡=0 ∞ 𝑟𝑡|𝑠, 𝑎
  • 3. Introduction • Model-Free RL • Raw observation을 직접적으로 values 혹은 actions에 mapping 하는 함수를 찾음 (Neural Network 이용) • 대량의 training data 필요, 같은 환경에서 novel task로 일반화 할 수 없음 • DQN, A3C, Policy Gradient ETC. • Model-Based RL • Transition matrix 𝑇, reward function 𝑅, state-action space인 𝑆, 𝐴를 알고 있다고 가정 • 𝑆, 𝐴가 커지면 계산 불가 • Model-Free RL의 단점을 해결 가능
  • 4. Overview: I2A • Model-Free Model에 Model-Based의 개념을 추가 • 미래의 상황을 미리 simulation 해 보고, simulation에서 나온 정보를 현재에 적용해 적절한 action을 선택 • https://www.youtube.com/watch?v=iUowxivGfv0
  • 6. I2A: Environment Model • ResNet으로 만들어졌고, Recurrent한 구성 • 𝑂𝑡 or 𝑂𝑡와 action을 Input으로 받고, Trajectory 𝑇 를 Output으로 함 • 𝑇는 next observation 𝑂𝑡+𝑖과 next reward 𝑟𝑡+𝑖를 포함 • Environment Model의 경우 Standard Model-Free Agent에서 생성된 데이터를 이용해 Pre-train 된 Model • Predicted 𝑂𝑡+𝑖와 𝑟𝑡+𝑖은 완벽하지 않지만, 𝑂𝑡+𝑖와 𝑟𝑡+𝑖 을 넘어서는 정보를 갖고 있다고 가정
  • 7. I2A: Rollout Encoder • 각 action 별로 Rollout Encoder가 존재 • Rollout Encoder의 각 Encoder는 LSTM cell 로 구성 • Predicted 𝑂𝑡+𝑖와 𝑟𝑡+𝑖이 완벽하지 않으므로 Encoder를 통해 추가적인 정보를 추출 • Aggregator에서 각 Rollout Encoder에서 나 온 Encoded values를 단순 concatenate
  • 8. Experiments • I2A가 다른 방법들 보다 월등한 성능을 보임 • Copy-Model IAA의 경우 standard와 유사한 성 능을 보임 • No reward IAA의 경우 3e9 steps를 학습할 경 우 I2A 만큼의 성능이 나옴 • Predicted rewards가 도움은 될 수 있지만, Predicted Observations만으로 충분히 Informative 함 • 5 이상의 rolling step에서는 더 이상의 성능 향 상은 없음
  • 9. Experiments • Noisy Environment Model에서 I2A의 성능 상 차이는 없음 • 그러나 poor model의 경우 3 rolling step과 5 rolling step에서 성능 차이를 확인할 수 없음 • Rollout Encoder가 Env. Model에서 불필요한 정보 를 Ignoring 하는 것을 알 수 있음 • Rollout Encoder-free agent의 경우 Env. Model의 정확도가 성능 상 큰 영향을 미침 • Accurate Env. Model에서는 standard와 유사한 성 능을 보임
  • 10. Experiments • AlphaGo에 쓰인 MCTS의 경우 최대 95%의 성능을 보임(Perfect Model) • 하지만 유사한 성능을 낼 때, computation cost가 18배 정도 차이 남 • 4 boxes 상태에서 학습을 하고, box 개수를 늘려보았으나, 여전히 4 boxes standard와 유사한 성능을 냄
  • 11. Conclusion • 단순 과거의 데이터만 이용해 현재 유용한 action을 취하는 것이 아닌, 미래의 상황을 추론하여 정보로 받아들 이고 성능을 향상시킴 • Model-Free RL에 Model-Based RL 개념을 추가 • 기존의 Model-Based Planning Method인 Monte Carlo Tree Search(MCTS)와 병합할 경우 낮은 computation cost로 동일한 성능을 확보 • 의문 • 실험에서 나온 Sokoban 환경의 경우, 하나의 action을 취했을 때 다음 상황은 항상 중요한 정보를 지니는데, 프레임 별로 진행되는 실시간 환경의 경우 다음 상황이 크게 의미 없는 상황일 수 있음. 이러한 환경에서는 어떠한 성능을 보이는지? • 본 논문에서는 Pre-trained Environment Model을 이용해, predicted observation과 reward를 얻어 여기서 정보를 추출했 지만, predicted가 아닌 시뮬레이션을 할 수 있는 환경이라면 좀 더 좋은 성능을 내지는 않을지?
  • 12. Appendix • Standard model-free baseline agent • For Sokoban: 3 layers CNN, kernel sizes 8x8, 4x4, 3x3, strides of 4, 2, 1 and number of output channels 32, 64, 64; following FC has 512 units • Rollout Encoder LSTM has 512(for Sokoban) hidden units. And all rollouts are concatenated into a single vector 𝑐𝑖𝑎 of length 2560(a rollout encoder per action).
  • 13. Appendix • Sokoban environment • Every time step, a penalty of -0.1 is applied to the agent • Whenever the agent pushes a box on target, it receives a reward of +1 • Whenever the agent pushes a box off target, it receives a penalty of -1 • Finishing the level gives the agent a reward of +10 and the level terminates.