I will introduce a paper about I2A architecture made by deepmind. That is about Imagination-Augmented Agents for Deep Reinforcement Learning
This slide were presented at Deep Learning Study group in DAVIAN LAB.
Paper link: https://arxiv.org/abs/1707.06203
Imagination-Augmented Agents for Deep Reinforcement Learning
1. Imagination-Augmented Agents
for Deep Reinforcement Learning
Theophane Weber, Sebastien Racaniere, David P. Reichert, Lars Buesing et al.
DeepMind
Presented by Choi Seong Jae
2. Introduction
• Reinforcement Learning은 Markov Decision Process(MDP) Problem을
해결하기 위한 방법
• 𝑆: a set of states
• 𝐴: a set of actions
• 𝑇(𝑠’|𝑠, 𝑎): the transition function maps
• 𝑅(𝑠, 𝑎, 𝑠’) -> r: the reinforcement function mapping state-action-successor state
triples to a scalar return
𝜋∗(𝑠) ← 𝑎𝑟𝑔𝑚𝑎𝑥
𝑎 ∈ 𝐴
𝑄(𝑠, 𝑎)
𝑄(𝑠, 𝑎)= 𝔼 𝑡=0
∞
𝑟𝑡|𝑠, 𝑎
3. Introduction
• Model-Free RL
• Raw observation을 직접적으로 values 혹은 actions에 mapping 하는 함수를 찾음
(Neural Network 이용)
• 대량의 training data 필요, 같은 환경에서 novel task로 일반화 할 수 없음
• DQN, A3C, Policy Gradient ETC.
• Model-Based RL
• Transition matrix 𝑇, reward function 𝑅, state-action space인 𝑆, 𝐴를 알고 있다고 가정
• 𝑆, 𝐴가 커지면 계산 불가
• Model-Free RL의 단점을 해결 가능
4. Overview: I2A
• Model-Free Model에 Model-Based의 개념을 추가
• 미래의 상황을 미리 simulation 해 보고, simulation에서 나온
정보를 현재에 적용해 적절한 action을 선택
• https://www.youtube.com/watch?v=iUowxivGfv0
6. I2A: Environment Model
• ResNet으로 만들어졌고, Recurrent한 구성
• 𝑂𝑡 or 𝑂𝑡와 action을 Input으로 받고, Trajectory 𝑇
를 Output으로 함
• 𝑇는 next observation 𝑂𝑡+𝑖과 next reward 𝑟𝑡+𝑖를 포함
• Environment Model의 경우 Standard Model-Free
Agent에서 생성된 데이터를 이용해 Pre-train 된
Model
• Predicted 𝑂𝑡+𝑖와 𝑟𝑡+𝑖은 완벽하지 않지만, 𝑂𝑡+𝑖와
𝑟𝑡+𝑖 을 넘어서는 정보를 갖고 있다고 가정
7. I2A: Rollout Encoder
• 각 action 별로 Rollout Encoder가 존재
• Rollout Encoder의 각 Encoder는 LSTM cell
로 구성
• Predicted 𝑂𝑡+𝑖와 𝑟𝑡+𝑖이 완벽하지 않으므로
Encoder를 통해 추가적인 정보를 추출
• Aggregator에서 각 Rollout Encoder에서 나
온 Encoded values를 단순 concatenate
8. Experiments
• I2A가 다른 방법들 보다 월등한 성능을 보임
• Copy-Model IAA의 경우 standard와 유사한 성
능을 보임
• No reward IAA의 경우 3e9 steps를 학습할 경
우 I2A 만큼의 성능이 나옴
• Predicted rewards가 도움은 될 수 있지만, Predicted
Observations만으로 충분히 Informative 함
• 5 이상의 rolling step에서는 더 이상의 성능 향
상은 없음
9. Experiments
• Noisy Environment Model에서 I2A의 성능
상 차이는 없음
• 그러나 poor model의 경우 3 rolling step과 5
rolling step에서 성능 차이를 확인할 수 없음
• Rollout Encoder가 Env. Model에서 불필요한 정보
를 Ignoring 하는 것을 알 수 있음
• Rollout Encoder-free agent의 경우 Env.
Model의 정확도가 성능 상 큰 영향을 미침
• Accurate Env. Model에서는 standard와 유사한 성
능을 보임
10. Experiments
• AlphaGo에 쓰인 MCTS의 경우 최대 95%의
성능을 보임(Perfect Model)
• 하지만 유사한 성능을 낼 때, computation
cost가 18배 정도 차이 남
• 4 boxes 상태에서 학습을 하고, box 개수를
늘려보았으나, 여전히 4 boxes standard와
유사한 성능을 냄
11. Conclusion
• 단순 과거의 데이터만 이용해 현재 유용한 action을 취하는 것이 아닌, 미래의 상황을 추론하여 정보로 받아들
이고 성능을 향상시킴
• Model-Free RL에 Model-Based RL 개념을 추가
• 기존의 Model-Based Planning Method인 Monte Carlo Tree Search(MCTS)와 병합할 경우 낮은 computation
cost로 동일한 성능을 확보
• 의문
• 실험에서 나온 Sokoban 환경의 경우, 하나의 action을 취했을 때 다음 상황은 항상 중요한 정보를 지니는데, 프레임 별로
진행되는 실시간 환경의 경우 다음 상황이 크게 의미 없는 상황일 수 있음. 이러한 환경에서는 어떠한 성능을 보이는지?
• 본 논문에서는 Pre-trained Environment Model을 이용해, predicted observation과 reward를 얻어 여기서 정보를 추출했
지만, predicted가 아닌 시뮬레이션을 할 수 있는 환경이라면 좀 더 좋은 성능을 내지는 않을지?
12. Appendix
• Standard model-free baseline agent
• For Sokoban: 3 layers CNN, kernel sizes 8x8, 4x4, 3x3, strides of 4, 2, 1 and
number of output channels 32, 64, 64; following FC has 512 units
• Rollout Encoder LSTM has 512(for Sokoban) hidden units.
And all rollouts are concatenated into a single vector 𝑐𝑖𝑎 of
length 2560(a rollout encoder per action).
13. Appendix
• Sokoban environment
• Every time step, a penalty of -0.1 is applied to the agent
• Whenever the agent pushes a box on target, it receives a reward of +1
• Whenever the agent pushes a box off target, it receives a penalty of -1
• Finishing the level gives the agent a reward of +10 and the level terminates.