ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
This document introduces the deep reinforcement learning model 'A3C' by Japanese.
Original literature is "Asynchronous Methods for Deep Reinforcement Learning" written by V. Mnih, et. al.
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
This document introduces the deep reinforcement learning model 'A3C' by Japanese.
Original literature is "Asynchronous Methods for Deep Reinforcement Learning" written by V. Mnih, et. al.
This slide introduces the model which is one of the deep Q network. Dueling Network is the successor model of DQN or DDQN. You can easily understand the architecture of Dueling Network.
13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
0. DQN以前: Neural Fitted Q Iteration
Riedmiller, Martin.
“Neural fitted Q iteration–first experiences with a data efficient neural reinforcement learning method”.
In: European Conference on Machine Learning. Springer, Berlin, Heidelberg, 2005. p. 317-328.
https://link.springer.com/chapter/10.1007/11564096_32
14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DQN以前:MLPを使った関数近似の課題
■ Q関数をニューラルネットワーク(MLP※1)で近似する試みがあった
⁃ ⾮線形なので、複雑な価値表現も獲得できる
⁃ 広⼤な状態空間に対しても使える
■ ⼀⽅、ニューラルネットを使った近似は様々な課題が指摘されていた※2
⁃ ある特定の (s,a) でQ関数を更新すると、重み全体が変わってしまうため、
別の(s,a)対の価値評価にも影響してしまう
⁃ 結果、個別の(s,a)に対してオンラインで訓練しても学習が安定しない
※1: 多層パーセプトロン(multi-layer perceptron)
※2: Boyan, Justin A., and Andrew W. Moore."Generalization in reinforcement learning: Safely approximating the value function.”
Advances in neural information processing systems. 1995.
http://papers.nips.cc/paper/1018-generalization-in-reinforcement-learning-safely-approximating-the-value-function.pdf
15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
MLPを使って学習を安定化させるための⼯夫
■ あるデータ点を更新する度に過去の経験も⼀緒に活⽤する
⁃ Experience Replay technique※1を参考
■ オンラインではなくオフラインでバッチ学習する
⁃ Fitted Q Iteration※2を参考
※1: Lin, Long-Ji. "Self-improving reactive agents based on reinforcement learning, planning and teaching."
Machine learning 8.3-4 (1992): 293-321.
※2: Ernst, Damien, Pierre Geurts, and Louis Wehenkel. "Tree-based batch mode reinforcement learning.”
Journal of Machine Learning Research 6.Apr (2005): 503-556.
Neural Fitted Q Iteration
16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Neural Fitted Q Iteration
1. 事前に様々な状態・⾏動・報酬を獲得し、⼤量の学習データを⽣成
2. MLPを構成し1. の⽣成データでバッチ学習
←学習データ⽣成
←s, u, c※1 から targetを作成
←inputは s, u (=a)
←⽣成した学習データでバッチ学習
※1 この問題設定では期待報酬rの最⼤化ではなく期待コストcの最⼩化を解いている点に注意
※ Riedmiller 2005より
17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Neural Fitted Q Iteration(実験)
■ 以下3タスクで実験を⾏い、学習が出来ていることを確認
1. The Pole Balancing (avoidance control task)
2. The Mountain Car (reaching a goal)
3. Cart-pole Regulator (regulator problem)
■ 評価⽅法
⁃ 初期状態をランダム変えながら、初めてterminal stateに到着した
学習エピソード数で評価※(⼩さいほどいい)
■ 学習上の⼯夫
⁃ 時間ステップごとに⼩さいコスト ctransを与え続けることで、
なるべく早くゴールを志向するようにする
⁃ ゴール付近の成功サンプルを意図的に増やすことで学習を効率化
(hint-to-goal-heuristic)
※ Pole Balancingのみ、300sec中どれだけ⻑くpoleを落とさなかったか、で評価
※ この論⽂では、各時間ステップの単位を”cycle”と呼んでいる
18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
実験例:The Mountain Car
■ ⾞をタイミングよく加速させゴールまで登らせるタスク
⁃ 状態は⾞の座標、⾏動は0.05sec毎に加速量 [-4, 4]の2種類
⁃ ⼊⼒は state 2次元 / action 1次元、出⼒はQ値
⁃ 隠れ層2層のMLP、活性化関数はsigmoid
⁃ 学習に使う各trajectoryの最⼤⻑は50cycles (≒2.5 sec)
※ 左図出典: M Alzantot., “Deep Reinforcement Learning Demysitifed (Episode 2) ̶ Policy Iteration, Value Iteration and Q-learning”
https://medium.com/@m.alzantot/deep-reinforcement-learning-demysitifed-episode-2-policy-iteration-value-iteration-and-q-978f9e89ddaa
Accessed: 2018-01-31 12:00
※ 右図はRiedmiller 2005より
Episode終了
(成功)
Episode終了
(失敗)
19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
1. DQNの登場: Deep Q Network
Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning."
Nature 518.7540 (2015): 529.
Mnih, Volodymyr, et al. "Playing atari with deep reinforcement learning."
arXiv preprint arXiv:1312.5602 (2013).
←Nature版DQN (本発表)
←初期DQN
87. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
この論⽂で扱えなかった関連話題
■ Value-basedなQ-learning familyのみを扱ったが、
TRPOのようなPolicy-basedな問題系での改良は扱っていない
■ Multi-stepも単純な前⽅観測アルゴリズム以外の⼿法を使えるかも
⁃ Optimality tightening※1、Eligibility traces、…
⁃ ⼀⽅で、時系列⾏動の扱いは⼀般に計算リソースを使いがちな上、
経験の保存・優先利⽤をどのように⾏うか問題になりやすい
■ Episodic Control※2のような認知科学的妥当性のあるデータ活⽤⽅法
■ NoisyNet以外にも、様々な探索⽅法がある
⁃ Bootstraped DQN※3、intrinsic motivation※4、
count-based exploration※5、…
※1 He, Frank S., et al. "Learning to play in a day: Faster deep reinforcement learning by optimality tightening."
arXiv preprint arXiv:1611.01606 (2016).
※2 Blundell, Charles, et al. "Model-free episodic control." arXiv preprint arXiv:1606.04460 (2016).
※3 Osband, Ian, et al. "Deep exploration via bootstrapped DQN." Advances in neural information processing systems. 2016.
※4 Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation."
Advances in neural information processing systems. 2016.
※5 Bellemare, Marc, et al. "Unifying count-based exploration and intrinsic motivation."
Advances in Neural Information Processing Systems. 2016.
88. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
この論⽂で扱えなかった関連話題
■ 分散学習
⁃ A3C※1、Gorila※2、Evolution Strategies※3
■ 階層型強化学習
⁃ h-DQN※4、Feudal Networks※5
■ 状態表現の効率化
⁃ feature control※6、supervised predictions※7、successor features※8
■ …
※1 Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International Conference on Machine Learning. 2016.
※2 Nair, Arun, et al. "Massively parallel methods for deep reinforcement learning." arXiv preprint arXiv:1507.04296 (2015).
※3 Salimans, Tim, et al. "Evolution strategies as a scalable alternative to reinforcement learning." arXiv preprint arXiv:1703.03864 (2017).
※4 Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation."
Advances in neural information processing systems. 2016.
※5 Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017).
※6 Jaderberg, Max, et al. "Reinforcement learning with unsupervised auxiliary tasks." arXiv preprint arXiv:1611.05397(2016).
※7 Dosovitskiy, Alexey, and Vladlen Koltun. "Learning to act by predicting the future." arXiv preprint arXiv:1611.01779 (2016).
※8 Kulkarni, Tejas D., et al. "Deep successor reinforcement learning." arXiv preprint arXiv:1606.02396 (2016).