注目したチュートリアル
9
• Deep ReinforcementLearning, Decision Making, and Control
Sergey Levine, Chelsea Finn (UC Berkeley)
https://sites.google.com/view/icml17deeprl
強化学習の基礎から最新の応用まで紹介
• Real World Interactive Learning
Alekh Agarwal, John Langford (Microsoft Research)
http://hunch.net/~rwil/
継続的学習の重要性とマルチ・アームド・バンディッドで紹介
経験損失最小化 “empirical riskminimization”
Understanding Black-box Predictions via Influence Functions
19
経験損失最小化の問題
・損失関数ℒ(𝒛, 𝜽)と学習データ𝒛 𝒕𝒆𝒔𝒕で求めた経験損失𝓘 𝒖𝒑,𝒍𝒐𝒔𝒔を最小化すること
で決定している。ただし、経験損失を最小化しても、期待損失が小さくなるとは限
らない。非凸性の問題。
局所最適化パラメータ 𝜽を利用する。 𝜽で再学習を行う。
i.e.)
𝝀: 𝒂 𝒅𝒂𝒎𝒑𝒊𝒏𝒈 𝒕𝒆𝒓𝒎
We checked the behavior of Iup,loss in a non-convergent, non-
convex setting by training a convolutional neural net-work for
500k iterations.5 The model had not converged and H˜θ was not
PD, so we added a damping term with λ = 0.01.
About Speaker
Towards ReinforcementLearning in the Real World
32
Raia Hadsell
• シニア・リサーチ・サイエンティスト(Deep Mind)
• 深層学習およびロボティクスの研究10年以上
• 多様体(manihold)学習、不変性学習を研究
• Yann LeCunのもとでPh.Dを取得
• Self-Supervised Deep Learningを研究
• Deep Mind(2014年〜)
• AIエジェントおよびロボティクスの継続的学習の研究(現在)
33.
深層強化学習が拡大するAIの可能性
Towards Reinforcement Learningin the Real World
33
• 自律的に学習を行うことが可能
• 複雑なタスクをこなすことが可能
• ATARI gamesなどでは人間のエキスパートを超えている
• Fintechや広告の意思決定において応用がはじまっている
深層強化学習は、現時点で非常に高い性能を持っている!
しかし、課題は多い= Deep Mindの取組み
34.
深層強化学習Deep Mindの8つの課題
Towards ReinforcementLearning in the Real World
34
FeUdal Networks for
Hierarchical RL,
2017
Overcoming
catastrophic
forgetting in NNs,
2016
Progressive Neural
Networks,
2016
Distral: Robust
Multitask RL,
2017
Learning to navigate
in complex
environments,
2017
RL with unsupervised
auxiliary tasks,
2017
Learning and transfer
of modulated
locomotor controllers,
2016
Emergence of
Locomotion
Behaviours
in Rich Environments,
2017
35.
“FeUdal Networks forHierarchical RL, 2017“
Towards Reinforcement Learning in the Real World
35
FeUdal Networks for
Hierarchical RL,
2017
Overcoming
catastrophic
forgetting in NNs,
2016
Progressive Neural
Networks,
2016
Distral: Robust
Multitask RL,
2017
Learning to navigate
in complex
environments,
2017
RL with unsupervised
auxiliary tasks,
2017
Learning and transfer
of modulated
locomotor controllers,
2016
Emergence of
Locomotion
Behaviours
in Rich Environments,
2017
36.
“FeUdal Networks forHierarchical RL, 2017“
Towards Reinforcement Learning in the Real World
36
背景:
• 現実世界では短期的報酬と長期的報酬のバランスを考慮しなければな
らない問題へ対処する必要がある。
提案:
• マネージャとワーカーによる階層的強化学習のフレームワーク
著者:
• Alexander Sasha Vezhnevets, Simon Osindero, Tom Schaul, Nicolas
Heess, Max Jaderberg, David Silver, Koray Kavukcuoglu
37.
“Overcoming catastrophic forgettingin NNs, 2016“
Towards Reinforcement Learning in the Real World
37
FeUdal Networks for
Hierarchical RL,
2017
Overcoming
catastrophic
forgetting in NNs,
2016
Progressive Neural
Networks,
2016
Distral: Robust
Multitask RL,
2017
Learning to navigate
in complex
environments,
2017
RL with unsupervised
auxiliary tasks,
2017
Learning and transfer
of modulated
locomotor controllers,
2016
Emergence of
Locomotion
Behaviours
in Rich Environments,
2017
38.
“Overcoming catastrophic forgettingin NNs, 2016“
Towards Reinforcement Learning in the Real World
38
背景:
• 現実世界では逐次的に発生する複数のタスクをこなす必要があるが、AIは一つのタ
スクを学習すると他のタスクに関する情報を破滅的忘却 “catastrophic forgetting”し
てしまう。
提案:
• Elastic Weight Consolidation(EWC)という手法で、以前のタスクで重要であった特定
の重みの学習を遅くし忘却を防ぐ。
著者:
• James Kirkpatrick, Razvan Pascanu, Neil Rabinowitz, Joel Veness, Guillaume Desjardins,
Andrei A. Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-Barwinska,
Demis Hassabis, Claudia Clopath, Dharshan Kumaran, Raia Hadsell
39.
“Progressive Neural Networks,2016“
Towards Reinforcement Learning in the Real World
39
FeUdal Networks for
Hierarchical RL,
2017
Overcoming
catastrophic
forgetting in NNs,
2016
Progressive Neural
Networks,
2016
Distral: Robust
Multitask RL,
2017
Learning to navigate
in complex
environments,
2017
RL with unsupervised
auxiliary tasks,
2017
Learning and transfer
of modulated
locomotor controllers,
2016
Emergence of
Locomotion
Behaviours
in Rich Environments,
2017
40.
“Progressive Neural Networks,2016“
Towards Reinforcement Learning in the Real World
40
背景:
• 現実世界では知識の積み重ねにより複雑な一連のタスクを処理する必要が
ある。
提案:
• 知識の転用を活用し、致命的な忘却を回避する。具体的にはプレトレーニン
グ・ネットワークを別途保持し、ファインチューニングで得た重みを足し合わせ
ネットワークを用意する。
著者:
• Andrei A. Rusu, Neil C. Rabinowitz, Guillaume Desjardins, Hubert Soyer, James
Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, Raia Hadsell
41.
“Distral: Robust MultitaskRL, 2017“
Towards Reinforcement Learning in the Real World
41
FeUdal Networks for
Hierarchical RL,
2017
Overcoming
catastrophic
forgetting in NNs,
2016
Progressive Neural
Networks,
2016
Distral: Robust
Multitask RL,
2017
Learning to navigate
in complex
environments,
2017
RL with unsupervised
auxiliary tasks,
2017
Learning and transfer
of modulated
locomotor controllers,
2016
Emergence of
Locomotion
Behaviours
in Rich Environments,
2017
42.
“Distral: Robust MultitaskRL, 2017“
Towards Reinforcement Learning in the Real World
42
背景:
• 現実世界から情報を潤沢に得ることが可能であった場合、AIは非効率的にすべての情報を
処理する深層学習ネットワークを個別に構成してしまう。さらに個別に構成されたネットワーク
間では勾配計算が干渉しあってパラメータの共有も不可能。
提案:
• Distral = Distill”蒸留”とTransfer Learning”転移学習”と呼ばれる複数のタスクの共同訓練の
ためのフレームワークを提案。具体的には、個別タスクに共通する挙動を蒸留モデルに抽出。
蒸留モデルが規範となり、転移学習を促進する。
著者:
• Yee Whye Teh, Victor Bapst, Wojciech Marian Czarnecki, John Quan, James Kirkpatrick, Raia Hadsell,
Nicolas Heess, Razvan Pascanu
43.
“Learning to navigatein complex environments, 2017“
Towards Reinforcement Learning in the Real World
43
FeUdal Networks for
Hierarchical RL,
2017
Overcoming
catastrophic
forgetting in NNs,
2016
Progressive Neural
Networks,
2016
Distral: Robust
Multitask RL,
2017
Learning to navigate
in complex
environments,
2017
RL with unsupervised
auxiliary tasks,
2017
Learning and transfer
of modulated
locomotor controllers,
2016
Emergence of
Locomotion
Behaviours
in Rich Environments,
2017
44.
“Learning to navigatein complex environments, 2017“
Towards Reinforcement Learning in the Real World
44
背景:
• 人間は動的に変化する状況下でも、環境を把握して目的を達成することができる。し
かしAIは、ゴール位置が頻繁に変わる迷路などでは、その変化を把握することが困
難となり目的を達成できない。
提案:
• 人間がマルチモーダルな知覚入力を利用するように、追加の補助タスクを利用する。
特に、迷路などでは補助深度予測やループ閉包分類タスクを利用する。
著者:
• Piotr Mirowski, Razvan Pascanu, Fabio Viola, Hubert Soyer, Andrew J. Ballard, Andrea
Banino, Misha Denil, Ross Goroshin, Laurent Sifre, Koray Kavukcuoglu, Dharshan Kumaran,
Raia Hadsell
45.
“RL with unsupervisedauxiliary tasks, 2017“
Towards Reinforcement Learning in the Real World
45
FeUdal Networks for
Hierarchical RL,
2017
Overcoming
catastrophic
forgetting in NNs,
2016
Progressive Neural
Networks,
2016
Distral: Robust
Multitask RL,
2017
Learning to navigate
in complex
environments,
2017
RL with unsupervised
auxiliary tasks,
2017
Learning and transfer
of modulated
locomotor controllers,
2016
Emergence of
Locomotion
Behaviours
in Rich Environments,
2017
46.
“RL with unsupervisedauxiliary tasks, 2017“
Towards Reinforcement Learning in the Real World
46
背景:
• 深層強化学習のエージェントは、累積報酬を直接最大化することで結果を達
成している。しかし、環境には多様な学習に使える情報が含まれている。
提案:
• 多くの疑似報酬関数を定義し、それらを同時に最大化するエージェントを提案。
著者:
• Max Jaderberg, Volodymyr Mnih, Wojciech Marian Czarnecki, Tom Schaul, Joel Z
Leibo, David Silver, Koray Kavukcuoglu
47.
“Learning and transferof modulated locomotor controllers, 2016“
Towards Reinforcement Learning in the Real World
47
FeUdal Networks for
Hierarchical RL,
2017
Overcoming
catastrophic
forgetting in NNs,
2016
Progressive Neural
Networks,
2016
Distral: Robust
Multitask RL,
2017
Learning to navigate
in complex
environments,
2017
RL with unsupervised
auxiliary tasks,
2017
Learning and transfer
of modulated
locomotor controllers,
2016
Emergence of
Locomotion
Behaviours
in Rich Environments,
2017
48.
“Learning and transferof modulated locomotor controllers, 2016“
Towards Reinforcement Learning in the Real World
48
背景:
• 環境からすべての情報を得て学習を行う場合、膨大な探索が必要となる。
提案:
• 移動作業タスクにおいて、事前に簡単なタスク(センサーモーター・プリミティ
ブ)を学習させる。この事前学習されたモジュールにより、疎な報酬から学ぶ
ために必要な効果的な探索が可能となる。
https://www.youtube.com/watch?v=sboPYvhpraQ&feature=youtu.be
著者:
• Nicolas Heess, Greg Wayne, Yuval Tassa, Timothy Lillicrap, Martin Riedmiller, David
Silver
49.
“Emergence of LocomotionBehaviours
in Rich Environments,2017“
Towards Reinforcement Learning in the Real World
49
FeUdal Networks for
Hierarchical RL,
2017
Overcoming
catastrophic
forgetting in NNs,
2016
Progressive Neural
Networks,
2016
Distral: Robust
Multitask RL,
2017
Learning to navigate
in complex
environments,
2017
RL with unsupervised
auxiliary tasks,
2017
Learning and transfer
of modulated
locomotor controllers,
2016
Emergence of
Locomotion
Behaviours
in Rich Environments,
2017
50.
“Emergence of LocomotionBehaviours
in Rich Environments,2017“
Towards Reinforcement Learning in the Real World
50
背景:
• 強化学習は、複雑な動作を簡単な信号報酬から直接学習することになっているが現
実の問題への適応時には報酬関数を手作業で設計している。
提案:
• 豊かな環境が複雑な行動の学習を促進するためにどのように役立つのかを探索す
る。具体的には、さまざまな環境の中でエージェントを訓練し、これにより、一連のタ
スクを効率的に実行する堅牢な振る舞いの出現を促す。
https://www.youtube.com/watch?v=hx_bgoTF7bs&feature=youtu.be
著者:
• Nicolas Heess, Dhruva TB, Srinivasan Sriram, Jay Lemmon, Josh Merel, Greg Wayne, Yuval
Tassa, Tom Erez, Ziyu Wang, S. M. Ali Eslami, Martin Riedmiller, David Silver