More Related Content
Similar to neural architecture search with reinforcement learning (20)
More from Yamato OKAMOTO (20)
neural architecture search with reinforcement learning
- 3. 自己紹介 岡本大和(おかもとやまと)
2013 京都大学 情報学研究科 修士課程修了(美濃研究室所属)
画像処理やパターン認識の研究に着手
卒業後、オムロンに入社(京都企業!!)
R&D担当、機械学習・IoT・データ分析を扱う(バズワードばかり……)
twitter.com/RoadRoller_DESU
イラストレーターの友人が
描いてくれた似顔絵キャラ
(※お気に入り)
- 4. 今回紹介する論文
Neural Architecture Search
with Reinforcement Learning
ICLR ‘2017
Barret Zoph, Quoc V. Le (Google Brain)
https://arxiv.org/abs/1611.01578
https://www.youtube.com/watch?v=sROrvtXnT7Q
http://rll.berkeley.edu/deeprlcoursesp17/docs/quoc_barret.pdf
- 9. Child NetworkのAccuracy ‘R’ を最大化するように、
Controllerのパラメータ ‘θc’ を最適化する
提案手法
Neural Networkを生成するNeural Networkを提案
Controller
• RNN構造のNeural Network
• CNNパラメータを生成
(Filter Width & Height. Output Dimension. Stride.)
Child Network
• CNN構造のNeural Network
• Controllerの生成パラメータに基づいて複数構築される
- 10. 課題と工夫①
R が θc で微分不可のため最適勾配法が適用できない
強化学習の枠組みを適用
• 報酬:Child NetworkのAccuracy(R)
• 行動:T個のパラメータを1~Tの連続したAction(a1:T)とみなす
Child Networkの個数mだけActionが繰り返されたとみなす
• 方策:Controllerのパラメータθc
Policy Gradient Methodによって方策 θc を最適化
• 報酬の期待値を微分した値 ∇θc J(θc) が近似的に求まる
報酬が高いChild Networkほど、
生成される確率が高くなるようΘcを更新