Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2

35,965 views

Published on

動画: https://www.youtube.com/watch?v=cBog5o9ebcQ 全脳アーキテクチャ若手の会 ( http://wbawakate.jp/ ) カジュアルトーク#2 ( http://wbawakate.jp/posts/events/12th/ ) での発表資料です.

Published in: Technology
  • Be the first to comment

Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2

  1. 1. 全脳アーキテクチャ若若⼿手の会  カジュアルトーク#2  (2016.2.7) Convolutional  Neural  Networks  のトレンド 全脳アーキテクチャ若若⼿手の会 法政⼤大学⼤大学院  理理⼯工学研究科  修⼠士課程 島⽥田  ⼤大樹
  2. 2. ⾃自⼰己紹介 島⽥田  ⼤大樹  (SHIMADA  Daiki) @sheema_̲sheema  (Twitter) •  法政⼤大学⼤大学院  理理⼯工学研究科  M1 •  画像解析による授業受講者の態度度推定 •  深層学習関連⼿手法の提案 •  全脳アーキテクチャ若若⼿手の会  副代表 •  会全体の運営  (運営メンバー⼤大募集中!!) •  2014年年第2回勉強会  発表者 1
  3. 3. 今⽇日話すこと l  CNN:  画像分野における深層学習⼿手法のスタンダード l  CNN系⽂文献  26  本ノック  !! l  いま何ができるのか? どんな⽅方向で研究がされているか?  を知る l  中⾝身の詳細については  参照している論論⽂文を l  ⼀一部CNNが⽤用いられていない研究も紹介します Convolutional  Neural  Networks  (CNN)  の研究動向 2
  4. 4. ⽬目次 全脳アーキテクチャ若若⼿手の会  カジュアルトーク#2 Convolutional  Neural  Networks のトレンド 1.  CNNアーキテクチャの変遷  /  最適化⼿手法 2.  特徴量量の解析  /  可視化 3.  物体検出・領領域分割 4.  画像⽣生成・超解像 5.  3Dタスクへ 6.  映像への挑戦 7.  より  “⼈人間らしい”  機械知覚へ 8.  マルチモーダル・アプリケーション 9.  CNNと強化学習 10.  Whatʼ’s  Next  ?  –ポスト  ImageNet  ... 3
  5. 5. ⽬目次 全脳アーキテクチャ若若⼿手の会  カジュアルトーク#2 Convolutional  Neural  Networks のトレンド 1.  CNNアーキテクチャの変遷  /  最適化⼿手法 2.  特徴量量の解析  /  可視化 3.  物体検出・領領域分割 4.  画像⽣生成・超解像 5.  3Dタスクへ 6.  映像への挑戦 7.  より  “⼈人間らしい”  機械知覚へ 8.  マルチモーダル・アプリケーション 9.  CNNと強化学習 10.  Whatʼ’s  Next  ?  –ポスト  ImageNet  ... 4
  6. 6. CNNのアーキテクチャの変遷  –畳み込み型ネットの発⾒見見 l  局所的な結合というアイディア l  2種類(特徴抽出と情報集約)の処理理を繰り返す Neocognitron  (1980)  [1] 5 [1]  K.  Fukushima.  Neocognitron:  A  self-‐‑‒organizing  neural  network  model  for  a  mechanism  of   pattern  recognition  unaffected  by  shift  in  position.  Biological  Cybernetics  36,  1980. l  畳み込みとプーリング(サブサンプリング)の形に l  Back  Propagation(BP)  によって学習 LeNet  (1998)  [2] [2]  Y  LeCun,  L  Bottou,  Y  Bengio,  P  Haffner.  Gradient-‐‑‒based  learning  applied  to  document   recognition.  Proceedings  of  the  IEEE  86,  1998.
  7. 7. CNNのアーキテクチャの変遷  –プーリング,活性化関数,正則化 l  ⾮非CNN系画像認識識のアイディアを導⼊入 Ave./Max  Pooling,  Local  Contrast  Normalization  (2009)  [3] 6 [3]  K.  Jarrett,  K.  Kavukcuoglu,  M.  Ranzato,  Y.  LeCun.  What  is  the  best  multi-‐‑‒stage  architecture  for   object  recognition?.  CVPR,  2009. l  活性化関数を単純に ReLU  (2011)  [4] [4]    X.  Glorot,  A.  Bordes,  Y.  Bengio.  Deep  Sparse  Rectifier  Neural  Networks.  AISTATS  11,  2011. l  過学習を防ぐための正則化技術の導⼊入 Dropout  (2012)  [5] [5]    G.  E.  Hinton,  N.  Srivastava,  A.  Krizhevsky,  I.  Sutskever,  R.  R.  Salakhutdinov.  Improving  neural   networks  by  preventing  co-‐‑‒adaptation  of  feature  detectors.  arXiv:  1207.0580,  2012.
  8. 8. CNNのアーキテクチャの変遷  –畳み込みの多層化と複雑化 l  ⼤大規模⼀一般物体認識識での成功 l  Data  Augmentationとこれまでの要素技術の結集  (8層) AlexNet  (2012)  [6] 7 [6]  A.  Krizhevsky,  I.  Sutskever,  G.  E.  Hinton.  ImageNet  Classification  with  Deep  Convolutional   Neural  Networks.  NIPS,  2012. l  畳み込み層に⾮非線形性を導⼊入 l  全結合部を使わないという提案  (global  ave.  pooling) Network  in  Network,  global  ave.  pooling  (2013)  [7] [7]  M.  Lin,  Q.  Chen,  S.  Yan.  Network  In  Network.  arXiv:  1312.4400,  2013.
  9. 9. CNNのアーキテクチャの変遷  –畳み込みの多層化と複雑化 l  ⼀一般物体認識識⽤用で19層のアーキテクチャへ l  ⼩小さい畳み込みサイズ(3x3)を多段にした VGG-‐‑‒Net  (2014)  [8] 8 [8]  K.  Simonyan,  A.  Zisserman.  Very  Deep  Convolutional  Networks  for  Large-‐‑‒Scale  Visual   Recognition.  arXiv:  1409.1556,  2014. l   22層のアーキテクチャ l  auxiliary  classifiers  ,  Inception  module GoogLeNet  /  Inception  (2014  ~∼  2015)  [9,  10] [9]  C.  Szegedy,  W.  Liu,  Y.  Jia,  P.  Sermanet,  S.  Reed,  D.  Anguelov,  D.  Erhan,  V.  Vanhoucke,  A.   Rabinovich.  Going  deeper  with  convolutions.  arXiv:  1409.4842,  2014. [10]  C.  Szegedy,  V.  Vanhoucke,  S.  Ioffe,  J.  Shlens,  Z.  Wojna.  Rethinking  the  Inception  Architecture   for  Computer  Vision.  arXiv:  1512.00567,  2015.
  10. 10. CNNのアーキテクチャの変遷  –アーキテクチャの多様化 l  様々なサイズの⼊入⼒力力画像を許容 l  CNN⼊入⼒力力時のリサイズを回避 SPP-‐‑‒Net  (2014)  [11] 9 [11]  K.  He,  X.  Zhang,  S.  Ren,  J.  Sun.  Spatial  Pyramid  Pooling  in  Deep  Convolutional  Networks  for   Visual  Recognition.  arXiv:  1406.4729,  2014. l  プーリングをストライド2の畳み込みに置き換える l  guided  BPによる超⾼高次層の特徴可視化 All  Convolutional  Net,  guided  BP  (2014)  [12] [12]  J.  T.  Springenberg,  A.  Dosovitskiy,  T.  Brox,  M.  Riedmiller.  Striving  for  Simplicity:  The  All   Convolutional  Net.  arXiv:  1412.6806,  2014.
  11. 11. CNNのアーキテクチャの変遷  –学習⽅方法の多様化 l  Data  Augmentation  を利利⽤用して教師なし表現学習   Exemplar  CNN  (2014)  [13] 10 [13]  A.  Dosovitskiy,  P.  Fischer,  J.  T.  Springenberg,  M.  Riedmiller,  T.  Brox.  Discriminative  Unsupervised   Feature  Learning  with  Exemplar  Convolutional  Neural  Networks.  arXiv:  1406.6909,  2014. l  ユークリッド空間上でCNN上の特徴同⼠士が, 同クラスなら近くなるように,  別クラスなら遠くなるように Triplet  Network  (2014)  [14] [14]  E.  Hoffer,  N.  Ailon.  Deep  metric  learning  using  Triplet  network.  arXiv:  1412.6622,  2014.
  12. 12. CNNのアーキテクチャの変遷  –超多層アーキテクチャへ l  パラメータ付き正規化処理理 l  複雑なアーキテクチャをスクラッチで学習させる必須技術 Batch  Normalization  (2015)  [15] 11 [15]  S.  Ioffe,  C.  Szegedy.  Batch  Normalization:  Accelerating  Deep  Network  Training  by  Reducing   Internal  Covariate  Shift.  arXiv:  1502.03167,  2015. l   152層からなる超多層アーキテクチャ l  途中の特徴マップを何層か先にバイパスしてやる Residual  Network;  ResNet  (2015)  [16] [16]  K.  He,  X.  Zhang,  S.  Ren,  J.  Sun.  Deep  Residual  Learning  for  Image  Recognition.  arXiv:   1512.03385,  2015.
  13. 13. 確率率率的勾配降降下法における学習率率率調整法 AdaGrad  [17] RMSProp  [18] AdaDelta  [19] Adam  [20] 12 [17]  J.  Duchi,  E.  Hazan,  Y.  Singer.    Adaptive  Subgradient  Methods  for  Online  Learning  and   Stochastic  Optimization.  Journal  of  Machine  Learning  Research  12  ,2011. l  ⼀一概にどれが最も良良いとは⾔言えない  (AdaGrad以外は⽐比較的優秀…?) l  データセットや問題によって,適切切なハイパーパラメータ が異異なってくる [18]  T.  Tieleman,  G.  Hinton.  Divide  the  gradient  by  a  run-‐‑‒  ning  average  of  its  recent  magnitude.   COURSERA:  Neural  Networks  for  Machine  Learning  4,  2012. [19]  M.  D.  Zeiler.  ADADELTA:  An  Adaptive  Learning  Rate  Method.  arXiv:  1212.5701,  2012. [20]  D.  Kingma,  J.  Ba.    Adam:  A  Method  for  Stochastic  Optimization.  arXiv:  1412.6980,  2014.
  14. 14. ⽬目次 全脳アーキテクチャ若若⼿手の会  カジュアルトーク#2 Convolutional  Neural  Networks のトレンド 1.  CNNアーキテクチャの変遷  /  最適化⼿手法 2.  特徴量量の解析  /  可視化 3.  物体検出・領領域分割 4.  画像⽣生成・超解像 5.  3Dタスクへ 6.  映像への挑戦 7.  より  “⼈人間らしい”  機械知覚へ 8.  マルチモーダル・アプリケーション 9.  CNNと強化学習 10.  Whatʼ’s  Next  ?  –ポスト  ImageNet  ... 13
  15. 15. CNNの特徴量量解析  /  可視化 l  DeconvolutionとUnpoolingで特徴マップを⼊入⼒力力空間へ Deconvnet  for  visualizing 14 [21]  M.D.  Zeiler,  and  R.  Fergus.  Visualizing  and  understanding  convolutional  networks.   arXiv,:  1311.2901,  2013.
  16. 16. CNNの特徴量量解析  /  可視化 l  正則化⼿手法の導⼊入でより綺麗麗に再構成できるように ⼊入⼒力力画像の最適化 15  [22]  A.  Mahendran,  A.  Vedaldi.  Understanding  Deep  Image  Representations  by  Inverting  Them.   arXiv:  1412.0035,  2014.
  17. 17. CNNの特徴量量解析  /  可視化 l  ⼈人間からすると違いは分からないが,CNNは間違える l  そういったものはAdversarial  exampleと呼ばれる CNNを  “だます” 16 [24]  I.  J.  Goodfellow,  J.  Shlens,  C.  Szegedy.  Explaining  and  Harnessing  Adversarial  Examples.   arXiv:  1412.6572,  2014. ostrich  !! ostrich  !! [23]  C.  Szegedy,  W.  Zaremba,  I.  Sutskever,  J.  Bruna,  D.  Erhan,  I.  J.  Goodfellow,  R.  Fergus.  Intriguing   properties  of  neural  networks.  arXiv:  1312.6199,  2013.
  18. 18. CNNの特徴量量解析  /  可視化 l  ⾼高い確信度度で分類する意味不不明画像も作れる CNNを  “だます” 17 [25]  A.  Nguyen,  J.  Yosinski,  J.  Clune.  Deep  Neural  Networks  are  Easily  Fooled:  High  Confidence   Predictions  for  Unrecognizable  Images.  arXiv:  1412.1897,  2014.
  19. 19. ⽬目次 全脳アーキテクチャ若若⼿手の会  カジュアルトーク#2 Convolutional  Neural  Networks のトレンド 1.  CNNアーキテクチャの変遷  /  最適化⼿手法 2.  特徴量量の解析  /  可視化 3.  物体検出・領領域分割 4.  画像⽣生成・超解像 5.  3Dタスクへ 6.  映像への挑戦 7.  より  “⼈人間らしい”  機械知覚へ 8.  マルチモーダル・アプリケーション 9.  CNNと強化学習 10.  Whatʼ’s  Next  ?  –ポスト  ImageNet  ... 18
  20. 20. 物体検出 l  従来のCVテクニックで取った物体領領域候補をCNNに投げる R-‐‑‒CNN  (2013) 19 [26]  R.  Girshick,  J.  Donahue,  T.  Darrell,  J.  Malik.  Rich  feature  hierarchies  for  accurate  object  detection   and  semantic  segmentation.  arXiv:1311.2524,  2013.
  21. 21. 物体検出 l  多段だった学習を1本に  (分類と矩形回帰を同時に解く) l  CNNの特徴マップ上でROIを切切り出す  (ROI  Pooling) l  物体候補領領域⾃自体はCVテクニックで取り出す必要がある Fast  R-‐‑‒CNN  (2015/4) 20 [27]  R.  Girshick.  Fast  R-‐‑‒CNN.  arXiv:1504.08083,  2015.
  22. 22. 物体検出 l  物体候補領領域の抽出もCNNでやる  (Region  Proposal  Net) Faster  R-‐‑‒CNN  (2015/6) 21 [28]  S.  Ren,  K.  He,  R.  Girshick,  J.  Sun.  Faster  R-‐‑‒CNN:   Towards  Real-‐‑‒Time  Object  Detection  with  Region  Proposal   Networks.  arXiv:1506.01497,  2015.
  23. 23. セグメンテーション l  CNNにおける全結合部を畳み込みに置き換える l  Deconvolutionでアップサンプリング Fully  Convolutional  Networks  (FCN)   22 [29]  K.  Simonyan,  A.  Vedaldi,  A.  Zisserman.  Deep  Inside  Convolutional  Networks:  Visualising   Image  Classification  Models  and  Saliency  Maps.  arXiv:  1312.6034,  2013.
  24. 24. セグメンテーション l  Poolingで選択された場所を覚えておいて,アップサンプル, ⽐比較的⾼高速にセグメンテーション出来る(らしい) SegNet 23 [30]  V.  Badrinarayanan,  A.   Handa,  R.  Cipolla.  SegNet:   A  Deep  Convolutional   Encoder-‐‑‒Decoder   Architecture  for  Robust   Semantic  Pixel-‐‑‒Wise   Labelling.  arXiv:   1505.07293,  2015.
  25. 25. セグメンテーション l  セグメンテーション⼿手法に使われていたCRFとの合わせ技 l  CRFにおける平均場近似の処理理をRNNと解釈(CRF-‐‑‒RNN), CNNとCRFを同時に学習 CNN  +  条件付き確率率率場(CRF) 24 [31]  S.  Zheng,  S.  Jayasumana,  B.  R.  Paredes,  V.  Vineet,  Z.  Su,  D.  Du,  C.  Huang,  P.  H.  S.   Torr.  Conditional  Random  Fields  as  Recurrent  Neural  Networks.  arXiv:  1502.03240,  2015.
  26. 26. セグメンテーション l  セグメンテーション  /  物体検出のための領領域候補抽出 l  中央の物体の”セグメント”と”物体の有無”をそれぞれ学習 Deep  Mask 25 [32]  P.  O.  Pinheiro,  R.  Collobert,  P.  Dollar.    Learning  to  Segment  Object  Candidates.  arXiv:  1506.06204,   2015.
  27. 27. 顔認識識 l  3次元モデルで顔領領域をアライメントして,  CNNで識識別 l  ほぼ⼈人間と同等の顔認識識性能 Deep  Face 26 [33]  Y.  Taigman,  M.  Yang,  M.  A.  Ranzato  and  L.  Wolf.  DeepFace:  Closing  the  Gap  to  Human-‐‑‒Level   Performance  in  Face  Verification.  CVPR,  2014.
  28. 28. 注視点的アイディア l  オブジェクトへの変形操作を学習させる Spatial  Transformer  Networks 27 [34]  M.  Jaderberg,  K.  Simonyan,  A.  Zisserman,  K.  Kavukcuoglu.  Spatial  Transformer  Networks.  arXiv:   1506.02025,  2015.
  29. 29. ⽬目次 全脳アーキテクチャ若若⼿手の会  カジュアルトーク#2 Convolutional  Neural  Networks のトレンド 1.  CNNアーキテクチャの変遷  /  最適化⼿手法 2.  特徴量量の解析  /  可視化 3.  物体検出・領領域分割 4.  画像⽣生成・超解像 5.  3Dタスクへ 6.  映像への挑戦 7.  より  “⼈人間らしい”  機械知覚へ 8.  マルチモーダル・アプリケーション 9.  CNNと強化学習 10.  Whatʼ’s  Next  ?  –ポスト  ImageNet  ... 28
  30. 30. 画像⽣生成 l  CNNが”なんとなく⾒見見えているもの”を強調する Deep  Dream 29 [36]  K.  Simonyan,  A.  Vedaldi,  A.  Zisserman.  Deep  Inside   Convolutional  Networks:  Visualising  Image  Classification   Models  and  Saliency  Maps.  arXiv:  1312.6034,  2013. [35]  Inceptionism:  Going  Deeper  into  Neural  Networks.   http://googleresearch.blogspot.ch/2015/06/inceptionism-‐‑‒going-‐‑‒ deeper-‐‑‒into-‐‑‒neural.html
  31. 31. 画像⽣生成 l  3Dのイスモデルを学習させ, 物体のタイプや視点情報から画像を⽣生成できるように. モーフィング 30 [37]  A.  Dosovitskiy,  J.  T.  Springenberg,  M.  Tatarchenko,  T.  Brox.  Learning  to   Generate  Chairs,  Tables  and  Cars  with  Convolutional  Networks.   arXiv:  1411.5928,  2014.
  32. 32. 画像⽣生成 l  元画像のCNN表現とスタイル⾏行行列列による,⼊入⼒力力最適化 画⾵風変換 31 [38]  L.  A.  Gatys,  A.  S.  Ecker,  M.  Bethge.  A  Neural  Algorithm   of  Artistic  Style.  arXiv:  1508.06576,  2015. 1層⽬目の特徴で⽣生成→ 5層⽬目の特徴で⽣生成→
  33. 33. 画像⽣生成 l  CNNとMRFを組み合わせたモデルによる画⾵風変換 画⾵風変換 32 [39]  C.  Li,  M.  Wand.  Combining  Markov  Random  Fields  and  Convolutional  Neural   Networks  for  Image  Synthesis.  arXiv:1601.04589,  2016.
  34. 34. 画像⽣生成 l  Adversarial  Networksで ⾼高画質な画像を作る   DCGANによる画像⽣生成とベクトル演算性 33 [40]  A.  Radford,  L.  Metz,  S.  Chintala.  Unsupervised  Representation  Learning  with  Deep   Convolutional  Generative  Adversarial  Networks.  arXiv:1511.06434,  2015.
  35. 35. 超解像 l  waifu2x[42]という名前のソフトウェアも登場した   Super-‐‑‒Resolution  CNN  (SRCNN) 34 [41]  C.  Dong,  C.  C.  Loy,  K.  He,  X.  Tang.  Image  Super-‐‑‒Resolution  Using  Deep   Convolutional  Networks.  arXiv:1501.00092,  2015. [42]  waifu2x.  http://waifu2x.udp.jp/index.ja.html  
  36. 36. 超解像 l  CNNでパッチ内の”motion  kernel”を推定 MRFで画像全体のモーションブラーを推定する Deblurring  (モーションブラー除去) 35 [43]  J.  Sun,  W.  Cao,  Z.  Xu,  J.  Ponce.  Learning  a  Convolutional  Neural  Network  for  Non-‐‑‒ uniform  Motion  Blur  Removal.  arXiv:1503.00593,  2015.
  37. 37. ⾃自動彩⾊色 l  “hypercolumns”  [45]  のアイディアを上⼿手く活⽤用 Automatic  Colorization  CNN 36 [44]  Automatic  Colorization,  http://tinyclouds.org/colorize/ [45]  B.  Hariharan,  P.  Arbeláez,  R.  Girshick,  J.  Malik.  Hypercolumns  for  Object   Segmentation  and  Fine-‐‑‒grained  Localization.  arXiv:  1411.5752,  2014. original CNN human(Reddit)
  38. 38. ⽬目次 全脳アーキテクチャ若若⼿手の会  カジュアルトーク#2 Convolutional  Neural  Networks のトレンド 1.  CNNアーキテクチャの変遷  /  最適化⼿手法 2.  特徴量量の解析  /  可視化 3.  物体検出・領領域分割 4.  画像⽣生成・超解像 5.  3Dタスクへ 6.  映像への挑戦 7.  より  “⼈人間らしい”  機械知覚へ 8.  マルチモーダル・アプリケーション 9.  CNNと強化学習 10.  Whatʼ’s  Next  ?  –ポスト  ImageNet  ... 37
  39. 39. 3D  タスクへ l  Selection  Tower  (depth推定)と, Color  Tower  (⾊色推定)  の2本のネットワークで視点補間 Deep  Stereo 38 [46]  J.  Flynn,  I.  Neulander,  J.  Philbin,  N.  Snavely.  DeepStereo:  Learning  to   Predict  New  Views  from  the  World's  Imagery.  arXiv:1506.06825,  2015.
  40. 40. 3D  タスクへ Deep  Stereo 39 [46]  J.  Flynn,  I.  Neulander,  J.  Philbin,  N.  Snavely.  DeepStereo:  Learning  to   Predict  New  Views  from  the  World's  Imagery.  arXiv:1506.06825,  2015. [47]  DeepStereo:  Learning  to  Predict  New  Views  from  the  Worldʼ’s  Imagery  -‐‑‒   YouTube,  https://www.youtube.com/watch?v=cizgVZ8rjKA
  41. 41. 3D  タスクへ l  両画像のパッチ類似度度をCNN特徴量量から計算 ステレオマッチング 40 [48]  J.  Žbontar,  Y.  LeCun.  Stereo  Matching  by  Training  a  Convolutional  Neural   Network  to  Compare  Image  Patches.  arXiv:  1510.05970,  2015.
  42. 42. 3D  タスクへ l  マルチスケールなCNNで depth,  surface  normal,  semantic  labelのタスクを解く 単⼀一画像による3Dタスク例例 41 [49]  D.  Eigen,  R.  Fergus.  Predicting  Depth,  Surface  Normals  and  Semantic  Labels  with   a  Common  Multi-‐‑‒Scale  Convolutional  Architecture.  arXiv:  1411.4734,  2014. input Eigen  et  al. proposal ground   truth
  43. 43. ⽬目次 全脳アーキテクチャ若若⼿手の会  カジュアルトーク#2 Convolutional  Neural  Networks のトレンド 1.  CNNアーキテクチャの変遷  /  最適化⼿手法 2.  特徴量量の解析  /  可視化 3.  物体検出・領領域分割 4.  画像⽣生成・超解像 5.  3Dタスクへ 6.  映像への挑戦 7.  より  “⼈人間らしい”  機械知覚へ 8.  マルチモーダル・アプリケーション 9.  CNNと強化学習 10.  Whatʼ’s  Next  ?  –ポスト  ImageNet  ... 42
  44. 44. 映像への挑戦 l  487種のスポーツ(!?)を分類,  Top-‐‑‒5で正解率率率およそ80% l  フレームごとにCNNで処理理  (復復数のアーキテクチャを提案) スポーツ映像分類 43 [50]  A.  Karpathy,  G.  Toderici,  S.  Shetty,  T.  Leung,  R.  Sukthankar,  F.  Li.  Large-‐‑‒ scale  Video  Classification  with  Convolutional  Neural  Networks.  CVPR,  2014.
  45. 45. ⽬目次 全脳アーキテクチャ若若⼿手の会  カジュアルトーク#2 Convolutional  Neural  Networks のトレンド 1.  CNNアーキテクチャの変遷  /  最適化⼿手法 2.  特徴量量の解析  /  可視化 3.  物体検出・領領域分割 4.  画像⽣生成・超解像 5.  3Dタスクへ 6.  映像への挑戦 7.  より  “⼈人間らしい”  機械知覚へ 8.  マルチモーダル・アプリケーション 9.  CNNと強化学習 10.  Whatʼ’s  Next  ?  –ポスト  ImageNet  ... 44
  46. 46. より  ”⼈人間らしい”  機械知覚へ l  Memorability:  どれくらい記憶に残りやすいか l  ⼼心理理実験から様々な画像のMemorability  scoreを算出, ⼤大規模データセット:  LaMem  を公開 MemNet:  CNN  for  Memorability 45 [51]  LaMem,  http://memorability.csail.mit.edu/ [52]  A.  Khosla,  A.  S.  Raju,  A.  Torralba  and  A.  Oliva.  Understanding  and   Predicting  Image  Memorability  at  a  Large  Scale.  ICCV,  2015.. ⾼高 低Memorability
  47. 47. より  ”⼈人間らしい”  機械知覚へ l  Memorabilityを推定するようにCNNを学習 l  Rank  Correlation:  0.64(MemNet)  v.s.  0.68(human) MemNet:  CNN  for  Memorability 46 [51]  LaMem,  http://memorability.csail.mit.edu/ [52]  A.  Khosla,  A.  S.  Raju,  A.  Torralba  and  A.  Oliva.  Understanding  and   Predicting  Image  Memorability  at  a  Large  Scale.  ICCV,  2015..
  48. 48. ⽬目次 全脳アーキテクチャ若若⼿手の会  カジュアルトーク#2 Convolutional  Neural  Networks のトレンド 1.  CNNアーキテクチャの変遷  /  最適化⼿手法 2.  特徴量量の解析  /  可視化 3.  物体検出・領領域分割 4.  画像⽣生成・超解像 5.  3Dタスクへ 6.  映像への挑戦 7.  より  “⼈人間らしい”  機械知覚へ 8.  マルチモーダル・アプリケーション 9.  CNNと強化学習 10.  Whatʼ’s  Next  ?  –ポスト  ImageNet  ... 47
  49. 49. マルチモーダルなアプリケーション l  もともと画像キャプション⽣生成課題はあった l  CNN(画像表現)  +  LSTM(⽂文⽣生成;  翻訳) 画像キャプション⽣生成 48 Google  NIC  [53] LRCN  [54] [53]  O.  Vinyals,  A.  Toshev,  S.  Bengio,  D.  Erhan.  Show  and  Tell:  A  Neural  Image  Caption  Generator.  arXiv:  1411.4555,  2014./ [54]  J.  Donahue,  L.  A.  Hendricks,  S.  Guadarrama,  M.  Rohrbach,  S.  Venugopalan,  K.  Saenko,  T.  Darrell.  Long-‐‑‒term   Recurrent  Convolutional  Networks  for  Visual  Recognition  and  Description.  arXiv:  1411.4389,  2014.
  50. 50. マルチモーダルなアプリケーション 画像キャプション⽣生成  (上:  Google  NIC,  下:  LRCN) 49
  51. 51. マルチモーダルなアプリケーション l  画像⼊入⼒力力に加えて⽂文⼊入⼒力力ができるアーキテクチャ 画像に関する質問に答える  (Visual  Turing  Test) 50 mQA  [55] Neural-‐‑‒Image  QA  [56] [55]  H.  Gao,  J.  Mao,  J.  Zhou,  Z.  Huang,  L.  Wang,  W.  Xu.  Are  You  Talking  to  a   Machine?  Dataset  and  Methods  for  Multilingual  Image  Question   Answering.  arXiv:  1505.05612,  2015. [56]  M.  Malinowski,  M.  Rohrbach,  M.  Fritz.  Ask  Your  Neurons:  A  Neural-‐‑‒ Based  Approach  to  Answering  Questions  About  Images.  ICCV,  2015.
  52. 52. マルチモーダルなアプリケーション 画像に関する質問に答える  (Visual  Turing  Test) 51 mQA  [55]の結果
  53. 53. マルチモーダルなアプリケーション 画像に関する質問に答える  (Visual  Turing  Test) 52 Neural-‐‑‒Image  QA  [56] DAQUARは⼈人間でも回答に迷うものも. システムはほぼ⾔言語情報に頼っている(?)
  54. 54. マルチモーダルなアプリケーション l  Bidirectional  RNNで⽂文章をエンコード,  RNNで画像⽣生成 ⽂文章から画像⽣生成 53 [57]  E.  Mansimov,  E.  Parisotto,  J.  L.  Ba,  R.  Salakhutdinov.  Generating   Images  from  Captions  with  Attention.  arXiv:  1511.02793,  2015.
  55. 55. マルチモーダルなアプリケーション 画像と単語のクロスモーダル分散表現 54 [58]  R.  Kiros,  R.  Salakhutdinov,  R.  S.  Zemel.  Unifying  Visual-‐‑‒Semantic  Embeddings   with  Multimodal  Neural  Language  Models.  arXiv:  1411.2539,  2014.
  56. 56. ⽬目次 全脳アーキテクチャ若若⼿手の会  カジュアルトーク#2 Convolutional  Neural  Networks のトレンド 1.  CNNアーキテクチャの変遷  /  最適化⼿手法 2.  特徴量量の解析  /  可視化 3.  物体検出・領領域分割 4.  画像⽣生成・超解像 5.  3Dタスクへ 6.  映像への挑戦 7.  より  “⼈人間らしい”  機械知覚へ 8.  マルチモーダル・アプリケーション 9.  CNNと強化学習 10.  Whatʼ’s  Next  ?  –ポスト  ImageNet  ... 55
  57. 57. CNNと強化学習 l  Q-‐‑‒Learning  における価値関数の近似にCNN  (DQN) l  「ピンボール」や「ブレイクアウト」は得意, 「パックマン」や「モンテズマの復復讐」はかなり苦⼿手 Atari  2600  (Deep  Q-‐‑‒Networks) 56 [60]  V.  Mnih,  at  al.  Human-‐‑‒level  control  through  deep  reinforcement  learning.  nature,  2015. [59]  V.  Mnih,  K.  Kavukcuoglu,  D.  Silver,  A.  Graves,  I.  Antonoglou,  D.  Wierstra,  M.  Riedmiller.  Playing   Atari  with  Deep  Reinforcement  Learning.  arXiv:1312.5602,  2013.
  58. 58. CNNと強化学習 l  2つのネットワーク(⽅方策&価値)と モンテカルロ⽊木探索索(MCTS)で良良い⼿手を考える l  盤⾯面を19x19の画像としてCNNへ l  ⼈人の⼿手を教師として学習  -‐‑‒>  self-‐‑‒playで学習 AlphaGo 57 [61]  D.  Silver,  et  al.  Mastering  the  game  of  Go  with  deep  neural  networks  and  tree  search.  nature,  2016.
  59. 59. CNNと強化学習 l  ハードウェア⾯面での条件に注意だが,他の囲碁AIを圧倒 l  碁の欧州チャンピオンに5戦5勝,  3⽉月にトッププロと対戦 AlphaGo 58 [61]  D.  Silver,  et  al.  Mastering  the  game  of  Go  with  deep  neural  networks  and  tree  search.  nature,  2016. [62]  Y.  Tian,  Y.  Zhu.  Better  Computer  Go  Player  with  Neural  Network  and  Long-‐‑‒term  Prediction.  arXiv:   1511.06410,  2015.
  60. 60. CNNと強化学習 l  DQNを⾮非同期型の学習に拡張 l  1つのマシンで  16  actor-‐‑‒learner  threads  を⾛走らせる ⼀一⼈人称視点ゲームへの適⽤用  (Asynchronous  DQN) 59 [63]  V.  Mnih,  A.P.  Badia,  M.  Mirza,  A.  Graves,  T.  P.  Lillicrap,  T.  Harley,  D.  Silver,  K.   Kavukcuoglu.    Asynchronous  Methods  for  Deep  Reinforcement  Learning.  arXiv:1602.01783,  2016.
  61. 61. ⽬目次 全脳アーキテクチャ若若⼿手の会  カジュアルトーク#2 Convolutional  Neural  Networks のトレンド 1.  CNNアーキテクチャの変遷  /  最適化⼿手法 2.  特徴量量の解析  /  可視化 3.  物体検出・領領域分割 4.  画像⽣生成・超解像 5.  3Dタスクへ 6.  映像への挑戦 7.  より  “⼈人間らしい”  機械知覚へ 8.  マルチモーダル・アプリケーション 9.  CNNと強化学習 10. Whatʼ’s  Next  ? 60
  62. 62. Whatʼ’s  Next  ? l  Fei-‐‑‒Fei  Li  のチームによる⼤大規模画像データセット Visual  Genome 61 [64]  Visual  Genome,  https://visualgenome.org/ 108,249  images 4.2  million  Region  Descriptions 1.7  million  Visual  Q&A 2.1  Million  Object  Instances (75,729  unique  objects) 1.8  Million  Attributes (40,513  unique  attributes)

×