Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20160329.dnn講演

1,186 views

Published on

2016/03/29 電子情報通信学会 東海支部 専門講習会.ディープラーニングー基礎から実践へースライド,庄野分

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

20160329.dnn講演

  1. 1. ディープラーニング ー基礎から実践へー 2016/03/29 電気通信大学 大学院情報理工学研究科 庄野 逸: shouno@uec.ac.jp 専門講習会『ディープラーニング --基礎から実践へ--』
  2. 2. 人工知能 のニューストレンド
  3. 3. 技術講習の目的と講師紹介 目的
 Deep Learning の応用のための技術講習会
 (初学者のための敷居を下げたい) 講師紹介 山下 隆義 先生 (中部大学)
 画像処理応用 松田 繁樹 先生 (株式会社ATR-Trek)
 音声処理応用 海野 裕也 先生 (株式会社 PFI)
 自然言語処理応用
  4. 4. なぜ,いま Deep Learning なのか? [Deng & Dong 14] のHype Curveより
  5. 5. Deep Learning の新規分野参入 岡之原さんのスライドから 岡之原さんのスライドから http://www.slideshare.net/pfi/deep-learning-22350063
  6. 6. 世界を取り巻く動き(比較的最近) 2013 Google: DNN research を買収 2013 Baidu: Institute of Deep Learning を設立 2013 Facebook: AI research lab を設立 2014 Google: DeepMind を設立 日本でも人工知能研究拠点の設立へ 2014 ドワンゴ: 人工知能研究所 2015 日立研究費5000億円を人工知能などに投資 2015 産総研: 人工知能研究センター設立 2015 NEDO「次世代ロボット中核技術開発」 2015 AlphaGo 囲碁勝負でイ・ヨンドル氏に勝ち越し
  7. 7. Deep Learning の理解と展望 2016/03/29 電気通信大学 大学院情報理工学研究科 庄野 逸: shouno@uec.ac.jp 専門講習会『ディープラーニング --基礎から実践へ--』
  8. 8. このトークの目的(庄野分) 歴史的な背景理解
 過去の経緯の理解と教訓の理解
 Deep Learning 概観
 基本的な構成要素,用語の理解
  9. 9. Deep Learning(深層学習)とは? 神経回路(ニューラルネット)モデルを用いた人工知能技術 脳の働きを模した構造と学習方式 深い階層構造を持つことが特徴 Input Recognition It’ s “5” It’ s “5”
  10. 10. Neural network (NN) 歴史的背景 Simple/Complex cell (Hubel&WIesel 59) 201020001990198019701960 今ココ 第1期 第2期 第3期(たぶん) Population coding (Tanaka+ 84) Population coding (Desimone+ 84) Perceptron (Rosenblatt 57) Neocognitron (Fukushima 80) Conv. net (LeCun+ 89) Deep learning
 (Hinton+ 06) Boltzmann Mach. (HInton+85) “Linear Separable” 
 (Minski & Papert 68) Sparse Coding (Olshausen&Field 96) Stochastic GD (Amari 67) Back Prop.
 (Rumelhart+ 86)
  11. 11. NeuralNetwork は新技術なの? 答えとしては,多分違う 基盤技術の確立は 90 年代くらいの話
 要素技術的には新しいことはそれほどない(多分) 第2期のブームから大きく変化したもの データの質と量: Internet, Webサービス, SNS… 計算機環境: パッケージ環境,GPU の勃興, Cloud…
  12. 12. Neural network (NN)の基礎知識 NN を構成する3要素 基本ユニット(ニューロン) 決定論的ユニット 確率的ユニット ネットワークアーキテクチャ 階層型 相互結合型 学習ルール 教師あり学習 教師なし学習
  13. 13. 神経回路モデルのはじまり ニューラルネットワークは脳構造の真似から 脳は 140億個の神経細胞(ニューロン) から構成 http://ja.wikipedia.org http://www.scholarpedia.org/article/Neuron ニューロンのモデル化ができるか?
  14. 14. ニューロンの概要 ニューロンは2値表現(と考えられた)
 →活性(ON)状態/非活性(OFF)状態 信号伝達方法 ニューロン内部: 電気信号 ニューロン間: 化学信号
  15. 15. McCulloch-Pitts 素子モデル(1) 最初の数理的ニューロンモデル [McCulloch&Pitts 43] 入力は線形重ねあわせ→内部状態 活性化関数による出力 f ( ): 閾値制御 u yx1 y x2 Σ u θ w1 w2 入力側 出力側
  16. 16. McCulloch-Pits 素子モデル(2) モデルパラメータ {w, θ} の変更→様々な論理素子 u yx1 y x2 Σ u θ w1 w2 w1 w2 θ AND 1 1 1.5 OR 1 1 0.5 NAND -1 -1 -1.5
  17. 17. y y モダンNN の基本素子ユニット(1) 決定論的ユニット 内部状態: 入力の線形和 出力: 非線形活性化関数 Logistic-Sigmoid Rectified Linear Hyperbolic Tangent, etc... y1 y3 x1 x2 x3 y2 u f (u) uj = 3X i=1 wjixi + bj yj = f ⇣ uj ⌘ 内部状態 出力
  18. 18. y y モダンNN の基本素子ユニット(2) 確率的ユニット 内部状態: 入力の線形和 出力: 確率変数値 内部状態 uj は事後確率の
 パラメータとして用いられる x1 x2 x3 y2 p(yj | uj) = 1 1 + e uj など 内部状態 出力 uj = 3X i=1 wjixi + bj yj = f ⇣ uj ⌘
  19. 19. Neural network (NN)の基礎知識 NN を構成する3要素 基本ユニット(ニューロン) 決定論的ユニット 確率的ユニット ネットワークアーキテクチャ 階層型 相互結合型 学習ルール 教師あり学習 教師なし学習
  20. 20. ネットワークアーキテクチャ ニューラルネットワークアーキテクチャとは? →素子と素子とをどう繋ぐか? 全体の構成に関する議論 階層型アーキテクチャ 相互結合型アーキテクチャ それ以外の観点もある 結合がスパース(疎)か全結合(密)か? Feed forward 型 か Recurrent 型か?
  21. 21. 階層型アーキテクチャ 入力パターンを順次変換していくアーキテクチャ 入出力が層単位で定義.
 一つの階層が変換された入力を表現・記述 素子の状態更新順序は一意に決定 
 (Feed forward network など) Input Output Perceptron(Rosenblatt 57) Deep Convolution Neural Net Neocognitron(Fukushima 80) LeNet (LeCun +89)など Restricted Boltzmann Machine
 (Hinton 00)
  22. 22. 相互結合型アーキテクチャ 全ての素子が互いに結合することを許すアー キテクチャ 素子集合全体で一つの状態を表現・記述 素子の更新順序によって状態が異なる 連想記憶モデル Hopfield モデル(Hopfield+84), Asociatron(Nakano 79) Boltzmann Machine(Hinton +85)
  23. 23. Neural network (NN)の基礎知識 NN を構成する3要素 基本ユニット(ニューロン) 決定論的ユニット 確率的ユニット ネットワークアーキテクチャ 階層型 相互結合型 学習ルール 教師あり学習 教師なし学習
  24. 24. u yx1 y x2 Σ u θ w1 w2 NeuralNet の学習とは? モデルパラメータ {w, θ} で振る舞いが変化 モデルパラメータをデータから決定する→学習 w1 w2 θ AND 1 1 1.5 OR 1 1 0.5 NAND -1 -1 -1.5
  25. 25. NeuralNet 学習のパラダイム 教師あり学習 (supervised learning) 回帰, クラス分類 教師なし学習 (unsupervised learning) 密度推定, クラスタリング その他: 強化学習 (reinforcement learning),
 半教師付き学習(semi-supervised learning)… etc
  26. 26. 教師あり学習(supervised learning) 入力データ x と教師信号 t のペアが学習対象 出力 y が t と一致するように {w,θ} を調整 y x1 w2 w1 t x2 x2 x1(0,0) (1,0) (0,1) (1,1) AND 素子 1 → 1 → 青だと思います 赤です
  27. 27. 教師なし学習(unsupervised learning) 与えられるのは入力データ x のみ 入力された x が他の入力に似ているかどうかで
 グループ分け(クラスタリング) y x1 w2 w1 x2 x2 x1 1 → 0 → 前見たデータ(青)に似ている
  28. 28. 第1世代 NeuralNet
  29. 29. Neural network (NN) 歴史的背景 201020001990198019701960 第1期 第2期 今ココ 第3期(たぶん) Simple/Complex cell (Hubel&WIesel 59) Population coding (Tanaka+ 84) Population coding (Desimone+ 84) Perceptron (Rosenblatt 57) Neocognitron (Fukushima 80) Conv. net (LeCun+ 89) Deep learning
 (Hinton+ 06) Boltzmann Mach. (HInton+85) “Linear Separable” 
 (Minski & Papert 68) Sparse Coding (Olshausen&Field 96) Stochastic GD (Amari 67) Back Prop.
 (Rumelhart+ 86)
  30. 30. Perceptron (Rosenblatt 57)
  31. 31. y2(xn) y1(xn) y3(xn) Perceptron のアーキテクチャ McCulloch-Pits ニューロンによる階層型 ネットワーク S層 → A層 間は固定ランダム結合 A層 → R層 間が学習で決定される結合 w20 w21 w22 w23 {xn} x3 n 1 x2 n x1 n Sensory Layer Associative Layer Response Layer "   n=1 n=2 n=3 φx y
  32. 32. パターン認識がやりたいこと パターン認識: 与えられた入力をどうにかして分類 入力空間を分離すること 線引きはどうやってするか? 0 0 : 1 1 : 0 0 入力データ→ベクトル 新規入力: 赤?青?
  33. 33. 単純 Perceptron による識別 2入力1出力単純パーセプトロン φ2 φ1 y = sgn 0 BBBBBB@ X j wj j 1 CCCCCCA = sgn (w0 + w1 1 + w2 2) w0 + w1 1 + w2 2 = 0 1 2 y クラス1 クラス2 AND 素子
  34. 34. Perceptronの学習(1): 誤り訂正学習 Hebb 学習則
 教師 t と出力 y の関係により w を修正 目標: {φn, tn} が与えられたとき y(φn) = tn としたい 正解 tn と答え yn が不一致のときのみパラメータを修正 解が存在する場合,正しい解に収束する yφ w t
  35. 35. 単純パーセプトロンの限界 単純パーセプトロン:一本の直線での境界分離 XOR 問題は解けない (Minsky & Papert 68)
 → Neural Network 第1次 冬の時代 クラス1 クラス2 φ2 φ1
  36. 36. 単純パーセプトロンの限界の打破 XOR 問題の解法 複数の分離直線を使えば分離可能 各線の分離結果を合成→階層化は妥当(多分) クラス1 クラス2 x2 x1 {xn} {zn} x1 x2 x0 z0 z1 z2 1 1 y
  37. 37. 中間層での表現 (上手くいった場合) 入力空間での表現 Perceptron のやっていること y2(xn) y1(xn) y3(xn) {xn} x3 n 1 x2 n x1 n Sensory Associative Response "  
  38. 38. が,もちろん 上手くいかない場合もある
  39. 39. 中間層の訓練はどうすれば? 固定ランダム結合
 この部分はどう学習させるか? 何をどう表現すればうまくいくのか? 逆説的にみれば,表現を上手く設計することが重要 システマチックな設計技術の不在 y2(xn) y1(xn) y3(xn) {xn} x3 n 1 x2 n x1 n
  40. 40. 第2世代NeuralNet
  41. 41. Neural network (NN) 歴史的背景 Simple/Complex cell (Hubel&WIesel 59) 201020001990198019701960 第1期 第2期 今ココ 第3期(たぶん) Simple/Complex cell (Hubel&WIesel 59) Population coding (Tanaka+ 84) Population coding (Desimone+ 84) Perceptron (Rosenblatt 57) Neocognitron (Fukushima 80) Conv. net (LeCun+ 89) Deep learning
 (Hinton+ 06) Boltzmann Mach. (HInton+85) “Linear Separable” 
 (Minski & Papert 68) Sparse Coding (Olshausen&Field 96) Stochastic GD (Amari 67) Back Prop.
 (Rumelhart+ 86)
  42. 42. Back Propagation with Multi Layer Perceptron (Rumelhart+ 86)
  43. 43. 多層Perceptron 
 (MultiLayer Perceptron: MLP) 単純 Perceptron の線形分離問題→ 階層性による打破 入力 x, 出力 y の他以外に中間層(隠れ層)z を持つ 信号は一定方向(入力から出力へ向けて)で処理 x0 x1 xD z0 z1 zM y1 yK w (1) MD w (2) KM w (2) 10 hidden units inputs outputs
  44. 44. MLP にできること 適切な設定(隠れ層の素子数,結合重み)を選べば
 任意の関数を任意精度で表現できる.(Irie 88, Funahashi 89) {xn} {zn} x1 x0 z0 z1 z2 1 1 z3 y x1 y x1 y x1 y x1 y
  45. 45. どんな解でも表現出来る こと と どうやったら解に到れるか ということは全くの別問題
  46. 46. 多層ネットワークの学習の難しさ 誤り訂正教師信号 t は1階層であれば対応可能 中間層 z1, z2 に対する教師信号はどう生成する? u yx1 y x2 Σ u θ w1 w2 u yx1 y x2 Σ u θ w1 w2 u yx1 y x2 Σ u θ w1 w2 x1 x2 z1 z2 y tz1 θ z2 θ u u w1 (2) w2 (2) OK! w11 (1) w22 (1) w12 (1) w21 (1) NG!
  47. 47. Error Back-propagation 単純 Perceptron の線形分離問題
 → 階層性による打破 多層Perceptron (MLP)の学習則 基本アイディアは勾配法 微分の連鎖則を活用 x0 x1 xD z0 z1 zM y1 yK w (1) MD w (2) KM w (2) 10 hidden units inputs outputs
  48. 48. 線形Perceptronの勾配学習法(1) 2乗誤差の勾配を用いる学習則
 デルタ則 / adaline 則 (Widrow-Hoff 1960) 勾配を使うには微分可能性が必要
 →活性化関数に線形関数を使う u yx1 y x2 Σ u w1 w2 u yx1 y x2 Σ u θ w1 w2 McCuloch-Pitts
  49. 49. 線形Perceptronの勾配学習法(2) 2乗誤差の勾配を用いる学習則
 デルタ則 / adaline 則 (Widrow-Hoff 1960) E(w) = 1 2 n tn y(xn) 2 コスト関数 パラメータ更新則 E(w) w @E @w > 0 @E @w < 0{xn} t1 n t2 n t3 n {tn} y2(xn) y1(xn) y3(xn)x3 n 1 x2 n x1 n w(1) w(2)
  50. 50. 多層線形パーセプトロンでの勾配学習 線形ニューロンであれば勾配を用いた学習は可能 微分の連鎖則(chain-rule) を適用 ただし線形写像の多重適用なので実用的な意味は 余りない u yx1 y x2 Σ u θ w1 w2 u yx1 y x2 Σ u θ w1 w2 u yx1 y x2 Σ u θ w1 w2 x1 x2 z1 z2 y tw11 (1) w22 (1) w12 (1) w21 (1) w1 (2) w2 (2) z1 u z2 u y u @E(w) @w(1) 22 @E(w) @w(2) 2
  51. 51. MLP の勾配学習 MLP の勾配学習に線形性ではなく微分可能性では? 微分の連鎖則(chain-rule) を適用 多層に意味を持たせるためには
 微分可能な非線形活性化関数であれば良い u yx1 y x2 Σ u θ w1 w2 u yx1 y x2 Σ u θ w1 w2 u yx1 y x2 Σ u θ w1 w2 x1 x2 z1 z2 y tw11 (1) w22 (1) w12 (1) w21 (1) w1 (2) w2 (2) z1 u z2 u y u @E(w) @w(1) 22 @E(w) @w(2) 2 z1 u z2 u y u
  52. 52. MLP アーキテクチャの具体的な例 3層 MLP 隠れ層を中間表現として持つ 信号処理は一方向的 教師あり学習 {xn, tn} → {w(1) ji, w(2) kj} yk tk k j wkj i wji 入力層 x 隠れ層 z 出力層 y
  53. 53. MLP 学習のコスト関数例 n 番目の出力値 回帰問題 2値分類 多値分類
 Softmax 関数 yk tk k j wkj i wji 入力層 x 隠れ層 z 出力層 y yn k = yk(xn ; w) En (w) = 1 2 X k ⇣ tn k yn k ⌘2
  54. 54. 連鎖則による微分の導出(1) コスト関数 yk tk k j wkj i wji j 微係数 割と面倒(に見える…)
  55. 55. 連鎖則による微分の導出(2) コスト関数 yk tk k j wkj i wji j 微係数 誤差 δ の導入ですっきり 誤差 δ は,上位層からの逆方向の伝達 (Back propagation) で記述可能
  56. 56. 誤差逆伝搬法の実現 xi yk uj zj uk δj Feed forward を一旦計算 k = 0 (uk)(yk tk) Back Prop. を計算 勾配を計算 xi yk zj uj δk tk uk
  57. 57. 誤差逆伝搬法の適用 コスト関数 En(w) はパターン事に定義可能 1サンプルごとに動かす (Online learning)
 → 局所解の問題 平均勾配で動かす(Batch learning)
 → 学習が遅い 確率的降下法(Stochastic GD)(Amari 67, Bottou+11,12) mini Batch: 数個∼100個程度の平均勾配
  58. 58. 誤差逆伝搬法の適用: 続き 準ニュートン法や,共益勾配法 (Le+11) AdaDelta(Zeiler 12), AdaGrad(Duchi+11), Adam(Kingma+15) など の学習係数最適化 http://imgur.com/a/Hqolp
  59. 59. Back prop. の応用先 XOR 問題 (Rumelhart+ 86) Auto-Encoder (Ackley+ 85), 画像圧縮(Cottrell+ 87) NETtalk (Sejnowski & Rosenberg 87) ソナー音識別(Gorman & Sejnowski 88) コンボリューションネット(Le-Net)(LeCun+ 89)
  60. 60. Neural network (NN) 歴史的背景 Simple/Complex cell (Hubel&WIesel 59) 201020001990198019701960 第1期 第2期 今ココ 第3期(たぶん) Population coding (Tanaka+ 84) Population coding (Desimone+ 84) Perceptron (Rosenblatt 57) Neocognitron (Fukushima 80) Conv. net (LeCun+ 89) Deep learning
 (Hinton+ 06) Boltzmann Mach. (HInton+85) “Linear Separable” 
 (Minski & Papert 68) Sparse Coding (Olshausen&Field 96) Stochastic GD (Amari 67) Back Prop.
 (Rumelhart+ 86)
  61. 61. Neocognitron (Fukushima 1980)
  62. 62. 視覚野(Ventral pathway)の性質 視覚野: 階層構造を持ち,階層ごとに異なる視覚課題の解決 初期視覚野: 狭い受容野,単純な特徴抽出
 Simple Cell,Complex Cellの存在 高次視覚野: 広い受容野,中程度に複雑な特徴に選択的 V1 V2 V4 PITCIT Ventral Pathway AIT TEO TE V1 V2 V3 VP V4 MT VA/V4 PIT AIT/CIT 8 TF LIP MST DPL VIP 7a V3A V1 V4 V2 IT Small receptive field Edge, Line segment detector Large receptive field Face, Complex feature detector ? ? [Felleman+91, DiCarlo+12, Kruger+13] uition of basic (mostly biological) terms used ng sections. Most data we present in the obtained from macaque monkeys because siological knowledge stems from investiga- primate brain consists of approximately eas, the human brain probably contains as reas.3 There is a general consensus that the ry and motor areas in the monkey are the corresponding areas in the human brain. everal other cortical areas in the monkey have FOR COMPUTER VISION? 1849 ations (summarized from [44]). Box and font sizes are In summary, in this paper we want to argue that deep hierarchies are an appropriate concept to achieve a general, robust, and versatile computer vision system. Even more importantly, we want to present relevant insights about the hierarchical organization of the primate visual system for computer vision scientists in an accessible way. We are aware that some of our abstractions are rather crude from the neurophysiological point of view and that we have left out important details of the processes occurring at the different levels,2 but we hope that such abstractions and the holistic picture given in this paper will help to foster productive exchange between the two fields. The paper is organized as follows: In Section 2, we will touch upon the aspects of the primate visual system that are relevant to understand and model the processing hierarchy. also give an intuition of basic (mostly biological) terms used in the following sections. Most data we present in the following were obtained from macaque monkeys because most neurophysiological knowledge stems from investiga- tions on these. While the primate brain consists of approximately 100 cortical areas, the human brain probably contains as many as 150 areas.3 There is a general consensus that the primary sensory and motor areas in the monkey are homologous to the corresponding areas in the human brain. Furthermore, several other cortical areas in the monkey have an identified homologue in the human (e.g., MT/MST, Anterior Intraparietal Area (AIP)). These areas can be viewed as landmarks that can be used to relate other cortical areas in KRU¨ GER ET AL.: DEEP HIERARCHIES IN THE PRIMATE VISUAL CORTEX: WHAT CAN WE LEARN FOR COMPUTER VISION? 1849 Fig. 2. Simplified hierarchical structure of the primate’s visual cortex and approximate area locations (summarized from [44]). Box and font sizes are relative to the area size.
  63. 63. 初期視覚野 (V1野) の受容野計測 初期視覚野の細胞
 観えている範囲(受容野)は狭い 視覚野中の エッジ や
 線分 といった成分に反応 単純型細胞(simple cell)と
 複雑型細胞(complex cell) に大きく分けられる http://ohzawa-lab.bpe.es.osaka-u.ac.jp/resources/text/KisokouKoukai2009/Ohzawa2009Koukai04.pdf
  64. 64. 初期視覚野の性質 線分やエッジなどの成分に反応 Simple cell: 方位,位相に敏感 Complex cell: 位相には許容的 Simple Cell Phase Sensitive Orientation Selective Receptive Field Input Stimulus Fire Not FireNot Fire Phase InsensitiveComplex Cell Receptive Field Input Stimulus Fire Not FireFire V1 V2 V4 PITCIT Ventral Pathway AIT TEO TE V1 V4 V2 IT Small receptive field Edge, Line segment detector Large receptive field Face, Complex feature detector ? ? Simple Cell Phase Sensitive Orientation Selective Receptive Field Input Stimulus Fire Not FireNot Fire Phase InsensitiveComplex Cell Receptive Field Input Stimulus Fire Not FireFire
  65. 65. Hubel-Wiesel 階層仮説 Simple Cell の出力合成で,
 Complex cell は説明可能
 (Hubel & Wiesel 59) Simple Cell Phase Sensitive Orientation Selective Receptive Field Input Stimulus Fire Not FireNot Fire Phase InsensitiveComplex Cell Receptive Field Input Stimulus Fire Not FireFire
  66. 66. 高次視覚野の性質 巨大な受容野 中程度に複雑な特徴に反応
 顔細胞の存在 分散表現 時空間的な変化に許容的 V1 V2 V4 PITCIT Ventral Pathway AIT TEO TE V1 V4 V2 IT Small receptive field Edge, Line segment detector Large receptive field Face, Complex feature detector ? ? (Kobatake &Tanaka 94 を改変)
  67. 67. 生理学的な知見まとめ https://grey.colorado.edu/CompCogNeuro/index.php/CCNBook/Perception 細かい特徴 抽象特徴
  68. 68. DCNN の視覚野的解釈 Hubel & Wiesel : Simple → Complex Cell の階層性 V2 → IT の不明な領野
 → 初期視覚野構造のアーキテクチャ外挿 学習によるチューニング可能性 V1 V2 V4 PITCIT Ventral Pathway AIT TEO TE V1 V4 V2 IT Small receptive field Edge, Line segment detector Large receptive field Face, Complex feature detector ? ? U0 Us1Uc1 Us2Uc2 Us3Uc3 Us4Uc4 Us5Uc5 41x41x1 41x41x8 41x41x8 41x41xK2 21x21xK2 21x21xK3 11x11xK3 11x11xK4 5x5xK4 5x5xK5 1x1xK5
  69. 69. Deep Convolution NN (DCNN) (Neocognitron) 畳み込みによる局所特徴抽出と空間プーリング Neocognitron(Fukushima80): 階層仮説の実装 (Hubel &Wiesel 59) S-Cell Feature Extraction Us1 Uc1 C-Cell Tolerance to the distortion Input Recognition U0 Us2 Uc2 Us3 Uc3 Us4 Uc4 It’ s “5” S-Cell S-Cell C-Cell S-Cell C-Cell Feature IntegrationLocal Feature Global Feature
  70. 70. Neocognitron の動作原理 局所特徴抽出(畳み込み)+変形に対する不変性(プーリング) Preferred Feature (Orientation): X Input: x Convolution Layer Blurring Preferred Orientation S-cell response Input: x Subsampling Layer Convolutions Subsampling Convolutions Subsampling Preferred feature +ReLU による変調 +Sigmoid による変調
  71. 71. IT野反応との比較 Neocognitron 型の神経回路モデルは,新奇3D物体の
 回転,拡大,位置変化不変な反応を説明できる(吉塚 他 2007) 'cell12' 'cell5' 'cell10' 'cell7' 'cell11' 0 0.2 0.4 0.6 0.8 1 -100 -80 -60 -40 -20 0 20 40 60 80 100 Distractor Level https://www.jstage.jst.go.jp/article/jnns/14/4/14_4_266/_pdf
  72. 72. Neocognitron まとめ 畳み込み演算を原理としたネットワーク構造 Perceptron に比べて,結合係数の自由度は低い
 でも視覚入力は並進対称なので構造としては妥当 (多分) 特徴抽出層とプーリング層の階層構造 特徴抽出層は学習で決定可能
 BP使わなくても割りと普通に動く.
 クラスタリングアルゴリズムでも動く プーリング層は空間的な位相ずれの許容

  73. 73. Neural network (NN) 歴史的背景 Simple/Complex cell (Hubel&WIesel 59) 201020001990198019701960 第1期 第2期 今ココ 第3期(たぶん) Population coding (Tanaka+ 84) Population coding (Desimone+ 84) Perceptron (Rosenblatt 57) Neocognitron (Fukushima 80) Conv. net (LeCun+ 89) Deep learning
 (Hinton+ 06) Boltzmann Mach. (HInton+85) “Linear Separable” 
 (Minski & Papert 68) Sparse Coding (Olshausen&Field 96) Stochastic GD (Amari 67) Back Prop.
 (Rumelhart+ 86)
  74. 74. Deep Convolution
 Neural Network (DCNN) (LeCun+ 89)
  75. 75. (Deep) Convolution-net 基本アーキテクチャ Neocognitron (Fukushima 80 畳み込み演算による,
 局所特徴抽出+並進不変性 学習則: BackPropagation (LeCun+86, Okada90) (LeCun+86)
  76. 76. DCNN デモ http://yann.lecun.com/exdb/lenet/index.html Rotation Scale NoiseMultiple Input
  77. 77. ブームの終焉と復興
  78. 78. 第1次ブームの終焉と第2次ブーム Simple/Complex cell (Hubel&WIesel 59) 201020001990198019701960 今ココ 第1期 第2期 第3期(たぶん) Population coding (Tanaka+ 84) Population coding (Desimone+ 84) Perceptron (Rosenblatt 57) Neocognitron (Fukushima 80) Conv. net (LeCun+ 89) Deep learning
 (Hinton+ 06) Boltzmann Mach. (HInton+85) “Linear Separable” 
 (Minski & Papert 68) Sparse Coding (Olshausen&Field 96) Stochastic GD (Amari 67) Back Prop.
 (Rumelhart+ 86)
  79. 79. 第1次ブームの終焉と第2次ブーム 第1次ニューロブームの終焉 Perceptron への過度な期待 Minsky & Perpert の線形分離可能問題の言及 第2次ニューロブームの復興 逆誤差伝播法の(再)発見,MLPへの適用 Hopfield によるNNを用いた最適化問題への応用
  80. 80. Neural network (NN) 歴史的背景 Simple/Complex cell (Hubel&WIesel 59) 201020001990198019701960 今ココ 第1期 第2期 第3期(たぶん) Population coding (Tanaka+ 84) Population coding (Desimone+ 84) Perceptron (Rosenblatt 57) Neocognitron (Fukushima 80) Conv. net (LeCun+ 89) Deep learning
 (Hinton+ 06) Boltzmann Mach. (HInton+85) “Linear Separable” 
 (Minski & Papert 68) Sparse Coding (Olshausen&Field 96) Stochastic GD (Amari 67) Back Prop.
 (Rumelhart+ 86)
  81. 81. 第2次ブームの終焉と第3次ブームの勃興 MLP設計の難しさとMachine Learning の勃興 Face detection (Viola & Jones 01) HOG (Dalal&Triggs 05) SURF (Bay+ 06) SIFT (Lowe 99) Conv. net (LeCun+ 89) Deep learning
 (Hinton+ 06) Sparse Coding (Olshausen&Field 96) 201020001990 今ココ SVM (Vapnik 95) L1-recovery
 (Candes+ 06) Bayesian Method Bayesian net (Pearl 00) Kernel Method Internet 普及開始 Google Facebook Twitter
  82. 82. MLP with Back Prop. の問題点 過学習問題 訓練誤差 汎化誤差 勾配情報の拡散
 全体のトレーニングは難しい 全結合型 NN で顕著 データに対してパラメータ数が 過多になりがち
 O(Mk Mk+1 )
  83. 83. Viola & Jones による顔検出 Haar Like Feature + Boosting (Viola & Jones01) Haar Like Detectors Training Samples http://vimeo.com/12774628
  84. 84. 画像認識問題のNN的解釈 画像特性(エッジ等)の特徴量構築+機械学習 Shallow Network Model Input Output LeopardCat Feature Detector(Haar, SIFT, HOG...) Machine Learning (SVM, Boosting...)
  85. 85. NN界隈で起こったこと(90年代後半) アーキテクチャ設計の難しさ 隠れ素子が少なければ表現がプア 隠れ素子が多ければ過学習 機械学習法の進展 Support VectorMachine / Kernel 法 Boosting Shallow network で十分じゃないの?的な風潮
  86. 86. Deep Learning (第3世代 NN) の勃興 Inernet の普及 (1995∼) 爆発的なデータの蓄積(Big Data時代) Flicker などの画像サービス, Twitter, Facebook などのSNS Googleなどの検索エンジンの充実と画像,音声 データ検索へのニーズ拡大 ハンドメイド特徴抽出 + Shallow Net の適用が
 限界近くに
  87. 87. Deep Learning (第3世代 NN) の勃興: cont d 豊富なデータがあるなら,特徴抽出器ごと学習させればよい 従来の機械学習(2000∼2012)
 (手作業の)特徴抽出 + 学習可能な識別器 Deep learning以降(2012∼)
 特徴表現の学習 + 学習可能な識別器  Feature extractor
 (SIFT, HOG, etc) Classifier
 (SVM, Log.Reg, etc) car Feature extractor Feedforward NN Classifier
 (SVM, Log.Reg, etc) car 2012∼
  88. 88. Deep learning事例: 一般物体認識 IMAGENET Large Scale Visual Recognition Challenge 2012 1000 カテゴリ 約1000枚の訓練画像 DCNN vs 旧来の手法 Krizhevsky et al. NIPS 2012 SIFT + FVs: 0.26 test err. DCNN: 0.15 test err.
  89. 89. Deep Learning へのアプローチ 過学習の問題点: 結合自由度が高すぎる
 →妥当な制限を加えることで適正な学習を 初期値への制限
 →DNN アプローチ(Hinton+06) 結合の局所性, 疎性による制限
 →DCNN アプローチ, Google の大規模特徴抽出
  (Krizhevsky+12, Le+12) 学習における表現の疎性確保
 →Drop out (Hinton+14)
  90. 90. 本講演のまとめ DeepLearning の要素はニューラルネットと同じ アーキテクチャの主流は階層型 学習の主流は 誤差逆伝播法に代表される勾配法 誤差逆伝播法の欠点を解決するためアーキテクチャ (DCNN),学習方法(スパース性)に制約を加えている DeepLearning は以前から存在した. 再注目は画像認識,音声認識などのニーズ側から
 解きたいデータを持っていることは重要 計算機フレームワークの進化,新規研究者の参入
  91. 91. 多分取り組まないといけないこと 組織的な取り組み
 初学者のエネルギー,データ持ちのニーズ,古参者の技術 学問的な追求 階層表現の理解→その表現が何故必要なのか? 脳科学へのフィードバック→脳は同じことをやっているのか? どのような知識表現が可能なのか?→あらたな学問分野の創出 応用分野への参画 マルチモーダルなデータ表現の統合
 視覚+聴覚といった,より人間ぽい判断への応用など 少数データ領域への拡張→医療,材料等の領域へ
 AI for {Technology, Science, etc…}

×