画像認識 6.3-6.6 畳込みニューラルネットワーク

画像認識
6.3-6.6 畳込みニューラル
ネットワーク
東京大学大学院
情報理工学系研究科 M1
本田志温
@shion_honda
@shionhonda
@shionhonda

概要
• CNNの基礎
• 実装におけるテクニック
• 最適化アルゴリズム
• CNNの例
2019/3/9 NLP/CV 本田志温 2

自己紹介
• 医学系の研究室でAI創薬をしています
• NLP/CVも勉強中
• 勉強したことを発信しています！
• 趣味: 音楽鑑賞, 料理, 旅行, サッカー, 水泳など
• SFと神経科学も好き

CNNの基礎

画像の畳込み
• 画像処理におけるフィルタの畳
込みと同じ
• フィルタ(カーネル)の係数を学
習する
→重み共有によるパラメータ数
の大幅な削減
kernel size 3, stride 1, padding 0
全結合: パラメータ35個 CNN: パラメータ3個
特徴マップ
(feature map)

CNN
• 入力チャンネル数×
出力チャンネル数の
カーネルを用意
• 6*6*3→6*6*5の変換
ならパラメータ数は
どのくらい？
• 全結合なら
6*6*3*6*6*5
=19440
• CNNなら
3*3*3*5=135
• これにバイアスも加
わる
Convolutional Neural Networks in iOS and
macOS

プーリング層
• 局所領域から最大値/平均値を代表させる
• 汎化性能に貢献
• サイズは小さくなる
• 最大値と平均値の和を利用すると良い
[6]
チャンネル方向にかけ
るglobal poolingもある

正規化
• 局所応答正規化(local response normalization;
LRN)
• 同じ位置における近傍の特徴マップ間で正規化
• 局所コントラスト正規化(local contrast
normalization; LCN)
• 同じ特徴マップにおける局所領域で正規化
LRN LCN
[7]

実装におけるテクニッ
ク
活性化関数, データ拡張, バッチ正規化, 正則化など

活性化関数
• 各層で微分可能かつ非線形な関数をかける
• ReLUは入力が正であれば勾配が減衰しない
• LReLUは入力が負のときも勾配を伝えられる
2019/3/9 NLP/CV 本田志温 10

データ拡張
2019/3/9 NLP/CV 本田志温 11
• imgaug, Augmentor,
albumentationsなど
のライブラリが有名
• 一般に有効

バッチ正規化
• テンソル(特徴マップをまとめたもの)をバッチ
方向に正規化する
• 入力データの分布をおおまかに統一する(白色
化は計算コストが大きいのでその代わり)
• 正規化の後のスケール・シフトに関するパラ
メータは学習される
→テスト時のため
2019/3/9 NLP/CV 本田志温 12
ChainerでもFunctionでは
なくLinearに入っている

正則化
• 過学習の防止や学習の安定化が目的
• 重み減衰
• 重みが大き過ぎると損失が大きくなるような罰則項
• 勾配クリッピング
• 勾配に上界と下界を与える
• ドロップアウト
• ユニットの出力を一定確率で無効化
• アンサンブル学習のような効果
• ドロップコネクト
• ユニット間の結合を一定確率で無効化(重み=0)
2019/3/9 NLP/CV 本田志温 13

その他
• network in network (NIN)
• 畳込み+小規模MLP
• 1×1畳込み
• チャンネル方向の次元削減
• 空間ピラミッドプーリング(spatial pyramid
pooling; SPP)
• 画像を複数パターンの
グリッドに分割
• 各領域でプーリング
• 異なるサイズの画像を
入力できる
2019/3/9 NLP/CV 本田志温 14
NIN

最適化アルゴリズム
MomentumSGD, AdaGrad, RMSProp, AdaDelta, Adam,
AdaBound, RMSBound
2019/3/9 NLP/CV 本田志温 15

MomentumSGD
2019/3/9 NLP/CV 本田志温 16
• 鞍点やプラトーでは
SGDによる重み更新
が遅い
• 慣性項(momentum)
• 前iterationの勾配を引
き継ぐ

AdaGrad
• 状況に応じて学習率を適応的(adaptive)に調節
する
• 次元ごとに異なる学習率を使う
• これまでの勾配が大きければ学習率↓
• これまでの勾配が小さければ学習率キープ
• 急な勾配からプラトーや鞍点に達すると抜け出せな
い
2019/3/9 NLP/CV 本田志温 17

RMSProp
• 過去の勾配を減衰率𝜌で忘却する
→勾配の小さなところに留まっていると学習率
が増加する
• RNNでよく使われる
2019/3/9 NLP/CV 本田志温 18

AdaDelta
2019/3/9 NLP/CV 本田志温 19
• RMSPropと似ている
• Δ𝒘と𝒘の単位を揃える

Adam
• adaptive moment estimation
• 勾配と勾配の2乗の指数移動平均を使って重み
更新(更新方向で過去の勾配を引き継ぐ)
2019/3/9 NLP/CV 本田志温 20
不安定な学習率

AdaBound & AMSBound
2019/3/9 NLP/CV 本田志温 21
• Adam/AMSGradの学習率に動的な上界と下界
を定め, SGDMに徐々に近づけていく
• Adam/AMSGrad
• 学習が速いが汎化性能が低い
• SGD
• 学習が遅いが汎化性能が高い

CNNの例
LeNet, AlexNet, VGGNet, GoogLeNet, ResNet
2019/3/9 NLP/CV 本田志温 22

ILSVRC
• ImageNet large scale visual recognition
challenge
2019/3/9 NLP/CV 本田志温 23
http://image-
net.org/challenges/talks_2017/ILSVRC2017_overview.pdf

LeNet
• Gradient-Based Learning Applied to
Document Recognition
• LeCun+, IEEE, 1998
• 誤差逆伝播を利用した元祖CNN
2019/3/9 NLP/CV 本田志温 24
output channel
inputchannel
Sparse convolution:
各カーネルを一部チャンネ
ルのみに畳み込む

AlexNet
• ImageNet Classification with Deep
Convolutional Neural Networks
• Krizhevsky+, NIPS, 2012
• Hintonを含むトロント大学のチームによる
• ILSVRC 2012優勝→深層学習ブームの始まり
• 畳み込み, 最大値プーリング層, LRNからなる14層
のネットワーク
• ReLU, Dropout, データ拡張
2019/3/9 NLP/CV 本田志温 25

VGGNet
• Very Deep Convolutional Networks For
Large-scale Image Recognition
• Simonyan+, ICLR, 2015
• ILSVRC 2014準優勝
• 畳み込みと最大値プーリング層からなる16/19層の
ネットワーク
• 畳み込みを2-4回かけてからプーリングでサイズを
半分にするという操作を繰り返す
2019/3/9 NLP/CV 本田志温 26

GoogLeNet
• Rethinking the Inception Architecture for
Computer Vision
• Szegedy+, CVPR, 2016
• ILSVRC 2014優勝
• Inceptionモジュール
• Sparse convolution
• 1x1畳込みによる次元削減
• Auxiliary loss
• 22層だがパラ
メータ数は
AlexNetの1/12
2019/3/9 NLP/CV 本田志温 27

ResNet
• Deep Residual Learning for Image
Recognition
• He+, CVPR, 2016
• 残差ブロックにより勾配消失を防ぐ
• 152層
2019/3/9 NLP/CV 本田志温 28
連鎖律で掛け
られる項
0になることは
ほぼない

SENet
• Squeeze-and-Excitation Networks
• Hu+, CVPR, 2018
• SE Blockを残差ブロックや
Inceptionに組み込む
• Attentionで特徴マップをチャンネ
ルごとに重み付け
• GAPで画像の全体的な特徴を抽出
(squeeze)
• 1×1の畳み込みで特徴マップの
チャネル間の依存関係を抽出(excitation)
2019/3/9 NLP/CV 本田志温 29

まとめ
• CNNはカーネルの利用によりパラメータ数を
大幅に削減できる
• データ拡張, バッチ正規化, 様々な正則化が性
能向上に役立つ
• 最適化アルゴリズムとしてはAdamやSGDがよ
く使われてきたが, これからはAdaBoundや
AMSBoundも人気になりそう
• CVではVGGNetやResNetが基本アーキテク
チャとしてよく使われる
→perceptual loss
2019/3/9 NLP/CV 本田志温 30

参考文献
2019/3/9 NLP/CV 本田志温 31
[1] 原田, 画像認識, 講談社, 2017.
[2] 斎藤他, ゼロから作るDeep Learning 2 自然言語処理編, O’Reilly, 2018.
[3] 内田他 , 物体認識のための畳み込みニューラルネットワークの研究動
向, 電子情報通信学会論文誌D, 2018.
近年のCNNの発展をILSVRCとともに振り返った日本語のサーベイ. [1]と合
わせて読むと良い. 元となったスライドSlideShareにある.
[4] 代表的なCNNのアーキテクチャについて - Not Yet
[5] An overview of gradient descent optimization algorithms
[6] Yu et al., Mixed Pooling for Convolutional Neural Networks, 2014.
[7] Visualizing Different Normalization Techniques – Dibya Prakash Das
– Medium

画像認識 6.3-6.6 畳込みニューラルネットワーク

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 画像認識 6.3-6.6 畳込みニューラルネットワーク

Similar to 画像認識 6.3-6.6 畳込みニューラルネットワーク (20)

More from Shion Honda

More from Shion Honda (9)