知能型システム論（後半）

知能型システム論（後半）
2014.7.23
システム科学専攻 M2 小山田創哲

【小話】World Cup Prediction
決勝トーナメントの勝敗予測で
16試合中15試合的中！（3位決定戦だけ外す）

後半の流れ
前半ではDeep learningの基本的技法につい
て学んだ（Pre-training, Dropout, ReLU）
後半ではこれらを踏まえた
Deep learningの成果と応用（画像認識分野）
について紹介する（Deep learningが何故注
目されているのか．多層NNを学習出来るよう
になった結果，どんなことが出来るようになっ
たのか）

Contents
n 【序論】なぜ注目されているのか
n 各種ベンチマークでトップレベルの性能
n 自動での特徴量抽出（画像認識）
n IT企業の積極的な開発投資
n 【準備】Convolutional NN の解説
n 【本論】Deep learningの成果・応用
n Facebook: DeepFace（2014）
n Google: 猫認識（2013）

なぜ注目されているのか
各種ベンチマークでトップレベルの識別性能
n 音声認識
n DNN-HMMを使った手法が従来手法を凌駕
n Pre-training
n [Seide et al., 2011]
n 画像認識
n 一般物体認識のコンテストで圧勝
n Dropout, ReLU
n [Krizhevsky et al., 2012]
n Kaggle（機械学習コンペ）
n 各種コンペで優勝（特徴量設計もDNN任せ）
n 化合物の活性予測
n 求人情報を用いた仕事の給料予測

自動での特徴量抽出
n 一般物体認識のコンテスト（2012）では単なる
RGBデータを入力としたDNNで圧勝
n Kaggleでもいくつかのコンペにおいて，特徴
量抽出をほぼDNN任せで優勝
特徴量抽出識別
Deep learning !!!!!
SVM, LR, etc.SIFT, HOG, etc.

IT企業の積極的な開発投資
n Deep learning関連会社の買収
n 研究者の抱え込み
1.  Google
n DNN research, DeepMind買収
n Hinton
2.  Facebook
n Facebook AI Research設立
n LeCun
3.  Yahoo
n IQ Engines, LookFlow買収
4.  Baidu
n Ng

CNN（Convolutional NN）
研究を紹介するための準備として，画像認
識分野で広く使われているCNNを解説する
n [LeCun et al., 98]
n パラメータの数を大幅に減らせるため，学
習しやすく，過学習もしにくい
n 位置に依らない特徴を学習するのに有効
である
n Convolutional layerとSubsampling
layerを交互に重ねる

Local receptive field
…
…
…
…
…
h h+1 h h+1

h
h + 1
W
W’

Feature maps
L feature maps K feature maps

Subsampling
Ex. Max pooling
max

交互に重ねる
Convolutional layerと，Subsampling
layerは，交互に重ねられて使われる
[LeCun et al., 98]

Deep learningの成果・応用
画像認識分野での研究を2つ紹介する
1. Facebook: DeepFace（2014）
2. Google: 猫認識（2013）
2つとも，機械学習界隈にとどまらず，広く
話題になった非常にインパクトのある研究

DeepFace
n Facebook人工知能研究所の研究
n Task: Face recognition
n 顔写真が同一人物かどうかを判定
n Methods: 3D-align + DNN
1.  3D-align （顔を正面向かせる）
2.  多層CNNで学習（多少特別に工夫有り）
n Results: 人と変わらない識別性能

Method: 3D-align
【目的】顔を正面に向かせる．
（メインはDeep learningなので詳しくは触れません）

Method: DNN
n 基本的にはRGBを入力とした多層CNNだが，
Face recognition用に工夫あり
n FBが作った4.4百万枚の巨大データセットで教
師有り学習
n パラメータ数はおよそ1億2千万

Method: DNN
n  最初は普通にC1, C3(Convolutional)とM2(Max
pooling)を重ねている
n  自然画像でいう線分のような位置不変な低次の特徴を捉
えるための層という位置付け
Poolingは窓3*3のslide2
窓11*11
窓9*9

Method: DNN
n つづくL4, L5, L6はConvolutionしていない
n 位置に依存する高次の特徴を学習するための層
という位置付け
※ただし，普通にConvolu3onした時との結
果比較はないので，効果は不明．

Method: DNN
n 最後にFull接続．F7はパラメーター数膨大（全
体の95％）なのでここだけDropoutしてる
n F8はソフトマックスレイヤー

猫認識
n GoogleとA.Ngの研究
n Method:
n Deep autoencoderを大量の画像を学習
n パラメータ数は約10億（！）
n Result:
n Unsupervisedで学習しているのにもかかわ
らず，人の顔を検出できるニューロンを確認
n 人の顔でなく，猫でも同じ結果を確認

Dataset
n YouTubeから取得した1000万枚のビデ
オから一枚ずつ画像を取得（1000万枚)
n ランダムに60*60のパッチを10万枚取得
して，顔画像検知器にかけると，顔が検出
されるパッチの割合は3%以下

Method: Architecture
次のlayerへ
（但し，weight sharingはしていない）
L2-pooling
Local contrast normalization
（局所的に活性を正規化）
これを3層重ねる

Method: Autoencoder
n Autoencoderで学習
n 但し，学習結果がスパースになるように，
Reconstruction errorに正則化項をい
れる

Result: 顔選択性
n 各ニューロンの活性に閾値をもうけ，テス
ト用データのサンプルが顔画像か否かを識
別
n 最も識別率の高いニューロン（81.7%）
の活性のヒストグラム

Result
猫でも同じ傾向の結果が得られる
DNNが，猫を猫と教えられることなく，
猫を認識するニューロンを創りだした

まとめ
n Deep learning（DNN）は，over-
fittingやpoor-fittingを避けるための
様々な工夫や，計算機の発展により大量
のデータを扱えるようになったことで，
画像認識をはじめ様々な分野でブレイクス
ルー実現した
n IT企業も積極的に開発投資しており，現
在も非常に活発に研究が行われている

参考文献
引用論文
n  Seide, Frank, Gang Li, and Dong Yu. "Conversational Speech Transcription
Using Context-Dependent Deep Neural Networks." Interspeech. 2011.
n  Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet
classification with deep convolutional neural networks." Advances in neural
information processing systems. 2012.
n  LeCun, Yann, et al. "Gradient-based learning applied to document recognition."
Proceedings of the IEEE 86.11 (1998): 2278-2324.
n  Wolf, Lior. "DeepFace: Closing the Gap to Human-Level Performance in Face
Verification.”
n  Le, Quoc V. "Building high-level features using large scale unsupervised
learning." Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE
International Conference on. IEEE, 2013.
その他参考にした資料
n  http://deeplearning.net/tutorial/ （CNNの解説）
n  http://www.slideshare.net/beam2d/deep-learning20140130（DNN流行の背景）
n  http://d.hatena.ne.jp/repose/20130508/1368020782（KaggleでのDNN）

知能型システム論（後半）

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to 知能型システム論（後半）

Similar to 知能型システム論（後半） (20)

知能型システム論（後半）