Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
ディープラーニングを用いた
物体認識とその周辺
~現状と課題~
岩村雅一 山田良博
(大阪府立大学 大学院工学研究科)
画像センシング展 イメージセンシングセミナー 招待講演 2018/6/13
自己紹介
1
岩村雅一
大阪府立大学 大学院工学研究科 准教授
[主な研究分野]
• 文字認識
• 物体認識
• 視覚障害者支援システム
[主な受賞]
• 2006年:電子情報通信学会 論文賞
• 2007年:ICDAR Best Paper ...
自己紹介
2
岩村雅一
大阪府立大学 大学院工学研究科 准教授
[主な研究分野]
• 文字認識
• 物体認識
• 視覚障害者支援システム
[主な受賞]
• 2006年:電子情報通信学会 論文賞
• 2007年:ICDAR Best Paper ...
CIFAR-10/100 Dataset
3
4
この講演に含まれること・含まれないこと
物体検出
Semantic
Segmentation
Instance
Segmentation
画像生成
(GAN)
Adversarial
Examples
構造探索
可視化
自己教師あり学習
データ...
目次
6
1. 物体認識とニューラルネットワーク
2. 物体認識の周辺タスク
3. 関連タスク
物体認識とニューラルネットワーク
物体認識
8
ポチ シロ ハチ ジロー タマ チビ
インスタンスレベル
(特定物体認識)
サブカテゴリレベル
(fine-grained
object
recognition)
カテゴリレベル
(一般物体認識)
チワワ ボクサー ハスキー
犬 ...
物体認識
9
ポチ シロ ハチ ジロー タマ チビ
インスタンスレベル
(特定物体認識)
カテゴリレベル
(一般物体認識)
チワワ ボクサー ハスキー
犬 ねずみ猫
(機械が)画像中の物体が何かを言い当てるタスク
サブカテゴリレベル
(fine...
深層学習以前の一般物体認識
10
入力画像
Images: Schiele & Fritz, “High-Level Computer Vision” Course Matrial,
https://www.mpi-inf.mpg.de/hlc...
深層学習以降の一般物体認識
11
入力画像
深層学習
(全結合層)
深層学習
(CNN)
入力画像
識別器
(SVM等)
深層学習
(CNN)
教師あり学習教師あり学習
教師あり学習 教師あり学習
深層学習の登場で何が変わったか?
12
• 中山, Deep Learningによる画像認識革命,
SSII チュートリアル講演 (2015)
• 内田, 深層学習の非常に簡単な説明, SlideShare (2017)
• まとめサイト:玉木...
物体認識の周辺タスク
物体認識の周辺タスク -画像分類で十分?-
「ネコ」
これだけで『物体を認識した』と
言えるのだろうか?
14
物体認識の周辺タスク -高度な画像認識-
「ネコ」の画像
1. 場所
何処に「ネコ」が居る?
2. 複数物体
他に物体は無いか?
別の「ネコ」は居ないか?
物体分類では扱わない
高度な問題が存在
物体認識の周辺タスク -高度な画像認識の例-
Semantic Segmentation
(領域分割)
空
木
草
猫
画像の各部分が
どのクラスに属するか分類
入力画像 出力
Fei-Fei+: cs231n_2017_lecture11, ...
物体認識の周辺タスク -高度な画像認識の例-
『画像の認識』を扱うタスクは
物体認識以外にも無数に存在している
Fei-Fei+: cs231n_2017_lecture11, http://cs231n.stanford.edu/slides...
物体認識以外の
周辺タスクは何処まで進んだ?
18
物体認識の周辺タスク -物体認識が周辺タスクにもたらした恩恵-
物体認識
CNN
「ネコ」
「草」
「空」
「木」
認識精度が上がるにつれ画像認識CNNから
物体の正確な位置や確信度が得られるようになった
「ネコ」
周辺タスクに飛躍的な発展をも...
物体認識の周辺タスク -UberNet-
入力画像
Kokkinos+: UberNet : Training a ‘Universal’ Convolutional Neural Network for Low-,
Mid-, and Hig...
物体認識の周辺タスク -周辺タスクの最先端-
代表的な3つのタスクについて
最先端の研究成果を紹介
21
物体認識の周辺タスク -高度な画像認識の例-
Semantic Segmentation
(領域分割)
空
木
草
猫
画像の各部分が
どのクラスに属するか分類
入力画像 出力
Fei-Fei+: cs231n_2017_lecture11, ...
物体認識の周辺タスク -領域分割 (PSPNet)-
Zhao+: Pyramid Scene Parsing Network, CVPR (2017)
優れた物体認識CNNに
様々な領域で物体の情報を扱う
特殊な構造を導入して精度改善
Sem...
物体認識の周辺タスク -物体検出 (YOLO)-
Object Detection
(物体検出)
入力画像
画像の「どこ」に「何」があるか扱う
「ネコ」
24
物体認識の周辺タスク -物体検出 (YOLO)-
Redmon+: YOLOv3: An Incremental Improvement,
https://pjreddie.com/media/files/papers/YOLOv3.pdf
優...
物体認識の周辺タスク -個別領域分割 (Mask R-CNN)-
Instance Segmentation
(個別領域分割)
イヌA
イヌB
画像中に含まれる
同じクラスの物体を
それぞれ別の領域で分割する
26
He+: Mask R-CN...
物体認識の周辺タスク -個別領域分割 (Mask R-CNN)-
検出された領域の中で
それぞれ領域分割を行う類似タスクとみなせる
物体検出 個別領域分割
物体検出結果
Instance Segmentation
(個別領域分割)
27
He+...
物体認識の周辺タスク -個別領域分割 (Mask R-CNN)-
He+: Mask R-CNN, CVPR (2017)
物体検出と個別領域分割の類似性から
物体検出結果を活用して精度向上
Instance Segmentation
(個別領...
物体認識の周辺タスク -まとめ-
物体認識の成功が
周辺タスクの成功を
もたらした
関連技術
深層学習を巡る最近の動向 –Caltech101-
31
2004年: Caltech101
クラス数: 101
画像枚数: 約1万枚
初の近代的な物体認識用データセット
深層学習を巡る最近の動向 -ImageNetの衝撃-
32
クラス数: 2万以上
画像枚数: 約1400万枚
2009年: ImageNet
100倍以上の規模!
物体認識が大きく変わる
きっかけになった
深層学習を巡る最近の動向 -ImageNetを用いたコンペティション-
33
ImageNet Large Scale Visual
Recognition Challenge (ILSVRC)
2010年から開催されてきた
大規模物体認識コンペ
深層学習を巡る最近の動向 -ILSVRCと精度向上-
34
Park+: IMAGENET Latge Scale Visual Recognition Challenge (ILSVRC) 2017 Overview,
http://imag...
深層学習を巡る最近の動向 -ILSVRCの終了-
35
Fei-Fei+: IMAGENET Where have we been? Where are we going?,
http://image-net.org/challenges/ta...
認識
応用
①画像生成 ②敵対的事例
③構造探索 ④セキュリティ
36
物体認識が出来たことで
何が出来るようになった?
① 画像生成
37
深層学習を巡る最近の動向 -画像生成 (GAN)-
38
物体認識の発展により
実現した高精細な画像生成
Generative Adversarial Network
(GAN/敵対的生成ネットワーク)
どのように生成する?
Karras+, ...
深層学習を巡る最近の動向 -画像生成 (GAN)-
39
Generator
(生成器)
Discriminator
(識別器)
「偽物」
OR
「本物」
データセット
本物
偽物
生成器と識別器が競い
偽物の画像の質を向上
Generativ...
深層学習を巡る最近の動向 -(例)GANの仕組み-
40
Generator
(生成器)
Discriminator
(識別器)
生成器と識別器が競う
ことで偽札の質が向上データセット
偽札
本物のお札
偽札を見抜く
見抜かれない
偽札を作る
...
深層学習を巡る最近の動向 -GANの進歩-
41malicious_ai_reportより
画像処理技術の向上に伴い
高精細な画像を生成できるように
現在
2013年 2017年
深層学習を巡る最近の動向 -GANの課題-
42
Mode Collapse
学習がある程度進んで
バランスが崩れてしまう
Fedus+: Many Paths to Equilibrium: GANs Do Not Need to Decre...
深層学習を巡る最近の動向 –Mode Collapseの原因1:識別器の勝利-
43
Generator
(生成器)
Discriminator
(識別器)
「偽物」
OR
「本物」
識別器が優秀だと
うまく学習できない
データセット
偽札
本...
深層学習を巡る最近の動向 –Mode Collapseの原因2:生成器の勝利-
44
Generator
(生成器)
Discriminator
(識別器)
「偽物」
OR
「本物」
生成器が優秀でも
うまく学習できないデータセット
偽札
本物...
深層学習を巡る最近の動向 –勝利条件の整理-
45
勝敗を決めるのは全て識別器の振る舞い
勝敗を決めない曖昧な振る舞いの識別器で
Mode Collapseを回避できる?
完全には分からん
Discriminator
(識別器)
深層学習を巡る最近の動向 -識別器を1-Lipschitz連続に-
46
Discriminator
(識別器)
𝐷( )
𝐷( )
距離A 距離B
入力と出力の距離関係が
保たれるよう識別器を調整
出力1
出力2
距離𝐴 ≥ 距離𝐵
制約:
深層学習を巡る最近の動向 -(例) 生成画像が似てきた場合-
47
Discriminator
(識別器)
𝐷( )
𝐷( )
距離A 距離B
偽物が似ると距離Bが小さく
識別結果に差がなくなり曖昧に
出力1
出力2
距離𝐴 ≥ 距離𝐵
制約:...
深層学習を巡る最近の動向 -距離の制約を導入したGAN-
48
Spectral Normalization
Miyato+: Spectral Normalization for Generative Adversarial Networks...
深層学習を巡る最近の動向 -画像生成まとめ-
49
物体認識の発展
数理的な分析の進歩
画像生成は飛躍的に発展
Karras+, Progressive Growing of GANs for Improved Quality, Stabili...
物体認識に迫る脅威
② 敵対的事例
50
深層学習を巡る最近の動向 -セキュリティ-
51
自動運転等の場面
停止だ
止まった!
深層学習を巡る最近の動向 -セキュリティ-
52
自動運転等の場面
文字を消して
悪戯してやる
悪意への対応が必要
止まらない!?
駐車禁止だ
深層学習を巡る最近の動向 -想定される脅威-
53
Goodfellow+: Explaining and Harnessing Adversarial Examples, ICLR (2015)
CNNが物体認識結果を間違える画像作りは
人の...
深層学習を巡る最近の動向 -敵対的事例の怖さ-
54
応用技術への脅威に
敵対的事例 (Adversarial Example)
文字を消さず
悪戯してやる
駐車禁止だ
標識はおかしくないのに
止まらない!?
深層学習を巡る最近の動向 -敵対的事例の仕組み-
55
生成画像𝐺(𝑥, 𝜃)本物の画像𝑥
ノイズを付与
ノイズ𝜽
生成画像の認識結果が異なるか確かめつつ
分類をだます小さなノイズ𝜽を学習していく
深層学習を巡る最近の動向 -敵対的事例の応用-
56
Brown+: Adversarial Patch, arXiv (2017)
缶バッジのようなものでも
画像認識結果を間違えさせることができる
どう対策するのか?
Video: https...
深層学習を巡る最近の動向 -敵対的事例の対策-
57
生成画像𝐺(𝑥, 𝜃)
物体認識CNN
敵対的事例をCNNで学習する
敵対的事例を考慮し
頑健性が向上
更にこの対策は
存在するのだろうか?
深層学習を巡る最近の動向 -敵対的事例の対策の対策-
58
敵対的事例の生成をGANで学習
kurakin+: Adversarial Attacks and Defences Competition, arXiv (2018)
見抜かれないよ...
より良い物体認識手法は
自動的に見つけられる?
③ 構造探索
59
ILSVRC物体認識
top-5エラー率の推移
深層学習を巡る最近の動向 -ILSVRCと精度向上-
60
CNN構造の進歩によって
人を上回る精度を達成
16%
5.1%
ヒト
2.3%
Park+: IMAGENET Latge Scale...
深層学習を巡る最近の動向 -ILSVRCとCNN構造-
61
より良い構造を自動で探索したい!
優れたCNNの構造が認識精度を改善してきた
16% 6.7% 3.6%7.3%
Top-5 Error
深層学習を巡る最近の動向 -CNNの自動構造探索の考え方-
62
無数に存在する構造の精度を検証
最も優れた構造を発見する!
CNN構造をパラメータだと考える
認識精度の向上が
期待される
深層学習を巡る最近の動向 -AmoebaNet-
63
遺伝的アルゴリズム+大規模分散処理で
高い認識精度を実現するCNN構造を探索
(CIFAR-10およびImageNetで高精度を実現)
Real+: Regularized Evoluti...
深層学習を巡る最近の動向 -構造探索の問題点-
64
課題: 認識精度の評価が大変
小規模データ: 約1日 大規模データ: 約1ヶ月
1つの構造を評価するのに...
普通の専用計算機で
大規模な専用計算機が必要
深層学習を巡る最近の動向 -構造探索のコスト問題-
65
個人や大学の研究室レベルでは
(事実上)構造探索は不可能な規模に
最高級の深層学習用
計算ユニットが
膨大な量必要になる
数百台規模
Zoph+: Learning Transferab...
深層学習を巡る最近の動向 -今後の構造探索の課題-
66
Pham+: Efficient Neural Architecture Search via Parameter Sharing, arXiv (2018)
低コストな探索手法が模索さ...
物体認識の結果がどうして
こうなったのか知りたい!
④ 可視化
67
深層学習を巡る最近の動向 -物体認識の例-
68
ImageNetの実際の画像
※ 一部拡大
ピザ
分類システム
Lee+: Why Do Deep Neural Networks Still Not Recognize These Image...
深層学習を巡る最近の動向 -物体認識の例-
69
正解: 絆創膏
ImageNetの実際の画像
※ 一部拡大
Lee+: Why Do Deep Neural Networks Still Not Recognize These Images?...
深層学習を巡る最近の動向 -根拠の提示-
70
正解: 絆創膏
ピザ
何故そう認識したか
根拠が知りたい
誤認識は
避けられないが…
分類システム
再発防止
Lee+: Why Do Deep Neural Networks Still Not...
深層学習を巡る最近の動向 -根拠の提示-
71
適当な所の情報を抜き出しても
よく分からない数字の羅列
人に分かりやすい情報提示が不可欠
CNNの認識過程はブラックボックス的
深層学習を巡る最近の動向 -根拠の可視化-
72
何処を見て
分類したか?
例: ネコ
例: イヌGrad-CAM
Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via...
深層学習を巡る最近の動向 -根拠の可視化-
73
何処を見て
分類したか?
Grad-CAM 例: イヌ
ここが変わったら
イヌっぽく
見えなくなる
クラスに対する変動を
見ることで可視化する
Selvaraju+: Grad-CAM: Vis...
深層学習を巡る最近の動向 -根拠の可視化-
74Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV...
ラベル付きデータが少なくても
高精度な物体認識ができる?
⑤ データセット
の拡張
75
自己教師あり学習 (Self-supervised Learning)
76
例1:画像の色づけ [1]
• カラー画像から白黒画像を生成
• 白黒画像からカラー画像を予測
例2:動きの推定 [2]
• 動画中の2枚の画像からカメラ
の動きを推...
Pretext tasksによる自己教師あり学習(pretext=言い訳)
77
本当に学習したいタスク
10クラスの物体認識
関係無さそうなタスク
回転角認識(4クラス問題)
0° 90° 180° 270°
関係無さそうなタスク(prete...
Pretext tasksによる自己教師あり学習(pretext=言い訳)
78
関係無さそうなタスク(pretext tasks)の学習により、
本当に学習したいタスクで使える特徴表現を学習
関係無さそうなタスクの例
1. 幾何変換 画像の回...
Pretext tasksによる自己教師あり学習:1. 幾何変換
79
[3] Gidaris+: Unsupervised Representation Learning by Predicting Image Rotations,
ICLR...
Pretext tasksによる自己教師あり学習:1. 幾何変換
80
[3] Gidaris+: Unsupervised Representation Learning by Predicting Image Rotations,
ICLR...
Pretext tasksによる自己教師あり学習:2. 計数
81
[5] Noroozi+: Representation Learning by Learning to Count, ICCV (2017)
画像全体に含まれる物体の数は、画...
Pretext tasksによる自己教師あり学習:3. マルチモダリティ
82
画像と音声の組み合わせが正しいかどうかを判別することで、
画像と音声の特徴表現を学習
同じ動画のものか判定
動画
音声特徴の抽出
画像特徴の抽出
[6] Arand...
Pretext tasksによる自己教師あり学習:4. カメラの動き
83
入力
特徴抽出 動きの推定
動画中の2枚の画像から「カメラの動き」を推定することで、
物体認識に使用できる特徴表現を学習
出力・教師
(タダで入手可能と仮定)
[2] ...
Pretext tasksによる自己教師あり学習:5. パズル
84
隠れた部分を推定したり、パズルを解くことで、
物体認識に使用できる特徴表現を学習
[7] Noroozi+: Unsupervised Learning of Visual ...
Pretext tasksによる自己教師あり学習:5. パズル
85
隠れた部分を推定したり、パズルを解くことで、
物体認識に使用できる特徴表現を学習
[8] Pathak+: Context Encoders: Feature Learnin...
データセットの拡張:前処理の工夫
86
学習データを意図的に劣化させることで、学習を促進
[1] Zhong+: Random Erasing Data Augmentation, arXiv:1708.04896 (2017)
[2] DeV...
データセットの拡張:データとクラスラベルの合成
87
画像と正解ラベルの中間状態を作り
学習サンプルを増やすことで学習性能を向上
[1] Tokozume+: Learning from Between-class Examples for D...
ディープラーニングを用いた
物体認識とその周辺
~現状と課題~
岩村雅一 山田良博
(大阪府立大学 大学院工学研究科)
画像センシング展 イメージセンシングセミナー 招待講演 2018/6/13
Upcoming SlideShare
Loading in …5
×

ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)

822 views

Published on

物体認識技術は、ディープラーニングと大規模なデータセットの登場により、飛躍的に発展した。
これが突破口となり、物体検出や領域分割、画像の加工、画像や画像の説明文の生成など、物体認識の周辺技術も大きく発展した。
本講演では、ディープラーニングを用いた物体認識の処理を概観し、それによって得られる効果を述べた後、物体認識とその周辺技術の最近の動向と課題を紹介する。

Published in: Technology
  • Be the first to comment

ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)

  1. 1. ディープラーニングを用いた 物体認識とその周辺 ~現状と課題~ 岩村雅一 山田良博 (大阪府立大学 大学院工学研究科) 画像センシング展 イメージセンシングセミナー 招待講演 2018/6/13
  2. 2. 自己紹介 1 岩村雅一 大阪府立大学 大学院工学研究科 准教授 [主な研究分野] • 文字認識 • 物体認識 • 視覚障害者支援システム [主な受賞] • 2006年:電子情報通信学会 論文賞 • 2007年:ICDAR Best Paper Award • 2010年:DAS Best Paper Award • 2011年:IAPR/ICDAR Young Investigator Award • 2017年:MVA Best Paper Award 山田良博 大阪府立大学 大学院工学研究科 D2 日本学術振興会 特別研究員 [主な研究分野] • 深層学習を用いた一般物体認識 (CIFAR-100データセットにおいて、 世界一の認識精度を二度達成) [主な受賞] • 2016&2017年度:電子情報通信学会 PRMU研究会 研究奨励賞(2年連続) • 2017年:MIRU2017 インタラクティブ発表賞
  3. 3. 自己紹介 2 岩村雅一 大阪府立大学 大学院工学研究科 准教授 [主な研究分野] • 文字認識 • 物体認識 • 視覚障害者支援システム [主な受賞] • 2006年:電子情報通信学会 論文賞 • 2007年:ICDAR Best Paper Award • 2010年:DAS Best Paper Award • 2011年:IAPR/ICDAR Young Investigator Award • 2017年:MVA Best Paper Award 山田良博 大阪府立大学 大学院工学研究科 D2 日本学術振興会 特別研究員 [主な研究分野] • 深層学習を用いた一般物体認識 (CIFAR-100データセットにおいて、 世界一の認識精度を二度達成) [主な受賞] • 2016&2017年度:電子情報通信学会 PRMU研究会 研究奨励賞(2年連続) • 2017年:MIRU2017 インタラクティブ発表賞 勝手に始めた人巻き込まれた人
  4. 4. CIFAR-10/100 Dataset 3
  5. 5. 4
  6. 6. この講演に含まれること・含まれないこと 物体検出 Semantic Segmentation Instance Segmentation 画像生成 (GAN) Adversarial Examples 構造探索 可視化 自己教師あり学習 データセット の拡張 物体認識の周辺タスク 蒸留 画像変換 (スタイル変換、 超解像など) 画像圧縮 画像キャプショニング 強化学習 含まれること ○ 発表者が知っていること、 面白いと思うこと ○ 情報へのポインタ 含まれないこと × 幅広いサーベイ 3次元物体認識・ 構造推定物体認識 関連技術 Attention Visual QA 動画の認識 5
  7. 7. 目次 6 1. 物体認識とニューラルネットワーク 2. 物体認識の周辺タスク 3. 関連タスク
  8. 8. 物体認識とニューラルネットワーク
  9. 9. 物体認識 8 ポチ シロ ハチ ジロー タマ チビ インスタンスレベル (特定物体認識) サブカテゴリレベル (fine-grained object recognition) カテゴリレベル (一般物体認識) チワワ ボクサー ハスキー 犬 ねずみ猫 (機械が)画像中の物体が何かを言い当てるタスク
  10. 10. 物体認識 9 ポチ シロ ハチ ジロー タマ チビ インスタンスレベル (特定物体認識) カテゴリレベル (一般物体認識) チワワ ボクサー ハスキー 犬 ねずみ猫 (機械が)画像中の物体が何かを言い当てるタスク サブカテゴリレベル (fine-grained object recognition) • クラス当たりの学習画像が多い  ディープラーニングを適用しやすい • クラス当たりの学習画像が少ない
  11. 11. 深層学習以前の一般物体認識 10 入力画像 Images: Schiele & Fritz, “High-Level Computer Vision” Course Matrial, https://www.mpi-inf.mpg.de/hlcv 局所特徴量の抽出 Bag-of-Visual-Words表現など ベクトル量子化 (クラスタリング) 識別器 (SVM等) クラス ラベル 人手で設計 教師無し学習 人手で設計 教師あり学習
  12. 12. 深層学習以降の一般物体認識 11 入力画像 深層学習 (全結合層) 深層学習 (CNN) 入力画像 識別器 (SVM等) 深層学習 (CNN) 教師あり学習教師あり学習 教師あり学習 教師あり学習
  13. 13. 深層学習の登場で何が変わったか? 12 • 中山, Deep Learningによる画像認識革命, SSII チュートリアル講演 (2015) • 内田, 深層学習の非常に簡単な説明, SlideShare (2017) • まとめサイト:玉木, Deep learning(深層学習) チュートリアルなど集 特徴抽出系 • 学習により得られる • 大規模なラベル付き学習データが必要 識別器 • 単なる線形識別器(±α) • 従来からの大幅な性能向上は望めない 参考になるプレゼン、情報源
  14. 14. 物体認識の周辺タスク
  15. 15. 物体認識の周辺タスク -画像分類で十分?- 「ネコ」 これだけで『物体を認識した』と 言えるのだろうか? 14
  16. 16. 物体認識の周辺タスク -高度な画像認識- 「ネコ」の画像 1. 場所 何処に「ネコ」が居る? 2. 複数物体 他に物体は無いか? 別の「ネコ」は居ないか? 物体分類では扱わない 高度な問題が存在
  17. 17. 物体認識の周辺タスク -高度な画像認識の例- Semantic Segmentation (領域分割) 空 木 草 猫 画像の各部分が どのクラスに属するか分類 入力画像 出力 Fei-Fei+: cs231n_2017_lecture11, http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
  18. 18. 物体認識の周辺タスク -高度な画像認識の例- 『画像の認識』を扱うタスクは 物体認識以外にも無数に存在している Fei-Fei+: cs231n_2017_lecture11, http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
  19. 19. 物体認識以外の 周辺タスクは何処まで進んだ? 18
  20. 20. 物体認識の周辺タスク -物体認識が周辺タスクにもたらした恩恵- 物体認識 CNN 「ネコ」 「草」 「空」 「木」 認識精度が上がるにつれ画像認識CNNから 物体の正確な位置や確信度が得られるようになった 「ネコ」 周辺タスクに飛躍的な発展をもたらした 19
  21. 21. 物体認識の周辺タスク -UberNet- 入力画像 Kokkinos+: UberNet : Training a ‘Universal’ Convolutional Neural Network for Low-, Mid-, and High-Level Vision using Diverse Datasets and Limited Memory, CVPR (2017) 物体認識の精度向上で様々な周辺タスクが 同時に解けるまでになっている 20
  22. 22. 物体認識の周辺タスク -周辺タスクの最先端- 代表的な3つのタスクについて 最先端の研究成果を紹介 21
  23. 23. 物体認識の周辺タスク -高度な画像認識の例- Semantic Segmentation (領域分割) 空 木 草 猫 画像の各部分が どのクラスに属するか分類 入力画像 出力 Fei-Fei+: cs231n_2017_lecture11, http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
  24. 24. 物体認識の周辺タスク -領域分割 (PSPNet)- Zhao+: Pyramid Scene Parsing Network, CVPR (2017) 優れた物体認識CNNに 様々な領域で物体の情報を扱う 特殊な構造を導入して精度改善 Semantic Segmentation (領域分割) Pyramid Pooling Module 23
  25. 25. 物体認識の周辺タスク -物体検出 (YOLO)- Object Detection (物体検出) 入力画像 画像の「どこ」に「何」があるか扱う 「ネコ」 24
  26. 26. 物体認識の周辺タスク -物体検出 (YOLO)- Redmon+: YOLOv3: An Incremental Improvement, https://pjreddie.com/media/files/papers/YOLOv3.pdf 優れた物体認識CNNに 位置情報を扱うタスクを付与 様々な物体のクラスと位置を扱う Object Detection (物体検出) 25
  27. 27. 物体認識の周辺タスク -個別領域分割 (Mask R-CNN)- Instance Segmentation (個別領域分割) イヌA イヌB 画像中に含まれる 同じクラスの物体を それぞれ別の領域で分割する 26 He+: Mask R-CNN, CVPR (2017)
  28. 28. 物体認識の周辺タスク -個別領域分割 (Mask R-CNN)- 検出された領域の中で それぞれ領域分割を行う類似タスクとみなせる 物体検出 個別領域分割 物体検出結果 Instance Segmentation (個別領域分割) 27 He+: Mask R-CNN, CVPR (2017)
  29. 29. 物体認識の周辺タスク -個別領域分割 (Mask R-CNN)- He+: Mask R-CNN, CVPR (2017) 物体検出と個別領域分割の類似性から 物体検出結果を活用して精度向上 Instance Segmentation (個別領域分割) 物体検出の情報を利用 28
  30. 30. 物体認識の周辺タスク -まとめ- 物体認識の成功が 周辺タスクの成功を もたらした
  31. 31. 関連技術
  32. 32. 深層学習を巡る最近の動向 –Caltech101- 31 2004年: Caltech101 クラス数: 101 画像枚数: 約1万枚 初の近代的な物体認識用データセット
  33. 33. 深層学習を巡る最近の動向 -ImageNetの衝撃- 32 クラス数: 2万以上 画像枚数: 約1400万枚 2009年: ImageNet 100倍以上の規模! 物体認識が大きく変わる きっかけになった
  34. 34. 深層学習を巡る最近の動向 -ImageNetを用いたコンペティション- 33 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2010年から開催されてきた 大規模物体認識コンペ
  35. 35. 深層学習を巡る最近の動向 -ILSVRCと精度向上- 34 Park+: IMAGENET Latge Scale Visual Recognition Challenge (ILSVRC) 2017 Overview, http://image-net.org/challenges/talks_2017/ILSVRC2017_overview.pdf 深層学習によって 人を上回る精度を達成 16% 5.1% ヒト 2.3% ILSVRC物体認識 top-5エラー率の推移
  36. 36. 深層学習を巡る最近の動向 -ILSVRCの終了- 35 Fei-Fei+: IMAGENET Where have we been? Where are we going?, http://image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf ILSVRCは一定の役割を終えたとして 2017年で終了した 精度向上の結果... ※ 後継としてOpen Images Challengeが開催される 研究の主流は『単なる認識』以上の タスクへ向きつつある
  37. 37. 認識 応用 ①画像生成 ②敵対的事例 ③構造探索 ④セキュリティ 36
  38. 38. 物体認識が出来たことで 何が出来るようになった? ① 画像生成 37
  39. 39. 深層学習を巡る最近の動向 -画像生成 (GAN)- 38 物体認識の発展により 実現した高精細な画像生成 Generative Adversarial Network (GAN/敵対的生成ネットワーク) どのように生成する? Karras+, Progressive Growing of GANs for Improved Quality, Stability, and Variation, ICLR (2018)
  40. 40. 深層学習を巡る最近の動向 -画像生成 (GAN)- 39 Generator (生成器) Discriminator (識別器) 「偽物」 OR 「本物」 データセット 本物 偽物 生成器と識別器が競い 偽物の画像の質を向上 Generative Adversarial Network (GAN/敵対的生成ネットワーク)
  41. 41. 深層学習を巡る最近の動向 -(例)GANの仕組み- 40 Generator (生成器) Discriminator (識別器) 生成器と識別器が競う ことで偽札の質が向上データセット 偽札 本物のお札 偽札を見抜く 見抜かれない 偽札を作る 同様の仕組みをCNNで... 「偽物」 OR 「本物」
  42. 42. 深層学習を巡る最近の動向 -GANの進歩- 41malicious_ai_reportより 画像処理技術の向上に伴い 高精細な画像を生成できるように 現在 2013年 2017年
  43. 43. 深層学習を巡る最近の動向 -GANの課題- 42 Mode Collapse 学習がある程度進んで バランスが崩れてしまう Fedus+: Many Paths to Equilibrium: GANs Do Not Need to Decrease a Divergence At Every Step, ICLR (2018) ・多様性の減少 ・生成画像の質の低下
  44. 44. 深層学習を巡る最近の動向 –Mode Collapseの原因1:識別器の勝利- 43 Generator (生成器) Discriminator (識別器) 「偽物」 OR 「本物」 識別器が優秀だと うまく学習できない データセット 偽札 本物のお札 見抜かれない偽札を 作ろうにも… 偽物を全部 見抜けたぞ!
  45. 45. 深層学習を巡る最近の動向 –Mode Collapseの原因2:生成器の勝利- 44 Generator (生成器) Discriminator (識別器) 「偽物」 OR 「本物」 生成器が優秀でも うまく学習できないデータセット 偽札 本物のお札 全然分からん… 完璧な偽札が 出来た! バランスが大事
  46. 46. 深層学習を巡る最近の動向 –勝利条件の整理- 45 勝敗を決めるのは全て識別器の振る舞い 勝敗を決めない曖昧な振る舞いの識別器で Mode Collapseを回避できる? 完全には分からん Discriminator (識別器)
  47. 47. 深層学習を巡る最近の動向 -識別器を1-Lipschitz連続に- 46 Discriminator (識別器) 𝐷( ) 𝐷( ) 距離A 距離B 入力と出力の距離関係が 保たれるよう識別器を調整 出力1 出力2 距離𝐴 ≥ 距離𝐵 制約:
  48. 48. 深層学習を巡る最近の動向 -(例) 生成画像が似てきた場合- 47 Discriminator (識別器) 𝐷( ) 𝐷( ) 距離A 距離B 偽物が似ると距離Bが小さく 識別結果に差がなくなり曖昧に 出力1 出力2 距離𝐴 ≥ 距離𝐵 制約: 小 小
  49. 49. 深層学習を巡る最近の動向 -距離の制約を導入したGAN- 48 Spectral Normalization Miyato+: Spectral Normalization for Generative Adversarial Networks, ICLR (2018) 距離の制約を 簡単な計算で実現 Mode Collapseを回避 距離𝐴 ≥ 距離𝐵 制約: Video: https://drive.google.com/drive/folders/1yhV8_VbOcs2rkiMTstO4RHqp4YRnzg6c
  50. 50. 深層学習を巡る最近の動向 -画像生成まとめ- 49 物体認識の発展 数理的な分析の進歩 画像生成は飛躍的に発展 Karras+, Progressive Growing of GANs for Improved Quality, Stability, and Variation, ICLR (2018) Generative Adversarial Network (GAN/敵対的生成ネットワーク)
  51. 51. 物体認識に迫る脅威 ② 敵対的事例 50
  52. 52. 深層学習を巡る最近の動向 -セキュリティ- 51 自動運転等の場面 停止だ 止まった!
  53. 53. 深層学習を巡る最近の動向 -セキュリティ- 52 自動運転等の場面 文字を消して 悪戯してやる 悪意への対応が必要 止まらない!? 駐車禁止だ
  54. 54. 深層学習を巡る最近の動向 -想定される脅威- 53 Goodfellow+: Explaining and Harnessing Adversarial Examples, ICLR (2015) CNNが物体認識結果を間違える画像作りは 人の目には見えないレベルのノイズで実現可能 敵対的事例 (Adversarial Example) パンダ テナガザル
  55. 55. 深層学習を巡る最近の動向 -敵対的事例の怖さ- 54 応用技術への脅威に 敵対的事例 (Adversarial Example) 文字を消さず 悪戯してやる 駐車禁止だ 標識はおかしくないのに 止まらない!?
  56. 56. 深層学習を巡る最近の動向 -敵対的事例の仕組み- 55 生成画像𝐺(𝑥, 𝜃)本物の画像𝑥 ノイズを付与 ノイズ𝜽 生成画像の認識結果が異なるか確かめつつ 分類をだます小さなノイズ𝜽を学習していく
  57. 57. 深層学習を巡る最近の動向 -敵対的事例の応用- 56 Brown+: Adversarial Patch, arXiv (2017) 缶バッジのようなものでも 画像認識結果を間違えさせることができる どう対策するのか? Video: https://www.youtube.com/watch?v=i1sp4X57TL4
  58. 58. 深層学習を巡る最近の動向 -敵対的事例の対策- 57 生成画像𝐺(𝑥, 𝜃) 物体認識CNN 敵対的事例をCNNで学習する 敵対的事例を考慮し 頑健性が向上 更にこの対策は 存在するのだろうか?
  59. 59. 深層学習を巡る最近の動向 -敵対的事例の対策の対策- 58 敵対的事例の生成をGANで学習 kurakin+: Adversarial Attacks and Defences Competition, arXiv (2018) 見抜かれないような 敵対的事例の生成を学習
  60. 60. より良い物体認識手法は 自動的に見つけられる? ③ 構造探索 59
  61. 61. ILSVRC物体認識 top-5エラー率の推移 深層学習を巡る最近の動向 -ILSVRCと精度向上- 60 CNN構造の進歩によって 人を上回る精度を達成 16% 5.1% ヒト 2.3% Park+: IMAGENET Latge Scale Visual Recognition Challenge (ILSVRC) 2017 Overview, http://image-net.org/challenges/talks_2017/ILSVRC2017_overview.pdf
  62. 62. 深層学習を巡る最近の動向 -ILSVRCとCNN構造- 61 より良い構造を自動で探索したい! 優れたCNNの構造が認識精度を改善してきた 16% 6.7% 3.6%7.3% Top-5 Error
  63. 63. 深層学習を巡る最近の動向 -CNNの自動構造探索の考え方- 62 無数に存在する構造の精度を検証 最も優れた構造を発見する! CNN構造をパラメータだと考える 認識精度の向上が 期待される
  64. 64. 深層学習を巡る最近の動向 -AmoebaNet- 63 遺伝的アルゴリズム+大規模分散処理で 高い認識精度を実現するCNN構造を探索 (CIFAR-10およびImageNetで高精度を実現) Real+: Regularized Evolution for Image Classifier Architecture Search, arXiv (2018) 実際に探索された構造の例
  65. 65. 深層学習を巡る最近の動向 -構造探索の問題点- 64 課題: 認識精度の評価が大変 小規模データ: 約1日 大規模データ: 約1ヶ月 1つの構造を評価するのに... 普通の専用計算機で 大規模な専用計算機が必要
  66. 66. 深層学習を巡る最近の動向 -構造探索のコスト問題- 65 個人や大学の研究室レベルでは (事実上)構造探索は不可能な規模に 最高級の深層学習用 計算ユニットが 膨大な量必要になる 数百台規模 Zoph+: Learning Transferable Architectures for Scalable Image Recognition, CVPR (2018) ある論文の大規模計算機
  67. 67. 深層学習を巡る最近の動向 -今後の構造探索の課題- 66 Pham+: Efficient Neural Architecture Search via Parameter Sharing, arXiv (2018) 低コストな探索手法が模索され始めている ENASNet 個人や大学の研究室レベルでは (事実上)構造探索は不可能な規模に • パラメータの学習を最小限に • 構造を制限する
  68. 68. 物体認識の結果がどうして こうなったのか知りたい! ④ 可視化 67
  69. 69. 深層学習を巡る最近の動向 -物体認識の例- 68 ImageNetの実際の画像 ※ 一部拡大 ピザ 分類システム Lee+: Why Do Deep Neural Networks Still Not Recognize These Images?: A Qualitative Analysis on Failure Cases of ImageNet Classification, CVPR Scene Understanding workshop (2017)
  70. 70. 深層学習を巡る最近の動向 -物体認識の例- 69 正解: 絆創膏 ImageNetの実際の画像 ※ 一部拡大 Lee+: Why Do Deep Neural Networks Still Not Recognize These Images?: A Qualitative Analysis on Failure Cases of ImageNet Classification, CVPR Scene Understanding workshop (2017)
  71. 71. 深層学習を巡る最近の動向 -根拠の提示- 70 正解: 絆創膏 ピザ 何故そう認識したか 根拠が知りたい 誤認識は 避けられないが… 分類システム 再発防止 Lee+: Why Do Deep Neural Networks Still Not Recognize These Images?: A Qualitative Analysis on Failure Cases of ImageNet Classification, CVPR Scene Understanding workshop (2017)
  72. 72. 深層学習を巡る最近の動向 -根拠の提示- 71 適当な所の情報を抜き出しても よく分からない数字の羅列 人に分かりやすい情報提示が不可欠 CNNの認識過程はブラックボックス的
  73. 73. 深層学習を巡る最近の動向 -根拠の可視化- 72 何処を見て 分類したか? 例: ネコ 例: イヌGrad-CAM Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV (2017)
  74. 74. 深層学習を巡る最近の動向 -根拠の可視化- 73 何処を見て 分類したか? Grad-CAM 例: イヌ ここが変わったら イヌっぽく 見えなくなる クラスに対する変動を 見ることで可視化する Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV (2017)
  75. 75. 深層学習を巡る最近の動向 -根拠の可視化- 74Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV (2017) Grad-CAM クラスに対する勾配(変動が大きくなる部分) を用いて特徴を取り出し可視化する 勾配 特徴
  76. 76. ラベル付きデータが少なくても 高精度な物体認識ができる? ⑤ データセット の拡張 75
  77. 77. 自己教師あり学習 (Self-supervised Learning) 76 例1:画像の色づけ [1] • カラー画像から白黒画像を生成 • 白黒画像からカラー画像を予測 例2:動きの推定 [2] • 動画中の2枚の画像からカメラ の動きを推定 「手動のラベル付け」無しで特徴表現を学習 入力 出力・教師 予測 [1] Zhang+: Colorful Image Colorization, ECCV (2016) [2] Agrawal+: Learning to See by Moving, ICCV (2015) 生成 入力 出力・教師 カ メ ラ の 動 き Egomotionはタダで 入手可能と仮定
  78. 78. Pretext tasksによる自己教師あり学習(pretext=言い訳) 77 本当に学習したいタスク 10クラスの物体認識 関係無さそうなタスク 回転角認識(4クラス問題) 0° 90° 180° 270° 関係無さそうなタスク(pretext tasks)の学習により、 本当に学習したいタスクで使える特徴表現を学習 特徴表現使用
  79. 79. Pretext tasksによる自己教師あり学習(pretext=言い訳) 78 関係無さそうなタスク(pretext tasks)の学習により、 本当に学習したいタスクで使える特徴表現を学習 関係無さそうなタスクの例 1. 幾何変換 画像の回転や左右反転などの組み合わせ 2. 計数 画像の部分に含まれる物体の数の和が 画像全体に含まれる物体の数と一致 3. マルチモダリティ 画像と音声の元の組み合わせかを判別 4. カメラの動き 動画中の画像からカメラの動きを推定 5. パズル ジグソーパズルを解く、画像の穴埋め
  80. 80. Pretext tasksによる自己教師あり学習:1. 幾何変換 79 [3] Gidaris+: Unsupervised Representation Learning by Predicting Image Rotations, ICLR (2018) [4] Kilinc+: Learning Latent Representations in Neural Networks for Clustering through Pseudo Supervision and Graph-based Activity Regularization, ICLR (2018) 回転のみ [3] • 4クラス問題 0° 90° 180° 270° 回転と左右反転 [4] • 8クラス問題 共通の性質(数値は[3]より抜粋) • 90°ずつの回転が最も精度が高い 回転角 45° 90° 180° 精度 (%) 88.51 89.06 87.46 85.52 • 精度は教師あり学習には劣る 教師あり 自己教師あり CIFAR-10 92.80 91.16 ImageNet 59.7 50.0 PASCAL VOC 79.9 72.97
  81. 81. Pretext tasksによる自己教師あり学習:1. 幾何変換 80 [3] Gidaris+: Unsupervised Representation Learning by Predicting Image Rotations, ICLR (2018) 教師あり学習 自己教師あり学習入力 学習で得られた特徴 [3] 教師あり学習と同様の特徴が得られている
  82. 82. Pretext tasksによる自己教師あり学習:2. 計数 81 [5] Noroozi+: Representation Learning by Learning to Count, ICCV (2017) 画像全体に含まれる物体の数は、画像の各領域に含まれる 物体の数の和という制約を利用して、画像の特徴表現を学習 画像全体の物体数 画像を4分割したときの 各領域の物体数
  83. 83. Pretext tasksによる自己教師あり学習:3. マルチモダリティ 82 画像と音声の組み合わせが正しいかどうかを判別することで、 画像と音声の特徴表現を学習 同じ動画のものか判定 動画 音声特徴の抽出 画像特徴の抽出 [6] Arandjelović+: Look, Listen and Learn, ICCV (2017) 画像 音声
  84. 84. Pretext tasksによる自己教師あり学習:4. カメラの動き 83 入力 特徴抽出 動きの推定 動画中の2枚の画像から「カメラの動き」を推定することで、 物体認識に使用できる特徴表現を学習 出力・教師 (タダで入手可能と仮定) [2] Agrawal+: Learning to See by Moving, ICCV (2015) カ メ ラ の 動 き
  85. 85. Pretext tasksによる自己教師あり学習:5. パズル 84 隠れた部分を推定したり、パズルを解くことで、 物体認識に使用できる特徴表現を学習 [7] Noroozi+: Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles, ECCV (2016) 元画像から緑の領域 を切り抜く シャッフルした状態 正しく並べた状態 ジグソーパズル [7]
  86. 86. Pretext tasksによる自己教師あり学習:5. パズル 85 隠れた部分を推定したり、パズルを解くことで、 物体認識に使用できる特徴表現を学習 [8] Pathak+: Context Encoders: Feature Learning by Inpainting, CVPR (2016) 画像の穴埋め [8] 穴埋め結果入力 穴埋め
  87. 87. データセットの拡張:前処理の工夫 86 学習データを意図的に劣化させることで、学習を促進 [1] Zhong+: Random Erasing Data Augmentation, arXiv:1708.04896 (2017) [2] DeVries+: Improved Regularization of Convolutional Neural Networks with Cutout, arXiv:1708.04552 (2017)
  88. 88. データセットの拡張:データとクラスラベルの合成 87 画像と正解ラベルの中間状態を作り 学習サンプルを増やすことで学習性能を向上 [1] Tokozume+: Learning from Between-class Examples for Deep Sound Recognition, ICLR (2018) [2] Zhang+: mixup: Beyond Empirical Risk Minimization, ICLR (2018) [3] Lee+: SGD on Random Mixtures: Private Machine Learning under Data Breach Threats, ICLR Workshop (2018) [4] Tokozume+: Between-class Learning for Image Classification, CVPR (2018)
  89. 89. ディープラーニングを用いた 物体認識とその周辺 ~現状と課題~ 岩村雅一 山田良博 (大阪府立大学 大学院工学研究科) 画像センシング展 イメージセンシングセミナー 招待講演 2018/6/13

×