ディープラーニングを用いた
物体認識とその周辺
~現状と課題~
岩村雅一 山田良博
(大阪府立大学 大学院工学研究科)
画像センシング展 イメージセンシングセミナー 招待講演 2018/6/13
自己紹介
1
岩村雅一
大阪府立大学 大学院工学研究科 准教授
[主な研究分野]
• 文字認識
• 物体認識
• 視覚障害者支援システム
[主な受賞]
• 2006年:電子情報通信学会 論文賞
• 2007年:ICDAR Best Paper Award
• 2010年:DAS Best Paper Award
• 2011年:IAPR/ICDAR Young
Investigator Award
• 2017年:MVA Best Paper Award
山田良博
大阪府立大学 大学院工学研究科 D2
日本学術振興会 特別研究員
[主な研究分野]
• 深層学習を用いた一般物体認識
(CIFAR-100データセットにおいて、
世界一の認識精度を二度達成)
[主な受賞]
• 2016&2017年度:電子情報通信学会
PRMU研究会 研究奨励賞(2年連続)
• 2017年:MIRU2017
インタラクティブ発表賞
自己紹介
2
岩村雅一
大阪府立大学 大学院工学研究科 准教授
[主な研究分野]
• 文字認識
• 物体認識
• 視覚障害者支援システム
[主な受賞]
• 2006年:電子情報通信学会 論文賞
• 2007年:ICDAR Best Paper Award
• 2010年:DAS Best Paper Award
• 2011年:IAPR/ICDAR Young
Investigator Award
• 2017年:MVA Best Paper Award
山田良博
大阪府立大学 大学院工学研究科 D2
日本学術振興会 特別研究員
[主な研究分野]
• 深層学習を用いた一般物体認識
(CIFAR-100データセットにおいて、
世界一の認識精度を二度達成)
[主な受賞]
• 2016&2017年度:電子情報通信学会
PRMU研究会 研究奨励賞(2年連続)
• 2017年:MIRU2017
インタラクティブ発表賞
勝手に始めた人巻き込まれた人
CIFAR-10/100 Dataset
3
4
この講演に含まれること・含まれないこと
物体検出
Semantic
Segmentation
Instance
Segmentation
画像生成
(GAN)
Adversarial
Examples
構造探索
可視化
自己教師あり学習
データセット
の拡張
物体認識の周辺タスク
蒸留
画像変換
(スタイル変換、
超解像など)
画像圧縮
画像キャプショニング
強化学習
含まれること
○ 発表者が知っていること、
面白いと思うこと
○ 情報へのポインタ
含まれないこと
× 幅広いサーベイ
3次元物体認識・
構造推定物体認識
関連技術
Attention
Visual QA
動画の認識
5
目次
6
1. 物体認識とニューラルネットワーク
2. 物体認識の周辺タスク
3. 関連タスク
物体認識とニューラルネットワーク
物体認識
8
ポチ シロ ハチ ジロー タマ チビ
インスタンスレベル
(特定物体認識)
サブカテゴリレベル
(fine-grained
object
recognition)
カテゴリレベル
(一般物体認識)
チワワ ボクサー ハスキー
犬 ねずみ猫
(機械が)画像中の物体が何かを言い当てるタスク
物体認識
9
ポチ シロ ハチ ジロー タマ チビ
インスタンスレベル
(特定物体認識)
カテゴリレベル
(一般物体認識)
チワワ ボクサー ハスキー
犬 ねずみ猫
(機械が)画像中の物体が何かを言い当てるタスク
サブカテゴリレベル
(fine-grained
object
recognition)
• クラス当たりの学習画像が多い
 ディープラーニングを適用しやすい
• クラス当たりの学習画像が少ない
深層学習以前の一般物体認識
10
入力画像
Images: Schiele & Fritz, “High-Level Computer Vision” Course Matrial,
https://www.mpi-inf.mpg.de/hlcv
局所特徴量の抽出
Bag-of-Visual-Words表現など
ベクトル量子化
(クラスタリング)
識別器
(SVM等)
クラス
ラベル
人手で設計 教師無し学習
人手で設計
教師あり学習
深層学習以降の一般物体認識
11
入力画像
深層学習
(全結合層)
深層学習
(CNN)
入力画像
識別器
(SVM等)
深層学習
(CNN)
教師あり学習教師あり学習
教師あり学習 教師あり学習
深層学習の登場で何が変わったか?
12
• 中山, Deep Learningによる画像認識革命,
SSII チュートリアル講演 (2015)
• 内田, 深層学習の非常に簡単な説明, SlideShare (2017)
• まとめサイト:玉木, Deep learning(深層学習)
チュートリアルなど集
特徴抽出系
• 学習により得られる
• 大規模なラベル付き学習データが必要
識別器
• 単なる線形識別器(±α)
• 従来からの大幅な性能向上は望めない
参考になるプレゼン、情報源
物体認識の周辺タスク
物体認識の周辺タスク -画像分類で十分?-
「ネコ」
これだけで『物体を認識した』と
言えるのだろうか?
14
物体認識の周辺タスク -高度な画像認識-
「ネコ」の画像
1. 場所
何処に「ネコ」が居る?
2. 複数物体
他に物体は無いか?
別の「ネコ」は居ないか?
物体分類では扱わない
高度な問題が存在
物体認識の周辺タスク -高度な画像認識の例-
Semantic Segmentation
(領域分割)
空
木
草
猫
画像の各部分が
どのクラスに属するか分類
入力画像 出力
Fei-Fei+: cs231n_2017_lecture11, http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
物体認識の周辺タスク -高度な画像認識の例-
『画像の認識』を扱うタスクは
物体認識以外にも無数に存在している
Fei-Fei+: cs231n_2017_lecture11, http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
物体認識以外の
周辺タスクは何処まで進んだ?
18
物体認識の周辺タスク -物体認識が周辺タスクにもたらした恩恵-
物体認識
CNN
「ネコ」
「草」
「空」
「木」
認識精度が上がるにつれ画像認識CNNから
物体の正確な位置や確信度が得られるようになった
「ネコ」
周辺タスクに飛躍的な発展をもたらした
19
物体認識の周辺タスク -UberNet-
入力画像
Kokkinos+: UberNet : Training a ‘Universal’ Convolutional Neural Network for Low-,
Mid-, and High-Level Vision using Diverse Datasets and Limited Memory, CVPR (2017)
物体認識の精度向上で様々な周辺タスクが
同時に解けるまでになっている
20
物体認識の周辺タスク -周辺タスクの最先端-
代表的な3つのタスクについて
最先端の研究成果を紹介
21
物体認識の周辺タスク -高度な画像認識の例-
Semantic Segmentation
(領域分割)
空
木
草
猫
画像の各部分が
どのクラスに属するか分類
入力画像 出力
Fei-Fei+: cs231n_2017_lecture11, http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
物体認識の周辺タスク -領域分割 (PSPNet)-
Zhao+: Pyramid Scene Parsing Network, CVPR (2017)
優れた物体認識CNNに
様々な領域で物体の情報を扱う
特殊な構造を導入して精度改善
Semantic Segmentation
(領域分割)
Pyramid Pooling Module
23
物体認識の周辺タスク -物体検出 (YOLO)-
Object Detection
(物体検出)
入力画像
画像の「どこ」に「何」があるか扱う
「ネコ」
24
物体認識の周辺タスク -物体検出 (YOLO)-
Redmon+: YOLOv3: An Incremental Improvement,
https://pjreddie.com/media/files/papers/YOLOv3.pdf
優れた物体認識CNNに
位置情報を扱うタスクを付与
様々な物体のクラスと位置を扱う
Object Detection
(物体検出)
25
物体認識の周辺タスク -個別領域分割 (Mask R-CNN)-
Instance Segmentation
(個別領域分割)
イヌA
イヌB
画像中に含まれる
同じクラスの物体を
それぞれ別の領域で分割する
26
He+: Mask R-CNN, CVPR (2017)
物体認識の周辺タスク -個別領域分割 (Mask R-CNN)-
検出された領域の中で
それぞれ領域分割を行う類似タスクとみなせる
物体検出 個別領域分割
物体検出結果
Instance Segmentation
(個別領域分割)
27
He+: Mask R-CNN, CVPR (2017)
物体認識の周辺タスク -個別領域分割 (Mask R-CNN)-
He+: Mask R-CNN, CVPR (2017)
物体検出と個別領域分割の類似性から
物体検出結果を活用して精度向上
Instance Segmentation
(個別領域分割)
物体検出の情報を利用
28
物体認識の周辺タスク -まとめ-
物体認識の成功が
周辺タスクの成功を
もたらした
関連技術
深層学習を巡る最近の動向 –Caltech101-
31
2004年: Caltech101
クラス数: 101
画像枚数: 約1万枚
初の近代的な物体認識用データセット
深層学習を巡る最近の動向 -ImageNetの衝撃-
32
クラス数: 2万以上
画像枚数: 約1400万枚
2009年: ImageNet
100倍以上の規模!
物体認識が大きく変わる
きっかけになった
深層学習を巡る最近の動向 -ImageNetを用いたコンペティション-
33
ImageNet Large Scale Visual
Recognition Challenge (ILSVRC)
2010年から開催されてきた
大規模物体認識コンペ
深層学習を巡る最近の動向 -ILSVRCと精度向上-
34
Park+: IMAGENET Latge Scale Visual Recognition Challenge (ILSVRC) 2017 Overview,
http://image-net.org/challenges/talks_2017/ILSVRC2017_overview.pdf
深層学習によって
人を上回る精度を達成
16%
5.1%
ヒト
2.3%
ILSVRC物体認識
top-5エラー率の推移
深層学習を巡る最近の動向 -ILSVRCの終了-
35
Fei-Fei+: IMAGENET Where have we been? Where are we going?,
http://image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf
ILSVRCは一定の役割を終えたとして
2017年で終了した
精度向上の結果...
※ 後継としてOpen Images Challengeが開催される
研究の主流は『単なる認識』以上の
タスクへ向きつつある
認識
応用
①画像生成 ②敵対的事例
③構造探索 ④セキュリティ
36
物体認識が出来たことで
何が出来るようになった?
① 画像生成
37
深層学習を巡る最近の動向 -画像生成 (GAN)-
38
物体認識の発展により
実現した高精細な画像生成
Generative Adversarial Network
(GAN/敵対的生成ネットワーク)
どのように生成する?
Karras+, Progressive Growing of GANs for Improved Quality, Stability, and Variation, ICLR (2018)
深層学習を巡る最近の動向 -画像生成 (GAN)-
39
Generator
(生成器)
Discriminator
(識別器)
「偽物」
OR
「本物」
データセット
本物
偽物
生成器と識別器が競い
偽物の画像の質を向上
Generative Adversarial Network
(GAN/敵対的生成ネットワーク)
深層学習を巡る最近の動向 -(例)GANの仕組み-
40
Generator
(生成器)
Discriminator
(識別器)
生成器と識別器が競う
ことで偽札の質が向上データセット
偽札
本物のお札
偽札を見抜く
見抜かれない
偽札を作る
同様の仕組みをCNNで...
「偽物」
OR
「本物」
深層学習を巡る最近の動向 -GANの進歩-
41malicious_ai_reportより
画像処理技術の向上に伴い
高精細な画像を生成できるように
現在
2013年 2017年
深層学習を巡る最近の動向 -GANの課題-
42
Mode Collapse
学習がある程度進んで
バランスが崩れてしまう
Fedus+: Many Paths to Equilibrium: GANs Do Not Need to Decrease a
Divergence At Every Step, ICLR (2018)
・多様性の減少
・生成画像の質の低下
深層学習を巡る最近の動向 –Mode Collapseの原因1:識別器の勝利-
43
Generator
(生成器)
Discriminator
(識別器)
「偽物」
OR
「本物」
識別器が優秀だと
うまく学習できない
データセット
偽札
本物のお札
見抜かれない偽札を
作ろうにも…
偽物を全部
見抜けたぞ!
深層学習を巡る最近の動向 –Mode Collapseの原因2:生成器の勝利-
44
Generator
(生成器)
Discriminator
(識別器)
「偽物」
OR
「本物」
生成器が優秀でも
うまく学習できないデータセット
偽札
本物のお札
全然分からん…
完璧な偽札が
出来た!
バランスが大事
深層学習を巡る最近の動向 –勝利条件の整理-
45
勝敗を決めるのは全て識別器の振る舞い
勝敗を決めない曖昧な振る舞いの識別器で
Mode Collapseを回避できる?
完全には分からん
Discriminator
(識別器)
深層学習を巡る最近の動向 -識別器を1-Lipschitz連続に-
46
Discriminator
(識別器)
𝐷( )
𝐷( )
距離A 距離B
入力と出力の距離関係が
保たれるよう識別器を調整
出力1
出力2
距離𝐴 ≥ 距離𝐵
制約:
深層学習を巡る最近の動向 -(例) 生成画像が似てきた場合-
47
Discriminator
(識別器)
𝐷( )
𝐷( )
距離A 距離B
偽物が似ると距離Bが小さく
識別結果に差がなくなり曖昧に
出力1
出力2
距離𝐴 ≥ 距離𝐵
制約:
小 小
深層学習を巡る最近の動向 -距離の制約を導入したGAN-
48
Spectral Normalization
Miyato+: Spectral Normalization for Generative Adversarial Networks, ICLR (2018)
距離の制約を
簡単な計算で実現
Mode Collapseを回避
距離𝐴 ≥ 距離𝐵
制約:
Video: https://drive.google.com/drive/folders/1yhV8_VbOcs2rkiMTstO4RHqp4YRnzg6c
深層学習を巡る最近の動向 -画像生成まとめ-
49
物体認識の発展
数理的な分析の進歩
画像生成は飛躍的に発展
Karras+, Progressive Growing of GANs for Improved Quality, Stability, and Variation, ICLR (2018)
Generative Adversarial Network
(GAN/敵対的生成ネットワーク)
物体認識に迫る脅威
② 敵対的事例
50
深層学習を巡る最近の動向 -セキュリティ-
51
自動運転等の場面
停止だ
止まった!
深層学習を巡る最近の動向 -セキュリティ-
52
自動運転等の場面
文字を消して
悪戯してやる
悪意への対応が必要
止まらない!?
駐車禁止だ
深層学習を巡る最近の動向 -想定される脅威-
53
Goodfellow+: Explaining and Harnessing Adversarial Examples, ICLR (2015)
CNNが物体認識結果を間違える画像作りは
人の目には見えないレベルのノイズで実現可能
敵対的事例 (Adversarial Example)
パンダ テナガザル
深層学習を巡る最近の動向 -敵対的事例の怖さ-
54
応用技術への脅威に
敵対的事例 (Adversarial Example)
文字を消さず
悪戯してやる
駐車禁止だ
標識はおかしくないのに
止まらない!?
深層学習を巡る最近の動向 -敵対的事例の仕組み-
55
生成画像𝐺(𝑥, 𝜃)本物の画像𝑥
ノイズを付与
ノイズ𝜽
生成画像の認識結果が異なるか確かめつつ
分類をだます小さなノイズ𝜽を学習していく
深層学習を巡る最近の動向 -敵対的事例の応用-
56
Brown+: Adversarial Patch, arXiv (2017)
缶バッジのようなものでも
画像認識結果を間違えさせることができる
どう対策するのか?
Video: https://www.youtube.com/watch?v=i1sp4X57TL4
深層学習を巡る最近の動向 -敵対的事例の対策-
57
生成画像𝐺(𝑥, 𝜃)
物体認識CNN
敵対的事例をCNNで学習する
敵対的事例を考慮し
頑健性が向上
更にこの対策は
存在するのだろうか?
深層学習を巡る最近の動向 -敵対的事例の対策の対策-
58
敵対的事例の生成をGANで学習
kurakin+: Adversarial Attacks and Defences Competition, arXiv (2018)
見抜かれないような
敵対的事例の生成を学習
より良い物体認識手法は
自動的に見つけられる?
③ 構造探索
59
ILSVRC物体認識
top-5エラー率の推移
深層学習を巡る最近の動向 -ILSVRCと精度向上-
60
CNN構造の進歩によって
人を上回る精度を達成
16%
5.1%
ヒト
2.3%
Park+: IMAGENET Latge Scale Visual Recognition Challenge (ILSVRC) 2017 Overview,
http://image-net.org/challenges/talks_2017/ILSVRC2017_overview.pdf
深層学習を巡る最近の動向 -ILSVRCとCNN構造-
61
より良い構造を自動で探索したい!
優れたCNNの構造が認識精度を改善してきた
16% 6.7% 3.6%7.3%
Top-5 Error
深層学習を巡る最近の動向 -CNNの自動構造探索の考え方-
62
無数に存在する構造の精度を検証
最も優れた構造を発見する!
CNN構造をパラメータだと考える
認識精度の向上が
期待される
深層学習を巡る最近の動向 -AmoebaNet-
63
遺伝的アルゴリズム+大規模分散処理で
高い認識精度を実現するCNN構造を探索
(CIFAR-10およびImageNetで高精度を実現)
Real+: Regularized Evolution for Image Classifier Architecture Search, arXiv (2018)
実際に探索された構造の例
深層学習を巡る最近の動向 -構造探索の問題点-
64
課題: 認識精度の評価が大変
小規模データ: 約1日 大規模データ: 約1ヶ月
1つの構造を評価するのに...
普通の専用計算機で
大規模な専用計算機が必要
深層学習を巡る最近の動向 -構造探索のコスト問題-
65
個人や大学の研究室レベルでは
(事実上)構造探索は不可能な規模に
最高級の深層学習用
計算ユニットが
膨大な量必要になる
数百台規模
Zoph+: Learning Transferable Architectures for Scalable Image Recognition, CVPR (2018)
ある論文の大規模計算機
深層学習を巡る最近の動向 -今後の構造探索の課題-
66
Pham+: Efficient Neural Architecture Search via Parameter Sharing, arXiv (2018)
低コストな探索手法が模索され始めている
ENASNet
個人や大学の研究室レベルでは
(事実上)構造探索は不可能な規模に
• パラメータの学習を最小限に
• 構造を制限する
物体認識の結果がどうして
こうなったのか知りたい!
④ 可視化
67
深層学習を巡る最近の動向 -物体認識の例-
68
ImageNetの実際の画像
※ 一部拡大
ピザ
分類システム
Lee+: Why Do Deep Neural Networks Still Not Recognize These Images?: A Qualitative Analysis
on Failure Cases of ImageNet Classification, CVPR Scene Understanding workshop (2017)
深層学習を巡る最近の動向 -物体認識の例-
69
正解: 絆創膏
ImageNetの実際の画像
※ 一部拡大
Lee+: Why Do Deep Neural Networks Still Not Recognize These Images?: A Qualitative Analysis
on Failure Cases of ImageNet Classification, CVPR Scene Understanding workshop (2017)
深層学習を巡る最近の動向 -根拠の提示-
70
正解: 絆創膏
ピザ
何故そう認識したか
根拠が知りたい
誤認識は
避けられないが…
分類システム
再発防止
Lee+: Why Do Deep Neural Networks Still Not Recognize These Images?: A Qualitative Analysis
on Failure Cases of ImageNet Classification, CVPR Scene Understanding workshop (2017)
深層学習を巡る最近の動向 -根拠の提示-
71
適当な所の情報を抜き出しても
よく分からない数字の羅列
人に分かりやすい情報提示が不可欠
CNNの認識過程はブラックボックス的
深層学習を巡る最近の動向 -根拠の可視化-
72
何処を見て
分類したか?
例: ネコ
例: イヌGrad-CAM
Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV (2017)
深層学習を巡る最近の動向 -根拠の可視化-
73
何処を見て
分類したか?
Grad-CAM 例: イヌ
ここが変わったら
イヌっぽく
見えなくなる
クラスに対する変動を
見ることで可視化する
Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV (2017)
深層学習を巡る最近の動向 -根拠の可視化-
74Selvaraju+: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, ICCV (2017)
Grad-CAM
クラスに対する勾配(変動が大きくなる部分)
を用いて特徴を取り出し可視化する
勾配
特徴
ラベル付きデータが少なくても
高精度な物体認識ができる?
⑤ データセット
の拡張
75
自己教師あり学習 (Self-supervised Learning)
76
例1:画像の色づけ [1]
• カラー画像から白黒画像を生成
• 白黒画像からカラー画像を予測
例2:動きの推定 [2]
• 動画中の2枚の画像からカメラ
の動きを推定
「手動のラベル付け」無しで特徴表現を学習
入力 出力・教師
予測
[1] Zhang+: Colorful Image Colorization, ECCV (2016)
[2] Agrawal+: Learning to See by Moving, ICCV (2015)
生成
入力 出力・教師
カ
メ
ラ
の
動
き
Egomotionはタダで
入手可能と仮定
Pretext tasksによる自己教師あり学習(pretext=言い訳)
77
本当に学習したいタスク
10クラスの物体認識
関係無さそうなタスク
回転角認識(4クラス問題)
0° 90° 180° 270°
関係無さそうなタスク(pretext tasks)の学習により、
本当に学習したいタスクで使える特徴表現を学習
特徴表現使用
Pretext tasksによる自己教師あり学習(pretext=言い訳)
78
関係無さそうなタスク(pretext tasks)の学習により、
本当に学習したいタスクで使える特徴表現を学習
関係無さそうなタスクの例
1. 幾何変換 画像の回転や左右反転などの組み合わせ
2. 計数
画像の部分に含まれる物体の数の和が
画像全体に含まれる物体の数と一致
3. マルチモダリティ 画像と音声の元の組み合わせかを判別
4. カメラの動き 動画中の画像からカメラの動きを推定
5. パズル ジグソーパズルを解く、画像の穴埋め
Pretext tasksによる自己教師あり学習:1. 幾何変換
79
[3] Gidaris+: Unsupervised Representation Learning by Predicting Image Rotations,
ICLR (2018)
[4] Kilinc+: Learning Latent Representations in Neural Networks for Clustering through
Pseudo Supervision and Graph-based Activity Regularization, ICLR (2018)
回転のみ [3]
• 4クラス問題
0° 90° 180° 270°
回転と左右反転 [4]
• 8クラス問題
共通の性質(数値は[3]より抜粋)
• 90°ずつの回転が最も精度が高い
回転角 45° 90° 180°
精度
(%)
88.51 89.06
87.46
85.52
• 精度は教師あり学習には劣る
教師あり 自己教師あり
CIFAR-10 92.80 91.16
ImageNet 59.7 50.0
PASCAL
VOC
79.9 72.97
Pretext tasksによる自己教師あり学習:1. 幾何変換
80
[3] Gidaris+: Unsupervised Representation Learning by Predicting Image Rotations,
ICLR (2018)
教師あり学習 自己教師あり学習入力
学習で得られた特徴 [3]
教師あり学習と同様の特徴が得られている
Pretext tasksによる自己教師あり学習:2. 計数
81
[5] Noroozi+: Representation Learning by Learning to Count, ICCV (2017)
画像全体に含まれる物体の数は、画像の各領域に含まれる
物体の数の和という制約を利用して、画像の特徴表現を学習
画像全体の物体数
画像を4分割したときの
各領域の物体数
Pretext tasksによる自己教師あり学習:3. マルチモダリティ
82
画像と音声の組み合わせが正しいかどうかを判別することで、
画像と音声の特徴表現を学習
同じ動画のものか判定
動画
音声特徴の抽出
画像特徴の抽出
[6] Arandjelović+: Look, Listen and Learn, ICCV (2017)
画像
音声
Pretext tasksによる自己教師あり学習:4. カメラの動き
83
入力
特徴抽出 動きの推定
動画中の2枚の画像から「カメラの動き」を推定することで、
物体認識に使用できる特徴表現を学習
出力・教師
(タダで入手可能と仮定)
[2] Agrawal+: Learning to See by Moving, ICCV (2015)
カ
メ
ラ
の
動
き
Pretext tasksによる自己教師あり学習:5. パズル
84
隠れた部分を推定したり、パズルを解くことで、
物体認識に使用できる特徴表現を学習
[7] Noroozi+: Unsupervised Learning of Visual Representations by Solving Jigsaw
Puzzles, ECCV (2016)
元画像から緑の領域
を切り抜く
シャッフルした状態 正しく並べた状態
ジグソーパズル [7]
Pretext tasksによる自己教師あり学習:5. パズル
85
隠れた部分を推定したり、パズルを解くことで、
物体認識に使用できる特徴表現を学習
[8] Pathak+: Context Encoders: Feature Learning by Inpainting, CVPR (2016)
画像の穴埋め [8]
穴埋め結果入力
穴埋め
データセットの拡張:前処理の工夫
86
学習データを意図的に劣化させることで、学習を促進
[1] Zhong+: Random Erasing Data Augmentation, arXiv:1708.04896 (2017)
[2] DeVries+: Improved Regularization of Convolutional Neural Networks with Cutout,
arXiv:1708.04552 (2017)
データセットの拡張:データとクラスラベルの合成
87
画像と正解ラベルの中間状態を作り
学習サンプルを増やすことで学習性能を向上
[1] Tokozume+: Learning from Between-class Examples for Deep Sound Recognition,
ICLR (2018)
[2] Zhang+: mixup: Beyond Empirical Risk Minimization, ICLR (2018)
[3] Lee+: SGD on Random Mixtures: Private Machine Learning under Data Breach
Threats, ICLR Workshop (2018)
[4] Tokozume+: Between-class Learning for Image Classification, CVPR (2018)
ディープラーニングを用いた
物体認識とその周辺
~現状と課題~
岩村雅一 山田良博
(大阪府立大学 大学院工学研究科)
画像センシング展 イメージセンシングセミナー 招待講演 2018/6/13

ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)