コンピュータビジョンの研究開発状況
⽚岡裕雄
1
http://hirokatsukataoka.net/
DNNの動向・CVのトレンド(1/34)
2
• DNN時代以前の動向
– Perceptron, MLP, Neocognitron, BackProp, CNN
– DNNが流⾏る直前の画像認識では局所特徴が使⽤
2020
1960
CNN
Perceptron
Neocognitron
1980
1990
2000
2010
1970
HOG/SIFT
BoF/SVM
1st AI 2nd AI 3rd AI
Deep
Learning
F. Rosenblatt et al. “Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” in 1961.
Rumelhart et al. “Learning representations by back-propagating errors” in Nature 1986.
K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, in
1980
Y. LeCun et al. “Gradient-based learning applied to document recognition” in IEEE 1998.
Backprop.
DNNの動向・CVのトレンド(2/34)
3
• Perceptron, MLP, Neocognitron/ConvNet
– Perceptron
• ⼊⼒とコネクション(重み)の線形和,活性化関数により構成
– MLP: Multi-layer Perceptron
• Perceptronの多層化
– Neocognitron/ConvNet
• 畳込みの概念を導⼊,特に隣接ピクセルに類似関係のある画像処理
に有効
Perceptron(パーセプトロン)
Neocognitron
K. Fukushima, “Neocognitron: A Self-organizing Neural Network
Model for a Mechanism of Pattern Recognition Unaffected by Shift
in Position,” Biol. Cybenetics 36, pp.193-202, 1980.
https://www.rctn.org/bruno/public/papers/Fukushima1980.pdf
Convolutional Neural Net
Y. LeCun et al. “Gradient-Based Learning
Applied to Document Recognition,” IEEE,
1998.
http://yann.lecun.com/exdb/publis/pdf/l
ecun-01a.pdf
DNNの動向・CVのトレンド(3/34)
4
• ILSVRCを発端とする画像識別タスクへの応⽤
– AlexNet @画像認識コンペILSVRC2012
• 2位に10%以上の⼤差で勝者となる(2位は東京⼤学のチームISI)
⽜久⽒講演スライドより https://www.slideshare.net/YoshitakaUshiku/deep-learning-
73499744/4
– 背景にはBelief Propagation, ReLU, SGD, Dropoutなど構
造をDEEPにする技術が揃ってきた
DNNの動向・CVのトレンド(4/34)
5
DNNが勝てた背景
– ImageNet!(データが最も重要)
– Computing!(圧倒的な計算⼒)
http://www.image-net.org/
http://cvpr2017.thecvf.com/
×
DNNの動向・CVのトレンド(5/34)
6
ImageNetの収集について
– 14,000,000+ imgs / 20,000+ categories
– 2007年からデータを収集,2009年CVPR発表
– その後もデータ収集は継続して,現在は上記の規模に
http://fungai.org/images/blog/imagenet-logo.png
https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_t
o_understand_pictures/up-next?language=ja
ImageNetのロゴ,右側はStanfordの⾚,左は
前所属のPrinceton,そして上の緑は
WorldPeaceー世界平和ーを⽰す(らしい)
Fei-Fei⽒のTED動画(右)資⾦繰りの苦労や
,2000年代当時はアルゴリズム⾄上主義でデ
ータを収集することが理解されなかった
DNNの動向・CVのトレンド(6/34)
7
計算機環境(主にGPU)の発展
– 特に3rd AIブームからはNVIDIAの隆盛ぶりがすごい
– NVIDIA,最初はゲーム⽤グラフィックボードを売ってい
たらしいが,深層学習に会社の命運を託すと明⾔
– 結果,下記の性能向上と世界的な提携/資⾦獲得である
https://www.nextplatform.com/2015/03/18/nvidia-tweaks-pascal-gpus-for-deep-learning-push/
Tesla(2008年)からVolta(
2018年)世代までの性能向上
DNNの動向・CVのトレンド(7/34)
8
• 構造の深化(2014〜2016)
– 2014年頃から「構造をより深くする」ための知⾒が整う
– 現在(主に画像識別で)主流なのはResidual Network
AlexNet [Krizhevsky+, ILSVRC2012]
VGGNet [Simonyan+, ILSVRC2014]
GoogLeNet [Szegedy+, ILSVRC2014/CVPR2015]
ResNet [He+, ILSVRC2015/CVPR2016]
ILSVRC2012 winner,DLの⽕付け役
16/19層ネット,deeperモデルの知識
ILSVRC2014 winner,22層モデル
ILSVRC2015 winner, 152層︕(実験では103+層も)
DNNの動向・CVのトレンド(8/34)
9
• 構造の複雑化・⾃動化(2016〜)
– ResNet以降のアーキテクチャ
• ResNeXt, DenseNet, SENet, ...
– ⾃動化・効率化(Neural Architecture Search, EfficientNet)
• (P)NASNet, EfficientNet...
SENet(SE-block)
J. Hu et al. “Squeeze-and-Excitation Networks, “ in TPAMI 2019.
https://arxiv.org/abs/1709.01507
S. Xie et al. “Aggregated Residual
Transformations for Deep Neural
Networks, “ in CVPR 2017.
https://arxiv.org/abs/1709.01507
ResNeXt
G. Huang et al. “Densely Connected
Convolutional Networks, “ in CVPR
2017.
https://arxiv.org/abs/1608.06993
DenseNet B. Zoph et al. “Learning Transferable
Architectures for Scalable Image
Recognition,“ in CVPR 2018.
https://arxiv.org/abs/1707.07012
NASNet
C. Liu et al. “Progressive Neural
Architecture Search,“ in CVPR 2018.
https://arxiv.org/abs/1712.00559
PNASNet
M. Tan et al. “EfficientNet: Rethinking
Model Scaling for Convolutional Neural
Networks,“ in ICML 2019.
https://arxiv.org/pdf/1905.11946.pdf
EfficientNet
DNNの動向・CVのトレンド(9/34)
10
• 他タスクへの応⽤(画像認識・動画認識)
– 物体検出: R-CNN, Fast/Faster R-CNN, YOLO, SSD,,,
– 領域分割: FCN, SegNet, U-Net,,,
– Vision & Language: 画像説明⽂, VQA, Visual Dialog,,,
– 動画認識: Two-stream ConvNets, 3D Conv., (2+1)D Conv. ,,,
Person
Uma
Show and Tell [Vinyals+, CVPR15]
R-CNN [Girshick+, CVPR14]
FCN [Long+, CVPR15]
Two-Stream CNN [Simonyan+, NIPS14]
DNNの動向・CVのトレンド(10/34)
11
Hito
Uma
Haar-like [Viola+, CVPR01]
+ AdaBoost
Fast R-CNN [Girshick, ICCV15]
ROI Pooling, Multi-task Loss Faster R-CNN [Ren+, NIPS15]
RPN
・・・
・・・
R-CNN時代(それ以前は”Hand-crafted” ObjectNess)⾼速化 & ⾼精度化
One-shot Detector時代 兎にも⾓にも(精度を保ちつつ)⾼速化
YOLO(v1)/v2/v3 [Redmon+, CVPR16/CVPR17/arXiv18]
One-shot detector, w/ full-connect layer
・・・
Latest Algorithm 精度重視,⾼速
Mask R-CNN [He+, ICCV17]
RoI Align, Det+Seg
・・・
bbox+segmentationのラベルが同時
に⼿に⼊るならMask R-CNNを試そう
41.8AP@MSCOCO
bboxのみが⼿に⼊
るならRetinaNetを
⽤いるのがベター
40.8AP@MSCOCO
SSD [Liu+, ECCV16]
One-shot detector, Anchor Box
Hand-crafted feature時代 基礎/枠組みの構築
HOG [Dalal+, CVPR05]
+ SVM
ICF [Dollár+, BMVC09]
+ Soft-cascade
DPM [Felzenszwalb+,
TPAMI12]
+ Latent SVM
・・・
• 物体検出の流れ(2001〜2017)
R-CNN [Girshick, CVPR14]
Selective Search + CNN
DNNの動向・CVのトレンド(10ʼ/34)
12
物体検出の流れ(2018〜2020)
B. Singh et al. “An Analysis of Scale Invariance in
Object Detection,“ in CVPR 2018.
https://arxiv.org/abs/1711.08189
SNIP
B. Singh et al. “SNIPER: Efficient Multi-Scale
Training,“ in NeurIPS 2018.
https://papers.nips.cc/paper/8143-sniper-efficient-
multi-scale-training.pdf
SNIPER
Q. Zhao et al. “M2Det: A Single-Shot Object
Detector based on Multi-Level Feature Pyramid
Network,“ in AAAI 2019.
https://arxiv.org/abs/1811.04533
M2Det
Z. Xingyi et al. “Objects as Points,“ in arXiv 2019.
https://arxiv.org/abs/1904.07850
CenterNet
H. Law et al. “CornerNet: Detecting Objects as
Paired Keypoints,“ in ECCV 2018.
https://arxiv.org/abs/1808.01244
CornerNet
K. Duan et al. “CenterNet: Keypoint Triplets for
Object Detection,“ in ICCV 2019.
https://arxiv.org/abs/1904.08189
CenterNet
Mask R-CNN 41.7 -> CenterNet 47.0まで向上︕
物体候補が多く位置する領域を拡⼤ 多重解像度の特徴マップ使⽤
2点(左上, 右下)を回帰 中央からxyサイズを回帰 中央+2点, xyサイズを回帰
DNNの動向・CVのトレンド(11/34)
13
• セマンティック/インスタンスセグメンテーション
• ・・・ピクセルごとにラベルを回帰
– デファクトスタンダードはまだ覇権争い︖
– 問題を細分化して解いている印象
• ⽂脈把握, スケール変動, データ不⾜
FCN [Long, CVPR2015]
全層畳み込み,チャネル和
SegNet [Kendall, arXiv2015]
U-Net [Ronneberger, MICCAI2015]
位置情報保持,チャネル連結
・
・
・
ベースアルゴリズム ・
・
・
精度重視
Mask R-CNN [He, ICCV2017]
RoI Align, Det+Seg
・
・
・
物体検出とインスタンスセグメ
ンテーションのタスクを同時に
学習することで双⽅を相補的に
改善している
DeepLab(v1,v2,v3) [Chen, TPAMI2017]
Dilated Conv, 特徴マップの並列化
※下はセマンティック/インスタンスセグメンテーションを両⽅含む
DNNの動向・CVのトレンド(12/34)
14
– CVとNLP(⾃然⾔語処理)の融合分野
• 画像説明⽂(Image Captioning)
• 視覚的質問回答(Visual Question Answering; VQA)
• Visual Dialog
画像 (Visual)と質問⽂ (Q)を⼊⼒,
回答 (A)を返却
画像を⼊⼒として
⽂章を出⼒
【VQA】
【Image Captioning】 【Visual Dialog】
画像とそれに対する対話を繰り返しながら
回答を⾏う
https://visualqa.org/
O. Vinyals et al. “Show and Tell: A
Neural Image Caption Generator,” in
CVPR 2015.
https://arxiv.org/pdf/1411.4555.pdf
https://visualdialog.org/
DNNの動向・CVのトレンド(13/34)
15
• 動画像認識のモデル(N-Dimension Conv)
– 2D: Two-Stream ConvNets(フロー画像を同時に準備)
– 2D+再帰モデル: CNN+LSTM(最近ベンチマークとしてしか使われなくなった)
– 3D: 3D CNN(データが⽤意できればこれが本命)
– (2+1)D: Separable Conv.(少量データの場合のオプション)
3D畳み込み(C3D, 3D ResNet, I3D)
3Dフィルタ
畳み込みマップ
(3D)
識別
D. Tran et al. “A Closer Look at Spatiotemporal
Convolutions for Action Recognition,” in CVPR 2018.
DNNの動向・CVのトレンド(13ʼ/34)
16
• 動画認識タスク
R. Krishna et al. “Dense Captioning Events in
Videos,“ in ICCV 2017.
https://arxiv.org/abs/1705.00754
DenseCaptioning
T. Lin et al. “Single Shot Temporal Action
Detection,“ in ACM MM 2017.
https://arxiv.org/abs/1710.06236
SSAD
Qiu et al. “Learning Spatio-Temporal Representation
with Local and Global Diffusion,“ in CVPR 2019.
https://arxiv.org/abs/1906.05571
Local & Global Diffusion (LGD)
動画から説明⽂を出⼒
動画の区間を推定(⾏動の始点・終点)
局所・⼤域特徴を同時抽出(⾼精度な動画認識)
DNNの動向・CVのトレンド(14/34)
17
• GAN:画像⽣成を⾏うための構造として提案
– 現在,⽣成/データの分布を近づける性質から多
様な場⾯に応⽤
– 超解像,異常検知,データ拡張 など
GANの構造
https://medium.com/@sunnerli/the-
missing-piece-of-gan-d091604a615a
徐々に鮮明になるデータ
BigGAN https://arxiv.org/pdf/1809.11096.pdf
(注)下はGANにより⽣成された画像です
DNNの動向・CVのトレンド(15/34)
18
• GANの主要な流れ
1. GAN(オリジナルのGAN)
• [Goodfellow, NIPS2014] https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf
2. DCGAN(畳み込み層の使⽤)
• [Radford, ICLR2016] https://arxiv.org/abs/1511.06434
3. Pix2Pix(pixel同⼠が対応付くという意味でConditionalなGAN)
• [Isola, CVPR2017] https://arxiv.org/abs/1611.07004
4. CycleGAN(pix2pixの教師なし版)
• [Zhu, ICCV2017] https://arxiv.org/pdf/1703.10593.pdf
5. ACGAN(カテゴリ識別も同時に実施してコンディションとした)
• [Odera, ICML2017] https://arxiv.org/abs/1610.09585
6. WGAN/SNGAN(学習安定化)
• [Arjovsky, ICML2017] http://proceedings.mlr.press/v70/arjovsky17a.html
• [Miyato, ICLR2018] https://arxiv.org/abs/1802.05957
7. PGGAN(⾼精度化)
• [Karras, ICLR2018] https://arxiv.org/abs/1710.10196
8. Self-Attention GAN(アテンション機構を採⽤)
• [Zhang, arXiv 1805.08318] https://arxiv.org/abs/1805.08318
9. BigGAN(超⾼精細GAN)
• [Brock, ICLR2019] https://arxiv.org/abs/1809.11096
# 2018年10⽉時点での調査
DNNの動向・CVのトレンド(16/34)
19
• 鮮明な画像⽣成 - GAN vs. VAE︕︖
– キレイな画像⽣成はGANが優勢だった(〜2019/05)
• SNGAN, BigGAN, StyleGAN etc.
– だが,VQ-VAE-2でVAEが巻き返しを図るか︖
• GANのようにMode Collapseを起こさないと主張
⽣成モデル,今後の動向に期待︕︕
左︓VQ-VAE-2,右︓BigGAN
A. Razavi et al. “Generating Diverse High-
Fidelity Imageswith VQ-VAE-2,” NeurIPS,
2019.
https://arxiv.org/pdf/1906.00446.pdf
DNNの動向・CVのトレンド(17/34)
20
• 教師なし/少量教師あり学習への拡がり
– キーワード
• {Un-, Weak-, Semi-, Self-} supervision
• {Zero-, One-, Few-} shot learning
• Transfer Learning
• Domain Adaptation
• Reinforcement Learning
– 教師がない/間接的に教師を与える,ような仕組みに対する
競争も激化
– 巨⼤IT企業のように⼤量のラベルを持たなくても学習を成
功させる
• アルゴリズム⾄上主義への回帰︖
DNNの動向・CVのトレンド(18/34)
• 学習法の簡単な整理
– {Un-, Semi-, Weak-, Self-} supervision
• Un-supervision(教師なし学習)
アノテーションが⼀切ないデータで学習
• Semi-supervision(半教師あり学習)
アノテーションを持つデータと持たないデータで学習
• Weak-supervision(弱教師付き学習)
出⼒として必要な情報よりも拘束⼒の弱いデータを⽤いて学習
– ex) 物体検出を⾏う際に画像ラベルのみを⽤いて学習
• Self-supervision(⾃⼰教師あり学習)
⾃ら教師を作り出して特徴表現を学習する「⾃⼰教師学習」
– 特定タスクの前に⾃ら教師を作り出し特徴表現を学習するため,その
後に特定タスクのためのファインチューニングを伴う
– ex) 領域分割した画像でジグソーパズルを解く,回転を当てる
DNNの動向・CVのトレンド(19/34)
22
転移学習(Transfer Learning)の網羅的調査
– Taskonomy [Zamir, CVPR2018]
• CVPR 2018 Best Paper Award
• 26種のタスク間の関連性を調べる
– CVの歴史の中で別々に議論されたいたサブタスクを繋げる
– 効果を最⼤化する転移学習の関係性を明らかにした
http://taskonomy.stanford.edu/
データセットは26タスクに対しラベル付け
Task Similarity Tree: 類似するタスク間の関
係性を可視化
DNNの動向・CVのトレンド(20/34)
23
• 教師あり学習 vs. 無教師/弱教師
– 少量/無 ラベルで教師あり学習に勝つ︕
• How good is my GAN?: 勝てなかったがGANによるデータ拡張の⽅針を⽰す
• 6D Object Detection: 条件付だがこの⽂脈で勝利(ECCVʼ18 BestPaper)
• Cut/Paste Learn: 9割くらいの精度まで来た
[Sundermeyer, ECCV2018]Oral,BP
ラベル無しCGデータで実時間6D検出,
さらに教師有りを倒した
[Remez, ECCV2018]Oral
Cut/Pasteで既存セグメントラベルを増
加,教師有りに接近する精度
[Shmelkov, ECCV2018]
GANの評価法提案,追加実験のデー
タ拡張がポイント
DNNの動向・CVのトレンド(21/34)
24
⾃⼰教師あり学習(Self-supervised Learning)
– ⾃ら教師を作り出し,良好な特徴表現を獲得
• 事前タスク(Pretext task; 左下図)で学習,⽬的タスク(Target task; 右下図)で調整
• 例︓PretextはラベルなしImageNet, TargetはラベルありImageNet
Pretext task例︓ジグソーパズル
1.(a)(b)の図を9分割&シャッフルして復元するよう学習
2.通常通りPascalVOC, ImageNet等で学習
打倒︕ImageNet 事前学習が⽬標の研究分野
DNNの動向・CVのトレンド(21ʼ/34)
25
⼈間の教師に近接する精度を実現︕
– ImageNet教師あり学習に「⾃⼰教師+数%の教師」で到達
• SimCLR: Simple Framework for Contrastive Learning of Visual Representation
• 下図は論⽂中より引⽤ https://arxiv.org/abs/2002.05709
SimCLRはパラメータ数が多い
(Supervised 約25M vs. SimCLR 約400M)が,
自己教師学習により教師あり学習
と同等の精度まで到達
DNNの動向・CVのトレンド(22/34)
26
• 学習データ⽣成
– キーワード
• Synthetic Data
• Adversarial Learning
• Data Augmentation
• Domain Randomization
– CGなど合成(Synthetic)でデータを作成
– 敵対的学習(Adversarial Learning)
• 少量のサンプルから画像⽣成
• 合成をリアルに近づける
– データ拡張(Data Augmentation)
• データの⽔増しをあらゆる⽅法(e.g. 反転,回転,統合)で実現
DNNの動向・CVのトレンド(23/34)
27
シミュレーション画像からの変換
– GANにより変換/⽣成した画像も学習に使えるように
• 左図︓SimGAN
– CVPR2017 Best Paper
– CGをリアルに近付けるRefiner(R)と識別器(D)
• 右図︓GraspGAN
– ICRA2018
– 上記論⽂を元ネタとしてロボットシミュレータ画像をリアルに近づけて,マニ
ピューレーションを実⾏
DNNの動向・CVのトレンド(24/34)
28
• 超越(Beyond)/再考(Rethink) ImageNet
学習回数が多くなると
scratch/ pre-trainの精度が
同等に
通常の学習回数ではImageNet Pre-
trainが強く⾒えている、、、
[Mahajan, ECCV2018]
FBはSNSのHashtagでラベル付けなし,弱教師付きの3.5B枚画像DB構築
【超越】
Top-1: 85% w/ ResNeXt-101
ラベルはSNSの再利⽤
https://venturebeat.com/2018/05/02/facebook-is-using-instagram-photos-and-hashtags-to-improve-its-computer-vision/
ImageNetは他のタスクの精度向上に貢献する︖
• しない(左図参照)
• スクラッチで⻑く学習すれば同等の精度まで到達
– ただし,10K以上のラベルは必要
• 収束は早くなったので,研究ペース促進に寄与
無/弱/半教師付きの⽂脈で⼤量画像とその教
師を与えられればモデルを強化できる
【再考】 [He, arXiv2018]
タスクに即した事前学習をする(物体検知なら物体検知の事前学習)
DNNの動向・CVのトレンド(25/34)
29
• 動画DBの⼤規模化
– 動画共有サイトのタグ付け
– 画像識別の動画版
Kinetics [Kay, arXiv2017]
Moments in Time [Monfort, arXiv2018]
[Ghadiyaram, CVPR2019]
Kinetics-700 Moments in Time
700カテゴリ/650,000+動画 339カテゴリ/1,000,000+動画
359カテゴリ/65,000,000+動画
Instagram-65M
【最近の代表的な動画データセット】
10万〜1000万を超える動画数のデータセットが登場,
画像識別に変わるネクストトレンドとして位置付けられる
DNNの動向・CVのトレンド(26/34)
30
• DNNのフレームワークが次々にリリース
– Caffe/Caffe2, Theano, Chainer, TensorFlow, Keras,
Torch/PyTorch, MatConvNet, Deeplearning4j, CNTK,
MxNet, Lasagne
(順不同,その他多数)
– 特に,Caffeが出てきてからCVにおけるDNNの研究は爆発
的に広がった
https://chainer.org/images/logo.png
http://pytorch.org/docs/master/_static/pytorch-logo-dark.svg
https://www.tensorflow.org/_static/image
s/tensorflow/logo.png
# ⽇本ではChainer︖ 世界的にはTensorFlow︖研究者はPyTorch︖開発者はCaffe2/TensorFlow︖ 簡便性の⾯から
Kerasもよく使われていると聞く
# Facebookでも研究はPyTorch,プロダクトはCaffe2のように使い分け
DNNの動向・CVのトレンド(27/34)
31
• HPC: コンピューティングによる研究の加速
– AWS/Azure/Google Cloud, ⽇本でも
Tsubame3.0/ABCI/Fugaku(coming soon…)
• Multi-GPU, Multi-Node
– ImageNet 世界最速記録の変遷
• 29h > 1h > 30m > 15m > 6.6m > 1.8m > 2.0m > 1.2m
東⼯⼤TSUBAME 3.0 産総研ABCI
https://commons.wikimedia.org/wiki/
File:TSUBAME_3.0_PA075096.jpg
M. Yamazaki, et al. “Yet Another Accelerated SGD: ResNet-
50 Trainingon ImageNet in 74.7 seconds,” arXiv pre-print,
1903.12650, 2019.
https://arxiv.org/pdf/1903.12650.pdf
DNNの動向・CVのトレンド(28/34)
32
• 現在も進化の⼀途を辿り,社会実装が進む
– ⾃動運転/ADAS
– ロボティクス
– ファッション
– 画像/動画検索
– 物流(ピッキング等)
– 等
研究者としては「こんなこともできる」を世に出したい
DNNの動向・CVのトレンド(29/34)
33
• ⾃動運転/ADAS(Self-Driving Cars/ADAS)
– 国際会議の研究(検知など単純タスク)は減少傾向, 実利⽤に向け開発︖
– 数年前はKITTI datasetに対しての精度競争が盛ん
– 現在は⾃動運転の解釈性,ニアミスシーンの解析等
KITTI: Autonomous driving benchmark
物体検出,ステレオ視,セグメンテ
ーション問題を提供
Optical Flow Stereo Matching Object Detection
Road Odometry Semantic Segmentation
[Geiger, CVPR2012]
[Kim, ICCV2017]
⾃動運転時の解釈性,物体検知の際
にどこを参照したか︖
事故に近いシーンを認識,予測
[Suzuki&Kataoka,
CVPR2018]
DNNの動向・CVのトレンド(30/34)
34
• ロボティクスへの応⽤ @CVPR2019
– 点群の利⽤や6D Object Detectionが多数
– マニピュレーション︓DenseFusionでは6D Det.
と把持を実施(左図)
– ⾃動運転︓点群トラッキング+形状復元(右図)
C. Wang et al. “DenseFusion: 6D Object Pose
Estimation by Iteratibve Dense Fusion,” in
CVPR 2019
http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_D
enseFusion_6D_Object_Pose_Estimation_by_Iterative_Dense_Fusion
_CVPR_2019_paper.pdf
S. Giancola et al. “Leveraging Shape Completion for 3D Siamese
Tracking,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Giancola_Leveraging_Shape_Completion_for_3D_Sia
mese_Tracking_CVPR_2019_paper.pdf
点群トラッキング+形状復元(下の例は⾞両の復元)
DNNの動向・CVのトレンド(31/34)
35
• ファッション分野への応⽤ @CVPR2019
– ファッションのアノテーションが進展
– DeepFashion2(左図)
• DeepFashionの強化版,より詳細なラベルを付与
– FCDBv2(右図)
• FCDBの強化版,バイナリ識別器によりデータクレンジング
Y. Ge et al. “DeepFashion2: A Versatile Benchmark for
Detection, Pose Estimation,Segmentation and Re-
Identification of Clothing Images,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_
Versatile_Benchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2
019_paper.pdf
H. Kataoka, K. Abe, M. Minoguchi, A. Nakamura, Y. Satoh, "Ten-
million-order Human Database for World-wide Fashion Culture
Analysis", in CVPR 2019 Workshop on FFSS-USAD.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_Versatile_B
enchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2019_paper.pdf
DNNの動向・CVのトレンド(32/34)
36
• 動画認識の応⽤
– 動画⾃動ラベル付け
– ⾒守り,料理⾏動解析,ホームロボティクス,,,
• 動画DBは群雄割拠(下図)
D. Damen et al. “Scaling Egocentric
Vision: The EPIC-KITCHENS Dataset,” in
ECCV 2018.
https://epic-kitchens.github.io/2018
W. Kay et al. “The
Kinetics Human Action
Video Dataset,” in
arXiv:1705.06950
2017.
https://deepmind.com/research/open-
source/open-source-datasets/kinetics/
C. Gu et al. “AVA: A
Video Dataset of Spatio-
temporally Localized
Atomic Visual Actions,” in
CVPR 2018.
https://research.google.com/ava/downl
oad.html
M. Monfort et al. “Moments in Time
Dataset: one million videos for event
understanding,” in arXiv pre-print
1801.03150, 2018.
http://moments.csail.mit.edu/
H. Zhao et al. “HACS: Human Action
Clips and Segments Dataset for
Recognition and Temporal Localization,”
in arXiv pre-print 1712.09374 2017.
http://hacs.csail.mit.edu/
Something-Something v2 dataset
https://20bn.com/datasets/something-something
DNNの動向・CVのトレンド(33/34)
37
• 2020年 CV分野のトレンド: アルゴリズム考案
– 既存の問題をよりよく解く
• 精度向上/タスク解決に対して効果的な⼿法を提案
– 以前からホットな領域
• 画像識別,物体検出,(インスタンス)セグメンテーション,動画
認識,Shape-from-X,SLAM,Computational Photography,⾃
動運転/ADAS,ロボット応⽤,,,
– 最近ホットになった領域
• Language & Vision(画像説明⽂/VQA),敵対的⽣成ネット(
GAN),ファッション,,,
– 今後ホットになりそうな領域︖
• 多タスク学習(転移学習),強化学習, 3D⽣成, 解釈性, , ,
# もちろん,上記以外にもまだまだあります
DNNの動向・CVのトレンド(34/34)
38
• 2020年 CV分野のトレンド: 少量教師学習
– ⼤規模データの収集/ラベル付け問題を解決および緩和
• 深層学習の1st waveがアーキテクチャ改善だとすると,
• 2nd waveはデータ作成/少量データ学習
– データ問題のキーワード
• {Un-, Weak-, Semi-, Self-} Supervised Learning
• {Zero-, One-, Few-} shot learning
• Domain Adaptation, Domain Randomization, Synthetic Data,
Adversarial Learning, Data Augmentation
今後も新しい学習⽅法が提案されると予想
# もちろん,上記以外にもまだまだあります

コンピュータビジョンの研究開発状況

  • 1.
  • 2.
    DNNの動向・CVのトレンド(1/34) 2 • DNN時代以前の動向 – Perceptron,MLP, Neocognitron, BackProp, CNN – DNNが流⾏る直前の画像認識では局所特徴が使⽤ 2020 1960 CNN Perceptron Neocognitron 1980 1990 2000 2010 1970 HOG/SIFT BoF/SVM 1st AI 2nd AI 3rd AI Deep Learning F. Rosenblatt et al. “Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” in 1961. Rumelhart et al. “Learning representations by back-propagating errors” in Nature 1986. K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, in 1980 Y. LeCun et al. “Gradient-based learning applied to document recognition” in IEEE 1998. Backprop.
  • 3.
    DNNの動向・CVのトレンド(2/34) 3 • Perceptron, MLP,Neocognitron/ConvNet – Perceptron • ⼊⼒とコネクション(重み)の線形和,活性化関数により構成 – MLP: Multi-layer Perceptron • Perceptronの多層化 – Neocognitron/ConvNet • 畳込みの概念を導⼊,特に隣接ピクセルに類似関係のある画像処理 に有効 Perceptron(パーセプトロン) Neocognitron K. Fukushima, “Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position,” Biol. Cybenetics 36, pp.193-202, 1980. https://www.rctn.org/bruno/public/papers/Fukushima1980.pdf Convolutional Neural Net Y. LeCun et al. “Gradient-Based Learning Applied to Document Recognition,” IEEE, 1998. http://yann.lecun.com/exdb/publis/pdf/l ecun-01a.pdf
  • 4.
    DNNの動向・CVのトレンド(3/34) 4 • ILSVRCを発端とする画像識別タスクへの応⽤ – AlexNet@画像認識コンペILSVRC2012 • 2位に10%以上の⼤差で勝者となる(2位は東京⼤学のチームISI) ⽜久⽒講演スライドより https://www.slideshare.net/YoshitakaUshiku/deep-learning- 73499744/4 – 背景にはBelief Propagation, ReLU, SGD, Dropoutなど構 造をDEEPにする技術が揃ってきた
  • 5.
  • 6.
    DNNの動向・CVのトレンド(5/34) 6 ImageNetの収集について – 14,000,000+ imgs/ 20,000+ categories – 2007年からデータを収集,2009年CVPR発表 – その後もデータ収集は継続して,現在は上記の規模に http://fungai.org/images/blog/imagenet-logo.png https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_t o_understand_pictures/up-next?language=ja ImageNetのロゴ,右側はStanfordの⾚,左は 前所属のPrinceton,そして上の緑は WorldPeaceー世界平和ーを⽰す(らしい) Fei-Fei⽒のTED動画(右)資⾦繰りの苦労や ,2000年代当時はアルゴリズム⾄上主義でデ ータを収集することが理解されなかった
  • 7.
    DNNの動向・CVのトレンド(6/34) 7 計算機環境(主にGPU)の発展 – 特に3rd AIブームからはNVIDIAの隆盛ぶりがすごい –NVIDIA,最初はゲーム⽤グラフィックボードを売ってい たらしいが,深層学習に会社の命運を託すと明⾔ – 結果,下記の性能向上と世界的な提携/資⾦獲得である https://www.nextplatform.com/2015/03/18/nvidia-tweaks-pascal-gpus-for-deep-learning-push/ Tesla(2008年)からVolta( 2018年)世代までの性能向上
  • 8.
    DNNの動向・CVのトレンド(7/34) 8 • 構造の深化(2014〜2016) – 2014年頃から「構造をより深くする」ための知⾒が整う –現在(主に画像識別で)主流なのはResidual Network AlexNet [Krizhevsky+, ILSVRC2012] VGGNet [Simonyan+, ILSVRC2014] GoogLeNet [Szegedy+, ILSVRC2014/CVPR2015] ResNet [He+, ILSVRC2015/CVPR2016] ILSVRC2012 winner,DLの⽕付け役 16/19層ネット,deeperモデルの知識 ILSVRC2014 winner,22層モデル ILSVRC2015 winner, 152層︕(実験では103+層も)
  • 9.
    DNNの動向・CVのトレンド(8/34) 9 • 構造の複雑化・⾃動化(2016〜) – ResNet以降のアーキテクチャ •ResNeXt, DenseNet, SENet, ... – ⾃動化・効率化(Neural Architecture Search, EfficientNet) • (P)NASNet, EfficientNet... SENet(SE-block) J. Hu et al. “Squeeze-and-Excitation Networks, “ in TPAMI 2019. https://arxiv.org/abs/1709.01507 S. Xie et al. “Aggregated Residual Transformations for Deep Neural Networks, “ in CVPR 2017. https://arxiv.org/abs/1709.01507 ResNeXt G. Huang et al. “Densely Connected Convolutional Networks, “ in CVPR 2017. https://arxiv.org/abs/1608.06993 DenseNet B. Zoph et al. “Learning Transferable Architectures for Scalable Image Recognition,“ in CVPR 2018. https://arxiv.org/abs/1707.07012 NASNet C. Liu et al. “Progressive Neural Architecture Search,“ in CVPR 2018. https://arxiv.org/abs/1712.00559 PNASNet M. Tan et al. “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks,“ in ICML 2019. https://arxiv.org/pdf/1905.11946.pdf EfficientNet
  • 10.
    DNNの動向・CVのトレンド(9/34) 10 • 他タスクへの応⽤(画像認識・動画認識) – 物体検出:R-CNN, Fast/Faster R-CNN, YOLO, SSD,,, – 領域分割: FCN, SegNet, U-Net,,, – Vision & Language: 画像説明⽂, VQA, Visual Dialog,,, – 動画認識: Two-stream ConvNets, 3D Conv., (2+1)D Conv. ,,, Person Uma Show and Tell [Vinyals+, CVPR15] R-CNN [Girshick+, CVPR14] FCN [Long+, CVPR15] Two-Stream CNN [Simonyan+, NIPS14]
  • 11.
    DNNの動向・CVのトレンド(10/34) 11 Hito Uma Haar-like [Viola+, CVPR01] +AdaBoost Fast R-CNN [Girshick, ICCV15] ROI Pooling, Multi-task Loss Faster R-CNN [Ren+, NIPS15] RPN ・・・ ・・・ R-CNN時代(それ以前は”Hand-crafted” ObjectNess)⾼速化 & ⾼精度化 One-shot Detector時代 兎にも⾓にも(精度を保ちつつ)⾼速化 YOLO(v1)/v2/v3 [Redmon+, CVPR16/CVPR17/arXiv18] One-shot detector, w/ full-connect layer ・・・ Latest Algorithm 精度重視,⾼速 Mask R-CNN [He+, ICCV17] RoI Align, Det+Seg ・・・ bbox+segmentationのラベルが同時 に⼿に⼊るならMask R-CNNを試そう 41.8AP@MSCOCO bboxのみが⼿に⼊ るならRetinaNetを ⽤いるのがベター 40.8AP@MSCOCO SSD [Liu+, ECCV16] One-shot detector, Anchor Box Hand-crafted feature時代 基礎/枠組みの構築 HOG [Dalal+, CVPR05] + SVM ICF [Dollár+, BMVC09] + Soft-cascade DPM [Felzenszwalb+, TPAMI12] + Latent SVM ・・・ • 物体検出の流れ(2001〜2017) R-CNN [Girshick, CVPR14] Selective Search + CNN
  • 12.
    DNNの動向・CVのトレンド(10ʼ/34) 12 物体検出の流れ(2018〜2020) B. Singh etal. “An Analysis of Scale Invariance in Object Detection,“ in CVPR 2018. https://arxiv.org/abs/1711.08189 SNIP B. Singh et al. “SNIPER: Efficient Multi-Scale Training,“ in NeurIPS 2018. https://papers.nips.cc/paper/8143-sniper-efficient- multi-scale-training.pdf SNIPER Q. Zhao et al. “M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network,“ in AAAI 2019. https://arxiv.org/abs/1811.04533 M2Det Z. Xingyi et al. “Objects as Points,“ in arXiv 2019. https://arxiv.org/abs/1904.07850 CenterNet H. Law et al. “CornerNet: Detecting Objects as Paired Keypoints,“ in ECCV 2018. https://arxiv.org/abs/1808.01244 CornerNet K. Duan et al. “CenterNet: Keypoint Triplets for Object Detection,“ in ICCV 2019. https://arxiv.org/abs/1904.08189 CenterNet Mask R-CNN 41.7 -> CenterNet 47.0まで向上︕ 物体候補が多く位置する領域を拡⼤ 多重解像度の特徴マップ使⽤ 2点(左上, 右下)を回帰 中央からxyサイズを回帰 中央+2点, xyサイズを回帰
  • 13.
    DNNの動向・CVのトレンド(11/34) 13 • セマンティック/インスタンスセグメンテーション • ・・・ピクセルごとにラベルを回帰 –デファクトスタンダードはまだ覇権争い︖ – 問題を細分化して解いている印象 • ⽂脈把握, スケール変動, データ不⾜ FCN [Long, CVPR2015] 全層畳み込み,チャネル和 SegNet [Kendall, arXiv2015] U-Net [Ronneberger, MICCAI2015] 位置情報保持,チャネル連結 ・ ・ ・ ベースアルゴリズム ・ ・ ・ 精度重視 Mask R-CNN [He, ICCV2017] RoI Align, Det+Seg ・ ・ ・ 物体検出とインスタンスセグメ ンテーションのタスクを同時に 学習することで双⽅を相補的に 改善している DeepLab(v1,v2,v3) [Chen, TPAMI2017] Dilated Conv, 特徴マップの並列化 ※下はセマンティック/インスタンスセグメンテーションを両⽅含む
  • 14.
    DNNの動向・CVのトレンド(12/34) 14 – CVとNLP(⾃然⾔語処理)の融合分野 • 画像説明⽂(ImageCaptioning) • 視覚的質問回答(Visual Question Answering; VQA) • Visual Dialog 画像 (Visual)と質問⽂ (Q)を⼊⼒, 回答 (A)を返却 画像を⼊⼒として ⽂章を出⼒ 【VQA】 【Image Captioning】 【Visual Dialog】 画像とそれに対する対話を繰り返しながら 回答を⾏う https://visualqa.org/ O. Vinyals et al. “Show and Tell: A Neural Image Caption Generator,” in CVPR 2015. https://arxiv.org/pdf/1411.4555.pdf https://visualdialog.org/
  • 15.
    DNNの動向・CVのトレンド(13/34) 15 • 動画像認識のモデル(N-Dimension Conv) –2D: Two-Stream ConvNets(フロー画像を同時に準備) – 2D+再帰モデル: CNN+LSTM(最近ベンチマークとしてしか使われなくなった) – 3D: 3D CNN(データが⽤意できればこれが本命) – (2+1)D: Separable Conv.(少量データの場合のオプション) 3D畳み込み(C3D, 3D ResNet, I3D) 3Dフィルタ 畳み込みマップ (3D) 識別 D. Tran et al. “A Closer Look at Spatiotemporal Convolutions for Action Recognition,” in CVPR 2018.
  • 16.
    DNNの動向・CVのトレンド(13ʼ/34) 16 • 動画認識タスク R. Krishnaet al. “Dense Captioning Events in Videos,“ in ICCV 2017. https://arxiv.org/abs/1705.00754 DenseCaptioning T. Lin et al. “Single Shot Temporal Action Detection,“ in ACM MM 2017. https://arxiv.org/abs/1710.06236 SSAD Qiu et al. “Learning Spatio-Temporal Representation with Local and Global Diffusion,“ in CVPR 2019. https://arxiv.org/abs/1906.05571 Local & Global Diffusion (LGD) 動画から説明⽂を出⼒ 動画の区間を推定(⾏動の始点・終点) 局所・⼤域特徴を同時抽出(⾼精度な動画認識)
  • 17.
    DNNの動向・CVのトレンド(14/34) 17 • GAN:画像⽣成を⾏うための構造として提案 – 現在,⽣成/データの分布を近づける性質から多 様な場⾯に応⽤ –超解像,異常検知,データ拡張 など GANの構造 https://medium.com/@sunnerli/the- missing-piece-of-gan-d091604a615a 徐々に鮮明になるデータ BigGAN https://arxiv.org/pdf/1809.11096.pdf (注)下はGANにより⽣成された画像です
  • 18.
    DNNの動向・CVのトレンド(15/34) 18 • GANの主要な流れ 1. GAN(オリジナルのGAN) •[Goodfellow, NIPS2014] https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf 2. DCGAN(畳み込み層の使⽤) • [Radford, ICLR2016] https://arxiv.org/abs/1511.06434 3. Pix2Pix(pixel同⼠が対応付くという意味でConditionalなGAN) • [Isola, CVPR2017] https://arxiv.org/abs/1611.07004 4. CycleGAN(pix2pixの教師なし版) • [Zhu, ICCV2017] https://arxiv.org/pdf/1703.10593.pdf 5. ACGAN(カテゴリ識別も同時に実施してコンディションとした) • [Odera, ICML2017] https://arxiv.org/abs/1610.09585 6. WGAN/SNGAN(学習安定化) • [Arjovsky, ICML2017] http://proceedings.mlr.press/v70/arjovsky17a.html • [Miyato, ICLR2018] https://arxiv.org/abs/1802.05957 7. PGGAN(⾼精度化) • [Karras, ICLR2018] https://arxiv.org/abs/1710.10196 8. Self-Attention GAN(アテンション機構を採⽤) • [Zhang, arXiv 1805.08318] https://arxiv.org/abs/1805.08318 9. BigGAN(超⾼精細GAN) • [Brock, ICLR2019] https://arxiv.org/abs/1809.11096 # 2018年10⽉時点での調査
  • 19.
    DNNの動向・CVのトレンド(16/34) 19 • 鮮明な画像⽣成 -GAN vs. VAE︕︖ – キレイな画像⽣成はGANが優勢だった(〜2019/05) • SNGAN, BigGAN, StyleGAN etc. – だが,VQ-VAE-2でVAEが巻き返しを図るか︖ • GANのようにMode Collapseを起こさないと主張 ⽣成モデル,今後の動向に期待︕︕ 左︓VQ-VAE-2,右︓BigGAN A. Razavi et al. “Generating Diverse High- Fidelity Imageswith VQ-VAE-2,” NeurIPS, 2019. https://arxiv.org/pdf/1906.00446.pdf
  • 20.
    DNNの動向・CVのトレンド(17/34) 20 • 教師なし/少量教師あり学習への拡がり – キーワード •{Un-, Weak-, Semi-, Self-} supervision • {Zero-, One-, Few-} shot learning • Transfer Learning • Domain Adaptation • Reinforcement Learning – 教師がない/間接的に教師を与える,ような仕組みに対する 競争も激化 – 巨⼤IT企業のように⼤量のラベルを持たなくても学習を成 功させる • アルゴリズム⾄上主義への回帰︖
  • 21.
    DNNの動向・CVのトレンド(18/34) • 学習法の簡単な整理 – {Un-,Semi-, Weak-, Self-} supervision • Un-supervision(教師なし学習) アノテーションが⼀切ないデータで学習 • Semi-supervision(半教師あり学習) アノテーションを持つデータと持たないデータで学習 • Weak-supervision(弱教師付き学習) 出⼒として必要な情報よりも拘束⼒の弱いデータを⽤いて学習 – ex) 物体検出を⾏う際に画像ラベルのみを⽤いて学習 • Self-supervision(⾃⼰教師あり学習) ⾃ら教師を作り出して特徴表現を学習する「⾃⼰教師学習」 – 特定タスクの前に⾃ら教師を作り出し特徴表現を学習するため,その 後に特定タスクのためのファインチューニングを伴う – ex) 領域分割した画像でジグソーパズルを解く,回転を当てる
  • 22.
    DNNの動向・CVのトレンド(19/34) 22 転移学習(Transfer Learning)の網羅的調査 – Taskonomy[Zamir, CVPR2018] • CVPR 2018 Best Paper Award • 26種のタスク間の関連性を調べる – CVの歴史の中で別々に議論されたいたサブタスクを繋げる – 効果を最⼤化する転移学習の関係性を明らかにした http://taskonomy.stanford.edu/ データセットは26タスクに対しラベル付け Task Similarity Tree: 類似するタスク間の関 係性を可視化
  • 23.
    DNNの動向・CVのトレンド(20/34) 23 • 教師あり学習 vs.無教師/弱教師 – 少量/無 ラベルで教師あり学習に勝つ︕ • How good is my GAN?: 勝てなかったがGANによるデータ拡張の⽅針を⽰す • 6D Object Detection: 条件付だがこの⽂脈で勝利(ECCVʼ18 BestPaper) • Cut/Paste Learn: 9割くらいの精度まで来た [Sundermeyer, ECCV2018]Oral,BP ラベル無しCGデータで実時間6D検出, さらに教師有りを倒した [Remez, ECCV2018]Oral Cut/Pasteで既存セグメントラベルを増 加,教師有りに接近する精度 [Shmelkov, ECCV2018] GANの評価法提案,追加実験のデー タ拡張がポイント
  • 24.
    DNNの動向・CVのトレンド(21/34) 24 ⾃⼰教師あり学習(Self-supervised Learning) – ⾃ら教師を作り出し,良好な特徴表現を獲得 •事前タスク(Pretext task; 左下図)で学習,⽬的タスク(Target task; 右下図)で調整 • 例︓PretextはラベルなしImageNet, TargetはラベルありImageNet Pretext task例︓ジグソーパズル 1.(a)(b)の図を9分割&シャッフルして復元するよう学習 2.通常通りPascalVOC, ImageNet等で学習 打倒︕ImageNet 事前学習が⽬標の研究分野
  • 25.
    DNNの動向・CVのトレンド(21ʼ/34) 25 ⼈間の教師に近接する精度を実現︕ – ImageNet教師あり学習に「⾃⼰教師+数%の教師」で到達 • SimCLR:Simple Framework for Contrastive Learning of Visual Representation • 下図は論⽂中より引⽤ https://arxiv.org/abs/2002.05709 SimCLRはパラメータ数が多い (Supervised 約25M vs. SimCLR 約400M)が, 自己教師学習により教師あり学習 と同等の精度まで到達
  • 26.
    DNNの動向・CVのトレンド(22/34) 26 • 学習データ⽣成 – キーワード •Synthetic Data • Adversarial Learning • Data Augmentation • Domain Randomization – CGなど合成(Synthetic)でデータを作成 – 敵対的学習(Adversarial Learning) • 少量のサンプルから画像⽣成 • 合成をリアルに近づける – データ拡張(Data Augmentation) • データの⽔増しをあらゆる⽅法(e.g. 反転,回転,統合)で実現
  • 27.
    DNNの動向・CVのトレンド(23/34) 27 シミュレーション画像からの変換 – GANにより変換/⽣成した画像も学習に使えるように • 左図︓SimGAN –CVPR2017 Best Paper – CGをリアルに近付けるRefiner(R)と識別器(D) • 右図︓GraspGAN – ICRA2018 – 上記論⽂を元ネタとしてロボットシミュレータ画像をリアルに近づけて,マニ ピューレーションを実⾏
  • 28.
    DNNの動向・CVのトレンド(24/34) 28 • 超越(Beyond)/再考(Rethink) ImageNet 学習回数が多くなると scratch/pre-trainの精度が 同等に 通常の学習回数ではImageNet Pre- trainが強く⾒えている、、、 [Mahajan, ECCV2018] FBはSNSのHashtagでラベル付けなし,弱教師付きの3.5B枚画像DB構築 【超越】 Top-1: 85% w/ ResNeXt-101 ラベルはSNSの再利⽤ https://venturebeat.com/2018/05/02/facebook-is-using-instagram-photos-and-hashtags-to-improve-its-computer-vision/ ImageNetは他のタスクの精度向上に貢献する︖ • しない(左図参照) • スクラッチで⻑く学習すれば同等の精度まで到達 – ただし,10K以上のラベルは必要 • 収束は早くなったので,研究ペース促進に寄与 無/弱/半教師付きの⽂脈で⼤量画像とその教 師を与えられればモデルを強化できる 【再考】 [He, arXiv2018] タスクに即した事前学習をする(物体検知なら物体検知の事前学習)
  • 29.
    DNNの動向・CVのトレンド(25/34) 29 • 動画DBの⼤規模化 – 動画共有サイトのタグ付け –画像識別の動画版 Kinetics [Kay, arXiv2017] Moments in Time [Monfort, arXiv2018] [Ghadiyaram, CVPR2019] Kinetics-700 Moments in Time 700カテゴリ/650,000+動画 339カテゴリ/1,000,000+動画 359カテゴリ/65,000,000+動画 Instagram-65M 【最近の代表的な動画データセット】 10万〜1000万を超える動画数のデータセットが登場, 画像識別に変わるネクストトレンドとして位置付けられる
  • 30.
    DNNの動向・CVのトレンド(26/34) 30 • DNNのフレームワークが次々にリリース – Caffe/Caffe2,Theano, Chainer, TensorFlow, Keras, Torch/PyTorch, MatConvNet, Deeplearning4j, CNTK, MxNet, Lasagne (順不同,その他多数) – 特に,Caffeが出てきてからCVにおけるDNNの研究は爆発 的に広がった https://chainer.org/images/logo.png http://pytorch.org/docs/master/_static/pytorch-logo-dark.svg https://www.tensorflow.org/_static/image s/tensorflow/logo.png # ⽇本ではChainer︖ 世界的にはTensorFlow︖研究者はPyTorch︖開発者はCaffe2/TensorFlow︖ 簡便性の⾯から Kerasもよく使われていると聞く # Facebookでも研究はPyTorch,プロダクトはCaffe2のように使い分け
  • 31.
    DNNの動向・CVのトレンド(27/34) 31 • HPC: コンピューティングによる研究の加速 –AWS/Azure/Google Cloud, ⽇本でも Tsubame3.0/ABCI/Fugaku(coming soon…) • Multi-GPU, Multi-Node – ImageNet 世界最速記録の変遷 • 29h > 1h > 30m > 15m > 6.6m > 1.8m > 2.0m > 1.2m 東⼯⼤TSUBAME 3.0 産総研ABCI https://commons.wikimedia.org/wiki/ File:TSUBAME_3.0_PA075096.jpg M. Yamazaki, et al. “Yet Another Accelerated SGD: ResNet- 50 Trainingon ImageNet in 74.7 seconds,” arXiv pre-print, 1903.12650, 2019. https://arxiv.org/pdf/1903.12650.pdf
  • 32.
    DNNの動向・CVのトレンド(28/34) 32 • 現在も進化の⼀途を辿り,社会実装が進む – ⾃動運転/ADAS –ロボティクス – ファッション – 画像/動画検索 – 物流(ピッキング等) – 等 研究者としては「こんなこともできる」を世に出したい
  • 33.
    DNNの動向・CVのトレンド(29/34) 33 • ⾃動運転/ADAS(Self-Driving Cars/ADAS) –国際会議の研究(検知など単純タスク)は減少傾向, 実利⽤に向け開発︖ – 数年前はKITTI datasetに対しての精度競争が盛ん – 現在は⾃動運転の解釈性,ニアミスシーンの解析等 KITTI: Autonomous driving benchmark 物体検出,ステレオ視,セグメンテ ーション問題を提供 Optical Flow Stereo Matching Object Detection Road Odometry Semantic Segmentation [Geiger, CVPR2012] [Kim, ICCV2017] ⾃動運転時の解釈性,物体検知の際 にどこを参照したか︖ 事故に近いシーンを認識,予測 [Suzuki&Kataoka, CVPR2018]
  • 34.
    DNNの動向・CVのトレンド(30/34) 34 • ロボティクスへの応⽤ @CVPR2019 –点群の利⽤や6D Object Detectionが多数 – マニピュレーション︓DenseFusionでは6D Det. と把持を実施(左図) – ⾃動運転︓点群トラッキング+形状復元(右図) C. Wang et al. “DenseFusion: 6D Object Pose Estimation by Iteratibve Dense Fusion,” in CVPR 2019 http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_D enseFusion_6D_Object_Pose_Estimation_by_Iterative_Dense_Fusion _CVPR_2019_paper.pdf S. Giancola et al. “Leveraging Shape Completion for 3D Siamese Tracking,” in CVPR 2019. http://openaccess.thecvf.com/content_CVPR_2019/papers/Giancola_Leveraging_Shape_Completion_for_3D_Sia mese_Tracking_CVPR_2019_paper.pdf 点群トラッキング+形状復元(下の例は⾞両の復元)
  • 35.
    DNNの動向・CVのトレンド(31/34) 35 • ファッション分野への応⽤ @CVPR2019 –ファッションのアノテーションが進展 – DeepFashion2(左図) • DeepFashionの強化版,より詳細なラベルを付与 – FCDBv2(右図) • FCDBの強化版,バイナリ識別器によりデータクレンジング Y. Ge et al. “DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation,Segmentation and Re- Identification of Clothing Images,” in CVPR 2019. http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_ Versatile_Benchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2 019_paper.pdf H. Kataoka, K. Abe, M. Minoguchi, A. Nakamura, Y. Satoh, "Ten- million-order Human Database for World-wide Fashion Culture Analysis", in CVPR 2019 Workshop on FFSS-USAD. http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_Versatile_B enchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2019_paper.pdf
  • 36.
    DNNの動向・CVのトレンド(32/34) 36 • 動画認識の応⽤ – 動画⾃動ラベル付け –⾒守り,料理⾏動解析,ホームロボティクス,,, • 動画DBは群雄割拠(下図) D. Damen et al. “Scaling Egocentric Vision: The EPIC-KITCHENS Dataset,” in ECCV 2018. https://epic-kitchens.github.io/2018 W. Kay et al. “The Kinetics Human Action Video Dataset,” in arXiv:1705.06950 2017. https://deepmind.com/research/open- source/open-source-datasets/kinetics/ C. Gu et al. “AVA: A Video Dataset of Spatio- temporally Localized Atomic Visual Actions,” in CVPR 2018. https://research.google.com/ava/downl oad.html M. Monfort et al. “Moments in Time Dataset: one million videos for event understanding,” in arXiv pre-print 1801.03150, 2018. http://moments.csail.mit.edu/ H. Zhao et al. “HACS: Human Action Clips and Segments Dataset for Recognition and Temporal Localization,” in arXiv pre-print 1712.09374 2017. http://hacs.csail.mit.edu/ Something-Something v2 dataset https://20bn.com/datasets/something-something
  • 37.
    DNNの動向・CVのトレンド(33/34) 37 • 2020年 CV分野のトレンド:アルゴリズム考案 – 既存の問題をよりよく解く • 精度向上/タスク解決に対して効果的な⼿法を提案 – 以前からホットな領域 • 画像識別,物体検出,(インスタンス)セグメンテーション,動画 認識,Shape-from-X,SLAM,Computational Photography,⾃ 動運転/ADAS,ロボット応⽤,,, – 最近ホットになった領域 • Language & Vision(画像説明⽂/VQA),敵対的⽣成ネット( GAN),ファッション,,, – 今後ホットになりそうな領域︖ • 多タスク学習(転移学習),強化学習, 3D⽣成, 解釈性, , , # もちろん,上記以外にもまだまだあります
  • 38.
    DNNの動向・CVのトレンド(34/34) 38 • 2020年 CV分野のトレンド:少量教師学習 – ⼤規模データの収集/ラベル付け問題を解決および緩和 • 深層学習の1st waveがアーキテクチャ改善だとすると, • 2nd waveはデータ作成/少量データ学習 – データ問題のキーワード • {Un-, Weak-, Semi-, Self-} Supervised Learning • {Zero-, One-, Few-} shot learning • Domain Adaptation, Domain Randomization, Synthetic Data, Adversarial Learning, Data Augmentation 今後も新しい学習⽅法が提案されると予想 # もちろん,上記以外にもまだまだあります