2020/09/10 JPTA講演資料
コンピュータビジョン今昔物語
- 深層学習がCVの世界をどう変えたか -
株式会社ビジョン&ITラボ 代表取締役 皆川卓也
自己紹介
自己紹介
3
• 「コンピュータビジョン勉強会@関東」主催
• 株式会社フューチャースタンダード 技術顧問
• 慶應大学斎藤英雄研究室 訪問研究員
http://visitlab.jp
株式会社ビジョン&ITラボ 代表取締役
皆川 卓也(みながわ たくや)
博士(工学)
コンピュータビジョン勉強会@関東
コンピュータビジョンを勉強
する有志の集まり
こんなテーマでやってきました
「コンピュータビジョン最
先端ガイド」の輪読会 ECCV読み会
強化学習縛り
論文読み会
AR/VRを支える
技術
ICCV読み会
CVPR読み会
CVでこんなもの作
りました大LT大会
CVの便利なツール/
ライブラリ
CVのお仕事
ハッカソン
OpenCV祭り
有名論文読み会
三次元形状計測・
認識
全日本コンピュータビジョン勉強会
コロナ禍のため、オンラインで以下の3つの勉強会の合同
開催
 コンピュータビジョン勉強会@関東 (@kantocv)
 http://sites.google.com/site/cvsaisentan/
 名古屋CV・PRML勉強会 (@nagoyacv)
 https://nagoyacv.connpass.com/
 関西CV・PRML勉強会 (@kansaicv)
 https://sites.google.com/site/kansaicvprml/
第4回 全日本コンピュータビジョン勉強会
7
 10/10(土) 「人に関わる認識・理解」論文読み会
 PRMU研究会のとの共催
 発表者募集中! https://kantocv.connpass.com/event/187341/
株式会社ビジョン&ITラボ
コンピュータビジョンとAIに
よって御社の「こまった」を
助ける会社
http://visitlab.jp
ビジョン
技術の町医者
AIビジネスについて、気軽に相談できる
事業内容
1. R&Dコンサルティング
2. 受託研究/開発
3. 開発マネジメント
4. 開発コンサルティング
5. ビジネス化コンサルティング
10
ソリューション/製品
11
深層学習 (Deep Learning)
Virtual / Augmented Reality
ナンバープレート認識
ビジョン&ITラボの代表的なソリューション
や製品の例を紹介いたします。
深層学習 (Deep Learning)
12
深層学習についてのコンサルティングや開発支援などを
行います。
 画像識別
 物体検出
 領域分割
 人物姿勢推定
 画像変換
 画像生成(GAN)
 etc
Virtual Reality/Augmented Reality
13
御社がVirtual RealityやAugmented Realityを用いたビジネ
スを行う上で必要な、総合的な技術コンサルティングや開
発/プロダクトを提供します。
 特定物体認識
 Visual SLAM
 三次元スキャン
 Face Tracking
ナンバープレート認識:
License Plate Recognizer
 画像や動画からナンバープレートを読み取ります
入力画像/動画 文字+座標
License Plate
Recognizer
練馬444
ま 1564
• Web APIまたはSDKで提供可能
• SDK
• LinuxまたはWindows
• C++またはPython
• アルファベット分類番号および図柄入りナンバープレートにも対応
• GPU不要でロバストかつ高速な認識
深層学習と私
皆川の略歴
16
1999-2003年
コンピュータビジョンで修士課程修了後、日本HP(後にアジレント・テクノロ
ジーへ分社)にて、ITエンジニアとしてシステム構築、プリセールス、プロ
ジェクトマネジメント、サポート等の業務に従事
皆川の略歴
17
1999-2003年
コンピュータビジョンで修士課程修了後、日本HP(後にアジレント・テクノロ
ジーへ分社)にて、ITエンジニアとしてシステム構築、プリセールス、プロ
ジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
これから、コンピュータビジョンのビジネスが
大きくなるぞ!という予感
皆川の略歴
18
1999-2003年
コンピュータビジョンで修士課程修了後、日本HP(後にアジレント・テクノロ
ジーへ分社)にて、ITエンジニアとしてシステム構築、プリセールス、プロ
ジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻(社
会人博士)。
自分でCVのアルゴリズムまで作れるようになりたい!
CV全体を俯瞰できるようになりたい!
皆川の略歴
19
1999-2003年
コンピュータビジョンで修士課程修了後、日本HP(後にアジレント・テクノロ
ジーへ分社)にて、ITエンジニアとしてシステム構築、プリセールス、プロ
ジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻(社
会人博士)。単位取得退学後、博士号取得(2014年)
Rejectの山
論文がなかなか通らない。。。
皆川の略歴
20
1999-2003年
コンピュータビジョンで修士課程修了後、日本HP(後にアジレント・テクノロ
ジーへ分社)にて、ITエンジニアとしてシステム構築、プリセールス、プロ
ジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻(社
会人博士)。単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
(2018年法人化)
まだ博士号取れてないけど、
とりあえず食わねば。。。
HMAXモデルの高速化
 畳み込み演算の階層
構造
 階層が上がる毎に複
雑な形状に反応する
 深層学習とよく似た構
造
Tuning
Tuning
Max
Max
S1
C1
S2
C2
Machine Learning
博士論文テーマ
21
博士論文:
http://koara.lib.keio.ac.jp/xoonips/modules/xoonips/detail.
php?koara_id=KO50002002-20133989-0003
・・・
・
・
・
・・・
Overlapping
areas
Shape size
is ignored
S2
C2
Max-pooling
Sliding Window
博士論文テーマ
22
Overlapping
scales
HMAXモデルによる物体検出の高速化
23
論文が通らず
モタモタしている間に
深層学習がブレイク
深層学習のブレイク
Team name Error
1 SuperVision 0.15315
2 SuperVision 0.16422
3 ISI 0.26172
4 ISI 0.26602
5 ISI 0.26646
6 ISI 0.26952
7 OXFORD_VGG 0.26979
8 XRCE/INRIA 0.27058
Team name Error
1 SuperVision 0.335463
2 SuperVision 0.341905
3 OXFORD_VGG 0.500342
4 OXFORD_VGG 0.50139
5 OXFORD_VGG 0.522189
6 OXFORD_VGG 0.529482
7 ISI 0.536474
8 ISI 0.536546
Classification Localization
大規模物体認識のコンテスト(ILSVRC 2012)
http://www.image-net.org/challenges/LSVRC/2012/
Deep Learning
ざわつくCVクラスタ
僕が当時抱いたイメージ
Deep Learning
機械学習屋
CV屋
世は正に
大深層学習時代
コンピュータビジョンの
ほぼ全ての分野に
深層学習が進出
博士課程をぬけ
ると、そこはレッ
ドオーシャンでし
た
この講演の目的
30
深層学習登場以降、コ
ンピュータビジョンの分
野がどのように変わって
いったのかを概説。
本日のお話
31
今や深層学習はほぼ全てのコンピュータ
ビジョン分野で使われていますが、今回は
以下の分野に絞ってお話します。
1. 一般物体認識
2. 物体検出
3. セグメンテーション
4. 三次元再構成
5. 深層学習によって大きく花開いた分野
一般物体認識
深層学習最初のブレークスルー
一般物体認識
33
 画像に写っている物体のカテゴリを判別する
飛行機 顔 自動車
入力
画像
出力
カテゴリ認識
学習
学習結果
データ
学習フェーズ
特徴量抽出
学習画像
学習画像
学習画像
認識
認識結果
認識フェーズ
特徴量抽出
入力画像
深層学習以前の画像認識
34
画像特徴量とは?
35
 画像を構成する画素の集合を「認識や識別のしやすい」
別のベクトルへ変換したもの
 画像の様々な変形(拡大/縮小、回転、ずれ等)に強い点
(キーポイント)を検出し、そのキーポイント周辺から取得
する特徴量を特に局所特徴量と呼ぶ
画像特徴量入力画像 物体認識/検出
局所特徴量の代表例
36
 Scale Invariant FeatureTransform (SIFT) [Lowe1999]
1. 画像のスケール変化や位置ずれに強いキーポイントを検出
スケール変化に弱い
キーポイント
位置ずれに弱い
キーポイント
スケール変化と位置ずれ
に強いキーポイント
局所特徴量の代表例
37
 Scale Invariant FeatureTransform (SIFT) [Lowe1999]
1. 画像のスケール変化や位置ずれに強いキーポイントを検出
2. キーポイント周辺から画像の回転に強い特徴量を算出
Histogram of Gradient
Orientations
• 最も画像の濃度変化の大き
い方向を軸とすることで、回
転不変性を実現
• キーポイント検出時に取得し
たスケール情報を元に周辺
パッチのサイズを決定するこ
とでスケール不変性を実現
一般物体認識の特徴量の例
38
 Bags-of-Features (BoF) [Csurka2004]
 形状(VisualWords)の画像中に現れる頻度(ヒストグラム)を
特徴量とする
Dictionary (Visual Words)
3
0
0
2
1
2
1
1
Histogram of visual words
Image
Bags-of-Featuresの流れ
39
学習画像群から局所特徴量(SIFT)を取得
局所特徴量をk-meansでクラスタリングし、クラス
タ中心をVisualWordsとする
認識対象画像から局所特徴量を取得し、各特徴
をVisualWordsへ割り当て
画像をVisualWordsのヒストグラムで表し、SVM
等の機械学習により対象のカテゴリを認識
深層学習以前の一般物体認識
40
 BoFは画像中のVisual Wordsの出現率
(ヒストグラム)を特徴ベクトルとして表現
 画像を表す特徴ベクトルをより豊かに
することで認識精度を向上が試みられ
てきた
 Pyramid Matching Kernel
 FisherVector
 VLAD
Pyramid Matching Kernel [Lazebnik2006]
41
 Visual Wordの出現率だけでなく、画像のどこで現れたか
まで考慮した特徴ベクトル
 画像を階層的に分割し、各ブロックの中でBoF表現
Fisher Vector [Perronnin2007]
42
 局所特徴量ベクトルの空間から、Dictionary(Visual
Words)をk-meansではなく混合ガウス分布で作成
 画像から取得した局所特徴(D次元)は、各ガウス分布
からのズレ(平均、分散、混合係数の勾配)として表現
 画像の各局所特徴のズレの平均を画像を表す特徴ベク
トルとする
局所特徴量全体から混合ガウス分布作成 局所特徴を対数確率密度関数の
勾配で表現
VLAD [Jegou2010]
43
 各局所特徴から、近傍のVisualWordとのズレを算出
 同じVisualWordに割り当てた局所特徴の差の平均ベク
トルを算出
 全てのVisualWordに対応したベクトルを並べたものが
VLAD特徴
VisualWord
局所特徴
深層学習以後の一般物体認識
44
学習
学習結果
データ
学習フェーズ
特徴量抽出
学習画像
学習画像
学習画像
認識
認識結果
認識フェーズ
特徴量抽出
入力画像
深層学習
深層学習の概要
 SIFTやHOGのような画
像特徴量を用いず、認
識に有効な特徴量を画
素から統計的に学習す
る。
 局所特徴量抽出を畳み
込み、VisualWords割り
当てがPoolingともとれる
 低レベル特徴から高レベ
ル特徴までの階層構造。
 低レベルな特徴ほど、
様々なタスクで共有可能
(Image from Lee. H in CVPR2012Tutorial)
AlexNet [Krizhevsky2012]
46
 ILSVRC2012優勝モデル
 8層の畳み込みニューラルネットワーク(CNN)
 畳み込み層とプーリング層が交互に表れる構造
GoogLeNet [Szegedy2014]
47
 Inception Moduleを導入することで、層における表現力を
向上
 1つの層で様々なサイズのカーネルを畳み込み
 1x1畳み込みによりチャネル数を削減
 層を深くすることで性能向上(ILSVRC2014で優勝)
VGG Net [Simonyan2015]
48
 5x5や7x7の畳み込みカーネルの代わりに、3x3の畳み
込みカーネルを繰り返すことで計算量を削減
 (当時としては多い)19層まで階層を深くすることで認識
精度を向上
** =
3x3カーネルを2回畳み込むと5x5カーネルを1回畳み込んだものと受容野
のサイズが同じになるが、計算量は18/25になる。
Residual Net [He2016]
49
 Residual Blockの導入で、階層をより深くする(152層)ことが可
能に
 ショートカットによって畳み込みをバイパス
 スキップされた畳み込み層は、ブロックへの入出力信号の残差に対
して学習するため、微細な変動も検出
 ILSVRC2015で優勝
一般物体認識まとめ
50
 深層学習以前の手法は、局所特徴量による
特徴抽出と、VisualWordによるプーリングに
よって画像のカテゴリを判別。
 深層学習以前は、認識能力を向上させるため
に、VisualWord等画像の表現力の向上に取
り組んできた。
 深層学習は特徴自体をデータから学習させ、
特徴抽出の畳み込み層と汎化のプーリング
層を何層も重ねることで、表現力とそれに伴う
認識能力を大幅に向上させた。
参考文献
51
 [Lowe1999]Lowe, D. G. (1999). Object recognition from local scale-
invariant features. In IEEE International Conference on ComputerVision
(pp. 1150–1157 vol.2).
 [Csurka2004]Csurka, G., Dance, C. R., Fan, L.,Willamowski, J., & Bray,
C. (2004).Visual categorization with bags of keypoints. In Workshop
on statistical learning in computer vision, ECCV (Vol. 1, p. 22).
 [Lazebnik2006]Lazebnik, S., Schmid, C., & Ponce, J. (2006). Beyond
bags of features: Spatial pyramid matching for recognizing natural
scene categories. In IEEE Conference on ComputerVision and Pattern
Recognition.
 [Perronnin2007]Perronnin, F., & Dance, C. (2007). Fisher kernels on
visual vocabularies for image categorization. In IEEE conference on
ComputerVision and Pattern Recognition.
 [Jegou2010]Jegou, H., Douze, M., Schmid, C., & Perez, P. (2010).
Aggregating local descriptors into a compact image representation.
In IEEE Conference on ComputerVision and Pattern Recognition
参考文献
52
 [Krizhevsky2012]Krizhevsky,A., Sutskever, I., & Hinton, G. E.
(2012). ImageNet Classification with Deep Convolutional
Neural Networks. In Advances in Neural Information Processing
Systems (NIPS)
 [Simonyan2014]Simonyan, K., & Zisserman,A. (2014).Very
Deep Convolutional Networks for Large-Scale Image
Recognition. In IEEE Conference on ComputerVision and Pattern
Recognition.
 [Szegedy2015]Szegedy, C., Liu,W., Jia,Y., Sermanet, P., Reed, S.,
Anguelov, D., … Rabinovich,A. (2015). Going Deeper with
Convolutions. Conference on ComputerVision and Pattern
Recognition
 [He2016]He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep
Residual Learning for Image Recognition. IEEE Conference on
ComputerVision and Pattern Recognition.
物体検出
物体検出
54
 画像から顔、人、モノなどの位置を検出する
55
深層学習以前の物体検出
SlidingWindow
画像中を走査し、各場所で特徴量抽出+認識処理
Cascaded Haar-like Detector [Viola2001]
56
 Haar-like特徴
 白領域の画素の和から黒領域の画素の和を引くだけ
 積分画像というテクニックとAdaBoostという機械学習アルゴリ
ズムで非常に高速に計算できる
plus
minus
Cascaded Haar-like Detector [Viola2001]
57
 Attentional Cascade
 画像中は「物体以外」の領域の方が多い
 効率よく「物体以外」の領域を削除するために、Adaboost識別
器を複数連結させ、上位で関係ない領域を早めに削除する。
全てのSliding
Window
1 2 3 更なる処理
拒否されたSliding
Window
TRUE TRUE TRUE
FALSE FALSE FALSE
Histogram of Oriented Gradients (HOG)
[Dalal2005]
58
 画像の濃度変化方向について場所(Cell)ごとの統計を
取ったもの
 輪郭のような特徴が良くとれる
 人以外の物体検出にも広く応用されている
Deformable Part Model [Felzenszwalb2009]
59
 HOG特徴を複数組み合わせることで、検出精度向上
 HOG特徴を抽出する位置の歪みも含めてLatent SVMと
いう機械学習アルゴリズムで学習する
Root filter Parts filter Deformation
深層学習の物体検出への適用
60
 Haar-likeやHOGなどのHand-crafted特徴量の場合、積
分画像や積分ヒストグラム等の特徴量計算の高速化テ
クニックを使っていた。
 畳み込みニューラルネットワーク(CNN)は処理が重い
ため、SlidingWindow1つ1つに対し、認識処理をかける
と非常に時間がかかってしまう。
 CNNを物体検出へ適用するために、SlidingWindowを
使用しない様々な工夫が提案
R-CNN [Girshick2014]
61
 Selective Searchという手法を用いて物体候補領域を検出
し、候補領域上のみCNNで処理することで計算量削減
Fast R-CNN [Girshick2015]
62
 R-CNNでは物体候補領域を1つ1つCNNで判別していたた
め遅い(VGGを使用した場合、GPU込みで1枚47秒)
 画像全体にCNNをかけて特徴マップを生成し、最後のプーリ
ング層を物体候補領域に合わせて切り出す(ROI-Pooling)
 R-CNNを検出時約213倍高速化
Faster R-CNN [Ren2015]
63
 R-CNNおよびFast R-CNNではSelective Searchを用いて物体候補
領域を事前に求めておく必要。
 Fast R-CNNのSelective Search部分をfeature map上で行うことで、
余計な処理を省き、高精度化/高速化(1枚当たり約200msec)。
→ Region Proposal Network (RPN)
この上(特徴マップ)で物体候
補領域検出を行う
YOLO [Redmon2015]
64
 Faster R-CNNのように物体候補領域抽出とクラス識別を分
けず、画像全体を一括で処理
 画像をSxSのブロックに分割し、それぞれのブロックで
Bounding Boxと物体クラスを推定
 最も信頼度の高いBounding Boxを採用
Single Shot multibox Detector
(SSD)[Liu2016]
65
 YOLOと同じ1-stage detector
 様々な解像度の特徴マップを生成し、それぞれにアン
カーとなる複数の縦横比のDefault Boxを準備
 それぞれのDefault Boxのオフセット(サイズと位置の変
化量)とクラスを推定
CornerNet [Law2018]
66
 Bounding Boxを左上と右下のコーナーのペアとして検出
 特徴マップから各コーナーのヒートマップ、Embeddings
(同じ Boxの左上と右下を紐づける値)、Boxのオフセット
を出力し、統合
CornerNet後のKey Pointベースの検出
67
 Object As Points [Zhou2019]
Bounding Boxの中心を検出し幅と高さを求める
左上、右下に中心の検出も加えることでよりロバストに
 CenterNet [Duan2019]
物体検出まとめ
68
 深層学習が一般物体認識で持つ高い認識能
力は、物体検出においても有用。
 従来法ではSlidingWindowを用いて物体検出
を行っていたが、深層学習を用いた物体検出
では膨大な計算を避けるため、Sliding
Windowを用いずに検出する様々な方法が提
案されている。
 Selective Searchの利用
 One-Stage Detector
 Corner Detection
参考文献
69
 [Viola2001]Viola, P., & Jones, M. (2001). Rapid object detection
using a boosted cascade of simple features. IEEE International
Conference on ComputerVision and Pattern Recognition (CVPR).
 [Dalal2005]Dalal, N., &Triggs, B. (2005). Histograms of
Oriented Gradients for Human Detection. IEEE Conference on
ComputerVision and Pattern Recognition (CVPR).
 [Felzenswalb2009]Felzenszwalb, P. F., Girshick, R. B., McAllester,
D., & Ramanan, D. (2009). Object detection with
discriminatively trained part-based models. IEEETransactions on
Pattern Analysis and Machine Intelligence, 32(9), 1627–1645.
 [Girshick2014] Girshick, R., Donahue, J., Darrell,T., & Malik, J.
(2014). Rich feature hierarchies for accurate object detection
and semantic segmentation. In IEEE Conference on Computer
Vision and Pattern Recognition.
参考文献
70
 [Girshick2015] Girshick, R. (2015). Fast R-CNN. International
Conference on ComputerVision, 1440–1448.
 [Ren2015] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster
R-CNN:Towards Real-Time Object Detection with Region
Proposal Networks. Advances in Neural Information Processing
Systems (NIPS).
 [Redmon2015]Redmon, J., Divvala, S., Girshick, R., & Farhadi,A.
(2015).You Only Look Once: Unified, Real-Time Object
Detection. Conference on ComputerVision and Pattern Recognition.
 [Liu2016]Liu,W.,Anguelov, D., Erhan, D., Szegedy, C., Reed, S.,
Fu, C.Y., & Berg,A. C. (2016). SSD: Single shot multibox
detector. In IEEE Europian Conference on ComputerVision.
参考文献
71
 [Law2018]Law, H., & Deng, J. (2018). CornerNet:
Detecting Objects as Paired Keypoints. In IEEE Europian
Conference on ComputerVision.
 [Zhou2019]Zhou, X.,Wang, D., & Krähenbühl, P. (2019).
Objects as Points. ArXiv, arXiv:1904.
 [Duan2019]Duan, K., Bai, S., Xie, L., Qi, H., Huang, Q., &
Tian, Q. (2019). CenterNet: Keypoint triplets for object
detection. In IEEE International Conference on Computer
Vision
Semantic
Segmentation
Semantic Segmentationとは
 各画素がどの物体に属するのかを推定する技術
[Thoma2016]より
深層学習以前のSegmentationの流れ
[Thoma2016]より
Sliding Windowを用いた識別
[Thoma2016]より
Sliding Windowを用いた識別
 SlidingWindowで画像をスキャン
 ウィンドウ内の画像から特徴量を抽出
 特徴量を入力として、機械学習によりウィンドウ中心画素の
ラベルを学習/分類
×
特徴量
• Color
• HOG
• SIFT
• BoVW
• Neural Network
• etc
機械学習
• SVM
• Random Forest
• Neural Network
確率場によるPost-Processing
Conditional Random Field (CRF)によるPost-
Processing
 画像の各画素をノードとし、隣接画素間にリンクを張ったグラ
フとみなす。
 真の画素のラベルを潜在変数𝒀
 画像から取得した特徴量を観測変数𝑿
潜在変数
観測変数
[Thoma2016]より
Conditional Random Field (CRF)によるPost-
Processing
 以下の条件で全体のエネルギーを最小化する潜在
変数𝒀を求める
特徴量𝑿から推定した各画素のラベルが、𝒚𝒊のラベルと一致
した時、エネルギー小
隣り合う𝒚𝒊のラベルが同じ時、エネルギー小
潜在変数
観測変数
[Thoma2016]より
一致の時
エネルギー小
一致の時
エネルギー小
CRF for Image Labeling [He2004]
 CRFをSemantic Segmentationへ適用した最初の論文
 ローカル特徴、全体特徴、ラベル間の位置関係を考慮し
たモデルを構築して最適化
TextonBoost [Shotton2009]
 各画素の周囲のテクスチャ(Texton)を元に画素のラベ
ルを学習(Joint Boost)することで物体のコンテクストを学
習
 CRFを用いてテクスチャ、色、位置、エッジを考慮した学
習
Fully Connected CRFs [Koltun2011]
 隣接画素だけでなく、全画素同士のペアを考慮したFully
Connected CRFsに対し効率的に学習させる方法を提案
深層学習のSemantic Segmentationへの適用
 画素ごとにCNNでクラス分類を行う
 単純にCNNの高い識別能力がSemantic
Segmentationに有利
 SlidingWindowを用いず、画像全体を一度に
処理
 層が深くなるごとに受容野が広がり(解像度
が落ち)、領域の境界部分があいまいになる
ため、この問題についての様々な解決法が提
案
Fully Convolutional Network (FCN)
[Long2014]
84
 VGG等のベースネットワークの全結合層を、畳み込み層
に変更し、ピクセルごとに教師ラベルが与えられた時、
End-to-Endで学習可能
 バイリニア補間で拡大した層に、浅い層の出力を結合す
ることで高解像度化し、1x1畳み込みでラベル判定
CRF as RNN [Zheng2015]
 Fully Connected CRFの平均場近似による学習と等価な
RNNを構築
 特徴抽出部分にFCN(Fully Convolutional Networks)を
用いることで、end to endで誤差逆伝播法による学習が
行えるネットワークを構築
DeconvNet [Noh2015]
 Convolution NetworkとDeconvolution Networkを対で
持つEncoder-Decoder Network
 Max Pooling時のインデクスを保存しておき、Unpooling層
で復元
 疎なUnpooling層の出力をDeconv層の畳み込みで密に
復元
U-Net [Ronneberger2015]
 Decoder側の出力にEncoder側の対応する層の出力を
追加(Skip Connection)することで、高解像度における詳
細情報を補間
DeepLab v3 [Chen2017]
 Atrous Convolution (= Dilated Convolution) [Yu2016]と
いう畳み込み層により、Poolingなしでコンテクストの情報
を取得
 異なるレートのAtrous Convolutionの出力を結合する
Atrous Spatial Pyramid Poolingにより、マルチスケールの
情報を統合
PSPNet [Zhao2017]
 Feature Mapに対し、異なるサイズのPoolingをかけてUp-
samplingする
 大きなPoolingサイズのものにコンテクストの情報が含ま
れている
Semantic Segmentationまとめ
 深層学習の持つ高い認識能力はSemantic
Segmentationにおいても有効。
 深層学習はその構造から、領域の境界部分が弱
いという弱点があったが、様々な手法で克服。
CRFの利用
アップサンプリング層の導入
階層的なアップサンプリング
Skip Connectionを用いた階層的アップサンプリング
Dilated ConvolutionでPoolingなしでコンテクスト取得
Poolingのマルチスケール化
参考文献
 [Thoma2016] Matin Thoma,“A Suvey of Semantic
Segmentation”, arXiv:1602.06541v2
 [He2004] He, X., Zemel, R. S., & Carreira-Perpiñán, M. Á.
(2004). Multiscale conditional random fields for image labeling.
In IEEE Conference on ComputerVision and Pattern Recognition.
 [Shotton2009] Shotton, J.,Winn, J., Rother, C., & Criminisi,A.
(2009).TextonBoost for image understanding: Multi-class
object recognition and segmentation by jointly modeling
texture, layout, and context. International Journal of Computer
Vision, 81(1), 2–23.
 [Krahenbuhl2011] Krahenbuhl, P., & Koltun,V. (2011). Efficient
Inference in Fully Connected CRFs with Gaussian Edge
Potentials. Advances in Neural Information Processing Systems
(NIPS).
参考文献
 [Long2015] Long, J., Shelhamer, E., & Darrell,T. (2015). Fully
Convolutional Networks for Semantic Segmentation. In IEEE
Conference on ComputerVision and Pattern Recognition.
 [Zheng2015] Zehng, S., Jayasumana, S., Romera-Paredes, B.,
Vineet,V., Su, Z., Du, D., …Torr, P. H. S. (2015). Conditional
Random Fields as Recurrent Neural Networks. In IEEE
Conference on ComputerVision and Pattern Recognition.
 [Noh2015] Noh, H., Hong, S., & Han, B. (2015). Learning
deconvolution network for semantic segmentation. In IEEE
International Conference on ComputerVision.
 [Ronneberger2015]Ronneberger, O., Fischer, P., & Brox,T.
(2015). U-Net: Convolutional networks for biomedical image
segmentation. International Conference on Medical Image
Computing and Computer-Assisted Intervention.
参考文献
 [Yu2016]Yu, F., & Koltun,V. (2016). Multi-Scale Context
Aggregation by Dilated Convolutions. International
Conference on Machine Learning
 [Chen2017]Chen, L.-C., Papandreou, G., Schroff, F., &
Adam, H. (2017). Rethinking Atrous Convolution for
Semantic Image Segmentation. ArXiv, arXiv:1706.
 [Zhao2017]Zhao, H., Shi, J., Qi, X.,Wang, X., & Jia, J. (2017).
Pyramid Scene Parsing Network. In IEEE Conference on
ComputerVision and Pattern Recognition.
三次元再構成
三次元再構成とは?
95
 同一対象を撮影した複数枚の画像から、対象の三次元
モデルを復元するタスク
Modified from [Snavely2006]
A
カメラ1の撮影画像
2つの直線O1A’1/O2A’2の交点
カメラ1の焦点O1 カメラ2の焦点O2
A’1 A’2
ステレオカメラの原理
 点Aが2台のカメラのどこに見えたかがわかれば、三角
測量の原理で三次元的な位置が求まる
 ただし、2つのカメラの位置関係等のパラメータがわかってい
ること
カメラ2の撮影画像
カメラパラメータがわからない場合
97
 カメラの位置関係等のパラメータが不明の時、各カメラの焦
点と対応点を結ぶ直線が交わるという条件を利用する
カメラ1 カメラ2
カメラパラメータがわからない場合
98
 カメラの位置関係等のパラメータが不明の時、各カメラの焦
点と対応点を結ぶ直線が交わるという条件を利用する
→エピポーラ拘束
カメラ1 カメラ2
同一平面
カメラパラメータがわからない場合
99
 最低でも8個の対応点を求めることで、カメラパラメータ
とそれぞれの点の三次元座標を逆算できる
8つのエピポーラ拘束を
満たすパラメータを算出
カメラ1 カメラ2
Structure from Motion (SfM)
100
 同じ対象を撮影した複数の画像(例えば動画)から、対
象の三次元形状を復元する
Structure from Motion (SfM)
101
 同じ対象を撮影した複数の画像(例えば動画)から、対
象の三次元形状を復元する
バンドル調整を用いて、複数のカメラの相対位置、焦点距
離、対象の三次元点座標を同時に推定する
<バンドル調整>
測定結果とパラメータから誤差を計算し、誤差を小さくする方向にパ
ラメータを調整していく
バンドル調整
102
1. 三次元点群とカメラパラメータの初期値を設定する
画像から見つけた点の
三次元座標の初期値カメラの位置と焦点距離
の初期値
バンドル調整
103
2. 三次元点群を各カメラの画像平面へ投影
バンドル調整
104
3. 投影された点と観測した点との誤差の総和を算出
投影された点
観測点
誤差
バンドル調整
105
4. 誤差が小さくなる方向へ特徴点の三次元座標とカメラ
パラメータを調整 (収束するまで2から繰り返す)
Multi-View Stereo
106
SfMで求めた形状は、特徴点の
三次元位置のみ
SfMで求めたカメラパラメータを元に各カメラか
ら物体表面までの距離を画素ごとに算出(デプ
スマップ)
全てのカメラのデプスマップを統合して
物体の形状を算出
Multi-View Stereo
107
 カメラ1の画素Aのデプスをカメラ2から算出する例
 カメラ1の焦点から画素Aへの視線(エピポーラ線)上をカメラ
2の画像から探索し、最も類似したテクスチャを求める。
カメラ1 カメラ2
Aのエピポーラ線
A
d
d 距離
類似度
Multi-View Stereo
108
 各カメラから求めたデプスマップを統合して三次元モデ
ルを生成
三次元モデル構築の流れ(まとめ)
109
マッチング
キーポイント
検出
学習画像
学習画像
入力画像
MultiView
Stereo
三次元モデル
Structure
from Motion
学習画像
学習画像
対応点
学習画像
学習画像
カメラパラメータ
Building Rome in a Day [Agarwal2009]
110
 15万件のインターネット上の画像から1都市を500コアの
クラスタで1日かからずに構築。
https://www.youtube.com/watch?v=sQegEro5Bfo
Building Rome in a Day [Agarwal2009]
111
 15万件のインターネット上の画像から1都市を500コアの
クラスタで1日かからずに構築。
Building Rome in a Cloudless Day
[Frahm2010]
112
 300万枚の画像から、密な三次元モデルを1台のPC
(+GPU)で約1日で構築
Credit:[Frahm2010]
https://www.youtube.com/watch?v=PySBQ8Q_R8k
Building Rome in a Cloudless Day
[Frahm2010]
113
 300万枚の画像から、密な三次元モデルを1台のPC
(+GPU)で約1日で構築
Visual SLAM
114
Structure from Motionの仕組みを利用して、カメラの動き
と3次元空間を同時に認識し、拡張現実感(AR)などに活
用
Simultaneous Localization And Mapping (SLAM)
Localization
Mapping
115
ORB-SLAM [Mur-Artal2015]
 単眼V-SLAMをTracking、 Local Mapping、Loop Closingの3つ
のスレッドを並列に動作させることで、リアルタイムに実現
 全スレッドでORB特徴[Rublee2011]を利用
https://www.youtube.com/watch?v=8DISRmsO2YQ
116
ORB-SLAM [Mur-Artal2015]
 単眼V-SLAMをTracking、 Local Mapping、Loop Closingの3つ
のスレッドを並列に動作させることで、リアルタイムに実現
 全スレッドでORB特徴[Rublee2011]を利用
入力フレームの
カメラPoseを推
定
Sparseな3D
Map(点群)を作
成
ループを検出し
カメラPoseの誤
差の蓄積を除去
選定され
た
KeyFrame
点群+Poseグラフ
ORBとBoVWで
KeyFrame検索す
るためのDB
共有メモリ
DTAM [Newcombe2011]
 密な三次元(深度)の復元とカメラのトラッキングを同時
に行う、Dense MonocularVisual Slamの代表的手法
117
https://www.youtube.com/watch?v=Df9WhgibCQA
DTAM [Newcombe2011]
 KeyFrameの各画素と同じ色の画素を周辺フレームから
(エピポーラ線上を)探索することで深度を推定 (Photo
Consistency)
118
119
LSD-SLAM [Engel2014]
 特徴点ではなく(勾配の大きい)画素の値を直接使って
Semi-DenseなMap構築およびPose推定
 Map Optimizationにより大規模なマップを構築可能
https://www.youtube.com/watch?v=GnuQzP3gty4
120
LSD-SLAM [Engel2014]
 特徴点ではなく(勾配の大きい)画素の値を直接使って
Semi-DenseなMap構築およびPose推定
 Map Optimizationにより大規模なマップを構築可能
KeyFrameとの画素の差が
最小となるようPose推定
KeyFrameを生成し、その
深度を推定
Loop ClosingによりMap全
体を最適化
深層学習の三次元再構成への適用
121
既存のアプローチと深層学習では考
え方が大きく異なる。
 既存手法は複数画像間での点の
マッチングが正確に取れれば、三次
元情報は幾何学的な制約によりほ
ぼ厳密に求まる(計測)。
 深層学習は、三次元情報を学習した
情報から推論する(認識)。
深層学習の三次元再構成への適用
122
1. 既存手法が苦手としている部分
を深層学習で補間する。
2. 深層学習の学習時に幾何的な
制約を入れて、推定器を作成す
る。
3. 深層学習の推論時に幾何的な
制約を入れる。
深層学習の三次元再構成への適用
123
単眼Depth推定
SLAM
単眼Depth推定
124
 1枚の画像から三次元的な奥行(Depth)を推定
 ラベル付け不要で、動画やステレオ画像から自己教師
あり学習する手法が現在の主流
 学習の際に、幾何的な制約を埋め込む
[Godard2017]より
入力画像
Ground Truth
推定結果
Mono-Depth [Godard2017]
125
 1枚の画像からDepthを推定するために、ステレオカメラの映像を学習
データとし、その視差画像を推定する問題に置き換え(教師ラベルなし)
 片方のカメラ画像から推定した視差を元に、画像をもう片方のカメラ画像
へと変形し、その画像間の差を損失に含める(学習時の幾何的制約)
SfM Learner [Zhou2017]
126
 単眼カメラ映像からDepthとMotionを推定するネットワークを
自己教師あり学習
 推定したDepthとMotionを元に参照画像を周辺画像へ変換し、
その誤差を元にネットワークを学習(学習時の幾何的制約の
埋め込み)
SfM Learner [Zhou2017]
127
 単眼カメラ映像からDepthとMotionを推定するネットワークを
自己教師あり学習
 推定したDepthとMotionを元に参照画像を周辺画像へ変換し、
その誤差を元にネットワークを学習(学習時の幾何的制約の
埋め込み)
単眼画像からDepth推定
SfM Learner [Zhou2017]
128
 単眼カメラ映像からDepthとMotionを推定するネットワークを
自己教師あり学習
 推定したDepthとMotionを元に参照画像を周辺画像へ変換し、
その誤差を元にネットワークを学習(学習時の幾何的制約の
埋め込み)
画像間のMotion推定
Depth from videos in the wild [Gordon2019]
129
 Depth、Camera Motionに加えて、映像中の動物体およ
びカメラ内部パラメータ(含レンズ歪)を推定
 Depth推定結果とMotion推定結果を元に画像をフレーム
間で相互に変換し、その誤差を最小化するよう学習
Motion推定ネットワーク
内部パラメータ
カメラ回転角
カメラ並進
並進残差(移動体)
深層学習のSLAMへの適用
130
 キーポイントベースのSLAMに深層学習
ベースのDepth推定を加えることで、密
なMapを求める
 Depthの学習は教師ありで行われる場
合が多い
 初期はDepth推定とPose/Motionの算出
を別々に行っていたが、徐々に統合する
流れ
CNN-SLAM [Tateno2017]
 LSD-SLAM[Engel2014]の深度推定をCNNによる深度推
定に置き換えることでDenseなMapを構築。
 Visual SLAMの弱点である、テクスチャがないケース、スケー
ル不定、回転に弱いなどの問題をCNNで補間
 SLAMにCNNを導入した最初期の論文
CNNによる深度と
Semantic Labelの推定
LSD-SLAM
131
CodeSLAM [Bloesch2018]
132
 Variational Auto Encoder(VAE)を用いてDepthを小さな
Codeで表現
UnetでDepth
推定の補助
情報を画像
から取得
VAEでDepth
を表現する
ネットワークと
Codeを学習
Code
CodeSLAM [Bloesch2018]
133
 Variational Auto Encoder(VAE)を用いてDepthを小さな
Codeで表現
 Tracking時に投影画像の誤差が最小となるようにCodeを
カメラ姿勢と同時に最適化(既存SLAMの補間+推論時
に幾何的制約)
カメラ姿勢Tとコー
ド(=Depth)Cから、
次フレームへ現フ
レーム画像を投影
した誤差
BA-Net [Tang2019]
134
 バンドル調整で使用される最適化手法(Levenberg-
Marquardt法)をネットワーク化することで、SLAM一連の
処理をEnd-to-Endで学習(学習時にも推論時にも幾何的
制約)
BA-Net [Tang2019]
135
 バンドル調整で使用される最適化手法(Levenberg-
Marquardt法)をネットワーク化することで、SLAM一連の
処理をEnd-to-Endで学習(学習時にも推論時にも幾何的
制約)
単眼画像からDepth(の基底)を推定
BA-Net [Tang2019]
136
 バンドル調整で使用される最適化手法(Levenberg-
Marquardt法)をネットワーク化することで、SLAM一連の
処理をEnd-to-Endで学習(学習時にも推論時にも幾何的
制約)
バンドル調整用画像特徴
BA-Net [Tang2019]
137
 バンドル調整で使用される最適化手法(Levenberg-
Marquardt法)をネットワーク化することで、SLAM一連の
処理をEnd-to-Endで学習(学習時にも推論時にも幾何的
制約)
バンドル調整ネットワーク
三次元再構成まとめ
138
 深層学習以前の手法は、複数枚の画像から幾何的な拘
束条件を用いて三次元再構成を行ってきた。
 従来法は計測、深層学習は推論という根本的な違いが
ある。
 深層学習は、従来手法が苦手としているテクスチャの少
ない個所や絶対スケールがわからないなどの点を推論
によって補う。
 深層学習の学習時に幾何的な拘束条件を入れたり、更
には推論時にも拘束を入れるなどの工夫がなされてい
る。
参考文献
139
 [Snavely2006]Snavely, N., Seitz, S. M., & Szeliski, R. (2006). Photo
tourism: exploring photo collections in 3D. In Conference on
Computer Graphics and InteractiveTechniques (SIGGRAPH).
 [岡谷2010]岡谷貴之. (2010). コンピュータビジョン最先端ガイ
ド3 第1章バンドル調整. アドコムメディア. 1-32
 [古川2012]古川泰隆. (2012). コンピュータビジョン最先端ガイ
ド5 第2章複数画像からの三次元復元手法. アドコムメディア.
33-70
 [Agarwal2009]Agarwal, S., Snavely, N., Simon, I., Seitz, S. M., &
Szeliski, R. (2009). Building Rome in a day. In International
Conference on ComputerVision (pp. 72–79).
 [Frahm2010]Frahm, J., Fite-georgel, P., Gallup, D., Johnson,T.,
Raguram, R.,Wu, C., … Pollefeys, M. (2010). Building Rome on a
Cloudless Day. In European Conference on ComputerVision (pp.
368–381)
参考文献
140
 [Mur-Artal2015]Mur-Artal, R., Montiel, J. M. M., & Tardos, J. D. (2015).
ORB-SLAM:AVersatile and Accurate Monocular SLAM System. IEEE
Transactions on Robotics, 31(5), 1147–1163.
 [Rublee2011]Rublee, E., Rabaud,V., Konolige, K., & Bradski, G. (2011).
ORB:An efficient alternative to SIFT or SURF. 2011 International
Conference on ComputerVision
 [Newcombe2011]Newcombe, R.A., Lovegrove, S. J., & Davison,A. J.
(2011). DTAM: Dense Tracking and Mapping in Real-Time. In
International Conference on ComputerVision.
 [Engel2014]Engel, J., Schops,T., & Cremers, D. (2014). LSD-SLAM:
Large-Scale Direct monocular SLAM. In European Conference on
ComputerVision
 [Godard2017] Godard, C., Mac Aodha, O., & Brostow, G. J. (2017).
Unsupervised Monocular Depth Estimation with Left-Right
Consistency. Conference on ComputerVision and Pattern Recognition
参考文献
141
 [Tateno2017]Tateno, K.,Tombari, F., Laina, I., & Navab, N. (2017). CNN-
SLAM : Real-time dense monocular SLAM with learned depth prediction. In
IEEE Conference on ComputerVision and Pattern Recognition.
 [Zhou2017]Zhou,T., Brown, M., Snavely, N., & Lowe, D. G. (2017).
Unsupervised learning of depth and ego-motion from video. In IEEE
Conference on ComputerVision and Pattern Recognition
 [Bloesch2018]Bloesch, M., Czarnowski, J., Clark, R., Leutenegger, S., &
Davison,A. J. (2018). CodeSLAM — Learning a Compact, Optimisable
Representation for DenseVisual SLAM. In IEEE Conference on Computer
Vision and Pattern Recognition.
 [Tang2019]Tang, C., &Tan, P. (2019). BA-Net: Dense Bundle Adjustment
Network. In International Conference on Learning Representation.
 [Gordon2019]Gordon,A., Li, H., Jonschkowski, R., & Angelova,A. (2019).
Depth from videos in the wild: Unsupervised monocular depth learning
from unknown cameras. IEEE International Conference on ComputerVision
深層学習で
新たに花開いた
分野
深層学習で新たに花開いた分野
143
 ここまで紹介したのは深層学習以前
からも研究が盛況だった分野
 ここでは、深層学習の登場によって、
盛況になった分野を簡単に紹介
 画像生成
 1枚画像の三次元化
画像生成(深層学習前)
144
 深層学習以前の画像生成は、せいぜいが「既存の画像を自
然に貼り合わせて目的の画像を作成する」というレベル
複数枚の画像から全員が笑顔の写真を生成(フォトモンタージュ) [Agarwala2004]
スケッチ 検索された画像 合成結果画像
ユーザがスケッチした画像をインターネット上の画像を用いて合成する(Sketch2Photo)[Chen2009]
画像生成(深層学習後)
145
 GANやVAEの登場によって、ゼロから画像生成ができる
ようになり、またスタイル変換などの新しいタスクも登場
DC-GAN [Radford2016]
Image StyleTransfer [Getys2016]
Pix2Pix [Getys2016]
1枚の画像から三次元生成(深層学習前)
146
 機械学習によって1枚の画像から三次元生成する技術
は深層学習以前にもわずかに存在
[Blanz1999]
1枚の顔画像から3次元復元
[Hoiem2005]
1枚の風景画像から3次元復元
1枚の画像から三次元生成(深層学習後)
147
 深層学習の認識力と表現力によってこの分野は大きく進
展
Neural 3D Mesh Renderer[Kato2018]
Nonlinear 3DMM[Tran2018]
PIFu [Saito2019]
参考文献
148
 [Agarwala2004]Agarwala,A., Dontcheva, M.,Agrawala, M., Drucker, S.,
Colburn,A., Curless, B., … Cohen, M. (2004). Interactive digital
photomontage. In Conference on Computer Graphics and InteractiveTechniques
(SIGGRAPH) (Vol. 23).
 [Chen2009]Chen,T., Cheng, M.-M.,Tan, P., Shamir,A., & Hu, S.-M. (2009).
Sketch2Photo: internet image montage. In Conference on Computer Graphics
and InteractiveTechniques (SIGGRAPH).
 [Radford2016]Radford,A., Metz, L., & Chintala, S. (2016). Unsupervised
Representation Learning with Deep Convolutional Generative Adversarial
Networks. International Conference on Learning Representation.
 [Gatys2016]Gatys, L.A., Ecker,A. S., & Bethge, M. (2016). Image Style
Transfer Using Convolutional Neural Networks. In IEEE Conference on
ComputerVision and Pattern Recognition.
 [Isola2017]Isola, P., Zhu, J.Y., Zhou,T., & Efros,A.A. (2017). Image-to-image
translation with conditional adversarial networks. IEEE Conference on
ComputerVision and Pattern Recognition.
参考文献
149
 [Blanz1999] Blanz,V., &Vetter,T. (1999).A morphable model for the
synthesis of 3D faces. In Conference on Computer Graphics and
InteractiveTechniques (SIGGRAPH) (pp. 187–194).
 [Hoiem2005]Hoiem, D., & Efros,A.A. (2005).Automatic photo pop-
up. In Conference on Computer Graphics and InteractiveTechniques
(SIGGRAPH).
 [Tran2018]Tran, L., & Liu, X. (2018). Nonlinear 3D Face Morphable
Model. IEEE Conference on ComputerVision and Pattern Recognition.
 [Kato2018]Kato, H., Ushiku,Y., & Harada,T. (2018). Neural 3D Mesh
Renderer. In IEEE Conference on ComputerVision and Pattern
Recognition.
 [Saito2019]Saito, S., Huang, Z., Natsume, R., Morishima, S., Li, H., &
Kanazawa,A. (2019). PIFu: Pixel-aligned implicit function for high-
resolution clothed human digitization. IEEE International Conference
on ComputerVision.
まとめ
深層学習がコンピュータビジョンにもたらした
もの
151
 圧倒的な表現力と認識力により、CVのほぼ
全ての分野で深層学習が大きく貢献している
 競争が激しくなった一方で、手法の多様性は
失われた
 深層学習の使用を前提とした上で、また多様性が
戻ってくるか?
 深層学習をCVのある分野へ適用し始める時
は、従来法とのハイブリッドな段階を経るケー
スが多い
 深層学習により、新たな分野も大きく花開い
た

20200910コンピュータビジョン今昔物語(JPTA講演資料)