20200910コンピュータビジョン今昔物語（JPTA講演資料）

2020/09/10 JPTA講演資料
コンピュータビジョン今昔物語
- 深層学習がCVの世界をどう変えたか -
株式会社ビジョン＆ITラボ代表取締役皆川卓也

自己紹介
3
• 「コンピュータビジョン勉強会＠関東」主催
• 株式会社フューチャースタンダード技術顧問
• 慶應大学斎藤英雄研究室訪問研究員
http://visitlab.jp
株式会社ビジョン＆ITラボ代表取締役
皆川卓也（みながわたくや）
博士（工学）

コンピュータビジョン勉強会＠関東
コンピュータビジョンを勉強
する有志の集まり

こんなテーマでやってきました
「コンピュータビジョン最
先端ガイド」の輪読会 ECCV読み会
強化学習縛り
論文読み会
AR/VRを支える
技術
ICCV読み会
CVPR読み会
CVでこんなもの作
りました大LT大会
CVの便利なツール/
ライブラリ
CVのお仕事
ハッカソン
OpenCV祭り
有名論文読み会
三次元形状計測・
認識

全日本コンピュータビジョン勉強会
コロナ禍のため、オンラインで以下の３つの勉強会の合同
開催
 コンピュータビジョン勉強会＠関東 (@kantocv)
 http://sites.google.com/site/cvsaisentan/
 名古屋CV・PRML勉強会 (@nagoyacv)
 https://nagoyacv.connpass.com/
 関西CV・PRML勉強会 (@kansaicv)
 https://sites.google.com/site/kansaicvprml/

第４回全日本コンピュータビジョン勉強会
7
 10/10(土) 「人に関わる認識・理解」論文読み会
 PRMU研究会のとの共催
 発表者募集中！ https://kantocv.connpass.com/event/187341/

株式会社ビジョン＆ITラボ
コンピュータビジョンとAIに
よって御社の「こまった」を
助ける会社
http://visitlab.jp

ビジョン
技術の町医者
AIビジネスについて、気軽に相談できる

事業内容
1. Ｒ＆Ｄコンサルティング
2. 受託研究/開発
3. 開発マネジメント
4. 開発コンサルティング
5. ビジネス化コンサルティング
10

ソリューション/製品
11
深層学習 (Deep Learning)
Virtual / Augmented Reality
ナンバープレート認識
ビジョン＆ITラボの代表的なソリューション
や製品の例を紹介いたします。

深層学習 (Deep Learning)
12
深層学習についてのコンサルティングや開発支援などを
行います。
 画像識別
 物体検出
 領域分割
 人物姿勢推定
 画像変換
 画像生成(GAN)
 etc

Virtual Reality/Augmented Reality
13
御社がVirtual RealityやAugmented Realityを用いたビジネ
スを行う上で必要な、総合的な技術コンサルティングや開
発/プロダクトを提供します。
 特定物体認識
 Visual SLAM
 三次元スキャン
 Face Tracking

ナンバープレート認識：
License Plate Recognizer
 画像や動画からナンバープレートを読み取ります
入力画像/動画文字＋座標
License Plate
Recognizer
練馬444
ま 1564
• Web APIまたはSDKで提供可能
• SDK
• LinuxまたはWindows
• C++またはPython
• アルファベット分類番号および図柄入りナンバープレートにも対応
• GPU不要でロバストかつ高速な認識

皆川の略歴
16
1999-2003年
コンピュータビジョンで修士課程修了後、日本HP（後にアジレント・テクノロ
ジーへ分社）にて、ITエンジニアとしてシステム構築、プリセールス、プロ
ジェクトマネジメント、サポート等の業務に従事

皆川の略歴
17
1999-2003年
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
これから、コンピュータビジョンのビジネスが
大きくなるぞ！という予感

皆川の略歴
18
1999-2003年
2004-2009年
2007-2010年
慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻(社
会人博士）。
自分でCVのアルゴリズムまで作れるようになりたい！
CV全体を俯瞰できるようになりたい！

皆川の略歴
19
1999-2003年
2004-2009年
2007-2010年
会人博士）。単位取得退学後、博士号取得（2014年）
Rejectの山
論文がなかなか通らない。。。

皆川の略歴
20
1999-2003年
2004-2009年
2007-2010年
会人博士）。単位取得退学後、博士号取得（2014年）
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
（2018年法人化）
まだ博士号取れてないけど、
とりあえず食わねば。。。

HMAXモデルの高速化
 畳み込み演算の階層
構造
 階層が上がる毎に複
雑な形状に反応する
 深層学習とよく似た構
造
Tuning
Tuning
Max
Max
S1
C1
S2
C2
Machine Learning
博士論文テーマ
21
博士論文：
http://koara.lib.keio.ac.jp/xoonips/modules/xoonips/detail.
php?koara_id=KO50002002-20133989-0003

・・・
・
・
・
・・・
Overlapping
areas
Shape size
is ignored
S2
C2
Max-pooling
Sliding Window
博士論文テーマ
22
Overlapping
scales
HMAXモデルによる物体検出の高速化

23
論文が通らず
モタモタしている間に
深層学習がブレイク

深層学習のブレイク
Team name Error
1 SuperVision 0.15315
3 ISI 0.26172
4 ISI 0.26602
5 ISI 0.26646
6 ISI 0.26952
7 OXFORD_VGG 0.26979
8 XRCE/INRIA 0.27058
Team name Error
7 ISI 0.536474
8 ISI 0.536546
Classification Localization
大規模物体認識のコンテスト（ILSVRC 2012）
http://www.image-net.org/challenges/LSVRC/2012/
Deep Learning

僕が当時抱いたイメージ
Deep Learning
機械学習屋
CV屋

世は正に
大深層学習時代

コンピュータビジョンの
ほぼ全ての分野に
深層学習が進出

博士課程をぬけ
ると、そこはレッ
ドオーシャンでし
た

この講演の目的
30
深層学習登場以降、コ
ンピュータビジョンの分
野がどのように変わって
いったのかを概説。

本日のお話
31
今や深層学習はほぼ全てのコンピュータ
ビジョン分野で使われていますが、今回は
以下の分野に絞ってお話します。
1. 一般物体認識
2. 物体検出
3. セグメンテーション
4. 三次元再構成
5. 深層学習によって大きく花開いた分野

一般物体認識
深層学習最初のブレークスルー

一般物体認識
33
 画像に写っている物体のカテゴリを判別する
飛行機顔自動車
入力
画像
出力
カテゴリ認識

学習
学習結果
データ
学習フェーズ
特徴量抽出
学習画像
学習画像
学習画像
認識
認識結果
認識フェーズ
特徴量抽出
入力画像
深層学習以前の画像認識
34

画像特徴量とは？
35
 画像を構成する画素の集合を「認識や識別のしやすい」
別のベクトルへ変換したもの
 画像の様々な変形（拡大/縮小、回転、ずれ等）に強い点
（キーポイント）を検出し、そのキーポイント周辺から取得
する特徴量を特に局所特徴量と呼ぶ
画像特徴量入力画像物体認識/検出

局所特徴量の代表例
36
 Scale Invariant FeatureTransform (SIFT) [Lowe1999]
1. 画像のスケール変化や位置ずれに強いキーポイントを検出
スケール変化に弱い
キーポイント
位置ずれに弱い
キーポイント
スケール変化と位置ずれ
に強いキーポイント

局所特徴量の代表例
37
 Scale Invariant FeatureTransform (SIFT) [Lowe1999]
1. 画像のスケール変化や位置ずれに強いキーポイントを検出
2. キーポイント周辺から画像の回転に強い特徴量を算出
Histogram of Gradient
Orientations
• 最も画像の濃度変化の大き
い方向を軸とすることで、回
転不変性を実現
• キーポイント検出時に取得し
たスケール情報を元に周辺
パッチのサイズを決定するこ
とでスケール不変性を実現

一般物体認識の特徴量の例
38
 Bags-of-Features (BoF) [Csurka2004]
 形状（VisualWords）の画像中に現れる頻度（ヒストグラム）を
特徴量とする
Dictionary (Visual Words)
3
0
0
2
1
2
1
1
Histogram of visual words
Image

Bags-of-Featuresの流れ
39
学習画像群から局所特徴量(SIFT)を取得
局所特徴量をk-meansでクラスタリングし、クラス
タ中心をVisualWordsとする
認識対象画像から局所特徴量を取得し、各特徴
をVisualWordsへ割り当て
画像をVisualWordsのヒストグラムで表し、SVM
等の機械学習により対象のカテゴリを認識

深層学習以前の一般物体認識
40
 BoFは画像中のVisual Wordsの出現率
(ヒストグラム)を特徴ベクトルとして表現
 画像を表す特徴ベクトルをより豊かに
することで認識精度を向上が試みられ
てきた
 Pyramid Matching Kernel
 FisherVector
 VLAD

Pyramid Matching Kernel [Lazebnik2006]
41
 Visual Wordの出現率だけでなく、画像のどこで現れたか
まで考慮した特徴ベクトル
 画像を階層的に分割し、各ブロックの中でBoF表現

Fisher Vector [Perronnin2007]
42
 局所特徴量ベクトルの空間から、Dictionary（Visual
Words）をk-meansではなく混合ガウス分布で作成
 画像から取得した局所特徴（D次元）は、各ガウス分布
からのズレ（平均、分散、混合係数の勾配）として表現
 画像の各局所特徴のズレの平均を画像を表す特徴ベク
トルとする
局所特徴量全体から混合ガウス分布作成局所特徴を対数確率密度関数の
勾配で表現

VLAD [Jegou2010]
43
 各局所特徴から、近傍のVisualWordとのズレを算出
 同じVisualWordに割り当てた局所特徴の差の平均ベク
トルを算出
 全てのVisualWordに対応したベクトルを並べたものが
VLAD特徴
VisualWord
局所特徴

深層学習以後の一般物体認識
44
学習
学習結果
データ
学習フェーズ
特徴量抽出
学習画像
学習画像
学習画像
認識
認識結果
認識フェーズ
特徴量抽出
入力画像
深層学習

深層学習の概要
 SIFTやHOGのような画
像特徴量を用いず、認
識に有効な特徴量を画
素から統計的に学習す
る。
 局所特徴量抽出を畳み
込み、VisualWords割り
当てがPoolingともとれる
 低レベル特徴から高レベ
ル特徴までの階層構造。
 低レベルな特徴ほど、
様々なタスクで共有可能
(Image from Lee. H in CVPR2012Tutorial)

AlexNet [Krizhevsky2012]
46
 ILSVRC2012優勝モデル
 ８層の畳み込みニューラルネットワーク（CNN）
 畳み込み層とプーリング層が交互に表れる構造

GoogLeNet [Szegedy2014]
47
 Inception Moduleを導入することで、層における表現力を
向上
 １つの層で様々なサイズのカーネルを畳み込み
 １ｘ１畳み込みによりチャネル数を削減
 層を深くすることで性能向上（ILSVRC2014で優勝）

VGG Net [Simonyan2015]
48
 5x5や7x7の畳み込みカーネルの代わりに、3x3の畳み
込みカーネルを繰り返すことで計算量を削減
 （当時としては多い）19層まで階層を深くすることで認識
精度を向上
＊＊＝
3x3カーネルを２回畳み込むと5x5カーネルを１回畳み込んだものと受容野
のサイズが同じになるが、計算量は18/25になる。

Residual Net [He2016]
49
 Residual Blockの導入で、階層をより深くする（152層）ことが可
能に
 ショートカットによって畳み込みをバイパス
 スキップされた畳み込み層は、ブロックへの入出力信号の残差に対
して学習するため、微細な変動も検出
 ILSVRC2015で優勝

一般物体認識まとめ
50
 深層学習以前の手法は、局所特徴量による
特徴抽出と、VisualWordによるプーリングに
よって画像のカテゴリを判別。
 深層学習以前は、認識能力を向上させるため
に、VisualWord等画像の表現力の向上に取
り組んできた。
 深層学習は特徴自体をデータから学習させ、
特徴抽出の畳み込み層と汎化のプーリング
層を何層も重ねることで、表現力とそれに伴う
認識能力を大幅に向上させた。

参考文献
51
 [Lowe1999]Lowe, D. G. (1999). Object recognition from local scale-
invariant features. In IEEE International Conference on ComputerVision
(pp. 1150–1157 vol.2).
 [Csurka2004]Csurka, G., Dance, C. R., Fan, L.,Willamowski, J., & Bray,
C. (2004).Visual categorization with bags of keypoints. In Workshop
on statistical learning in computer vision, ECCV (Vol. 1, p. 22).
 [Lazebnik2006]Lazebnik, S., Schmid, C., & Ponce, J. (2006). Beyond
bags of features: Spatial pyramid matching for recognizing natural
scene categories. In IEEE Conference on ComputerVision and Pattern
Recognition.
 [Perronnin2007]Perronnin, F., & Dance, C. (2007). Fisher kernels on
visual vocabularies for image categorization. In IEEE conference on
ComputerVision and Pattern Recognition.
 [Jegou2010]Jegou, H., Douze, M., Schmid, C., & Perez, P. (2010).
Aggregating local descriptors into a compact image representation.
In IEEE Conference on ComputerVision and Pattern Recognition

参考文献
52
 [Krizhevsky2012]Krizhevsky,A., Sutskever, I., & Hinton, G. E.
(2012). ImageNet Classification with Deep Convolutional
Neural Networks. In Advances in Neural Information Processing
Systems (NIPS)
 [Simonyan2014]Simonyan, K., & Zisserman,A. (2014).Very
Deep Convolutional Networks for Large-Scale Image
Recognition. In IEEE Conference on ComputerVision and Pattern
Recognition.
 [Szegedy2015]Szegedy, C., Liu,W., Jia,Y., Sermanet, P., Reed, S.,
Anguelov, D., … Rabinovich,A. (2015). Going Deeper with
Convolutions. Conference on ComputerVision and Pattern
Recognition
 [He2016]He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep
Residual Learning for Image Recognition. IEEE Conference on

物体検出
54
 画像から顔、人、モノなどの位置を検出する

55
深層学習以前の物体検出
SlidingWindow
画像中を走査し、各場所で特徴量抽出＋認識処理

Cascaded Haar-like Detector [Viola2001]
56
 Haar-like特徴
 白領域の画素の和から黒領域の画素の和を引くだけ
 積分画像というテクニックとAdaBoostという機械学習アルゴリ
ズムで非常に高速に計算できる
plus
minus

Cascaded Haar-like Detector [Viola2001]
57
 Attentional Cascade
 画像中は「物体以外」の領域の方が多い
 効率よく「物体以外」の領域を削除するために、Adaboost識別
器を複数連結させ、上位で関係ない領域を早めに削除する。
全てのSliding
Window
１２３更なる処理
拒否されたSliding
Window
TRUE TRUE TRUE
FALSE FALSE FALSE

Histogram of Oriented Gradients (HOG)
[Dalal2005]
58
 画像の濃度変化方向について場所（Cell）ごとの統計を
取ったもの
 輪郭のような特徴が良くとれる
 人以外の物体検出にも広く応用されている

Deformable Part Model [Felzenszwalb2009]
59
 HOG特徴を複数組み合わせることで、検出精度向上
 HOG特徴を抽出する位置の歪みも含めてLatent SVMと
いう機械学習アルゴリズムで学習する
Root filter Parts filter Deformation

深層学習の物体検出への適用
60
 Haar-likeやHOGなどのHand-crafted特徴量の場合、積
分画像や積分ヒストグラム等の特徴量計算の高速化テ
クニックを使っていた。
 畳み込みニューラルネットワーク（CNN）は処理が重い
ため、SlidingWindow１つ１つに対し、認識処理をかける
と非常に時間がかかってしまう。
 CNNを物体検出へ適用するために、SlidingWindowを
使用しない様々な工夫が提案

R-CNN [Girshick2014]
61
 Selective Searchという手法を用いて物体候補領域を検出
し、候補領域上のみCNNで処理することで計算量削減

Fast R-CNN [Girshick2015]
62
 R-CNNでは物体候補領域を１つ１つCNNで判別していたた
め遅い（VGGを使用した場合、GPU込みで１枚47秒）
 画像全体にCNNをかけて特徴マップを生成し、最後のプーリ
ング層を物体候補領域に合わせて切り出す(ROI-Pooling)
 R-CNNを検出時約213倍高速化

Faster R-CNN [Ren2015]
63
 R-CNNおよびFast R-CNNではSelective Searchを用いて物体候補
領域を事前に求めておく必要。
 Fast R-CNNのSelective Search部分をfeature map上で行うことで、
余計な処理を省き、高精度化/高速化（１枚当たり約200msec）。
→ Region Proposal Network (RPN)
この上（特徴マップ）で物体候
補領域検出を行う

YOLO [Redmon2015]
64
 Faster R-CNNのように物体候補領域抽出とクラス識別を分
けず、画像全体を一括で処理
 画像をSxSのブロックに分割し、それぞれのブロックで
Bounding Boxと物体クラスを推定
 最も信頼度の高いBounding Boxを採用

Single Shot multibox Detector
(SSD)[Liu2016]
65
 YOLOと同じ1-stage detector
 様々な解像度の特徴マップを生成し、それぞれにアン
カーとなる複数の縦横比のDefault Boxを準備
 それぞれのDefault Boxのオフセット(サイズと位置の変
化量)とクラスを推定

CornerNet [Law2018]
66
 Bounding Boxを左上と右下のコーナーのペアとして検出
 特徴マップから各コーナーのヒートマップ、Embeddings
（同じ Boxの左上と右下を紐づける値）、Boxのオフセット
を出力し、統合

CornerNet後のKey Pointベースの検出
67
 Object As Points [Zhou2019]
Bounding Boxの中心を検出し幅と高さを求める
左上、右下に中心の検出も加えることでよりロバストに
 CenterNet [Duan2019]

物体検出まとめ
68
 深層学習が一般物体認識で持つ高い認識能
力は、物体検出においても有用。
 従来法ではSlidingWindowを用いて物体検出
を行っていたが、深層学習を用いた物体検出
では膨大な計算を避けるため、Sliding
Windowを用いずに検出する様々な方法が提
案されている。
 Selective Searchの利用
 One-Stage Detector
 Corner Detection

参考文献
69
 [Viola2001]Viola, P., & Jones, M. (2001). Rapid object detection
using a boosted cascade of simple features. IEEE International
Conference on ComputerVision and Pattern Recognition (CVPR).
 [Dalal2005]Dalal, N., &Triggs, B. (2005). Histograms of
Oriented Gradients for Human Detection. IEEE Conference on
ComputerVision and Pattern Recognition (CVPR).
 [Felzenswalb2009]Felzenszwalb, P. F., Girshick, R. B., McAllester,
D., & Ramanan, D. (2009). Object detection with
discriminatively trained part-based models. IEEETransactions on
Pattern Analysis and Machine Intelligence, 32(9), 1627–1645.
 [Girshick2014] Girshick, R., Donahue, J., Darrell,T., & Malik, J.
(2014). Rich feature hierarchies for accurate object detection
and semantic segmentation. In IEEE Conference on Computer
Vision and Pattern Recognition.

参考文献
70
 [Girshick2015] Girshick, R. (2015). Fast R-CNN. International
Conference on ComputerVision, 1440–1448.
 [Ren2015] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster
R-CNN:Towards Real-Time Object Detection with Region
Proposal Networks. Advances in Neural Information Processing
Systems (NIPS).
 [Redmon2015]Redmon, J., Divvala, S., Girshick, R., & Farhadi,A.
(2015).You Only Look Once: Unified, Real-Time Object
Detection. Conference on ComputerVision and Pattern Recognition.
 [Liu2016]Liu,W.,Anguelov, D., Erhan, D., Szegedy, C., Reed, S.,
Fu, C.Y., & Berg,A. C. (2016). SSD: Single shot multibox
detector. In IEEE Europian Conference on ComputerVision.

参考文献
71
 [Law2018]Law, H., & Deng, J. (2018). CornerNet:
Detecting Objects as Paired Keypoints. In IEEE Europian
Conference on ComputerVision.
 [Zhou2019]Zhou, X.,Wang, D., & Krähenbühl, P. (2019).
Objects as Points. ArXiv, arXiv:1904.
 [Duan2019]Duan, K., Bai, S., Xie, L., Qi, H., Huang, Q., &
Tian, Q. (2019). CenterNet: Keypoint triplets for object
detection. In IEEE International Conference on Computer
Vision

Semantic Segmentationとは
 各画素がどの物体に属するのかを推定する技術
[Thoma2016]より

深層学習以前のSegmentationの流れ
[Thoma2016]より

Sliding Windowを用いた識別
[Thoma2016]より

Sliding Windowを用いた識別
 SlidingWindowで画像をスキャン
 ウィンドウ内の画像から特徴量を抽出
 特徴量を入力として、機械学習によりウィンドウ中心画素の
ラベルを学習/分類
×
特徴量
• Color
• HOG
• SIFT
• BoVW
• Neural Network
• etc
機械学習
• SVM
• Random Forest
• Neural Network

確率場によるPost-Processing

Conditional Random Field (CRF)によるPost-
Processing
 画像の各画素をノードとし、隣接画素間にリンクを張ったグラ
フとみなす。
 真の画素のラベルを潜在変数𝒀
 画像から取得した特徴量を観測変数𝑿
潜在変数
観測変数
[Thoma2016]より

Conditional Random Field (CRF)によるPost-
Processing
 以下の条件で全体のエネルギーを最小化する潜在
変数𝒀を求める
特徴量𝑿から推定した各画素のラベルが、𝒚𝒊のラベルと一致
した時、エネルギー小
隣り合う𝒚𝒊のラベルが同じ時、エネルギー小
潜在変数
観測変数
[Thoma2016]より
一致の時
エネルギー小
一致の時
エネルギー小

CRF for Image Labeling [He2004]
 CRFをSemantic Segmentationへ適用した最初の論文
 ローカル特徴、全体特徴、ラベル間の位置関係を考慮し
たモデルを構築して最適化

TextonBoost [Shotton2009]
 各画素の周囲のテクスチャ(Texton)を元に画素のラベ
ルを学習(Joint Boost)することで物体のコンテクストを学
習
 CRFを用いてテクスチャ、色、位置、エッジを考慮した学
習

Fully Connected CRFs [Koltun2011]
 隣接画素だけでなく、全画素同士のペアを考慮したFully
Connected CRFsに対し効率的に学習させる方法を提案

深層学習のSemantic Segmentationへの適用
 画素ごとにCNNでクラス分類を行う
 単純にCNNの高い識別能力がSemantic
Segmentationに有利
 SlidingWindowを用いず、画像全体を一度に
処理
 層が深くなるごとに受容野が広がり（解像度
が落ち）、領域の境界部分があいまいになる
ため、この問題についての様々な解決法が提
案

Fully Convolutional Network (FCN)
[Long2014]
84
 VGG等のベースネットワークの全結合層を、畳み込み層
に変更し、ピクセルごとに教師ラベルが与えられた時、
End-to-Endで学習可能
 バイリニア補間で拡大した層に、浅い層の出力を結合す
ることで高解像度化し、1x1畳み込みでラベル判定

CRF as RNN [Zheng2015]
 Fully Connected CRFの平均場近似による学習と等価な
RNNを構築
 特徴抽出部分にFCN(Fully Convolutional Networks)を
用いることで、end to endで誤差逆伝播法による学習が
行えるネットワークを構築

DeconvNet [Noh2015]
 Convolution NetworkとDeconvolution Networkを対で
持つEncoder-Decoder Network
 Max Pooling時のインデクスを保存しておき、Unpooling層
で復元
 疎なUnpooling層の出力をDeconv層の畳み込みで密に
復元

U-Net [Ronneberger2015]
 Decoder側の出力にEncoder側の対応する層の出力を
追加（Skip Connection）することで、高解像度における詳
細情報を補間

DeepLab v3 [Chen2017]
 Atrous Convolution (= Dilated Convolution) [Yu2016]と
いう畳み込み層により、Poolingなしでコンテクストの情報
を取得
 異なるレートのAtrous Convolutionの出力を結合する
Atrous Spatial Pyramid Poolingにより、マルチスケールの
情報を統合

PSPNet [Zhao2017]
 Feature Mapに対し、異なるサイズのPoolingをかけてUp-
samplingする
 大きなPoolingサイズのものにコンテクストの情報が含ま
れている

Semantic Segmentationまとめ
 深層学習の持つ高い認識能力はSemantic
Segmentationにおいても有効。
 深層学習はその構造から、領域の境界部分が弱
いという弱点があったが、様々な手法で克服。
CRFの利用
アップサンプリング層の導入
階層的なアップサンプリング
Skip Connectionを用いた階層的アップサンプリング
Dilated ConvolutionでPoolingなしでコンテクスト取得
Poolingのマルチスケール化

参考文献
 [Thoma2016] Matin Thoma,“A Suvey of Semantic
Segmentation”, arXiv:1602.06541v2
 [He2004] He, X., Zemel, R. S., & Carreira-Perpiñán, M. Á.
(2004). Multiscale conditional random fields for image labeling.
In IEEE Conference on ComputerVision and Pattern Recognition.
 [Shotton2009] Shotton, J.,Winn, J., Rother, C., & Criminisi,A.
(2009).TextonBoost for image understanding: Multi-class
object recognition and segmentation by jointly modeling
texture, layout, and context. International Journal of Computer
Vision, 81(1), 2–23.
 [Krahenbuhl2011] Krahenbuhl, P., & Koltun,V. (2011). Efficient
Inference in Fully Connected CRFs with Gaussian Edge
Potentials. Advances in Neural Information Processing Systems
(NIPS).

参考文献
 [Long2015] Long, J., Shelhamer, E., & Darrell,T. (2015). Fully
Convolutional Networks for Semantic Segmentation. In IEEE
Conference on ComputerVision and Pattern Recognition.
 [Zheng2015] Zehng, S., Jayasumana, S., Romera-Paredes, B.,
Vineet,V., Su, Z., Du, D., …Torr, P. H. S. (2015). Conditional
Random Fields as Recurrent Neural Networks. In IEEE
Conference on ComputerVision and Pattern Recognition.
 [Noh2015] Noh, H., Hong, S., & Han, B. (2015). Learning
deconvolution network for semantic segmentation. In IEEE
International Conference on ComputerVision.
 [Ronneberger2015]Ronneberger, O., Fischer, P., & Brox,T.
(2015). U-Net: Convolutional networks for biomedical image
segmentation. International Conference on Medical Image
Computing and Computer-Assisted Intervention.

参考文献
 [Yu2016]Yu, F., & Koltun,V. (2016). Multi-Scale Context
Aggregation by Dilated Convolutions. International
Conference on Machine Learning
 [Chen2017]Chen, L.-C., Papandreou, G., Schroff, F., &
Adam, H. (2017). Rethinking Atrous Convolution for
Semantic Image Segmentation. ArXiv, arXiv:1706.
 [Zhao2017]Zhao, H., Shi, J., Qi, X.,Wang, X., & Jia, J. (2017).
Pyramid Scene Parsing Network. In IEEE Conference on

三次元再構成とは？
95
 同一対象を撮影した複数枚の画像から、対象の三次元
モデルを復元するタスク
Modified from [Snavely2006]

A
カメラ１の撮影画像
２つの直線O1A’1/O2A’2の交点
カメラ１の焦点O1 カメラ２の焦点O2
A’1 A’2
ステレオカメラの原理
 点Aが２台のカメラのどこに見えたかがわかれば、三角
測量の原理で三次元的な位置が求まる
 ただし、２つのカメラの位置関係等のパラメータがわかってい
ること
カメラ２の撮影画像

カメラパラメータがわからない場合
97
 カメラの位置関係等のパラメータが不明の時、各カメラの焦
点と対応点を結ぶ直線が交わるという条件を利用する
カメラ１カメラ2

98
 カメラの位置関係等のパラメータが不明の時、各カメラの焦
点と対応点を結ぶ直線が交わるという条件を利用する
→エピポーラ拘束
同一平面

99
 最低でも８個の対応点を求めることで、カメラパラメータ
とそれぞれの点の三次元座標を逆算できる
８つのエピポーラ拘束を
満たすパラメータを算出

Structure from Motion (SfM)
100
 同じ対象を撮影した複数の画像（例えば動画）から、対
象の三次元形状を復元する

Structure from Motion (SfM)
101
 同じ対象を撮影した複数の画像（例えば動画）から、対
象の三次元形状を復元する
バンドル調整を用いて、複数のカメラの相対位置、焦点距
離、対象の三次元点座標を同時に推定する
＜バンドル調整＞
測定結果とパラメータから誤差を計算し、誤差を小さくする方向にパ
ラメータを調整していく

バンドル調整
102
1. 三次元点群とカメラパラメータの初期値を設定する
画像から見つけた点の
三次元座標の初期値カメラの位置と焦点距離
の初期値

バンドル調整
103
2. 三次元点群を各カメラの画像平面へ投影

バンドル調整
104
3. 投影された点と観測した点との誤差の総和を算出
投影された点
観測点
誤差

バンドル調整
105
4. 誤差が小さくなる方向へ特徴点の三次元座標とカメラ
パラメータを調整（収束するまで２から繰り返す）

Multi-View Stereo
106
SfMで求めた形状は、特徴点の
三次元位置のみ
SfMで求めたカメラパラメータを元に各カメラか
ら物体表面までの距離を画素ごとに算出（デプ
スマップ）
全てのカメラのデプスマップを統合して
物体の形状を算出

Multi-View Stereo
107
 カメラ１の画素Aのデプスをカメラ２から算出する例
 カメラ１の焦点から画素Aへの視線（エピポーラ線）上をカメラ
２の画像から探索し、最も類似したテクスチャを求める。
Aのエピポーラ線
A
d
d 距離
類似度

Multi-View Stereo
108
 各カメラから求めたデプスマップを統合して三次元モデ
ルを生成

三次元モデル構築の流れ（まとめ）
109
マッチング
キーポイント
検出
学習画像
学習画像
入力画像
MultiView
Stereo
三次元モデル
Structure
from Motion
学習画像
学習画像
対応点
学習画像
学習画像
カメラパラメータ

Building Rome in a Day [Agarwal2009]
110
 15万件のインターネット上の画像から１都市を500コアの
クラスタで１日かからずに構築。
https://www.youtube.com/watch?v=sQegEro5Bfo

Building Rome in a Day [Agarwal2009]
111
 15万件のインターネット上の画像から１都市を500コアの
クラスタで１日かからずに構築。

Building Rome in a Cloudless Day
[Frahm2010]
112
 300万枚の画像から、密な三次元モデルを１台のPC
（+GPU）で約１日で構築
Credit:[Frahm2010]
https://www.youtube.com/watch?v=PySBQ8Q_R8k

Building Rome in a Cloudless Day
[Frahm2010]
113
 300万枚の画像から、密な三次元モデルを１台のPC
（+GPU）で約１日で構築

Visual SLAM
114
Structure from Motionの仕組みを利用して、カメラの動き
と３次元空間を同時に認識し、拡張現実感（AR）などに活
用
Simultaneous Localization And Mapping (SLAM)
Localization
Mapping

115
ORB-SLAM [Mur-Artal2015]
 単眼V-SLAMをTracking、 Local Mapping、Loop Closingの３つ
のスレッドを並列に動作させることで、リアルタイムに実現
 全スレッドでORB特徴[Rublee2011]を利用
https://www.youtube.com/watch?v=8DISRmsO2YQ

116
ORB-SLAM [Mur-Artal2015]
 単眼V-SLAMをTracking、 Local Mapping、Loop Closingの３つ
のスレッドを並列に動作させることで、リアルタイムに実現
 全スレッドでORB特徴[Rublee2011]を利用
入力フレームの
カメラPoseを推
定
Sparseな3D
Map(点群)を作
成
ループを検出し
カメラPoseの誤
差の蓄積を除去
選定され
た
KeyFrame
点群＋Poseグラフ
ORBとBoVWで
KeyFrame検索す
るためのDB
共有メモリ

DTAM [Newcombe2011]
 密な三次元（深度）の復元とカメラのトラッキングを同時
に行う、Dense MonocularVisual Slamの代表的手法
117
https://www.youtube.com/watch?v=Df9WhgibCQA

DTAM [Newcombe2011]
 KeyFrameの各画素と同じ色の画素を周辺フレームから
（エピポーラ線上を）探索することで深度を推定 (Photo
Consistency)
118

119
LSD-SLAM [Engel2014]
 特徴点ではなく（勾配の大きい）画素の値を直接使って
Semi-DenseなMap構築およびPose推定
 Map Optimizationにより大規模なマップを構築可能
https://www.youtube.com/watch?v=GnuQzP3gty4

120
LSD-SLAM [Engel2014]
 特徴点ではなく（勾配の大きい）画素の値を直接使って
Semi-DenseなMap構築およびPose推定
 Map Optimizationにより大規模なマップを構築可能
KeyFrameとの画素の差が
最小となるようPose推定
KeyFrameを生成し、その
深度を推定
Loop ClosingによりMap全
体を最適化

深層学習の三次元再構成への適用
121
既存のアプローチと深層学習では考
え方が大きく異なる。
 既存手法は複数画像間での点の
マッチングが正確に取れれば、三次
元情報は幾何学的な制約によりほ
ぼ厳密に求まる（計測）。
 深層学習は、三次元情報を学習した
情報から推論する（認識）。

122
1. 既存手法が苦手としている部分
を深層学習で補間する。
2. 深層学習の学習時に幾何的な
制約を入れて、推定器を作成す
る。
3. 深層学習の推論時に幾何的な
制約を入れる。

123
単眼Depth推定
SLAM

単眼Depth推定
124
 １枚の画像から三次元的な奥行(Depth)を推定
 ラベル付け不要で、動画やステレオ画像から自己教師
あり学習する手法が現在の主流
 学習の際に、幾何的な制約を埋め込む
[Godard2017]より
入力画像
Ground Truth
推定結果

Mono-Depth [Godard2017]
125
 １枚の画像からDepthを推定するために、ステレオカメラの映像を学習
データとし、その視差画像を推定する問題に置き換え（教師ラベルなし）
 片方のカメラ画像から推定した視差を元に、画像をもう片方のカメラ画像
へと変形し、その画像間の差を損失に含める（学習時の幾何的制約）

SfM Learner [Zhou2017]
126
 単眼カメラ映像からDepthとMotionを推定するネットワークを
自己教師あり学習
 推定したDepthとMotionを元に参照画像を周辺画像へ変換し、
その誤差を元にネットワークを学習（学習時の幾何的制約の
埋め込み）

127
埋め込み）
単眼画像からDepth推定

128
埋め込み）
画像間のMotion推定

Depth from videos in the wild [Gordon2019]
129
 Depth、Camera Motionに加えて、映像中の動物体およ
びカメラ内部パラメータ（含レンズ歪）を推定
 Depth推定結果とMotion推定結果を元に画像をフレーム
間で相互に変換し、その誤差を最小化するよう学習
Motion推定ネットワーク
内部パラメータ
カメラ回転角
カメラ並進
並進残差（移動体）

深層学習のSLAMへの適用
130
 キーポイントベースのSLAMに深層学習
ベースのDepth推定を加えることで、密
なMapを求める
 Depthの学習は教師ありで行われる場
合が多い
 初期はDepth推定とPose/Motionの算出
を別々に行っていたが、徐々に統合する
流れ

CNN-SLAM [Tateno2017]
 LSD-SLAM[Engel2014]の深度推定をCNNによる深度推
定に置き換えることでDenseなMapを構築。
 Visual SLAMの弱点である、テクスチャがないケース、スケー
ル不定、回転に弱いなどの問題をCNNで補間
 SLAMにCNNを導入した最初期の論文
CNNによる深度と
Semantic Labelの推定
LSD-SLAM
131

CodeSLAM [Bloesch2018]
132
 Variational Auto Encoder(VAE)を用いてDepthを小さな
Codeで表現
UnetでDepth
推定の補助
情報を画像
から取得
VAEでDepth
を表現する
ネットワークと
Codeを学習
Code

CodeSLAM [Bloesch2018]
133
 Variational Auto Encoder(VAE)を用いてDepthを小さな
Codeで表現
 Tracking時に投影画像の誤差が最小となるようにCodeを
カメラ姿勢と同時に最適化（既存SLAMの補間＋推論時
に幾何的制約）
カメラ姿勢Tとコー
ド（＝Depth）Cから、
次フレームへ現フ
レーム画像を投影
した誤差

BA-Net [Tang2019]
134
 バンドル調整で使用される最適化手法（Levenberg-
Marquardt法）をネットワーク化することで、SLAM一連の
処理をEnd-to-Endで学習（学習時にも推論時にも幾何的
制約）

BA-Net [Tang2019]
135
制約）
単眼画像からDepth（の基底）を推定

BA-Net [Tang2019]
136
制約）
バンドル調整用画像特徴

BA-Net [Tang2019]
137
制約）
バンドル調整ネットワーク

三次元再構成まとめ
138
 深層学習以前の手法は、複数枚の画像から幾何的な拘
束条件を用いて三次元再構成を行ってきた。
 従来法は計測、深層学習は推論という根本的な違いが
ある。
 深層学習は、従来手法が苦手としているテクスチャの少
ない個所や絶対スケールがわからないなどの点を推論
によって補う。
 深層学習の学習時に幾何的な拘束条件を入れたり、更
には推論時にも拘束を入れるなどの工夫がなされてい
る。

参考文献
139
 [Snavely2006]Snavely, N., Seitz, S. M., & Szeliski, R. (2006). Photo
tourism: exploring photo collections in 3D. In Conference on
Computer Graphics and InteractiveTechniques (SIGGRAPH).
 [岡谷2010]岡谷貴之. (2010). コンピュータビジョン最先端ガイ
ド３第1章バンドル調整. アドコムメディア. 1-32
 [古川2012]古川泰隆. (2012). コンピュータビジョン最先端ガイ
ド５第2章複数画像からの三次元復元手法. アドコムメディア.
33-70
 [Agarwal2009]Agarwal, S., Snavely, N., Simon, I., Seitz, S. M., &
Szeliski, R. (2009). Building Rome in a day. In International
Conference on ComputerVision (pp. 72–79).
 [Frahm2010]Frahm, J., Fite-georgel, P., Gallup, D., Johnson,T.,
Raguram, R.,Wu, C., … Pollefeys, M. (2010). Building Rome on a
Cloudless Day. In European Conference on ComputerVision (pp.
368–381)

参考文献
140
 [Mur-Artal2015]Mur-Artal, R., Montiel, J. M. M., & Tardos, J. D. (2015).
ORB-SLAM:AVersatile and Accurate Monocular SLAM System. IEEE
Transactions on Robotics, 31(5), 1147–1163.
 [Rublee2011]Rublee, E., Rabaud,V., Konolige, K., & Bradski, G. (2011).
ORB:An efficient alternative to SIFT or SURF. 2011 International
Conference on ComputerVision
 [Newcombe2011]Newcombe, R.A., Lovegrove, S. J., & Davison,A. J.
(2011). DTAM: Dense Tracking and Mapping in Real-Time. In
International Conference on ComputerVision.
 [Engel2014]Engel, J., Schops,T., & Cremers, D. (2014). LSD-SLAM:
Large-Scale Direct monocular SLAM. In European Conference on
ComputerVision
 [Godard2017] Godard, C., Mac Aodha, O., & Brostow, G. J. (2017).
Unsupervised Monocular Depth Estimation with Left-Right
Consistency. Conference on ComputerVision and Pattern Recognition

参考文献
141
 [Tateno2017]Tateno, K.,Tombari, F., Laina, I., & Navab, N. (2017). CNN-
SLAM : Real-time dense monocular SLAM with learned depth prediction. In
IEEE Conference on ComputerVision and Pattern Recognition.
 [Zhou2017]Zhou,T., Brown, M., Snavely, N., & Lowe, D. G. (2017).
Unsupervised learning of depth and ego-motion from video. In IEEE
Conference on ComputerVision and Pattern Recognition
 [Bloesch2018]Bloesch, M., Czarnowski, J., Clark, R., Leutenegger, S., &
Davison,A. J. (2018). CodeSLAM — Learning a Compact, Optimisable
Representation for DenseVisual SLAM. In IEEE Conference on Computer
Vision and Pattern Recognition.
 [Tang2019]Tang, C., &Tan, P. (2019). BA-Net: Dense Bundle Adjustment
Network. In International Conference on Learning Representation.
 [Gordon2019]Gordon,A., Li, H., Jonschkowski, R., & Angelova,A. (2019).
Depth from videos in the wild: Unsupervised monocular depth learning
from unknown cameras. IEEE International Conference on ComputerVision

深層学習で
新たに花開いた
分野

深層学習で新たに花開いた分野
143
 ここまで紹介したのは深層学習以前
からも研究が盛況だった分野
 ここでは、深層学習の登場によって、
盛況になった分野を簡単に紹介
 画像生成
 １枚画像の三次元化

画像生成（深層学習前）
144
 深層学習以前の画像生成は、せいぜいが「既存の画像を自
然に貼り合わせて目的の画像を作成する」というレベル
複数枚の画像から全員が笑顔の写真を生成(フォトモンタージュ) [Agarwala2004]
スケッチ検索された画像合成結果画像
ユーザがスケッチした画像をインターネット上の画像を用いて合成する(Sketch2Photo)[Chen2009]

画像生成（深層学習後）
145
 GANやVAEの登場によって、ゼロから画像生成ができる
ようになり、またスタイル変換などの新しいタスクも登場
DC-GAN [Radford2016]
Image StyleTransfer [Getys2016]
Pix2Pix [Getys2016]

１枚の画像から三次元生成（深層学習前）
146
 機械学習によって１枚の画像から三次元生成する技術
は深層学習以前にもわずかに存在
[Blanz1999]
1枚の顔画像から3次元復元
[Hoiem2005]
1枚の風景画像から3次元復元

１枚の画像から三次元生成（深層学習後）
147
 深層学習の認識力と表現力によってこの分野は大きく進
展
Neural 3D Mesh Renderer[Kato2018]
Nonlinear 3DMM[Tran2018]
PIFu [Saito2019]

参考文献
148
 [Agarwala2004]Agarwala,A., Dontcheva, M.,Agrawala, M., Drucker, S.,
Colburn,A., Curless, B., … Cohen, M. (2004). Interactive digital
photomontage. In Conference on Computer Graphics and InteractiveTechniques
(SIGGRAPH) (Vol. 23).
 [Chen2009]Chen,T., Cheng, M.-M.,Tan, P., Shamir,A., & Hu, S.-M. (2009).
Sketch2Photo: internet image montage. In Conference on Computer Graphics
and InteractiveTechniques (SIGGRAPH).
 [Radford2016]Radford,A., Metz, L., & Chintala, S. (2016). Unsupervised
Representation Learning with Deep Convolutional Generative Adversarial
Networks. International Conference on Learning Representation.
 [Gatys2016]Gatys, L.A., Ecker,A. S., & Bethge, M. (2016). Image Style
Transfer Using Convolutional Neural Networks. In IEEE Conference on
 [Isola2017]Isola, P., Zhu, J.Y., Zhou,T., & Efros,A.A. (2017). Image-to-image
translation with conditional adversarial networks. IEEE Conference on

参考文献
149
 [Blanz1999] Blanz,V., &Vetter,T. (1999).A morphable model for the
synthesis of 3D faces. In Conference on Computer Graphics and
InteractiveTechniques (SIGGRAPH) (pp. 187–194).
 [Hoiem2005]Hoiem, D., & Efros,A.A. (2005).Automatic photo pop-
up. In Conference on Computer Graphics and InteractiveTechniques
(SIGGRAPH).
 [Tran2018]Tran, L., & Liu, X. (2018). Nonlinear 3D Face Morphable
Model. IEEE Conference on ComputerVision and Pattern Recognition.
 [Kato2018]Kato, H., Ushiku,Y., & Harada,T. (2018). Neural 3D Mesh
Renderer. In IEEE Conference on ComputerVision and Pattern
Recognition.
 [Saito2019]Saito, S., Huang, Z., Natsume, R., Morishima, S., Li, H., &
Kanazawa,A. (2019). PIFu: Pixel-aligned implicit function for high-
resolution clothed human digitization. IEEE International Conference
on ComputerVision.

深層学習がコンピュータビジョンにもたらした
もの
151
 圧倒的な表現力と認識力により、CVのほぼ
全ての分野で深層学習が大きく貢献している
 競争が激しくなった一方で、手法の多様性は
失われた
 深層学習の使用を前提とした上で、また多様性が
戻ってくるか？
 深層学習をCVのある分野へ適用し始める時
は、従来法とのハイブリッドな段階を経るケー
スが多い
 深層学習により、新たな分野も大きく花開い
た

20200910コンピュータビジョン今昔物語（JPTA講演資料）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 20200910コンピュータビジョン今昔物語（JPTA講演資料）

Similar to 20200910コンピュータビジョン今昔物語（JPTA講演資料） (20)

More from Takuya Minagawa

More from Takuya Minagawa (20)

Recently uploaded

Recently uploaded (7)

20200910コンピュータビジョン今昔物語（JPTA講演資料）