Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
2016/05/25 情報機構セミナー
はじめてのコンピュータビジョン
「画像認識の仕組みとビジネス事例」
ビジョン&ITラボ 皆川卓也
この講演の目的
2
 はじめての方や技術者以外の方に「コンピュータビジョンで何
ができるのか」の全体像をご理解いただく。
 コンピュータビジョンの基本的な仕組みを理解していただく。
 数式は一切出てきません。
 コンピュータビジョンを使...
自己紹介
3
テクニカル・ソリューション・アーキテクト
皆川 卓也(みながわ たくや)
フリーエンジニア(ビジョン&ITラボ)
「コンピュータビジョン勉強会@関東」主催
博士(工学)
http://visitlab.jp
略歴:
1999-20...
講演の内容
4
 なぜ今コンピュータビジョンなのか(割愛)
 コンピュータビジョンでできること
 コンピュータビジョンの仕組み
 コンピュータビジョンの活用例
 ライブラリ/APIの紹介
5
コンピュータビジョン
でできること
コンピュータビジョンでできること
6
1. 人や顔の認識
2. 何がどこに写っているかの認識
3. 三次元空間を把握
4. 動画から人の動作や物の動きを認識
5. 画像の加工/品質向上
人や顔を認識する
7
 顔を認識する
 顔検出
 顔認証
 顔器官検出
 顔属性判定
 人を認識する
 人物検出
 姿勢推定
 その他
 ペット認識
顔検出
8
 顔が画像のどこにあるのかを判定する。
顔認証
9
 写真に写っている人物が「誰か」を判定する。
 例:[Turk1991], [Wiskott1997],
[Taigman2014],[Belhumeur1997]
Natalie Portman
Jean Reno
顔器官検出
10
 目、鼻、口、輪郭など、顔の詳細パーツを抽出する。
 顔向き推定、視線推定、目/口の開き、メガネの有無判定なども
Credit:[Cao2012]
顔属性判定
11
 性別、表情、年齢などを判定する。
OKAO Visionのサイト[http://plus-
sensing.omron.co.jp/technology/detail/]
より画像転載
人検出
12
 画像から人の位置を検出する
人姿勢推定
13
 画像から人物の姿勢を推定する。
Credit:[Toshev2014]
ペット検出
14
 画像からペットの顔を検出する
OKAO Visionのサイト[http://plus-sensing.omron.co.jp/technology/movie/]より
画像転載
ビジネス事例(顔検出)
15
 デジタルカメラのオートフォーカス
 Amazon Fire Phoneの3次元IF
 Google Street View
 プライバシー保護目的
Nikon COOLPIX 5900
ビジネス事例(顔認証)
16
 出会い系/結婚紹介サイトの好みの顔検索
 http://internetcom.jp/webtech/20131220/3.html
 http://www.gizmodo.jp/2014/06/match...
ビジネス事例(顔認証)
17
 ライブの入場者確認
 http://trendy.nikkeibp.co.jp/atcl/pickup/15/1008498/040800
231
 顔認証付きホーム用ネットワークカメラ
 netatmo...
ビジネス事例(顔器官検出)
18
 アバター(ゲーム等)
 SOEmote
https://www.youtube.com/watch?v=cde01HNKQVw
 プリクラ(美顔、デカ目)
バンダイナムコゲームス「Eye mix」
ビジネス事例(顔属性判定)
19
 スマイルシャッター(ソニー サイバーショット)
 http://www.sony.jp/ServiceArea/impdf/pdf/44329430M.w-
JP/jp/contents/04/02/11...
ビジネス事例(ペット認識)
20
 デジタルカメラのペット検出オートーフォーカス
 FinePix Z700EXR、Optio I-10、CX3
 猫の顔認識つき給餌期
 CatFi (http://catfi.com/)
 迷子のペ...
参考文献
21
 [Belhumeur1997] Belhumeur, P. N., Hespanha, J. P., & Kriegman, D. J. (1997).
Eigenfaces vs. Fisherfaces: Recogni...
色々な物体を認識
22
 特定物体認識
 一般物体認識
 一般物体検出
 顕著性検出
 Objectness検出
 文字認識
特定物体認識
23
 画像から事前に登録した画像と同一の物体を認識する。
 パンフレット/パッケージ/ランドマークなど
コンピュータビジョン
最先端ガイド1
カメラで撮影
認識!
一般物体認識
24
 画像に写っている物体のカテゴリを判別する
飛行機 顔 自動車
入力
画像
出力
カテゴリ認識
一般物体認識(詳細画像識別)
25
 あるカテゴリ内のサブカテゴリを認識する
 犬種:チワワ、プードル、シベリアンハスキー、ドーベルマン等
 車種:アクセラ、スカイライン、ヴィッツ等
Scarlet Kingfisher African ...
一般物体検出
26
 自動車、人、ボトル、牛、など一般的な物体の位置を画
像から見つける。
 顔検出、人検出も一般物体検出に含まれる。
顔
歩行者
車
顕著性検出
27
 画像の中で「目立つ」ところを探す。
 元々は人間が目立つ箇所に無意識に注意が向く仕組み(ボト
ムアップ注意)をモデル化したもの
[木村2012]プレゼン資料より抜粋
Selective Search/Objectness検出
28
 画像から物体っぽいものを検出する。(それがどんな物
体かまでは判別しない。)
 一般物体検出の前処理として使われる。
Credit: [Cheng2014]
文字検出/認識
29
 画像中の文字領域を検出する
 画像中の文字を認識する
 例:[LeCun1998]
あ い う
ビジネス事例(特定物体認識)
30
 Google Goggles(ランドマークや書籍などの認識)
 Amazon Fire Phone (書籍やCDジャケット等)
 マーケティング/販促
 TSUTAYA DVDジャケット撮影で作品情...
ビジネス事例(一般物体認識)
31
 画像の自動整理/タグ付け
 Adobe Element Organizer “Smart Tag”
 https://blogs.adobe.com/digitalmarketing/tag/smar...
ビジネス事例(詳細画像識別)
32
 Pl@ntNet
 http://m.plantnet-project.org/
 植物識別アプリ
 Leaf snap
 http://leafsnap.com/
 植物識別アプリ[Kumar...
ビジネス事例(顕著性検出)
33
 Bing画像検索 [Wang2012]
 http://www.bing.com/?scope=images
 検索フィルタ(色)
 背景の色を無視して対象の色を元に検索できる。(花など)
 htt...
ビジネス事例(文字検出/認識)
 Evernote
 画像中の文字を認識してIndex化。検索に利用
 Google Goggles
 ナンバープレート認識
 Word Lens
 https://www.youtube.com/w...
参考文献
35
 [Berg2014] Berg, T., Liu, J., Lee, S. W., Alexander, M. L., Jacobs, D.
W., & Belhumeur, P. N. (2014). Birdsnap: ...
参考文献
36
 [Wang2012] Wang, P., Wang, J., Zeng, G., Feng, J., Zha, H., &
Li, S. (2012). Salient object detection for search...
三次元空間の把握
37
 動画から三次元モデルを復元
 大量の画像から三次元モデルを復元
 プロジェクタとカメラから三次元モデルを復元
 物体の陰影から三次元モデルを復元
 二次元画像から三次元モデルを復元
 二枚以上の画像から中間...
動画から三次元モデルを復元
38
 ビデオなど連続した画像群から撮影対象を三次元復元
Credit: [Pan2009]
https://www.youtube.com/watch?v=vEOmzjImsVc
画像を集めて三次元モデルを復元する
39
 Flickr等の写真共有サイトには観光地などの写真が大量
に集まる。それらを使用して観光地の三次元モデルを構
築する。
Credit:[Frahm2010]
画像を集めて三次元モデルを復元する
40
 代表的なプロジェクト(リンク先にデモ動画等あり)
 Photo Tourism[Snavely2006]
 http://phototour.cs.washington.edu/
 Build...
プロジェクタとカメラから三次元復元
41
 一台のプロジェクタから既知のパターン(structured
light)を物体に対して照射し、それをカメラで撮影するこ
とで、三角測量の原理から物体の三次元形状を求める
ことができる。
Credit...
物体の陰影から三次元復元
42
 光源の位置とカメラの位置、物体の陰影から、物体の表
面の法線方向を求めることで形状を復元する。
 Shape from Shading
 照度差ステレオ
照度差ステレオ [松下2011]
二次元の画像から三次元モデル生成
43
 1枚の入力画像から三次元的なボリュームを推定する。
[Blanz1999]
1枚の顔画像から3次元復元
[Hoiem2005]
1枚の風景画像から3次元復元
二次元の画像から三次元モデル生成
44
 代表的な手法(プロジェクトページヘのリンク)
 3D Morphable Model [Blanz2005]
 デモ動画あり
 http://gravis.cs.unibas.ch/Sigg99...
中間視点の画像を生成
45
 2つの視点の異なる画像から、中間の視点から見た画
像を生成する。(View Morphing [Seitz1996])
プロジェクトページ(動画あり) http://www.cs.cmu.edu/~seitz/v...
ビジネス事例(中間視点の画像生成)
46
 Microsoft Photosynth
 http://photosynth.net/
二次元の画像から三次元モデル生成
47
 モーションポートレート
 http://www.motionportrait.com/
 https://www.youtube.com/watch?v=P-mBdV3icMY
参考文献
48
 [Agarwal2009] Agarwal, S., Snavely, N., Simon, I., Seitz, S. M., &
Szeliski, R. (2009). Building Rome in a day. ...
参考文献
49
 [Pan2009] Pan, Q., Reitmayr, G., & Drummond, T. (2009).
ProFORMA: Probabilistic Feature-based On-line Rapid Mode...
動画から人の動作や物の動きを認識
50
 動画中の人の動作を認識する
 動いている対象の追跡
 スポーツシーンの解析
 動画を短い動画へ要約する
 手ぶれ補正
動画中の人の動作を認識
51
 動画中の人の動作をカテゴリ分類する
UCF101 Action Recognition Dataset [Soomro2012]
http://crcv.ucf.edu/data/UCF101.php
Dens...
動いている対象の追跡
52
 人や自動車など、事前に学習した物体の追跡
人の追跡
車両の追跡
Credit:[Choi2015]
動いている対象の追跡
53
 任意物体の追跡
 最初のフレームで指定した物体を追跡し続ける
 追跡しながら学習する (Online Tracker)
https://www.youtube.com/watch?v=1GhNXHCQGsM
...
スポーツシーンの解析
54
 サッカーやバスケットボールなど、人やボールの動きを
追跡して解析
Credit:[Hasegawa2015]
Credit:[Lu2011]Credit:[Hamid2010]
動画の自動要約
55
 スポーツ動画のゴールシーンや盛り上がりのあるシーン
を認識して切り出したり、ホームビデオから変化の乏しい
シーンを除去する
例[Zhao2014]:
https://www.youtube.com/watch?v=pk...
手ぶれ補正
56
 動画の各フレームから最適な位置を切り取ることで手ぶ
れを除去
https://www.youtube.com/watch?v=i5keG1Y810U
顔検出を用いて手ぶれ補正(上:元動画、下:手ぶれ補正)
[Grundma...
ビジネス事例(人の動作認識/追跡)
57
 異常な人の動きを自動検知するシステム JR西日本
 駅のホームで、歩行が乱れている人や長時間ベンチに座り込んで
いる人、線路に降りる人などの検知
 http://trafficnews.jp/p...
ビジネス事例(スポーツシーン解析)
58
 サッカー/テニス/クリケットなどの審判支援システム
 HAWK-EYE
 http://www.hawkeyeinnovations.co.uk/
 バスケットボールの解析
 STAT “S...
ビジネス事例(動画の自動要約)
59
 ソニー ハンディカム
 ハイライト再生
 https://www.sony.jp/support/handycam/enjoy/movie/
 HaiLyts
 iPhone用動画要約アプリ
...
ビジネス事例(ブレ補正)
60
 Youtube
 http://www.youtube.com
 Windows Movie Maker
 http://windows.microsoft.com/ja-jp/windows/movi...
参考文献
61
 [Choi2015] Choi, W. (2015). Near-Online Multi-Target Tracking
With Aggregated Local Flow Descriptor. Proceedings...
参考文献
62
 [Lu2011] Lu, W., Ting, J., Little, J. J., & Murphy, K. P. (2011).
Learning to Track and Identify Players from Br...
画像の加工/品質向上
63
 フィルタによる画像加工
 画質の品質を向上させる
 画像から必要な物体だけ綺麗に切り抜く
 画像同士を合成する
 画像からいらない領域を取り除く
 被写体を歪めずに画像をリサイズする
フィルタによる画像加工
64
 Instagramのように画像に効果をつける処理
漫画カメラ
http://tokyo.supersoftware.c
o.jp/mangacamera/
Instagram
http://instagram....
画像の品質を向上させる
65
 ノイズ除去
 ガウシアンフィルタ、メディアンフィルタ、バイラテラルフィルタ
[Tomasi1998]、ノンローカルミーンフィルタ[Buades2005]、
BM3D[Dabov2007]、etc
ノイズ画像 ...
画像の品質を向上させる
66
 画像を元々の解像度以上に拡大する。(超解像)
 画像のボケを補正する。
 動画(複数枚画像)を使用する方法[Farsiu2003][Mitzel2009]
 1枚の画像から復元する方法[Freeman20...
画像から必要な物体だけきれいに切り抜く
67
 物体の輪郭を求める
 画像内を似た色や同じ物体同士で領域分割する
 画像から前景を背景から分離する。
領域分割(Mean Shiftの例) 前景分離(Credit:[Rother2004])
画像同士を合成する
68
 背景画像に前景画像を「自然な形で」貼り合わせる
Credit: [Pérez2003]
画像同士を合成する
69
 背景画像に前景画像を「自然な形で」貼り合わせる
 応用例: フォトモンタージュ[Agarwala2004]
 複数枚の画像から全員が笑って正面を向いている画像を合成
Credit:[Agarwala2004]
画像同士を合成する
70
 背景画像に前景画像を「自然な形で」貼り合わせる
 応用例: Sketch2Photo[Chen2009]
 ユーザがスケッチした画像をインターネット上の画像を用いて合成す
る。
http://www.youtu...
画像同士を合成する
71
 複数の画像からパノラマ画像、あるいはより広範な画像
を生成する。
 代表的な手法: Image Mosaicing, Image Stitching
[Brown2003]
Output:
Input:
Cred...
画像からいらない領域を切り取る
72
 いらない領域を削除して、周辺の領域の情報から削除し
た領域の穴埋めを行う。(Inpainting)
credit:[Bertalmio2000]
credit:[Criminisi2004]
画像からいらない領域を切り取る
73
 いらない領域を削除して、インターネット上の画像を使っ
て削除した領域の穴埋めを行う。[Hays2007]
Credit:[Hays2007]
(a) (b) (c) (d)
a. 原画像
b. 不要な領...
被写体を歪めずに画像をリサイズする
74
 画像の中の被写体を歪めることなく、画像の縦横比を気
にせずに自由に画像を拡大/縮小する(Retargeting)
 代表的な手法:Seam Carving [Avidan2007]
 デモ動画 ...
画像のサイズ変更/穴埋め/加工を自然に行う
75
 Structural Image Editing
 変形したい箇所と類似するテクスチャを画像内から探索して、
穴埋め、再構成、サイズ変更を行う
Credit:[Barnes2009]
ビジネス事例(画像処理全般)
76
 Adobe Photoshop
 http://www.adobe.com/jp/products/photoshop.html
 定番の画像編集ソフトウェア
 画像フィルタ―
 画像の合成
 ...
参考文献
77
 [Tomasi1998]Tomasi, C., & Manduchi, R. (1998). Bilateral filtering for gray and
color images. International Conf...
参考文献
78
 [Avidan2007]Avidan, S., & Shamir, A. (2007). Seam carving for
content-aware image resizing. In Conference on Com...
参考文献
79
 [Brown2003]Brown, M., & Lowe, D. G. (2003). Recognising
Panoramas. In International Conference on Computer Visio...
参考文献
80
 [Pérez2003]Pérez, P., Gangnet, M., & Blake, A. (2003).
Poisson image editing. In Conference on Computer Graphics...
81
コンピュータビ
ジョンの仕組み
コンピュータビジョンの仕組み
82
 画像中の物体を認識する仕組み
 深層学習(Deep Learning)の基礎
 画像からの三次元モデル構築
画像中の物体を認識する仕組み
83
 認識の基本的な流れ
 特定物体認識
 SIFT特徴量
 一般物体認識
 Bags-of-Features
 物体検出
 Haar-like Features
 HOG特徴
学習
学習結果
データ
学習フェーズ
特徴量抽出
学習画像
学習画像
学習画像
認識
認識結果
認識フェーズ
特徴量抽出
入力画像
認識の基本的な流れ
84
機械学習とは?
 人間が自然に行っている学習能力と同様の機能をコン
ピュータで実現させるための技術・手法のこと
 事前にコンピュータにサンプルデータを与え、そのパターンを
統計的に抽出させる。
学習サンプル
学習結果
85
画像特徴量とは?
86
 画像を構成する画素の集合を「認識や識別のしやすい」
別のベクトルへ変換したもの
 画像の様々な変形(拡大/縮小、回転、ずれ等)に強い
点(キーポイント)を検出し、そのキーポイント周辺から取
得する特徴量を特に局所特...
局所特徴量の代表例
87
 Scale Invariant Feature Transform (SIFT) [Lowe1999]
1. 画像のスケール変化や位置ずれに強いキーポイントを検出
スケール変化に弱い
キーポイント
位置ずれに弱い
...
局所特徴量の代表例
88
 Scale Invariant Feature Transform (SIFT) [Lowe1999]
1. 画像のスケール変化や位置ずれに強いキーポイントを検出
2. キーポイント周辺から画像の回転に強い特徴量を...
特定物体認識の仕組み
89
 代表的な手法
 SIFT等の局所特徴量+近似最近傍探索 [Lowe1999]
 大規模なデータベースに対してはBag-of-Featuresを用いる
[Sivic2003]
Histogram of Grad...
一般物体認識の特徴量の例
90
 Bags-of-Features (BoF) [Csurka2004]
 形状(Visual Words)の画像中に現れる頻度(ヒストグラム)を
特徴量とする
Dictionary (Visual Word...
91
物体検出の仕組み
探索窓(Sliding Window)
物体検出の特徴量(顔検出の例)
92
 Haar-like特徴 [Viola2001]
 白領域の画素の和から黒領域の画素の和を引くだけ
 積分画像というテクニックとAdaBoostという機械学習アルゴリ
ズムで非常に高速に計算できる
p...
物体検出の特徴量(人検出の例)
93
 Histogram of Oriented Gradients (HOG) [Dalal2005]
 画像の濃度変化方向について場所(Cell)ごとの統計を取ったもの
 輪郭のような特徴が良くとれる...
物体検出の特徴量(人検出他)
94
 Deformable Part Model [Felzenszwalb2009]
 HOG特徴を複数組み合わせることで、検出精度向上
 HOG特徴を抽出する位置の歪みも含めてLatent SVMという...
参考文献
95
 [Csurka2004]Csurka, G., Dance, C. R., Fan, L., Willamowski,
J., & Bray, C. (2004). Visual categorization with ba...
参考文献
96
 [Sivic2003]Sivic, J., & Zisserman, A. (2003). Video Google: a
text retrieval approach to object matching in vide...
深層学習 (Deep Learning)
97
 深層学習の概要
 畳み込みニューラルネットワーク
 アプリケーション
 一般物体認識
 画像説明文生成
 物体検出
 画像自動生成
深層学習の概要
98
 ニューラルネットワークという機械学習アルゴリズムの階
層を深くしたもの
ニューラルネットワーク
深層学習
深層学習の概要
99
 以下のような種類がある
 畳み込みニューラルネットワーク
 Deep Bolzmann Machines
 Deep Belief Networks
 etc
 ここでは画像認識で最も多く用いられるDeep ...
深層学習の概要
100
学習
学習結果
データ
学習フェーズ
特徴量抽出
学習画像
学習画像
学習画像
認識
認識結果
認識フェーズ
特徴量抽出
入力画像
深層学習
深層学習の概要
 SIFTやHOGのような画
像特徴量を用いず、認
識に有効な特徴量を画
素から統計的に学習す
る。
 低レベル特徴から高レベ
ル特徴までの階層構造。
 低レベルな特徴ほど、
様々なタスクで共有可能
(Image from...
畳み込みニューラルネットワーク
102
 畳み込み層とプーリング層が交互に現れる
 畳み込み層: 各位置で学習した特徴との類似度を計算
 プーリング層: 位置ずれなどのわずかな違いを無視
・
・
・
・・・・・
入力画像 出力
畳み込み層...
畳み込みニューラルネットワーク
103
 畳み込み層とプーリング層が交互に現れる
 畳み込み層: 各位置で学習した特徴との類似度を計算
 プーリング層: 位置ずれなどのわずかな違いを無視
・
・
・
・・・・・
入力画像 出力
畳み込み層...
畳み込みニューラルネットワーク
104
 畳み込み層
 各特徴毎の各場所での類似度を出力する
入力
画像
実際はRGBの3チャネルが使われる
出力A
特徴A 特徴B
出力B
・・・
畳み込みニューラルネットワーク
105
 畳み込み層とプーリング層が交互に現れる
 畳み込み層: 各位置で学習した特徴との類似度を計算
 プーリング層: 位置ずれなどのわずかな違いを無視
・
・
・
・・・・・
入力画像 出力
畳み込み層...
畳み込みニューラルネットワーク
106
 プーリング層
 近傍の情報を統合して、情報に不変性を加える
 Max Pooling、Lp Pooling、Average Poolingなどがある
Max Poolingの例: 近傍領域のうち最...
畳み込みニューラルネットワーク
107
 畳み込み層とプーリング層が交互に現れる
 畳み込み層: 各位置で学習した特徴との類似度を計算
 プーリング層: 位置ずれなどのわずかな違いを無視
・
・
・
・・・・・
入力画像 出力
畳み込み層...
畳み込みニューラルネットワーク
108
 畳み込み層
 各特徴毎の各場所での類似度を出力する
特徴Aの
類似度
出力C
特徴C
特徴Bの
類似度
・
・
・
・
・
・
出力D
特徴D
・
・
・ ・・・
畳み込みニューラルネットワーク
109
 全結合層: 最後の認識(識別/回帰)を行う
・
・
・
・・・・・
入力画像 出力
畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
畳み込みニューラルネットワーク
110
 全結合層
 最終層で全領域を使って認識を行う
・
・
・
・・・
畳み込みニューラルネットワークの学習
111
 誤差逆伝播法
1. ネットワークに画像を入力し出力を得る
2. 出力と教師信号を比較し、誤差が小さくなる方向へ特徴を出
力層に近い方から順に更新していく
・
・
・
・・・・・
入力画像 出力
...
畳み込みニューラルネットワークの学習
112
 誤差逆伝播法
1. ネットワークに画像を入力し出力を得る
2. 出力と教師信号を比較し、誤差が小さくなる方向へ特徴を出
力層に近い方から順に更新していく
・・・・・
入力画像 出力
畳み込み層 ...
畳み込みニューラルネットワークの学習
113
 誤差逆伝播法
1. ネットワークに画像を入力し出力を得る
2. 出力と教師信号を比較し、誤差が小さくなる方向へ特徴を出
力層に近い方から順に更新していく
・
・
・
・・・・・
入力画像 出力
...
畳み込みニューラルネットワークの学習
114
 誤差逆伝播法
1. ネットワークに画像を入力し出力を得る
2. 出力と教師信号を比較し、誤差が小さくなる方向へ特徴を出
力層に近い方から順に更新していく
・
・
・
・・・・・
入力画像 出力
...
アプリケーション:一般物体認識
115
 IMAGENET Large Scale Visual Recognition Challenge
(ILSVRC)
 ImageNetという大規模画像データセットを使用した一般物体
認識、物体検出...
アプリケーション:一般物体認識
Team name Error
1 Super Vision 0.15315
2 Super Vision 0.16422
3 ISI 0.26172
4 ISI 0.26602
5 ISI 0.26646
6 ...
アプリケーション:一般物体認識
117
 性能を上げるために階層が深くなる傾向
Residual Net [He2015]
152層
GoogLeNet [Szegedy2014]
22層
VGG Net [Simonyan2014]
19層...
アプリケーション:物体検出
118
 R-CNN (Region with CNN feature) [Girshick2014]
 畳み込みニューラルネットワーク(CNN)は計算量が高いので、探索
窓(Sliding Window)による...
アプリケーション:物体検出
119
 Fast R-CNN [Girshick2015]
 R-CNNでは物体候補領域を1つ1つCNNで判別していたため遅い
(VGGを使用した場合、GPU込みで1枚47秒)
 画像全体にCNNをかけて特徴...
アプリケーション:物体検出(Faster R-CNN)
120
 Faster R-CNN [Ren2015]
 R-CNNおよびFast R-CNNではSelective Searchを用いて物体候補
領域を事前に求めておく必要。
 F...
アプリケーション:顔認証
121
 例:Deep Face [Taigman2014]
 顔検出+顔器官検出までは既存手法
 顔画像を正面に向け、大きさを揃えた後、CNNで認証
 人間と同等の識別性能
アプリケーション:領域分割
122
 例:Fully Convolutional Network [Long2014]
 ピクセルごとにラベル付けされた教師信号を与える
 最終の全結合層をアップサンプリングした畳み込み層に置き換え
アプリケーション:超解像
123
 例:SRCNN [Dong2014]
 低解像度のパッチから生成した特徴マップと、高解像度パッ
チとの変換をそれぞれ学習
アプリケーション:画像の説明文生成
124
 例:Show and Tell [Vinyals2015]
 1枚の画像から説明文を生成
 機械翻訳で使用されるReccurent Neural Networks (RNN)の
入力部分をCN...
アプリケーション:画像生成
125
 例:DC-GAN [Radford2015]
 画像を作る生成器Gと実画像と生成画像を見分ける識別器D
を交互に学習する(GAN)
 GANに対してプーリング層を畳み込み層に置き換える等の
様々な工夫...
アプリケーション:白黒画像の色付け
126
 例: Global and Local Image Priors for Automatic
Image Colorization [Iizuka2016]
 入力を白黒画像、教師をカラー画像と...
アプリケーション:ラフスケッチの線画化
127
 例:Fully Convolutional Networks for Rough Sketch
Cleanup [Simo-Serre2016]
 入力をラフスケッチ、教師を線画として学習す...
参考文献
128
 [Deng2009] Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-
Fei, L. (2009). ImageNet: A large-scale hi...
参考文献
129
 [Iizuka2016] Iizuka, S., Simo-Serre, E., & Hiroshi, I. (2016). Let there be
Color !: Joint End-to-end Learning ...
参考文献
130
 [Simonyan2014]Simonyan, K., & Zisserman, A. (2014). Very Deep
Convolutional Networks for Large-Scale Image Reco...
カメラの映像から三次元モデルを作る
131
 カメラの基本的な仕組み
 2台のカメラによる三次元認識
 複数カメラによる三次元認識
 Structure-from-Motion [岡谷2010]
 詳細な三次元モデルの構築
 Mul...
A
カメラ1の撮影画像
2つの直線O1A’1/O2A’2の交点
カメラ1の焦点O1 カメラ2の焦点O2
A’1 A’2
ステレオカメラの原理
 点Aが2台のカメラのどこに見えたかがわかれば、三角
測量の原理で三次元的な位置が求まる
 ただし...
(余談)Kinectの仕組み
133
 Kinect version1は三次元認識にステレオカメラの原理を
応用
 プロジェクタから赤外線ドットパターン(Structured Light)を照
射
 赤外線カメラ取得したパターンと照射パタ...
カメラパラメータがわからない場合
134
 カメラの位置関係等のパラメータが不明の時、各カメラの焦
点と対応点を結ぶ直線が交わるという条件を利用する
カメラ1 カメラ2
カメラパラメータがわからない場合
135
 カメラの位置関係等のパラメータが不明の時、各カメラの焦
点と対応点を結ぶ直線が交わるという条件を利用する
→エピポーラ拘束
カメラ1 カメラ2
同一平面
カメラパラメータがわからない場合
136
 最低でも8個の対応点を求めることで、カメラパラメータ
とそれぞれの点の三次元座標を逆算できる
8つのエピポーラ拘束を
満たすパラメータを算出
カメラ1 カメラ2
Structure from Motion (SfM)
137
 同じ対象を撮影した複数の画像(例えば動画)から、対
象の三次元形状を復元する
Structure from Motion (SfM)
138
 同じ対象を撮影した複数の画像(例えば動画)から、対
象の三次元形状を復元する
バンドル調整を用いて、複数のカメラの相対位置、焦点距
離、対象の三次元点座標を同時に推定する
<バ...
バンドル調整
139
1. 三次元点群とカメラパラメータの初期値を設定する
画像から見つけた点の
三次元座標の初期値カメラの位置と焦点距離
の初期値
バンドル調整
140
2. 三次元点群を各カメラの画像平面へ投影
バンドル調整
141
3. 投影された点と観測した点との誤差の総和を算出
投影された点
観測点
誤差
バンドル調整
142
4. 誤差が小さくなる方向へ特徴点の三次元座標とカメラ
パラメータを調整 (収束するまで2から繰り返す)
Multi-View Stereo
143
SfMで求めた形状は、特徴点の
三次元位置のみ
SfMで求めたカメラパラメータを元に各カメラか
ら物体表面までの距離を画素ごとに算出(デプ
スマップ)
全てのカメラのデプスマップを統合して
物体の形状...
Multi-View Stereo
144
 カメラ1の画素Aのデプスをカメラ2から算出する例
 カメラ1の焦点から画素Aへの視線(エピポーラ線)上をカメラ
2の画像から探索し、最も類似したテクスチャを求める。
カメラ1 カメラ2
Aのエピ...
Multi-View Stereo
145
 各カメラから求めたデプスマップを統合して三次元モデ
ルを生成
三次元モデル構築の流れ(まとめ)
146
マッチング
キーポイント
検出
学習画像
学習画像
入力画像
Multi View Stereo
三次元モデル
Structure from
Motion
学習画像
学習画像
対応点
学習画像
学習画像...
参考文献
147
 [岡谷2010] 岡谷貴之. (2010). コンピュータビジョン最先
端ガイド3 第1章バンドル調整. アドコムメディア. 1-32
 [古川2012] 古川泰隆. (2012). コンピュータビジョン最先
端ガイド5...
148
コンピュータビ
ジョンの活用例
コンピュータビジョンの活用例
149
 ソーシャルメディア
 拡張現実感 (Augmented Reality)
 自動運転
ソーシャルメディアでの活用例
150
コンピュータビジョン
 大量の画像/動画の整理/検索
 よりリッチなコミュニケーション手段の提供
SNSなどのソーシャルメディア:
 文字主体から画像/動画を駆使したコミュニケーションへ
ソーシャルメディアでの活用例
151
 Facebook
 投稿した写真に写っているのが誰かを自動で認識してタグ付
け
 一緒に写っている友人へ手早く共有 (Moments)
Facial tag Moments
http://www.f...
ソーシャルメディアでの活用例
152
 Googleフォト
 写真に写っている内容で写真を整理し検索可能に(例:犬、食
事、山、etc)
 顔を認識して、名前で検索
 複数の画像をつなげてパノラマ生成
 画像の自動補正
http://...
ソーシャルメディアでの活用例
153
 Instagram
 様々なフィルタを施すことで、写真の見た目を格好良く加工
Rise
Original Toaster
Willow
http://www.instagram.com/
ソーシャルメディアでの活用例
154
 Snapchat
 顔の目、鼻、口などの器官を認識し、デコレーションすることで、
チャットを楽しく
http://www.snapchat.com
拡張現実感(Augmented Reality)
155
 “拡張現実は[中略]、その時周囲を取り巻く現実環境に
情報を付加・削除・強調・減衰させ、文字通り人間から見
た現実世界を拡張するものを指す”(Wikipediaより)
http://...
拡張現実感(Augmented Reality)
156
 “拡張現実は[中略]、その時周囲を取り巻く現実環境に
情報を付加・削除・強調・減衰させ、文字通り人間から見
た現実世界を拡張するものを指す”(Wikipediaより)
Microso...
拡張現実感(Augmented Reality)
157
ARの実現方法:
 GPSと電子コンパス
 一般物体検出
 人姿勢推定
 ARマーカー
 自然画像マーカー
 カメラを使ったSLAM
 距離センサーを使ったSLAM
拡張現実感(Augmented Reality)
158
 GPSと電子コンパス
 実現が容易
 現実世界に仮想世界の情報を重ね合わせた時、揺らぎが大
きい
セカイカメラ (2014年1月サービス終了)
画像は頓智・広報ブログより引用
h...
拡張現実感(Augmented Reality)
159
 一般物体検出
 顔検出、顔器官検出、顔認証などを使用し、人の顔をデコ
レーションしたり、タグを可視化する
 顔以外に手のひらなどを認識するものもある
MSQRD Snapchat...
拡張現実感(Augmented Reality)
160
 人姿勢推定
 人物のとっているポーズを推定し、重畳表示
 Kinectに同梱されている姿勢推定機能を使うのが一般的
Kinectで取得したデプスから姿勢推定
[Shotton20...
拡張現実感(Augmented Reality)
161
 ARマーカー
 専用のマーカーを印刷し、そのマーカーのカメラからの三次
元的な位置を求め、重畳表示
ARマーカーの例
AR Toolkit
http://artoolkit.org/
拡張現実感(Augmented Reality)
162
 自然画像マーカー
 事前に登録した画像とのマッチングを行うことで、任意の画像
をマーカーとして使用する。
マーカーの例
OpenCV Markerless AR
http://gi...
拡張現実感(Augmented Reality)
163
 カメラを使ったSLAM
 Simultaneous Localization and Mapping (SLAM)とは、カメラ位
置の推定と、周辺の地図作製を同時に行う一連の手法
...
拡張現実感(Augmented Reality)
164
 カメラを使ったSLAMの例
 Parallel Tracking and Mapping (PTAM) [Klein2007]
 特徴点を使用したSLAM
 https://w...
拡張現実感(Augmented Reality)
165
 点群を使ったSLAM
 Kinectのような距離センサーで取得した点群を用いたSLAM
 Visual SLAMと比べてテクスチャーの少ない環境でも使用でき
る
Structur...
拡張現実感(Augmented Reality)
166
 点群を使ったSLAMの例
 KinectFusion [Newcombe2011b]
 空間をボクセルに分割し、デプスデータからどのボクセルが埋まって
いるかを判定することで空間...
参考文献
167
 [Engel2014] Engel, J., Schops, T., & Cremers, D. (2014). LSD-
SLAM: Large-Scale Direct monocular SLAM. In Europ...
参考文献
168
 [Newcombe2015] Newcombe, R. a, Fox, D., & Seitz, S. M. (2015).
DynamicFusion: Reconstruction and Tracking of No...
運転サポート/自動運転での活用例
169
 自動運転車はセンサーの塊
 GPS、LiDAR,、レーダー、ステレオカメラ、ロータリーエンコー
ダ、etc
 参考:センサーで見ている世界 (7:40くらいから)
 https://www.y...
運転サポート/自動運転での活用例
170
 LiDAR (Light Detection and Ranging)
 レーザーが周辺物に反射して戻ってくるまでの時間(または位相)を
見ることで、点群データとして距離を取得
[Teichman...
運転サポート/自動運転での活用例
171
 レーダー
 反射率の大きい物体までの距離を測定
 水平方向のみ。垂直方向の情報は取れない。
 ドップラー効果で相対速度も算出加納
 LiDARより精度は劣り、範囲も狭いが、測定距離が長く悪天...
運転サポート/自動運転での活用例
172
 ステレオカメラ
 三角測量の原理で距離測定
 前方または周囲の環境や物体を認識
A
カメラ1の撮影画像
2つの直線O1A’1/O2A’2の交点
カメラ1の焦点O1 カメラ2の焦点O2
A’1 A...
運転サポート/自動運転での活用例
173
これらのセンサーの情報を統合することで
 自己位置の推定
 周辺環境の理解
 予測
 行動の決定
を行う。
以下、コンピュータビジョンの応用例をいくつか紹介
運転サポート/自動運転での活用例
174
 自己位置推定
 正確な自己位置と時間変化を画像や点群から推定
 カメラや点群からのSLAM
 画像から取得したレーンの情報や他のセンサー情報を用いて
確率的に自己位置を推定
 カルマンフィル...
運転サポート/自動運転での活用例
175
 距離測定
 ステレオカメラを用いた場合、レーザー系のセンサーよりも密な距
離情報を得ることが可能
 衝突防止に応用可
 例:スバル「アイサイト」(http://www.subaru.jp/ey...
運転サポート/自動運転での活用例
176
 レーン/信号機/道路標識の認識
信号機 [Wang2011]
道路標識 [Sermanet2011]
レーン(画像から) [Time2008]
レーン(LiDARから) [Kammel2008]
運転サポート/自動運転での活用例
177
 車両/歩行者/自転車/バイク等の認識
時系列LiDARデータでの識別
[Teichman2011]
画像から検出 [Huval2015]
時系列距離情報および画像から領域分割
[Scharwaech...
参考文献
178
 [Banz2010] Banz, C., Hesselbarth, S., Flatt, H., Blume, H., & Pirsch,
P. (2010). Real-time stereo vision system...
参考文献
179
 [Sermanet2011] Sermanet, P., & LeCun, Y. (2011). Traffic Sign
Recognition with Multi-Scale Convolutional Networ...
180
ライブラリ/API
の紹介
オープンソースソフトウェア
181
コンピュータビジョン全般
 OpenCV
 定番C++ライブラリ。画像処理全般、物体検出、三次元復元、機械学習、動画像処理など
広範囲な基本アルゴリズムが実装されている。
 http://opencv....
オープンソースソフトウェア
182
点群処理全般
 Point Cloud Library
 ロボットの分野でも多く使われている点群処理全般のアルゴ
リズムが実装された定番ライブラリ。
 http://pointclouds.org/
人...
オープンソースソフトウェア
183
文字認識
 TessearctOCR
 C++文字認識実装。英語以外の様々な言語をサポート。
 https://github.com/tesseract-ocr
三次元画像処理
 OpenMVG
 ...
オープンソースソフトウェア
184
三次元画像処理(ワシントン大学提供)
 Bundler
 バンドル調整によってStructure-from-Motionを行うためのコード。
 http://phototour.cs.washingto...
オープンソースソフトウェア
185
物体追跡
 BGSLibrary
 物体追跡で良く使用される背景差分について、様々なアルゴ
リズムを実装したライブラリ。GUIあり。
 https://github.com/andrewssobral/...
オープンソースソフトウェア
186
拡張現実感
 AR Toolkit
 最も有名なARソフトウェア。ARマーカーだけでなく、自然特徴点の
マーカーもサポートされるようになった。
 http://artoolkit.org/
 PTAM...
オープンソースソフトウェア
187
深層学習(Deep Learning)
各社が独自のフレームワークを出している。
 Caffe
 カリフォルニア大学バークレー校
 http://caffe.berkeleyvision.org/
 ...
オープンソースソフトウェア
188
深層学習(Deep Learning)
 Torch
 Facebook
 http://torch.ch/
 CNTK
 Microsoft
 https://www.cntk.ai/
 DS...
オープンソースソフトウェア
189
深層学習の物体検出
 R-CNN
 https://github.com/rbgirshick/rcnn
 Fast R-CNN
 https://github.com/rbgirshick/fast...
商用ライブラリ
190
 Qualcomm FastCV
 ARM用コンピュータビジョンSDK。モバイル端末での開発用。
ジェスチャー、顔認識、文字認識、拡張現実感など。
 https://developer.qualcomm.com/s...
商用ライブラリ
191
 OMRON, OKAO Vision
 顔検出,顔認証,顔器官検出,顔属性判定(年齢、性別、表情、笑
顔),人検出,ペット検出(犬、猫),ハンドジェスチャー、シーン認識
(一般物体認識)、被写体認識(顕著性検出)
...
商用ライブラリ
192
 PUX, FaceU,
 顔検出,顔認証,顔器官検出,顔属性判定(年齢、性別、笑顔),
ペット検出(犬、猫、小鳥),ジェスチャー/ハンドジェスチャー
 http://www.pux.co.jp/softsenso...
商用ライブラリ
193
 Sony SmartAR SDK
 自然画像マーカーの他にSLAMベースのARも使用可能。
 https://www.sonydna.com/sdna/solution/SmartAR_SDK.html
 Wi...
Web API
194
 Google Cloud Vision API
 一般物体認識、顔検出、表情認識、ロゴ、ランドマーク、有害
コンテンツ、文字認識
 https://cloud.google.com/vision/
 Micro...
Web API
195
 PUX Developers Site
 顔検出、顔認識(認証)、オブジェクト認識(特定物体認識)、
オンライン手書き文字認識
 http://pux.co.jp/api_sdk/
 ゼータ・ブリッジ, フォト...
Upcoming SlideShare
Loading in …5
×

20160525はじめてのコンピュータビジョン

7,987 views

Published on

2016年5月25日開催した「はじめてのコンピュータビジョン ~画像認識の仕組みとビジネス事例~」というセミナーで使用した資料です(一部割愛)。

Published in: Technology
  • Be the first to comment

20160525はじめてのコンピュータビジョン

  1. 1. 2016/05/25 情報機構セミナー はじめてのコンピュータビジョン 「画像認識の仕組みとビジネス事例」 ビジョン&ITラボ 皆川卓也
  2. 2. この講演の目的 2  はじめての方や技術者以外の方に「コンピュータビジョンで何 ができるのか」の全体像をご理解いただく。  コンピュータビジョンの基本的な仕組みを理解していただく。  数式は一切出てきません。  コンピュータビジョンを使ったビジネスのイメージをつけていた だく。  IoT時代におけるコンピュータビジョンの役割について解説いたしま す。  ソーシャルメディア、拡張現実感(AR)、自動運転などの事例を紹介 いたします。  実際に利用するにあたって、便利なライブラリや商用サービスなど を紹介いたします。 注意: 短い時間時間で全体を理解してもらうため、様々な説明を省略しています。実際 のビジネスにあたっては参考文献の論文等もご参照ください。
  3. 3. 自己紹介 3 テクニカル・ソリューション・アーキテクト 皆川 卓也(みながわ たくや) フリーエンジニア(ビジョン&ITラボ) 「コンピュータビジョン勉強会@関東」主催 博士(工学) http://visitlab.jp 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、2014年に博士号取得 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
  4. 4. 講演の内容 4  なぜ今コンピュータビジョンなのか(割愛)  コンピュータビジョンでできること  コンピュータビジョンの仕組み  コンピュータビジョンの活用例  ライブラリ/APIの紹介
  5. 5. 5 コンピュータビジョン でできること
  6. 6. コンピュータビジョンでできること 6 1. 人や顔の認識 2. 何がどこに写っているかの認識 3. 三次元空間を把握 4. 動画から人の動作や物の動きを認識 5. 画像の加工/品質向上
  7. 7. 人や顔を認識する 7  顔を認識する  顔検出  顔認証  顔器官検出  顔属性判定  人を認識する  人物検出  姿勢推定  その他  ペット認識
  8. 8. 顔検出 8  顔が画像のどこにあるのかを判定する。
  9. 9. 顔認証 9  写真に写っている人物が「誰か」を判定する。  例:[Turk1991], [Wiskott1997], [Taigman2014],[Belhumeur1997] Natalie Portman Jean Reno
  10. 10. 顔器官検出 10  目、鼻、口、輪郭など、顔の詳細パーツを抽出する。  顔向き推定、視線推定、目/口の開き、メガネの有無判定なども Credit:[Cao2012]
  11. 11. 顔属性判定 11  性別、表情、年齢などを判定する。 OKAO Visionのサイト[http://plus- sensing.omron.co.jp/technology/detail/] より画像転載
  12. 12. 人検出 12  画像から人の位置を検出する
  13. 13. 人姿勢推定 13  画像から人物の姿勢を推定する。 Credit:[Toshev2014]
  14. 14. ペット検出 14  画像からペットの顔を検出する OKAO Visionのサイト[http://plus-sensing.omron.co.jp/technology/movie/]より 画像転載
  15. 15. ビジネス事例(顔検出) 15  デジタルカメラのオートフォーカス  Amazon Fire Phoneの3次元IF  Google Street View  プライバシー保護目的 Nikon COOLPIX 5900
  16. 16. ビジネス事例(顔認証) 16  出会い系/結婚紹介サイトの好みの顔検索  http://internetcom.jp/webtech/20131220/3.html  http://www.gizmodo.jp/2014/06/matchcom.html  自分が有名人の誰に似てるかを判別するエンタメサイト  顔ちぇき! (2013年1月サービス終了)  CelebsLike.Me  http://www.celebslike.me/
  17. 17. ビジネス事例(顔認証) 17  ライブの入場者確認  http://trendy.nikkeibp.co.jp/atcl/pickup/15/1008498/040800 231  顔認証付きホーム用ネットワークカメラ  netatmo “Welcome”  https://www.netatmo.com/ja-JP/product/camera
  18. 18. ビジネス事例(顔器官検出) 18  アバター(ゲーム等)  SOEmote https://www.youtube.com/watch?v=cde01HNKQVw  プリクラ(美顔、デカ目) バンダイナムコゲームス「Eye mix」
  19. 19. ビジネス事例(顔属性判定) 19  スマイルシャッター(ソニー サイバーショット)  http://www.sony.jp/ServiceArea/impdf/pdf/44329430M.w- JP/jp/contents/04/02/11/11.html  笑っただけ払えば良いコメディ劇場  http://kyouki.hatenablog.com/entry/2014/06/12/064138  タバコ自販機による年齢確認  http://ja.wikipedia.org/wiki/成人識別自動販売機  自販機における自動商品推薦機能  http://www.itmedia.co.jp/news/articles/1008/10/news080.ht ml
  20. 20. ビジネス事例(ペット認識) 20  デジタルカメラのペット検出オートーフォーカス  FinePix Z700EXR、Optio I-10、CX3  猫の顔認識つき給餌期  CatFi (http://catfi.com/)  迷子のペット探し  PiP (http://www.petrecognition.com/) PiP CatFi Pro
  21. 21. 参考文献 21  [Belhumeur1997] Belhumeur, P. N., Hespanha, J. P., & Kriegman, D. J. (1997). Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection. IEEE Transaction on Pattern Analysis and Machine Intelligence, 19(7), 711–720.  [Cao2012]Cao, X., Wei, Y., Wen, F., & Sun, J. (2012). Face Alignment by Explicit Shape Regression. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).  [Taigman2014] Taigman, Y., Ranzato, M. A., & Wolf, L. (2014). DeepFace: Closing the Gap to Human-Level Performance in Face Verification. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).  [Toshev2014] Toshev, A., & Szegedy, C. (2014). DeepPose: Human pose estimation via deep neural networks. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).  [Turk1991] Turk, M., & Pentland, A. (1991). Eigenfaces for Recognition. Journal of Cognitive Neuroscienceo, 3(1), 71–86.  [Wiskott1997] Wiskott, L., Fellous, J.-M., Kruger, N., & Malsburg, C. von der. (1997). Face recognition by elastic bunch graph matching. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(7), 775–779.
  22. 22. 色々な物体を認識 22  特定物体認識  一般物体認識  一般物体検出  顕著性検出  Objectness検出  文字認識
  23. 23. 特定物体認識 23  画像から事前に登録した画像と同一の物体を認識する。  パンフレット/パッケージ/ランドマークなど コンピュータビジョン 最先端ガイド1 カメラで撮影 認識!
  24. 24. 一般物体認識 24  画像に写っている物体のカテゴリを判別する 飛行機 顔 自動車 入力 画像 出力 カテゴリ認識
  25. 25. 一般物体認識(詳細画像識別) 25  あるカテゴリ内のサブカテゴリを認識する  犬種:チワワ、プードル、シベリアンハスキー、ドーベルマン等  車種:アクセラ、スカイライン、ヴィッツ等 Scarlet Kingfisher African daisy Flower
  26. 26. 一般物体検出 26  自動車、人、ボトル、牛、など一般的な物体の位置を画 像から見つける。  顔検出、人検出も一般物体検出に含まれる。 顔 歩行者 車
  27. 27. 顕著性検出 27  画像の中で「目立つ」ところを探す。  元々は人間が目立つ箇所に無意識に注意が向く仕組み(ボト ムアップ注意)をモデル化したもの [木村2012]プレゼン資料より抜粋
  28. 28. Selective Search/Objectness検出 28  画像から物体っぽいものを検出する。(それがどんな物 体かまでは判別しない。)  一般物体検出の前処理として使われる。 Credit: [Cheng2014]
  29. 29. 文字検出/認識 29  画像中の文字領域を検出する  画像中の文字を認識する  例:[LeCun1998] あ い う
  30. 30. ビジネス事例(特定物体認識) 30  Google Goggles(ランドマークや書籍などの認識)  Amazon Fire Phone (書籍やCDジャケット等)  マーケティング/販促  TSUTAYA DVDジャケット撮影で作品情報提供  http://www.nikkei.com/article/DGXNASDD0301Y_T00C13A8TJC000/  楽天 スマホで撮った商品を自動検索  http://www.nikkei.com/article/DGXNASDD180LC_Y3A710C1TJ1000/ Google Goggles (Google)
  31. 31. ビジネス事例(一般物体認識) 31  画像の自動整理/タグ付け  Adobe Element Organizer “Smart Tag”  https://blogs.adobe.com/digitalmarketing/tag/smart-tags/  食事画像認識によるカロリー管理  FoodLog(http://www.foodlog.jp/)  バーコードいらずのレジ  BakerlyScan, http://www.bakeryscan.com/  食パン識別
  32. 32. ビジネス事例(詳細画像識別) 32  Pl@ntNet  http://m.plantnet-project.org/  植物識別アプリ  Leaf snap  http://leafsnap.com/  植物識別アプリ[Kumar2012]  Bird snap  http://birdsnap.com  鳥識別アプリ[Berg2014]
  33. 33. ビジネス事例(顕著性検出) 33  Bing画像検索 [Wang2012]  http://www.bing.com/?scope=images  検索フィルタ(色)  背景の色を無視して対象の色を元に検索できる。(花など)  http://blogs.bing.com/search/2012/06/21/bing-image-search- updates-roll-out-today/
  34. 34. ビジネス事例(文字検出/認識)  Evernote  画像中の文字を認識してIndex化。検索に利用  Google Goggles  ナンバープレート認識  Word Lens  https://www.youtube.com/watch?v=h2OfQdYrHRs  Googleが買収済み 34
  35. 35. 参考文献 35  [Berg2014] Berg, T., Liu, J., Lee, S. W., Alexander, M. L., Jacobs, D. W., & Belhumeur, P. N. (2014). Birdsnap: Large-scale Fine-grained Visual Categorization of Birds. In IEEE conference on Computer Vision and Pattern Recognition (CVPR).  [Cheng2014] Cheng, M.-M., Zhang, Z., Lin, W.-Y., & Torr, P. (2014). BING : Binarized Normed Gradients for Objectness Estimation at 300fps. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).  [Kumar2012] Kumar, N., Belhumeur, P. N., Biswas, A., Jacobs, D. W., Kress, W. J., Lopez, I., & Soares, J. V. B. (2012). Leafsnap: A Computer Vision System for Automatic Plant Species Identification. In European Conference on Computer Vision.  [LeCun1998]LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. In Proceedings of the IEEE (pp. 2278–2324).
  36. 36. 参考文献 36  [Wang2012] Wang, P., Wang, J., Zeng, G., Feng, J., Zha, H., & Li, S. (2012). Salient object detection for searched web images via global saliency. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).  [木村2012]木村昭悟, 米谷竜, 平山高嗣. (2012). “[サーベイ 論文]人間の視覚的注意の計算モデル”, 電気情報通信学会 技術報告
  37. 37. 三次元空間の把握 37  動画から三次元モデルを復元  大量の画像から三次元モデルを復元  プロジェクタとカメラから三次元モデルを復元  物体の陰影から三次元モデルを復元  二次元画像から三次元モデルを復元  二枚以上の画像から中間視点の画像を生成
  38. 38. 動画から三次元モデルを復元 38  ビデオなど連続した画像群から撮影対象を三次元復元 Credit: [Pan2009] https://www.youtube.com/watch?v=vEOmzjImsVc
  39. 39. 画像を集めて三次元モデルを復元する 39  Flickr等の写真共有サイトには観光地などの写真が大量 に集まる。それらを使用して観光地の三次元モデルを構 築する。 Credit:[Frahm2010]
  40. 40. 画像を集めて三次元モデルを復元する 40  代表的なプロジェクト(リンク先にデモ動画等あり)  Photo Tourism[Snavely2006]  http://phototour.cs.washington.edu/  Building Rome in a Day[Agarwal2009]  http://grail.cs.washington.edu/rome/  Building Rome on a cloudless day [Frahm2010]  https://www.youtube.com/watch?v=4cEQZreQ2zQ
  41. 41. プロジェクタとカメラから三次元復元 41  一台のプロジェクタから既知のパターン(structured light)を物体に対して照射し、それをカメラで撮影するこ とで、三角測量の原理から物体の三次元形状を求める ことができる。 Credit: [Narasimhan2008]
  42. 42. 物体の陰影から三次元復元 42  光源の位置とカメラの位置、物体の陰影から、物体の表 面の法線方向を求めることで形状を復元する。  Shape from Shading  照度差ステレオ 照度差ステレオ [松下2011]
  43. 43. 二次元の画像から三次元モデル生成 43  1枚の入力画像から三次元的なボリュームを推定する。 [Blanz1999] 1枚の顔画像から3次元復元 [Hoiem2005] 1枚の風景画像から3次元復元
  44. 44. 二次元の画像から三次元モデル生成 44  代表的な手法(プロジェクトページヘのリンク)  3D Morphable Model [Blanz2005]  デモ動画あり  http://gravis.cs.unibas.ch/Sigg99.html  Automatic Photo Pop-up [Hoiem2005]  デモ動画、Matlabコードあり  http://www.cs.uiuc.edu/~dhoiem/projects/popup/  Make3D [Saxena2008]  デモ動画、コード(Matlab/C++)あり  http://make3d.cs.cornell.edu/
  45. 45. 中間視点の画像を生成 45  2つの視点の異なる画像から、中間の視点から見た画 像を生成する。(View Morphing [Seitz1996]) プロジェクトページ(動画あり) http://www.cs.cmu.edu/~seitz/vmorph/vmorph.html
  46. 46. ビジネス事例(中間視点の画像生成) 46  Microsoft Photosynth  http://photosynth.net/
  47. 47. 二次元の画像から三次元モデル生成 47  モーションポートレート  http://www.motionportrait.com/  https://www.youtube.com/watch?v=P-mBdV3icMY
  48. 48. 参考文献 48  [Agarwal2009] Agarwal, S., Snavely, N., Simon, I., Seitz, S. M., & Szeliski, R. (2009). Building Rome in a day. In International Conference on Computer Vision (pp. 72–79).  [Blanz1999] Blanz, V., & Vetter, T. (1999). A morphable model for the synthesis of 3D faces. In Conference on Computer Graphics and Interactive Techniques (SIGGRAPH) (pp. 187–194).  [Frahm2010] Frahm, J., Fite-georgel, P., Gallup, D., Johnson, T., Raguram, R., Wu, C., … Pollefeys, M. (2010). Building Rome on a Cloudless Day. In European Conference on Computer Vision (pp. 368–381).  [Hoiem2005]Hoiem, D., & Efros, A. A. (2005). Automatic photo pop-up. In Conference on Computer Graphics and Interactive Techniques (SIGGRAPH).  [Narasimhan2008] Narasimhan, S. G., Koppal, S. J., & Yamazaki, S. (2008). Temporal Dithering of Illumination. In European Conference on Computer Vision (pp. 830–844).
  49. 49. 参考文献 49  [Pan2009] Pan, Q., Reitmayr, G., & Drummond, T. (2009). ProFORMA: Probabilistic Feature-based On-line Rapid Model Acquisition. Procedings of the British Machine Vision Conference 2009, (c), 112.1–112.11.  [Saxena2008]Saxena, A., Sun, M., & Ng, A. Y. (2008). Make3D: Depth Perception from a Single Still Image. In AAAI national conference on Artificial intelligence (pp. 1571–1576).  [Seitz1996]Seitz, S. M., & Dyer, C. R. (1996). View morphing. Conference on Computer Graphics and Interactive Techniques (SIGGRAPH).  [Snavely2006]Snavely, N., Seitz, S. M., & Szeliski, R. (2006). Photo tourism: exploring photo collections in 3D. In Conference on Computer Graphics and Interactive Techniques (SIGGRAPH).  [松下2011] 松下康之. (2011). 照度差ステレオ. 情報処理学会研究 報告. voi2011-CVIM-177. 29
  50. 50. 動画から人の動作や物の動きを認識 50  動画中の人の動作を認識する  動いている対象の追跡  スポーツシーンの解析  動画を短い動画へ要約する  手ぶれ補正
  51. 51. 動画中の人の動作を認識 51  動画中の人の動作をカテゴリ分類する UCF101 Action Recognition Dataset [Soomro2012] http://crcv.ucf.edu/data/UCF101.php Dense Trajectoriesによる行動識別 [Wang2013]
  52. 52. 動いている対象の追跡 52  人や自動車など、事前に学習した物体の追跡 人の追跡 車両の追跡 Credit:[Choi2015]
  53. 53. 動いている対象の追跡 53  任意物体の追跡  最初のフレームで指定した物体を追跡し続ける  追跡しながら学習する (Online Tracker) https://www.youtube.com/watch?v=1GhNXHCQGsM Credit:[Kalal2010] 第1フレーム
  54. 54. スポーツシーンの解析 54  サッカーやバスケットボールなど、人やボールの動きを 追跡して解析 Credit:[Hasegawa2015] Credit:[Lu2011]Credit:[Hamid2010]
  55. 55. 動画の自動要約 55  スポーツ動画のゴールシーンや盛り上がりのあるシーン を認識して切り出したり、ホームビデオから変化の乏しい シーンを除去する 例[Zhao2014]: https://www.youtube.com/watch?v=pkG3apELN_8 時間 動画 要約動画
  56. 56. 手ぶれ補正 56  動画の各フレームから最適な位置を切り取ることで手ぶ れを除去 https://www.youtube.com/watch?v=i5keG1Y810U 顔検出を用いて手ぶれ補正(上:元動画、下:手ぶれ補正) [Grundmann2011]
  57. 57. ビジネス事例(人の動作認識/追跡) 57  異常な人の動きを自動検知するシステム JR西日本  駅のホームで、歩行が乱れている人や長時間ベンチに座り込んで いる人、線路に降りる人などの検知  http://trafficnews.jp/post/45968/  http://www.gizmodo.jp/2015/08/jr_8.html  店舗内の人の動きを把握し、マーケティングデー取得  ABEJA  http://www.abeja.asia/#instoremove  Future Standard  http://jp.techcrunch.com/2016/01/21/futurestandard-secured-130m- yen/  歩行者、自転車、車の交通流計測  Placemeter (https://www.placemeter.com/)  http://jp.techcrunch.com/2015/09/24/placemeter-measures-retail- shop-conversion-rates/
  58. 58. ビジネス事例(スポーツシーン解析) 58  サッカー/テニス/クリケットなどの審判支援システム  HAWK-EYE  http://www.hawkeyeinnovations.co.uk/  バスケットボールの解析  STAT “SportVU”  http://www.nba.co.jp/nba/斎藤千尋コラム第1回sportvuのトラッキン グデータが広げる可能性/tn21uxm1ohfl1ua3ripghd4rq  http://www.stats.com/sportvu/sportvu-basketball-media/  フットサル映像分析  キヤノンがフットサル映像分析、アマスポーツも「見える化」  http://techon.nikkeibp.co.jp/atcl/news/15/110601042/
  59. 59. ビジネス事例(動画の自動要約) 59  ソニー ハンディカム  ハイライト再生  https://www.sony.jp/support/handycam/enjoy/movie/  HaiLyts  iPhone用動画要約アプリ  http://www.splyza.com/hailyts/ ハンディカム HaiLyts
  60. 60. ビジネス事例(ブレ補正) 60  Youtube  http://www.youtube.com  Windows Movie Maker  http://windows.microsoft.com/ja-jp/windows/movie-maker  ProDAD Mercalli  http://www.prodad.com/home/products/video_optimization,l- us.html  CyberLink PowerDirector  http://jp.cyberlink.com/products/powerdirector- ultra/features_ja_JP.html  Adobe AfterEffects “ワープスタビライザー”  https://helpx.adobe.com/jp/after-effects/how-to/stabilize- footage.html
  61. 61. 参考文献 61  [Choi2015] Choi, W. (2015). Near-Online Multi-Target Tracking With Aggregated Local Flow Descriptor. Proceedings of the IEEE International Conference on Computer Vision, 3029–3037.  [Grundmann2011] Grundmann, M., Kwatra, V., & Essa, I. (2011). Auto-directed video stabilization with robust L1 optimal camera paths. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, (1), 225–232.  [Hamid2010] Hamid, R., Kumar, R., Hodgins, J., & Essa, I. (2010). A Computational Framework for Sports Visualization using Multiple Static Cameras. In IEEE Conference on Computer Vision and Pattern Recognition (pp. 1–14).  [Hasegawa2015] Hasegawa, K. (2015). Stroboscopic Image Synthesis of Sports Player from Hand-Held Camera Sequence. In International Conference on Computer Vision Workshop.  [Kalal2010] Kalal, Z. (2010). P-N Learning : Bootstrapping Binary Classifiers by Structural Constraints. Constraints.
  62. 62. 参考文献 62  [Lu2011] Lu, W., Ting, J., Little, J. J., & Murphy, K. P. (2011). Learning to Track and Identify Players from Broadcast Sports Videos Shot segmentation, (December), 1–14.  [Soomro2012] Soomro, K., Zamir, A. R., & Shah, M. (2012). UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild. arXiv Preprint arXiv:1212.0402, (November).  [Wang2013] Wang, H., Kläser, A., Schmid, C., & Liu, C. L. (2013). Dense trajectories and motion boundary descriptors for action recognition. International Journal of Computer Vision, 103(1), 60–79.  [Zhao2014] Zhao, B., & Xing, E. P. (2014). Quasi Real-Time Summarization for Consumer Videos. In IEEE Conference on Computer Vision and Pattern Recognition.
  63. 63. 画像の加工/品質向上 63  フィルタによる画像加工  画質の品質を向上させる  画像から必要な物体だけ綺麗に切り抜く  画像同士を合成する  画像からいらない領域を取り除く  被写体を歪めずに画像をリサイズする
  64. 64. フィルタによる画像加工 64  Instagramのように画像に効果をつける処理 漫画カメラ http://tokyo.supersoftware.c o.jp/mangacamera/ Instagram http://instagram.com/ エンボス Rise Original Toaster Willow
  65. 65. 画像の品質を向上させる 65  ノイズ除去  ガウシアンフィルタ、メディアンフィルタ、バイラテラルフィルタ [Tomasi1998]、ノンローカルミーンフィルタ[Buades2005]、 BM3D[Dabov2007]、etc ノイズ画像 ガウシアンフィルタ バイラテラルフィルタ
  66. 66. 画像の品質を向上させる 66  画像を元々の解像度以上に拡大する。(超解像)  画像のボケを補正する。  動画(複数枚画像)を使用する方法[Farsiu2003][Mitzel2009]  1枚の画像から復元する方法[Freeman2002][Yang2008]
  67. 67. 画像から必要な物体だけきれいに切り抜く 67  物体の輪郭を求める  画像内を似た色や同じ物体同士で領域分割する  画像から前景を背景から分離する。 領域分割(Mean Shiftの例) 前景分離(Credit:[Rother2004])
  68. 68. 画像同士を合成する 68  背景画像に前景画像を「自然な形で」貼り合わせる Credit: [Pérez2003]
  69. 69. 画像同士を合成する 69  背景画像に前景画像を「自然な形で」貼り合わせる  応用例: フォトモンタージュ[Agarwala2004]  複数枚の画像から全員が笑って正面を向いている画像を合成 Credit:[Agarwala2004]
  70. 70. 画像同士を合成する 70  背景画像に前景画像を「自然な形で」貼り合わせる  応用例: Sketch2Photo[Chen2009]  ユーザがスケッチした画像をインターネット上の画像を用いて合成す る。 http://www.youtube.com/watch?v=dW1Epl2LdFM (デモ動画) http://www.mist.co.jp/product/sketch.html (製品) スケッチ 検索された画像 合成結果画像 Credit:[Chen2009]
  71. 71. 画像同士を合成する 71  複数の画像からパノラマ画像、あるいはより広範な画像 を生成する。  代表的な手法: Image Mosaicing, Image Stitching [Brown2003] Output: Input: Credit: [Brown2003]
  72. 72. 画像からいらない領域を切り取る 72  いらない領域を削除して、周辺の領域の情報から削除し た領域の穴埋めを行う。(Inpainting) credit:[Bertalmio2000] credit:[Criminisi2004]
  73. 73. 画像からいらない領域を切り取る 73  いらない領域を削除して、インターネット上の画像を使っ て削除した領域の穴埋めを行う。[Hays2007] Credit:[Hays2007] (a) (b) (c) (d) a. 原画像 b. 不要な領域の除去 c. 似た色と配置を持つ画像を検索 d. ユーザが選択した画像で除去した領域を補間
  74. 74. 被写体を歪めずに画像をリサイズする 74  画像の中の被写体を歪めることなく、画像の縦横比を気 にせずに自由に画像を拡大/縮小する(Retargeting)  代表的な手法:Seam Carving [Avidan2007]  デモ動画 https://www.youtube.com/watch?v=6NcIJXTlugc  ソフトウェア https://code.google.com/p/seam-carving-gui/ Credit:[Avidan2007] 通常の拡縮 Seam Carving
  75. 75. 画像のサイズ変更/穴埋め/加工を自然に行う 75  Structural Image Editing  変形したい箇所と類似するテクスチャを画像内から探索して、 穴埋め、再構成、サイズ変更を行う Credit:[Barnes2009]
  76. 76. ビジネス事例(画像処理全般) 76  Adobe Photoshop  http://www.adobe.com/jp/products/photoshop.html  定番の画像編集ソフトウェア  画像フィルタ―  画像の合成  余計な人物やオブジェクトの除去  etc
  77. 77. 参考文献 77  [Tomasi1998]Tomasi, C., & Manduchi, R. (1998). Bilateral filtering for gray and color images. International Conference on Computer Vision (CVPR).  [Buades2005]Buades, A., Coll, B., & Morel, J.-M. (2005). A non-local algorithm for image denoising. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).  [Dabov2007]Dabov, K., Foi, A., Katkovnik, V., & Egiazarian, K. (2007). Image denoising by sparse 3D transform-domain collaborative filtering. IEEE Transactions on Image Processing, 16(8), 2080–2095.  [Freeman2002]Freeman, W. T., Jones, T. R., & Pasztor, E. C. (2002). Example- based super-resolution. Computer Graphics and Applications, 22(2), 56–65.  [Farsiu2003] Farsiu, S., Robinson, D., Elad, M., & Milanfar, P. (2003). Fast and robust super-resolution. In IEEE International Conference on Image Processing.  [Mitzel2009] Mitzel, D., Pock, T., Schoenemann, T., & Cremers, D. (2009). Video Super Resolution using Duality Based TV-L Optical Flow. In DAGM symposium on Pattern Recognition (pp. 432–441).  [Yang2008]Yang, J., Wright, J., Ma, Y., & Huang, T. (2008). Image super-resolution as sparse representation of raw image patches. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
  78. 78. 参考文献 78  [Avidan2007]Avidan, S., & Shamir, A. (2007). Seam carving for content-aware image resizing. In Conference on Computer Graphics and Interactive Techniques (SIGGRAPH).  [Agarwala2004]Agarwala, A., Dontcheva, M., Agrawala, M., Drucker, S., Colburn, A., Curless, B., … Cohen, M. (2004). Interactive digital photomontage. In Conference on Computer Graphics and Interactive Techniques (SIGGRAPH) (Vol. 23).  [Barnes2009]Barnes, C., Shechtman, E., Finkelstein, A., & Goldman, D. B. (2009). PatchMatch: A randomized correspondence algorithm for structural image editing. In Conference on Computer Graphics and Interactive Techniques (SIGGRAPH).  [Bertalmio2000]Bertalmio, M., Guillermo, S., Caselles, V., & Ballester, C. (2000). Image inpainting. In Conference on Computer Graphics and Interactive Techniques (SIGGRAPH) (pp. 417–424).
  79. 79. 参考文献 79  [Brown2003]Brown, M., & Lowe, D. G. (2003). Recognising Panoramas. In International Conference on Computer Vision (CVPR).  [Chen2009]Chen, T., Cheng, M.-M., Tan, P., Shamir, A., & Hu, S.-M. (2009). Sketch2Photo: internet image montage. In Conference on Computer Graphics and Interactive Techniques (SIGGRAPH).  [Criminisi2004]Criminisi, A., Pérez, P., & Toyama, K. (2004). Region filling and object removal by exemplar-based image inpainting. IEEE Transactions on Image Processing : A Publication of the IEEE Signal Processing Society, 13(9), 1200–12.  [Hays2007]Hays, J., & Efros, A. A. (2007). Scene completion using millions of photographs. Conference on Computer Graphics and Interactive Techniques (SIGGRAPH).
  80. 80. 参考文献 80  [Pérez2003]Pérez, P., Gangnet, M., & Blake, A. (2003). Poisson image editing. In Conference on Computer Graphics and Interactive Techniques (SIGGRAPH).  [Rother2004]Rother, C., Kolmogorov, V., & Blake, A. (2004). Grabcut: Interactive foreground extraction using iterated graph cuts. In Conference on Computer Graphics and Interactive Techniques (SIGGRAPH).
  81. 81. 81 コンピュータビ ジョンの仕組み
  82. 82. コンピュータビジョンの仕組み 82  画像中の物体を認識する仕組み  深層学習(Deep Learning)の基礎  画像からの三次元モデル構築
  83. 83. 画像中の物体を認識する仕組み 83  認識の基本的な流れ  特定物体認識  SIFT特徴量  一般物体認識  Bags-of-Features  物体検出  Haar-like Features  HOG特徴
  84. 84. 学習 学習結果 データ 学習フェーズ 特徴量抽出 学習画像 学習画像 学習画像 認識 認識結果 認識フェーズ 特徴量抽出 入力画像 認識の基本的な流れ 84
  85. 85. 機械学習とは?  人間が自然に行っている学習能力と同様の機能をコン ピュータで実現させるための技術・手法のこと  事前にコンピュータにサンプルデータを与え、そのパターンを 統計的に抽出させる。 学習サンプル 学習結果 85
  86. 86. 画像特徴量とは? 86  画像を構成する画素の集合を「認識や識別のしやすい」 別のベクトルへ変換したもの  画像の様々な変形(拡大/縮小、回転、ずれ等)に強い 点(キーポイント)を検出し、そのキーポイント周辺から取 得する特徴量を特に局所特徴量と呼ぶ 画像特徴量入力画像 物体認識/検出
  87. 87. 局所特徴量の代表例 87  Scale Invariant Feature Transform (SIFT) [Lowe1999] 1. 画像のスケール変化や位置ずれに強いキーポイントを検出 スケール変化に弱い キーポイント 位置ずれに弱い キーポイント スケール変化と位置ずれ に強いキーポイント
  88. 88. 局所特徴量の代表例 88  Scale Invariant Feature Transform (SIFT) [Lowe1999] 1. 画像のスケール変化や位置ずれに強いキーポイントを検出 2. キーポイント周辺から画像の回転に強い特徴量を算出 Histogram of Gradient Orientations • 最も画像の濃度変化の大き い方向を軸とすることで、回 転不変性を実現 • キーポイント検出時に取得し たスケール情報を元に周辺 パッチのサイズを決定するこ とでスケール不変性を実現
  89. 89. 特定物体認識の仕組み 89  代表的な手法  SIFT等の局所特徴量+近似最近傍探索 [Lowe1999]  大規模なデータベースに対してはBag-of-Featuresを用いる [Sivic2003] Histogram of Gradient Orientations DB ・・・ x x x x x x x x x x x xx x x x xx x x マッチング+投票
  90. 90. 一般物体認識の特徴量の例 90  Bags-of-Features (BoF) [Csurka2004]  形状(Visual Words)の画像中に現れる頻度(ヒストグラム)を 特徴量とする Dictionary (Visual Words) 3 0 0 2 1 2 1 1 Histogram of visual words Image
  91. 91. 91 物体検出の仕組み 探索窓(Sliding Window)
  92. 92. 物体検出の特徴量(顔検出の例) 92  Haar-like特徴 [Viola2001]  白領域の画素の和から黒領域の画素の和を引くだけ  積分画像というテクニックとAdaBoostという機械学習アルゴリ ズムで非常に高速に計算できる plus minus
  93. 93. 物体検出の特徴量(人検出の例) 93  Histogram of Oriented Gradients (HOG) [Dalal2005]  画像の濃度変化方向について場所(Cell)ごとの統計を取ったもの  輪郭のような特徴が良くとれる  人以外の物体検出にも広く応用されている
  94. 94. 物体検出の特徴量(人検出他) 94  Deformable Part Model [Felzenszwalb2009]  HOG特徴を複数組み合わせることで、検出精度向上  HOG特徴を抽出する位置の歪みも含めてLatent SVMという 機械学習アルゴリズムで学習する Credit:[Felzenszwalb2009] Root filter Parts filter Deformation
  95. 95. 参考文献 95  [Csurka2004]Csurka, G., Dance, C. R., Fan, L., Willamowski, J., & Bray, C. (2004). Visual categorization with bags of keypoints. In Workshop on statistical learning in computer vision, ECCV (Vol. 1, p. 22).  [Dalal2005]Dalal, N., & Triggs, B. (2005). Histograms of Oriented Gradients for Human Detection. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).  [Felzenswalb2009]Felzenszwalb, P. F., Girshick, R. B., McAllester, D., & Ramanan, D. (2009). Object detection with discriminatively trained part-based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9), 1627–1645.  [Lowe1999]Lowe, D. G. (1999). Object recognition from local scale-invariant features. In IEEE International Conference on Computer Vision (pp. 1150–1157 vol.2).
  96. 96. 参考文献 96  [Sivic2003]Sivic, J., & Zisserman, A. (2003). Video Google: a text retrieval approach to object matching in videos. In IEEE Internatinal Conference on Computer Vision (CVPR).  [Viola2001]Viola, P., & Jones, M. (2001). Rapid object detection using a boosted cascade of simple features. IEEE International Conference on Computer Vision and Pattern Recognition (CVPR).
  97. 97. 深層学習 (Deep Learning) 97  深層学習の概要  畳み込みニューラルネットワーク  アプリケーション  一般物体認識  画像説明文生成  物体検出  画像自動生成
  98. 98. 深層学習の概要 98  ニューラルネットワークという機械学習アルゴリズムの階 層を深くしたもの ニューラルネットワーク 深層学習
  99. 99. 深層学習の概要 99  以下のような種類がある  畳み込みニューラルネットワーク  Deep Bolzmann Machines  Deep Belief Networks  etc  ここでは画像認識で最も多く用いられるDeep Convolutional Neural Networkを解説  一般的な特徴  画像特徴量自体を学習  高精度  計算量が多く、高速処理のためにGPUなどのハードウェアが必要  大量の学習データが必要
  100. 100. 深層学習の概要 100 学習 学習結果 データ 学習フェーズ 特徴量抽出 学習画像 学習画像 学習画像 認識 認識結果 認識フェーズ 特徴量抽出 入力画像 深層学習
  101. 101. 深層学習の概要  SIFTやHOGのような画 像特徴量を用いず、認 識に有効な特徴量を画 素から統計的に学習す る。  低レベル特徴から高レベ ル特徴までの階層構造。  低レベルな特徴ほど、 様々なタスクで共有可能 (Image from Lee. H in CVPR2012 Tutorial)
  102. 102. 畳み込みニューラルネットワーク 102  畳み込み層とプーリング層が交互に現れる  畳み込み層: 各位置で学習した特徴との類似度を計算  プーリング層: 位置ずれなどのわずかな違いを無視 ・ ・ ・ ・・・・・ 入力画像 出力 畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
  103. 103. 畳み込みニューラルネットワーク 103  畳み込み層とプーリング層が交互に現れる  畳み込み層: 各位置で学習した特徴との類似度を計算  プーリング層: 位置ずれなどのわずかな違いを無視 ・ ・ ・ ・・・・・ 入力画像 出力 畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
  104. 104. 畳み込みニューラルネットワーク 104  畳み込み層  各特徴毎の各場所での類似度を出力する 入力 画像 実際はRGBの3チャネルが使われる 出力A 特徴A 特徴B 出力B ・・・
  105. 105. 畳み込みニューラルネットワーク 105  畳み込み層とプーリング層が交互に現れる  畳み込み層: 各位置で学習した特徴との類似度を計算  プーリング層: 位置ずれなどのわずかな違いを無視 ・ ・ ・ ・・・・・ 入力画像 出力 畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
  106. 106. 畳み込みニューラルネットワーク 106  プーリング層  近傍の情報を統合して、情報に不変性を加える  Max Pooling、Lp Pooling、Average Poolingなどがある Max Poolingの例: 近傍領域のうち最大値を出力することで不変性を与える 畳み込み層 の出力A ・・・ ・・・ Max Max 畳み込み層 の出力B
  107. 107. 畳み込みニューラルネットワーク 107  畳み込み層とプーリング層が交互に現れる  畳み込み層: 各位置で学習した特徴との類似度を計算  プーリング層: 位置ずれなどのわずかな違いを無視 ・ ・ ・ ・・・・・ 入力画像 出力 畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
  108. 108. 畳み込みニューラルネットワーク 108  畳み込み層  各特徴毎の各場所での類似度を出力する 特徴Aの 類似度 出力C 特徴C 特徴Bの 類似度 ・ ・ ・ ・ ・ ・ 出力D 特徴D ・ ・ ・ ・・・
  109. 109. 畳み込みニューラルネットワーク 109  全結合層: 最後の認識(識別/回帰)を行う ・ ・ ・ ・・・・・ 入力画像 出力 畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
  110. 110. 畳み込みニューラルネットワーク 110  全結合層  最終層で全領域を使って認識を行う ・ ・ ・ ・・・
  111. 111. 畳み込みニューラルネットワークの学習 111  誤差逆伝播法 1. ネットワークに画像を入力し出力を得る 2. 出力と教師信号を比較し、誤差が小さくなる方向へ特徴を出 力層に近い方から順に更新していく ・ ・ ・ ・・・・・ 入力画像 出力 畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層
  112. 112. 畳み込みニューラルネットワークの学習 112  誤差逆伝播法 1. ネットワークに画像を入力し出力を得る 2. 出力と教師信号を比較し、誤差が小さくなる方向へ特徴を出 力層に近い方から順に更新していく ・・・・・ 入力画像 出力 畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層 ・ ・ ・
  113. 113. 畳み込みニューラルネットワークの学習 113  誤差逆伝播法 1. ネットワークに画像を入力し出力を得る 2. 出力と教師信号を比較し、誤差が小さくなる方向へ特徴を出 力層に近い方から順に更新していく ・ ・ ・ ・・・・・ 入力画像 出力 畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層 教師
  114. 114. 畳み込みニューラルネットワークの学習 114  誤差逆伝播法 1. ネットワークに画像を入力し出力を得る 2. 出力と教師信号を比較し、誤差が小さくなる方向へ特徴を出 力層に近い方から順に更新していく ・ ・ ・ ・・・・・ 入力画像 出力 畳み込み層 プーリング層 畳み込み層 プーリング層 全結合層 教師
  115. 115. アプリケーション:一般物体認識 115  IMAGENET Large Scale Visual Recognition Challenge (ILSVRC)  ImageNetという大規模画像データセットを使用した一般物体 認識、物体検出のコンテスト  ImageNet: 約1400万枚、約2万2000カテゴリ  ILSVRC2012において、深層学習を用いた手法が圧勝 [Deng2009]
  116. 116. アプリケーション:一般物体認識 Team name Error 1 Super Vision 0.15315 2 Super Vision 0.16422 3 ISI 0.26172 4 ISI 0.26602 5 ISI 0.26646 6 ISI 0.26952 7 OXFORD_VGG 0.26979 8 XRCE/INRIA 0.27058 Team name Error 1 Super Vision 0.335463 2 Super Vision 0.341905 3 OXFORD_VGG 0.500342 4 OXFORD_VGG 0.50139 5 OXFORD_VGG 0.522189 6 OXFORD_VGG 0.529482 7 ISI 0.536474 8 ISI 0.536546 識別 検出 ILSVRC2012の結果 http://www.image-net.org/challenges/LSVRC/2012/ 深層学習
  117. 117. アプリケーション:一般物体認識 117  性能を上げるために階層が深くなる傾向 Residual Net [He2015] 152層 GoogLeNet [Szegedy2014] 22層 VGG Net [Simonyan2014] 19層 Alex Net [Krizhevsky2012] 8層
  118. 118. アプリケーション:物体検出 118  R-CNN (Region with CNN feature) [Girshick2014]  畳み込みニューラルネットワーク(CNN)は計算量が高いので、探索 窓(Sliding Window)による検出は更に計算量高い  Selective Searchという手法を用いて物体候補領域を検出し、候補 領域上のみ処理することで計算量削減
  119. 119. アプリケーション:物体検出 119  Fast R-CNN [Girshick2015]  R-CNNでは物体候補領域を1つ1つCNNで判別していたため遅い (VGGを使用した場合、GPU込みで1枚47秒)  画像全体にCNNをかけて特徴マップを生成し、最後のプーリング層 を物体候補領域(ROI)に合わせて切り出す  R-CNNを検出時約213倍高速化
  120. 120. アプリケーション:物体検出(Faster R-CNN) 120  Faster R-CNN [Ren2015]  R-CNNおよびFast R-CNNではSelective Searchを用いて物体候補 領域を事前に求めておく必要。  Fast R-CNNのSelective Search部分をfeature map上で行うことで、 余計な処理を省き、高精度化/高速化(1枚当たり約200msec)。 → Region Proposal Network (RPN) この上(特徴マップ)で物体候 補領域検出を行う
  121. 121. アプリケーション:顔認証 121  例:Deep Face [Taigman2014]  顔検出+顔器官検出までは既存手法  顔画像を正面に向け、大きさを揃えた後、CNNで認証  人間と同等の識別性能
  122. 122. アプリケーション:領域分割 122  例:Fully Convolutional Network [Long2014]  ピクセルごとにラベル付けされた教師信号を与える  最終の全結合層をアップサンプリングした畳み込み層に置き換え
  123. 123. アプリケーション:超解像 123  例:SRCNN [Dong2014]  低解像度のパッチから生成した特徴マップと、高解像度パッ チとの変換をそれぞれ学習
  124. 124. アプリケーション:画像の説明文生成 124  例:Show and Tell [Vinyals2015]  1枚の画像から説明文を生成  機械翻訳で使用されるReccurent Neural Networks (RNN)の 入力部分をCNNで出力される特徴ベクトルへ置き換え
  125. 125. アプリケーション:画像生成 125  例:DC-GAN [Radford2015]  画像を作る生成器Gと実画像と生成画像を見分ける識別器D を交互に学習する(GAN)  GANに対してプーリング層を畳み込み層に置き換える等の 様々な工夫で画像がぼけないようにした。(Deep Convolutional GAN)
  126. 126. アプリケーション:白黒画像の色付け 126  例: Global and Local Image Priors for Automatic Image Colorization [Iizuka2016]  入力を白黒画像、教師をカラー画像とすることで、白黒画像を カラー画像へ変換するネットワークを構築  画像全体の特徴と局所的な特徴を統合して色付けネットワー クを学習
  127. 127. アプリケーション:ラフスケッチの線画化 127  例:Fully Convolutional Networks for Rough Sketch Cleanup [Simo-Serre2016]  入力をラフスケッチ、教師を線画として学習することで、ラフス ケッチを線画へ変換するネットワークを構築
  128. 128. 参考文献 128  [Deng2009] Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei- Fei, L. (2009). ImageNet: A large-scale hierarchical image database. 2009 IEEE Conference on Computer Vision and Pattern Recognition, 2–9.  [Dong2014] Dong, C., Loy, C. C., & He, K. (2014). Image Super- Resolution Using Deep Convolutional Networks. European Conference on Computer Vision, 8828(c)  [Girshick2014] Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In IEEE Conference on Computer Vision and Pattern Recognition.  [Girshick2015] Girshick, R. (2015). Fast R-CNN. International Conference on Computer Vision, 1440–1448.  [He2015] He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep Residual Learning for Image Recognition. arXiv Preprint arXiv:1512.03385, 7(3), 171–180.
  129. 129. 参考文献 129  [Iizuka2016] Iizuka, S., Simo-Serre, E., & Hiroshi, I. (2016). Let there be Color !: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification. In ACM Transactions on Graphics (SIGGRAPH),  [Krizhevsky2012]Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. In Advances in Neural Information Processing Systems (NIPS) (pp. 1106– 1114).  [Long2014] Long, J., Shelhamer, E., & Darrell, T. (2014). Fully Convolutional Networks for Semantic Segmentation. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 3431– 3440.  [Radford2015] Radford, A., Metz, L., & Chintala, S. (2015). Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. arXiv, 1–15.  [Ren2015] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. Advances in Neural Information Processing Systems (NIPS).
  130. 130. 参考文献 130  [Simonyan2014]Simonyan, K., & Zisserman, A. (2014). Very Deep Convolutional Networks for Large-Scale Image Recognition, 1–13. Computer Vision and Pattern Recognition.  [Simo-Serre2016] Simo-Serre, E., Iizuka, S., Kazuma, S., & Hiroshi, I. (2016). Learning to Simplify : Fully Convolutional Networks for Rough Sketch Cleanup. In ACM Transactions on Graphics (SIGGRAPH),  [Szegedy2014]Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., … Rabinovich, A. (2014). Going Deeper with Convolutions. arXiv Preprint arXiv:1409.4842, 1–12.  [Taigman2014] Taigman, Y., Ranzato, M. A., & Wolf, L. (2014). DeepFace: Closing the Gap to Human-Level Performance in Face Verification. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).  [Uijlings2013] Uijlings, J. R. R., Van De Sande, K. E. A., Gevers, T., & Smeulders, A. W. M. (2013). Selective search for object recognition. International Journal of Computer Vision, 104(2), 154–171.  [Vinyals2015] Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and Tell: A Neural Image Caption Generator. In IEEE Conference on Computer Vision and Pattern Recognition.
  131. 131. カメラの映像から三次元モデルを作る 131  カメラの基本的な仕組み  2台のカメラによる三次元認識  複数カメラによる三次元認識  Structure-from-Motion [岡谷2010]  詳細な三次元モデルの構築  Multi-View Stereo [古川2012]
  132. 132. A カメラ1の撮影画像 2つの直線O1A’1/O2A’2の交点 カメラ1の焦点O1 カメラ2の焦点O2 A’1 A’2 ステレオカメラの原理  点Aが2台のカメラのどこに見えたかがわかれば、三角 測量の原理で三次元的な位置が求まる  ただし、2つのカメラの位置関係等のパラメータがわかってい ること カメラ2の撮影画像
  133. 133. (余談)Kinectの仕組み 133  Kinect version1は三次元認識にステレオカメラの原理を 応用  プロジェクタから赤外線ドットパターン(Structured Light)を照 射  赤外線カメラ取得したパターンと照射パターンを比較し、歪み 具合で距離を算出 By User:Kolossos - Own work, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=14650888 赤外線プロジェクタ 赤外線カメラ 照射された赤外線パターン
  134. 134. カメラパラメータがわからない場合 134  カメラの位置関係等のパラメータが不明の時、各カメラの焦 点と対応点を結ぶ直線が交わるという条件を利用する カメラ1 カメラ2
  135. 135. カメラパラメータがわからない場合 135  カメラの位置関係等のパラメータが不明の時、各カメラの焦 点と対応点を結ぶ直線が交わるという条件を利用する →エピポーラ拘束 カメラ1 カメラ2 同一平面
  136. 136. カメラパラメータがわからない場合 136  最低でも8個の対応点を求めることで、カメラパラメータ とそれぞれの点の三次元座標を逆算できる 8つのエピポーラ拘束を 満たすパラメータを算出 カメラ1 カメラ2
  137. 137. Structure from Motion (SfM) 137  同じ対象を撮影した複数の画像(例えば動画)から、対 象の三次元形状を復元する
  138. 138. Structure from Motion (SfM) 138  同じ対象を撮影した複数の画像(例えば動画)から、対 象の三次元形状を復元する バンドル調整を用いて、複数のカメラの相対位置、焦点距 離、対象の三次元点座標を同時に推定する <バンドル調整> 測定結果とパラメータから誤差を計算し、誤差を小さくする方向にパ ラメータを調整していく
  139. 139. バンドル調整 139 1. 三次元点群とカメラパラメータの初期値を設定する 画像から見つけた点の 三次元座標の初期値カメラの位置と焦点距離 の初期値
  140. 140. バンドル調整 140 2. 三次元点群を各カメラの画像平面へ投影
  141. 141. バンドル調整 141 3. 投影された点と観測した点との誤差の総和を算出 投影された点 観測点 誤差
  142. 142. バンドル調整 142 4. 誤差が小さくなる方向へ特徴点の三次元座標とカメラ パラメータを調整 (収束するまで2から繰り返す)
  143. 143. Multi-View Stereo 143 SfMで求めた形状は、特徴点の 三次元位置のみ SfMで求めたカメラパラメータを元に各カメラか ら物体表面までの距離を画素ごとに算出(デプ スマップ) 全てのカメラのデプスマップを統合して 物体の形状を算出
  144. 144. Multi-View Stereo 144  カメラ1の画素Aのデプスをカメラ2から算出する例  カメラ1の焦点から画素Aへの視線(エピポーラ線)上をカメラ 2の画像から探索し、最も類似したテクスチャを求める。 カメラ1 カメラ2 Aのエピポーラ線 A d d 距離 類似度
  145. 145. Multi-View Stereo 145  各カメラから求めたデプスマップを統合して三次元モデ ルを生成
  146. 146. 三次元モデル構築の流れ(まとめ) 146 マッチング キーポイント 検出 学習画像 学習画像 入力画像 Multi View Stereo 三次元モデル Structure from Motion 学習画像 学習画像 対応点 学習画像 学習画像 カメラパラメータ
  147. 147. 参考文献 147  [岡谷2010] 岡谷貴之. (2010). コンピュータビジョン最先 端ガイド3 第1章バンドル調整. アドコムメディア. 1-32  [古川2012] 古川泰隆. (2012). コンピュータビジョン最先 端ガイド5 第2章複数画像からの三次元復元手法. アド コムメディア. 33-70
  148. 148. 148 コンピュータビ ジョンの活用例
  149. 149. コンピュータビジョンの活用例 149  ソーシャルメディア  拡張現実感 (Augmented Reality)  自動運転
  150. 150. ソーシャルメディアでの活用例 150 コンピュータビジョン  大量の画像/動画の整理/検索  よりリッチなコミュニケーション手段の提供 SNSなどのソーシャルメディア:  文字主体から画像/動画を駆使したコミュニケーションへ
  151. 151. ソーシャルメディアでの活用例 151  Facebook  投稿した写真に写っているのが誰かを自動で認識してタグ付 け  一緒に写っている友人へ手早く共有 (Moments) Facial tag Moments http://www.facebook.com
  152. 152. ソーシャルメディアでの活用例 152  Googleフォト  写真に写っている内容で写真を整理し検索可能に(例:犬、食 事、山、etc)  顔を認識して、名前で検索  複数の画像をつなげてパノラマ生成  画像の自動補正 http://photos.google.com/
  153. 153. ソーシャルメディアでの活用例 153  Instagram  様々なフィルタを施すことで、写真の見た目を格好良く加工 Rise Original Toaster Willow http://www.instagram.com/
  154. 154. ソーシャルメディアでの活用例 154  Snapchat  顔の目、鼻、口などの器官を認識し、デコレーションすることで、 チャットを楽しく http://www.snapchat.com
  155. 155. 拡張現実感(Augmented Reality) 155  “拡張現実は[中略]、その時周囲を取り巻く現実環境に 情報を付加・削除・強調・減衰させ、文字通り人間から見 た現実世界を拡張するものを指す”(Wikipediaより) http://www.magicleap.com
  156. 156. 拡張現実感(Augmented Reality) 156  “拡張現実は[中略]、その時周囲を取り巻く現実環境に 情報を付加・削除・強調・減衰させ、文字通り人間から見 た現実世界を拡張するものを指す”(Wikipediaより) Microsoft HoloLens https://www.microsoft.com/microsoft-hololens Google Project Tango https://www.google.com/atap/project-tango/
  157. 157. 拡張現実感(Augmented Reality) 157 ARの実現方法:  GPSと電子コンパス  一般物体検出  人姿勢推定  ARマーカー  自然画像マーカー  カメラを使ったSLAM  距離センサーを使ったSLAM
  158. 158. 拡張現実感(Augmented Reality) 158  GPSと電子コンパス  実現が容易  現実世界に仮想世界の情報を重ね合わせた時、揺らぎが大 きい セカイカメラ (2014年1月サービス終了) 画像は頓智・広報ブログより引用 http://pr.tonchidot.com/2011/05/blog-post_1088.html
  159. 159. 拡張現実感(Augmented Reality) 159  一般物体検出  顔検出、顔器官検出、顔認証などを使用し、人の顔をデコ レーションしたり、タグを可視化する  顔以外に手のひらなどを認識するものもある MSQRD Snapchat KDDI Satch Viewer http://viewer.satch.jphttp://www.snapchat.comhttp://msqrd.me
  160. 160. 拡張現実感(Augmented Reality) 160  人姿勢推定  人物のとっているポーズを推定し、重畳表示  Kinectに同梱されている姿勢推定機能を使うのが一般的 Kinectで取得したデプスから姿勢推定 [Shotton2011] Virtual Fittingの例(Fitnect) http://www.fitnect.hu/ https://www.youtube.com/watch?v=1jbvnk1T4vQ
  161. 161. 拡張現実感(Augmented Reality) 161  ARマーカー  専用のマーカーを印刷し、そのマーカーのカメラからの三次 元的な位置を求め、重畳表示 ARマーカーの例 AR Toolkit http://artoolkit.org/
  162. 162. 拡張現実感(Augmented Reality) 162  自然画像マーカー  事前に登録した画像とのマッチングを行うことで、任意の画像 をマーカーとして使用する。 マーカーの例 OpenCV Markerless AR http://github.com/takmin/OpenCV-Marker-less-AR
  163. 163. 拡張現実感(Augmented Reality) 163  カメラを使ったSLAM  Simultaneous Localization and Mapping (SLAM)とは、カメラ位 置の推定と、周辺の地図作製を同時に行う一連の手法  Structure-from-Motionは特にVisual SLAMとも呼ばれ、ARに 応用されている。  事前にマーカーの登録が不要。 Sony SmartAR https://www.sonydna.com/sdna/solution/SmartAR_SDK.html
  164. 164. 拡張現実感(Augmented Reality) 164  カメラを使ったSLAMの例  Parallel Tracking and Mapping (PTAM) [Klein2007]  特徴点を使用したSLAM  https://www.youtube.com/watch?v=Y9HMn6bd-v8  Dense Tracking and Mapping (DTAM) [Newcombe2011a]  画像の輝度を使用したSLAM  https://www.youtube.com/watch?v=Df9WhgibCQA  Large Scale Direct Monocular SLAM (LSD-SLAM) [Engel2014]  輝度勾配が大きい画素のみ使用したSLAM  https://www.youtube.com/watch?v=GnuQzP3gty4
  165. 165. 拡張現実感(Augmented Reality) 165  点群を使ったSLAM  Kinectのような距離センサーで取得した点群を用いたSLAM  Visual SLAMと比べてテクスチャーの少ない環境でも使用でき る Structure Sensor http://structure.io/
  166. 166. 拡張現実感(Augmented Reality) 166  点群を使ったSLAMの例  KinectFusion [Newcombe2011b]  空間をボクセルに分割し、デプスデータからどのボクセルが埋まって いるかを判定することで空間を把握。  自己位置はICPアルゴリズムという手法を用いて推定  https://www.youtube.com/watch?v=quGhaggn3cQ  DynamicFusion [Newcombe2015]  KinectFusionを動的なシーンへ拡張  https://www.youtube.com/watch?v=i1eZekcc_lM
  167. 167. 参考文献 167  [Engel2014] Engel, J., Schops, T., & Cremers, D. (2014). LSD- SLAM: Large-Scale Direct monocular SLAM. In European Conference on Computer Vision (pp. 834–849).  [Klein2007] Klein, G., & Murray, D. (2007). Parallel tracking and mapping for small AR workspaces. 2007 6th IEEE and ACM International Symposium on Mixed and Augmented Reality, ISMAR.  [Newcombe2011a] Newcombe, R. A., Lovegrove, S. J., & Davison, A. J. (2011). DTAM: Dense Tracking and Mapping in Real-Time. In International Conference on Computer Vision (pp. 2320–2327).  [Newcombe2011b] Newcombe, R. a., Davison, A. J., Izadi, S., Kohli, P., Hilliges, O., Shotton, J., … Fitzgibbon, A. (2011). KinectFusion: Real-time dense surface mapping and tracking. 2011 10th IEEE International Symposium on Mixed and Augmented Reality, 127– 136.
  168. 168. 参考文献 168  [Newcombe2015] Newcombe, R. a, Fox, D., & Seitz, S. M. (2015). DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 343–352.  [Shotton2011] Shotton, J., Fitzgibbon, A., Cook, M., Sharp, T., Finocchio, M., Moore, R., … Blake, A. (2011). Real-time human pose recognition in parts from single depth images. In IEEE Conference on Computer Vision and Pattern Recognition.
  169. 169. 運転サポート/自動運転での活用例 169  自動運転車はセンサーの塊  GPS、LiDAR,、レーダー、ステレオカメラ、ロータリーエンコー ダ、etc  参考:センサーで見ている世界 (7:40くらいから)  https://www.youtube.com/watch?v=tiwVMrTLUWg https://www.google.com/selfdrivingcar Toyota Motor Co.
  170. 170. 運転サポート/自動運転での活用例 170  LiDAR (Light Detection and Ranging)  レーザーが周辺物に反射して戻ってくるまでの時間(または位相)を 見ることで、点群データとして距離を取得 [Teichman2011] LIDARで取得した点群データ LiDAR
  171. 171. 運転サポート/自動運転での活用例 171  レーダー  反射率の大きい物体までの距離を測定  水平方向のみ。垂直方向の情報は取れない。  ドップラー効果で相対速度も算出加納  LiDARより精度は劣り、範囲も狭いが、測定距離が長く悪天 候にも強い レーダー Toyota Motor Co.
  172. 172. 運転サポート/自動運転での活用例 172  ステレオカメラ  三角測量の原理で距離測定  前方または周囲の環境や物体を認識 A カメラ1の撮影画像 2つの直線O1A’1/O2A’2の交点 カメラ1の焦点O1 カメラ2の焦点O2 A’1 A’2 カメラ2の撮影画像
  173. 173. 運転サポート/自動運転での活用例 173 これらのセンサーの情報を統合することで  自己位置の推定  周辺環境の理解  予測  行動の決定 を行う。 以下、コンピュータビジョンの応用例をいくつか紹介
  174. 174. 運転サポート/自動運転での活用例 174  自己位置推定  正確な自己位置と時間変化を画像や点群から推定  カメラや点群からのSLAM  画像から取得したレーンの情報や他のセンサー情報を用いて 確率的に自己位置を推定  カルマンフィルタやパーティクルフィルタを使用 [Ziegler2014] カメラ画像からのSLAM レーン位置からのSLAM
  175. 175. 運転サポート/自動運転での活用例 175  距離測定  ステレオカメラを用いた場合、レーザー系のセンサーよりも密な距 離情報を得ることが可能  衝突防止に応用可  例:スバル「アイサイト」(http://www.subaru.jp/eyesight/) [Banz2010]
  176. 176. 運転サポート/自動運転での活用例 176  レーン/信号機/道路標識の認識 信号機 [Wang2011] 道路標識 [Sermanet2011] レーン(画像から) [Time2008] レーン(LiDARから) [Kammel2008]
  177. 177. 運転サポート/自動運転での活用例 177  車両/歩行者/自転車/バイク等の認識 時系列LiDARデータでの識別 [Teichman2011] 画像から検出 [Huval2015] 時系列距離情報および画像から領域分割 [Scharwaechter2014]
  178. 178. 参考文献 178  [Banz2010] Banz, C., Hesselbarth, S., Flatt, H., Blume, H., & Pirsch, P. (2010). Real-time stereo vision system using semi-global matching disparity estimation: Architecture and FPGA- implementation. Proceedings - 2010 International Conference on Embedded Computer Systems: Architectures, Modeling and Simulation, IC-SAMOS 2010, 93–101.  [Huval2015] Huval, B., Wang, T., Tandon, S., Kiske, J., Song, W., Pazhayampallil, J., … Ng, A. Y. (2015). An Empirical Evaluation of Deep Learning on Highway Driving. arXiv, 1504.01716  [Kammel2008] Kammel, S., & Pitzer, B. (2008). Lidar-based lane marker detection and mapping. IEEE Intelligent Vehicles Symposium, 1137–1142.  [Scharwaechter2014] Scharwaechter, T., Enzweiler, M., Franke, U., & Roth, S. (2014). Stixmantics: A Medium-Level Model for Real- Time Semantic Scene Understanding. European Conference on Computer Vision, 8693, 533–548.
  179. 179. 参考文献 179  [Sermanet2011] Sermanet, P., & LeCun, Y. (2011). Traffic Sign Recognition with Multi-Scale Convolutional Networks. International Joint Conference on Neural Networks (IJCNN), 2809–2813.  [Teichman2011] Teichman, A., Levinson, J., & Thrun, S. (2011). Towards 3D object recognition via classification of arbitrary object tracks. Proceedings - IEEE International Conference on Robotics and Automation, 4034–4041.  [Time2008] Time, R., Detection, L., & Streets, U. (2008). Real Time Lane Detection in Urban Streets. In IEEE Intelligent Vehicles Symposium (pp. 7–12).  [Wang2011] Wang, C., Jin, T., Yang, M., & Wang, B. (2011). Robust and Real-Time Traffic Lights Recognition in Complex Urban Environments. International Journal of Computational Intelligence Systems, 4(6), 1383.  [Ziegler2014] Ziegler, J., Lategahn, H., Schreiber, M., Keller, C. G., Knöppel, C., Hipp, J., … Stiller, C. (2014). Video Based Localization for BERTHA. IEEE Intelligent Vehicles Symposium (IV), (Iv), 1231–1238.
  180. 180. 180 ライブラリ/API の紹介
  181. 181. オープンソースソフトウェア 181 コンピュータビジョン全般  OpenCV  定番C++ライブラリ。画像処理全般、物体検出、三次元復元、機械学習、動画像処理など 広範囲な基本アルゴリズムが実装されている。  http://opencv.org/  Dlib C++ Library  画像処理だけでなく線形代数、機械学習、データ圧縮など様々なアルゴリズムが実装さ れたライブラリ。物体追跡や顔/物体検出、顔器官検出、Selective Searchなどのアプリ ケーションよりの実装が豊富。  http://dlib.net  VLFeat  特定物体認識、一般物体認識、一般物体検出のための特徴量(SIFT、HOG、Fisher Vector、 VLAD等)やアルゴリズム(k-mean, GMM, kd-tree, SVM等)。一般物体認識のサンプルアプリケー ションあり  http://www.vlfeat.org/  SimpleCV  OpenCVや数値計算ライブラリをPythonでラップし、シンプルな関数で使えるようにしたも の。  http://simplecv.org/
  182. 182. オープンソースソフトウェア 182 点群処理全般  Point Cloud Library  ロボットの分野でも多く使われている点群処理全般のアルゴ リズムが実装された定番ライブラリ。  http://pointclouds.org/ 人/物体検出  ccv  画像の局所特徴量と物体検出用のコードが充実したライブラ リ。Deformable Part ModelとIntegral Channel Featuresの実 装がある。  http://libccv.org/
  183. 183. オープンソースソフトウェア 183 文字認識  TessearctOCR  C++文字認識実装。英語以外の様々な言語をサポート。  https://github.com/tesseract-ocr 三次元画像処理  OpenMVG  Structure-from-Motion等三次元画像処理に必要な関数を実 装したライブラリ。テストとコードの読みやすさを重視して開発。  https://github.com/openMVG/openMVG
  184. 184. オープンソースソフトウェア 184 三次元画像処理(ワシントン大学提供)  Bundler  バンドル調整によってStructure-from-Motionを行うためのコード。  http://phototour.cs.washington.edu/bundler/  Multicore Bundle Adjustment  バンドル調整をマルチコア、GPU上で計算できるようにしたソフトウェア  http://grail.cs.washington.edu/projects/mcba/  Patch-based Multi-view Stereo Software  Multi-view Stereoのソフトウェア。入力として画像+キャリブレーション データを与えると密な3次元モデルを生成してくれる。ソフトウェア自体 は以下のCMVSへと統合された。  Clustering Views for Multi-view Stereo (CMVS)  SfMソフトからの出力を元に画像をクラスタリングして、MVSソフトへの 入力を効率化してくれる。  http://www.di.ens.fr/cmvs/
  185. 185. オープンソースソフトウェア 185 物体追跡  BGSLibrary  物体追跡で良く使用される背景差分について、様々なアルゴ リズムを実装したライブラリ。GUIあり。  https://github.com/andrewssobral/bgslibrary 領域分割  Insight Segmentation and Registration Toolkit (ITK)  主に医療系で使うことを目的とした画像の領域分割や位置合 わせのためのライブラリ。  https://itk.org/
  186. 186. オープンソースソフトウェア 186 拡張現実感  AR Toolkit  最も有名なARソフトウェア。ARマーカーだけでなく、自然特徴点の マーカーもサポートされるようになった。  http://artoolkit.org/  PTAM  http://www.robots.ox.ac.uk/~gk/PTAM/  LSD-SLAM  http://vision.in.tum.de/research/vslam/lsdslam  SVO  Forster, C., Pizzoli, M., & Scaramuzza, D. (2014). SVO: Fast semi- direct monocular visual odometry. 2014 IEEE International Conference on Robotics and Automation (ICRA), 15–22.  https://github.com/uzh-rpg/rpg_svo
  187. 187. オープンソースソフトウェア 187 深層学習(Deep Learning) 各社が独自のフレームワークを出している。  Caffe  カリフォルニア大学バークレー校  http://caffe.berkeleyvision.org/  Theano  モントリオール大学  http://deeplearning.net/software/theano/  TensorFlow  Google  https://www.tensorflow.org/
  188. 188. オープンソースソフトウェア 188 深層学習(Deep Learning)  Torch  Facebook  http://torch.ch/  CNTK  Microsoft  https://www.cntk.ai/  DSSTNE  Amazon  https://github.com/amznlabs/amazon-dsstne  Chainer  Preffered Network  http://chainer.org/
  189. 189. オープンソースソフトウェア 189 深層学習の物体検出  R-CNN  https://github.com/rbgirshick/rcnn  Fast R-CNN  https://github.com/rbgirshick/fast-rcnn  Faster R-CNN  https://github.com/rbgirshick/py-faster-rcnn
  190. 190. 商用ライブラリ 190  Qualcomm FastCV  ARM用コンピュータビジョンSDK。モバイル端末での開発用。 ジェスチャー、顔認識、文字認識、拡張現実感など。  https://developer.qualcomm.com/software/fastcv-sdk  UncannyCV  ARM用コンピュータビジョンSDK。エッジ検出や射影変換のよ うなローレベルから、車両検知、レーン検知、人物検出、顔検 出、物体追跡、ステレオビジョンなどのハイレベルまで。  http://www.uncannyvision.com/uncannycv/
  191. 191. 商用ライブラリ 191  OMRON, OKAO Vision  顔検出,顔認証,顔器官検出,顔属性判定(年齢、性別、表情、笑 顔),人検出,ペット検出(犬、猫),ハンドジェスチャー、シーン認識 (一般物体認識)、被写体認識(顕著性検出)  http://plus-sensing.omron.co.jp/technology/  沖電気, Face Sensing Engine (FSE)  顔検出,顔認証,顔器官検出  https://www.oki.com/jp/fse/  NEC, NeoFace  顔検出,顔認証  http://jpn.nec.com/face/  NEC 指紋/指静脈認証  http://jpn.nec.com/biometrics/fingerprint/index.html
  192. 192. 商用ライブラリ 192  PUX, FaceU,  顔検出,顔認証,顔器官検出,顔属性判定(年齢、性別、笑顔), ペット検出(犬、猫、小鳥),ジェスチャー/ハンドジェスチャー  http://www.pux.co.jp/softsensor/faceu.html  PUX, 画像認識ソフトウェア  シーン認識(一般物体認識),オブジェクト認識(特定物体認識)、手 書き文字認識、人物検出/トラッキング、ジェスチャー認識、ナン バープレート認識  http://www.pux.co.jp/softsensor/  メディアドライブ,OCRライブラリ等  活字や手書きなど様々な用途向けOCRライブラリ。特定物体認識 SDKもあり。  http://mediadrive.jp/products/library/
  193. 193. 商用ライブラリ 193  Sony SmartAR SDK  自然画像マーカーの他にSLAMベースのARも使用可能。  https://www.sonydna.com/sdna/solution/SmartAR_SDK.html  Wikitude SDK  GPS+電子コンパス、自然画像マーカー、SLAMベースのARも 使用可能。  http://www.wikitude.com/products/wikitude-sdk/
  194. 194. Web API 194  Google Cloud Vision API  一般物体認識、顔検出、表情認識、ロゴ、ランドマーク、有害 コンテンツ、文字認識  https://cloud.google.com/vision/  Microsoft Cognitive Service  顔検出、表情認識、年齢/性別認識、顔認証、一般物体認識、 アダルト画像判別、動体検知、顔追跡、動画サムネイル作成  https://www.microsoft.com/cognitive-services/  IBM Watson Visual Recognition  顔検出、年齢/性別認識、有名人認証、一般物体認識  http://www.ibm.com/smarterplanet/us/en/ibmwatson/devel opercloud/visual-recognition.html
  195. 195. Web API 195  PUX Developers Site  顔検出、顔認識(認証)、オブジェクト認識(特定物体認識)、 オンライン手書き文字認識  http://pux.co.jp/api_sdk/  ゼータ・ブリッジ, フォトナビ  顔検出,顔器官検出,顔属性判定(年齢、性別、笑顔)、一致 検索(特定物体認識)  http://biz.photonavi.jp/  Face++  顔検出,顔認証,顔器官検出,顔属性判定(年齢、性別、人 種、笑顔)  http://www.faceplusplus.com/

×