20140726 関東cv勉強会

2014/07/26 関東CV勉強会@東大生研
CVPR2014
いくつかピックアップして紹介

Matching and Reconstruction
Fast and Accurate Image Matching with Cascade Hashing
for 3D Reconstruction

Fast and Accurate Image Matching with Cascade Hashing for 3D Reconstruction
- 多視点幾何を解く場合，処理時間の中で特徴点(例:SIFT)の対応点探索の計算時間が大きい
- LSH (Locally Sensitive Hashing)を使えば，特徴空間中の座標がビット列に変換される（バイナリ
ハッシング）ので，特徴空間の距離計算が高速なPopCount処理によって近似できる

- LSHで生成するbit列が短い→Matching精度が悪い
- LSHで生成するbit列が長い→処理時間が長い（演算時間だけでなくメモリ帯域も重要）
- 提案手法 = Cascade Hashing (複数の短bit長のLSHを生成して，Cascadeする)
- 実際にはハッシングだけで解決するのではなく，短bit長のLSHでMatchingした上位から順にk個の候
補を求め，それら候補から通常の距離計算(Rowe’s ratio test)によって対応点判定をする
- 通常の計算とほぼ同等の結果が得られ，速度は10倍になったそう

Predicting Matchability

- 屋外映像でSfMをする際，画像特徴点(例：SIFT)を使うと対応の取れない点が大量に見つかる
→樹木，道路上の細かいテクスチャなど，いわゆるノイズっぽい点や再現性の低い点
- 「対応点探索に不適な特徴点」を削ることはできないか?

- 提案手法 = 短い動画(16frame)を集めて，連続フレームで特徴点検出/マッチング処理を行い，その
結果から，「対応の取れる特徴点」と「対応の取れない特徴点」をRandom Forestで学習する
- 学習データとは別のデータセットで性能を確認（データ依存ではなく，いわゆる汎化性能がある）
- SIFT依存でなく，同じフレームワークでSURF特徴量などでも大丈夫（と言ってた）
- SIFTではDoGのレスポンスの強さでフィルタリングできるが，あれは当てにならないそう

- 実験では提案手法で30%程度の特徴点を削減することができた
- 提案手法でフィルタリングしても，全特徴点を用いた場合の60%程度の対応点数が得られる
- DoGのレスポンス強度の閾値を調整して，提案手法と同じ数まで特徴点をフィルタリングすると，提
案手法の方が多く対応点が得られる

Reconstructing PASCAL VOC

- 画像認識用データセットのPASCAL VOCがある
- 同カテゴリの画像は，当然，同じ種類の物体（≠同一物体）が写っている
- 一部データには，バウンディングボックスだけではなく領域や特徴点も付加されている
→このPASCAL VOCデータセット*だけ*で各画像の3D形状を再構成しよう，という無茶な試み

- 提案手法 = まず同一カテゴリ画像群で強引にSfMして，それをCamera Calibrationとする
（データに付加されたキーポイントがある場合は，それも使う）

- 提案手法 = 次に，Visual Hull処理をする(以下のような処理を使うらしい)
- 基準画像の視点位置をベースに，視点位置（方向）によるクラスタリング
- SfM点群とシルエットの関係のチェック
- SfM点群のPCAに基づき，Visual Hullに適した視点方法の推定
- 類似方向からのシルエット群で「平均シルエット」を生成

http://www2.isr.uc.pt/~joaoluis/carvi/

Computational Photography: Sensing and Display
Fourier Analysis on Transient Imaging
by Multifrequency Time-of-Flight Camera

Fourier Analysis on Transient Imaging by Multifrequency Time-of-Flight Camera
- RaskarらのFemto Cameraのように，ToF Cameraで光の動きを観測可能にする
- 従来法はインパルス応答を使っていたが，提案手法では周波数応答(変調)を使う
- 大局的最適化が不要になり，計算コストを下げることができたらしい

Fourier Analysis on Transient Imaging by Multifrequency Time-of-Flight Camera
- RaskarらのFemto Cameraのように，ToF Cameraで光の動きを観測可能にする
- 従来法はインパルス応答を使っていたが，提案手法では周波数応答(変調)を使う
- 大局的最適化が不要になり，計算コストを下げることができたらしい
http://techtalks.tv/talks/fourier-analysis-on-transient-imaging-with-a-
multifrequency-time-of-flight-camera/59930/

Diffuse Mirrors: 3D Reconstruction from Diffuse Indirect Illumination
Using Inexpensive Time-of-Flight Sensors

Diffuse Mirrors: 3D Reconstruction from Diffuse Indirect Illumination Using Inexpensive Time-of-
Flight Sensors
- 壁面を鏡のように使って，遮蔽物の向こうの物体形状を壁の拡散反射像からToFで計測する
- Raskarらの手法との違いは，安価なToF Cameraで実現した点にある
- ただし，処理にはフレーム数が大量に必要で，数十~数百秒かかるらしい

Transparent Object Reconstruction via Coded Transport of Intensity

Transparent Object Reconstruction via Coded Transport of Intensity
- 光源を制御(Coded Illumination)しつつ，透過したパターンが投影されるスクリーンとイメージセン
サの距離を変えて観測し，透明物体のVolume計測する
（実際にはスプリッタで分離して，スクリーンとカメラの距離が異なるような条件で観測）
- 上記設定は光の屈折を計測することに相当．Light Fieldモデルを利用した最適化をするらしい

3D Shape and Indirect Appearance by Structured Light Transport

- 光は直進性があるので，当然，Projector-Camera間のEpipolar拘束が存在する
- Projector-CameraのプロジェクタでEpipolar線をマスクすると，マスクされたエリア（画像中の
Epopolar線）は間接反射光だけが観測できる
- マスクするる線をランダムに切り替えて処理することで，直接反射と間接反射の推定/分離が可能
- DMDを使った実装で高速に切り替えるので，リアルタイム処理ができる

https://www.youtube.com/watch?v=7ZzRbxh-6W0

Tutorial
Dense Image Correspondences for Computer Vision

SIFT flow (ECCV2008) http://people.csail.mit.edu/celiu/SIFTflow/
- 入力画像の全ての画素でSIFT特徴量を計算(dense SIFT description)
→各画素を128チャンネルのfloat型画像と見做す
- その128ch画像からOptical Flowと同様の条件式（類似度＋連続性）で最適化する
- Optical Flowとの違いは，探索範囲の局所性が低い

- 火星の画像：日を空けた２枚の画像の位置合わせ
・視点の違いだけでなく，地形変化，日照条件の違いなどがある
入力画像組

入力画像組（左右入れ替えて表示）

左画像：対応結果から画像合成

視差を調べると，中央部に何かの原因で大きな段差が生じていることが判明

PatchMatch (SIGGRAPH2009) http://gfx.cs.princeton.edu/pubs/Barnes_2009_PAR/
- 「あるPatchが対応する場合，隣接画素も対応する可能性が高い」という仮定
- Belief Propagationで対応関係を最適化する -> 連続性と類似性を満たす対応関係の推定

CSH: Coherency Sensitive Hashing (ICCV2011) http://www.eng.tau.ac.il/~simonk/CSH/
- Patch内の情報をHashingして，Hash Table経由で類似Patch探索の構造を作る
- Patch-to-Patchの関係がHashで大まかに整理されるため，高速かつ良質な結果が得られる
p
Image ‘A’ Image ‘B’Hash Table
g
g

- 画像間の対応点(対応パッチ）の推定例
入力画像組

- より困難な問題設定での対応点(対応パッチ）の推定例

Deformable Spatial Pyramid Matching (CVPR2013) http://vision.cs.utexas.edu/projects/dsp
- PatchMatchやCSHと同様の問題をCoarse-to-Fineに解く（大局的な連続性を仮定）
- 処理自体はOptical Flowに類似する

…というような手法の解説ではなく，
これらの頑健なMatching手法を使うと，
いろいろな応用が効くよ
というのがこのTutorialの主題

SIFT flow (ECCV2008) http://people.csail.mit.edu/celiu/ECCV2008
- 火星の写真の場合と同様，かなり条件が異なる画像でもマッチングできる
入力画像組

入力画像組（左右入れ替えて表示）

画像合成結果（左右は共通の画像で，冬の画像に夏の画像を投影）

- そもそも全然違う対象を撮影した画像間でも，似た構図，構造物のシーンならばマッチングできる

→テクスチャを転移した新しい画像の合成が可能

→類似画像検索の品質改善

→動画の類似画像を使うことで，モーション合成

→動画から，類似した背景画像に差し替えることで，もっともらしい動画を合成できる

→顔画像でPixel-wiseなマッチング

Dr. Ce Liu
→顔画像でPixel-wiseなマッチング

Deformable Spatial Pyramid Matching (CVPR2013) http://vision.cs.utexas.edu/projects/dsp
→セグメンテーションされている物体領域の情報を転移することができる

SIFT flow (ECCV2012)
→RGB画像1枚から類似画像を検索して，DB内のRGBDデータ群からDepth画像合成

→RGB画像1枚から類似画像を検索して，DB内のRGBDデータ群からDepth画像合成
- Microsoftは屋内のRGBD画像(KINECT)と屋外のRGBD画像(LIDER)のDBを構築しているそう

- SIFT = 同一物体を撮影した画像間の対応付けの技術
- SIFT flow = 同一カテゴリ画像間の対応付けにも使える

20140726 関東cv勉強会

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 20140726 関東cv勉強会

Similar to 20140726 関東cv勉強会 (20)

Recently uploaded

Recently uploaded (11)

20140726 関東cv勉強会