第28回 CV勉強会@関東
コンピュータビジョン
最先端ガイド5
Multi-View Stereo #3
Mar. 28, 2015
Hiroki Mizuno
1
話す場所
•  複数画像からの三次元復元手法
1.  はじめに
2.  システム概要と構成上の注意
1.  画像収集
2.  カメラパラメータ推定
3.  密な形状復元
1.  最先端のMVS研究例
3.  多眼ステレオ (Multi-View Stereo)
1.  フォトメトリックコンシステンシー
2.  デプスマップ復元
3.  デプスマップからのメッシュ復元
4.  復元結果
4.  むすび
2
密な形状復元
•  Structure from Motion (SfM) の結果
– カメラパラメータ
– カメラ間の対応点 (特徴点) の三次元点群
= 疎な形状復元
3
SfM
bundlerのExamplesより借用
密な形状復元
4
密な形状復元
http://www.di.ens.fr/pmvs/gallery.html 5
密な形状復元
6http://www.di.ens.fr/pmvs/gallery.html
Multi-View Stereo
•  What's Multi-View Stereo
– キャリブレーション済みの多視点画像から高
精度・高密度な三次元形状復元
•  長所
– 高解像度
– 撮影速度
– 価格
•  短所
– テクスチャが必要
– リアルタイム復元が困難
7
Multi-View Stereo Algorithm サーベイ
•  A Comparison and Evaluation of Multi-View
Stereo Reconstruction Algorithm
–  CVPR 2006
–  Authors :
•  Steven M. Seitz
•  Brain Curless
•  James Diebel
•  Daniel Scharstein
•  Richard Szeliski
•  各種アルゴリズムの分類
•  復元性能のベンチマーク・ランキング
8
Multi-View Stereo taxonomy
•  Scene representation
•  Photo-consistency measure
•  Visibility model
•  Shape prior
•  Reconstruction algorithm
•  Initialization requirements
9
Scene representation
•  取り扱う3次元空間の表現方法
– Volume
– Polygon Mesh
– Set of depth maps
10
Scene representation
•  Volume
– 3次元空間をGrid状に分割した空間
•  Voxel
•  Level-Set
Voxel
•  各Gridにオブジェクトの占有率(二値)を格納
Level-Set
•  各Gridに、最も近い面までの距離を格納
11
Scene representation
•  Polygon Mesh
– 頂点とそれを繋ぐ面のセット
12
Scene representation
•  Set of depth maps
– 各カメラのピクセルごとの深度情報集合
13
Photo-consistency measure
•  画像間の「見え」の対応を計算する方法
– Scene space
– Image space
•  反射モデル
– 多くのアルゴリズムは"Lambertモデル"を仮定
•  見えが視点位置に依存しない
•  陰影は光源と面の傾きのみに依存
– 最近 (2006年時点) の新しいアルゴリズムでは
BRDFなどを想定したものもある
14
Photo-consistency measure
•  Scene space
– シーン中の点を各カメラに投影しPhoto-
consistencyを計算
– Photo-consistencyはSSDやNCCで計算するこ
とが一般的
15
538 Computer Vision: Algorithms and Applications (Septemb
p
x1
x0
(R,t)
p∞
e1e0c0 c1
epipolar plane
p
(R,t)
c0
epipolar
lines
x
0
e0 e1
l0
Photo-consistency measure
•  Image space
– カメラ画像をシーンに投影してPhoto-
consistencyを計算
16
11.1 Epipolar geometry 541
Virtual camera
d
x
y
Input image k
u
v
Homography:
u = H x
x
y
k
d
k
(a) (b)
Visibility model
•  各カメラでの可視・不可視の判断方法
–  オクルージョンの問題
•  Geometric
–  真面目に取り組むアプローチ
–  基本的にチキン・エッグ問題なので、カメラ配置に制約を
持たせるなどで対応
•  Quasi-geometric
–  近似情報を使うアプローチ
–  Visual Hullなどで粗い復元をしてからPhoto-Consistencyを
計算
•  Outlier-based
–  外れ値を無視するアプローチ
–  "複数の画像からのphoto-consistency"で説明されているア
プローチもこれに該当
17
Shape prior
•  形状に対する事前知識モデル
–  Photo-consistencyだけでは失敗する
–  特にTextureのない領域
•  Minimal Surface
–  面は滑らかである
–  曲率の高い部分は苦手
–  Level-set, mesh-based algorithm
•  Maximal Surface
–  空間を削る系のアプローチ
–  輝度が一致する解が見つかればその場で停止
–  高い曲率も表現できる
–  全体的に復元結果が大きくなる傾向になる
–  Voxel-coloring, Space carving
•  Image-based
–  近傍PixelのDepthはSmooth
–  2D Markov Random Field
18
Reconstruction algorithm
•  3D Volume
–  Volumeの各格子でコスト関数を計算
–  その後、Surfaceを抽出
–  Voxel-coloring, Volumetric MRF
•  Evolving surface
–  徐々に面を形成してくアプローチ
–  Level-set, Space carving
•  Depth map
–  複数のDepth mapを独立に計算し、統合
•  Feature Point
–  疎な再構成を行ってから、それらを補間
19
Initialization requirements
•  初期化の要件
– Rough Bounding Box or Volume
•  Space carving
•  Level-set (質の高い初期値が必要)
– Foreground/background segmentation
•  silhouette
– Range of disparity or depth values
•  Image-space algorithm
20
Benchmark Datasets
21
bird dogs
lti-view datasets with laser-scanned 3D models.
317 camera positions and orientations for the temple
gaps are due to shadows. The 47 cameras correspond-
g dataset are shown in blue and red, and the 16 sparse
only in red.
at serves as an initial estimate of scene geom-
31,47,48].
tion of 640 × 480 pixels att
arm. At this resolution, a pix
0.25mm on the surface of th
10cm × 16cm × 8cm, and th
The system was calibrated
tion grid from 68 viewpoints
[61] to compute intrinsic an
these parameters, we compu
and rotational offset relative t
abling us to determine the cam
as a function of any desired a
The target object sits on
center of the gantry sphere an
lights. Because the gantry c
certain viewpoints, we double
two different arm configurat
images. After shadowed im
we obtained roughly 80% cov
resulting images, we created
corresponding to a full hemis
temple temple model
temple
dino
カメラ配置  47視点
カメラ解像度 640x480
Temple
10x16x8 cm
Dino
7x9x7 cm
Benchmark Result
22
http://vision.middlebury.edu/mview/eval/
最先端のMVS研究例
•  "Silhouette and stereo fusion for 3D object modeling"
–  CVIU 2004
–  ターンテーブルを使い、10度ごとに画像取得
–  Visual Hull → Polygon Mesh復元
–  レーザレンジセンサーレベルの復元に成功
23
Input Image Reconstructed Model 頂点数 114,496点
Gouraud shading Textured
最先端のMVS研究例
•  "A Globally Optimal Algorithm for Robust TV-L1"
–  ICCV2007
– 中間データとしてDepth-Mapを保持
– 複数のDepth-Mapを併合することでポリゴン
メッシュ復元
24
(a) Depth image #1 (b) Depth image #2 (c) Mesh view #1 (d) Mesh view #2
Figure 3. Selected depth images and the final mesh (379958 triangles) for the “Dino” dataset.
最先端のMVS研究例
•  Depth-Map復元の利点
– 三次元でなく、二次元の画像でドメインでの
問題
– リアルタムでの復元も可能
25
最先端のMVS研究例
•  "Towards Internet-scale Multi-view Stereo "
–  CVPR 2010
–  法線付きの点群として3次元復元
–  大規模MVS
26
cale Multi-view Stereo
Steven M. Seitz1,2
Richard Szeliski3
Washington 3
Microsoft Research
Figure 1. Our dense reconstruction of Piazza San Marco (Venice)
Pizza San Marco
(Venice)
視点数 : 13,703
点群数 : 27,707,825
最先端のMVS研究例
•  大規模MVSのChallenge
– ビュークラスタリング問題
•  SfMの出力からMVSに必要な視点をクラスタリング
– PCクラスタで並列化
•  とはいえ、数時間はかかる
27
公開されている無償ソフトウェア
Structure from Motion (SfM)
–  Bundler
•  Photo Tourismはこれを使ってる
–  Voodoo Camera Tracker
•  動画からのSfM
Multi-View Stereo (MVS)
–  Patch-based Multi-view Stereo (PMVS)
–  Poisson Surface Reconstruction
•  法線付き点群からのMesh生成
Web Service
–  My3DScanner (サービス終了???)
•  Bundler + PMVS + Poisson Surface Reconstruction
–  Photosynth
–  Automatic Reconstruction Conduit
Viewer
–  MeshLab
28

28th CV勉強会@関東 #3