物理ベースビジョンの過去・現在・未来
〜 カメラ・物体・光のインタラクションをモデル化するには 〜
2020.6.10
池畑 諭 (国立情報学研究所)
第一章 物理ベースビジョンとは?
第二章 画像生成プロセスをモデル化する
第三章 フォトメトリックステレオに基づく3次元形状推定の
実践
最終章 物理ベースビジョンの未来
第一章 物理ベースビジョンとは?
光源
物体
逆問題
画像生成
物理ベースビジョンとは?
カメラ
物理(光学)的見地に基づく画像生成プロセスを明示的にモデル化、画像の見えを与え
ようなカメラ・物体・光源のパラメータを推定
表面色 表面の粗さ 表面法線
光源分布視線分布
撮影された画像
物理ベースビジョンとは?
カメラ・物体・光源のパラメータ例
物理ベースビジョンのはじまり(1)
1960年代にコンピュータビジョンという分野が生まれ、幾何的な知識から3次
元情報を復元するという研究が発表された
Roberts, “Machine perception of three-dimensional solids”. PhD Thesis, 1963
今後、ステレオ等の
幾何的3次元復元へと発展するが
それはまた別の話…
物理ベースビジョンのはじまり(2)
1976年Lambert著「フォトメトリア」より、Lambertの余弦則
入射光
入射光
表面法線 表面法線
弱 強
・法線と入射光の角度(内積)に観測値が比例する(観測方向によらない)
物理ベースビジョンのはじまり(3)
1979年にBerthold Horn (MIT) 反射率地図(観測輝度と表面法線の関係)
・単一の輝度値からでは、一意に法線方向を定めることができない
Horn, Berthold & Sjoberg, Robert. (1979). Calculating the Reflectance Map. Applied optics. 18. 1770-9. 10.1364/AO.18.001770
・既知の点を複数与えたり(Horn75)、平滑化等の制約を与えて(Ikeuchi81)
解の範囲を絞るシェイプフロムシェーディング法
・複数の陰影画像を利用して制約を与えるフォトメトリックステレオ法
(Woodham80)等が発表された
物理ベースビジョンのはじまり(4)
Surface Plane
Camera
Light 1
Light 2
Light 3
R. J. Woodham, Photometric Method for Determining Surface Orientation from Multiple Images. Optical Engineering 19(1)139–144 (1980).
物理ベースビジョンのはじまり(5)
しかし、1980年代に至るまで研究分野としての発展は遅々としていた
・カメラのキャリブレーションが困難(+暗室も必要)
・光学的に一様な領域を抽出する手法が確立されていなかった
(Shape-from-Shadingは一様な表面においてのみ適用されてきた)
・ユニバーサルな反射モデルが存在していない。ランバート拡散反射モ
デルのみでは対象が限られている
・形状復元においては幾何ベースアルゴリズムが主流
1980年中盤のあたりに、これまで主に光学の分野で扱われてきたものが、コン
ピュータビジョンにおいて「物理ベースビジョン」として明確に区別されるよう
になった
• 微分幾何学がコンピュータビジョンにも導入された。これによって、幾何情報
と光学モデルの関係性がより明確に記述可能となった。
• 安価なカメラの普及や、実験環境の整備によって実験の再現性が高まった。
• 逆問題に適した安価な反射モデルがコンピュータグラフィックスの分野で提案
された
物理ベースビジョンのはじまり(6)
第二章 画像生成プロセスをモデル化する
𝜔
𝒏
𝜃
𝑑𝐴
𝑑Φ
𝑋 𝑋
𝑑𝐴
𝐿 𝑋, 𝜔 = 𝑑2
Φ/𝑑𝜔𝑑𝐴𝑑𝜃𝐸 𝑋 = 𝑑Φ/𝑑𝐴
Irradiancece(イラディアンス)
放射照度(SI単位:W/m2)
Radiance(ラディアンス)
放射輝度(SI単位: W/𝑠𝑟−1
m2
)
画像生成の基礎
- 光の強さを表す単位、IrradianceとRadiance
𝑑𝐴
𝑋
𝜃
𝒏
𝜔𝑖 𝜔 𝑜
ある点に対するIrradianceは、
全方向から入射する光の総和
画像生成の基礎
- 光の強さを表す単位、IrradianceとRadiance
光源
物体
カメラ
画像生成の基礎
シーンの
radiance
カメラセンサの
irradiance
カメラ内部の変換
(透視投影やガンマ補正等)
線形
シーンの
irradiance
- 光源・物体・カメラのインタラクション
画素値
非線形
- 物体表面での光のふるまいをモデル化
鏡面反射
拡散反射
表面下散乱
屈折・透過
• BRDF(反射)
• BTDF(透過)
• BSDF(反射+透過)
• BSSRDF(散乱面反射)
Bidirectional [X] Distribution Function
BSDFとBSSRDFの違い
BSDFはあくまでも単一点における反射方向における光の割合を表したもの
BSSRDFは異なる2点間での関係性を示したもの
画像生成の基礎
入射光の表面点におけるIrradianceと照射方向に対するRadianceの割合
・ヘルムホルツの相反性
- BRDFについて
𝜌 𝜔𝑖, 𝜔 𝑜 = 𝜌 𝜃𝑖, 𝜙𝑖, 𝜃 𝑜, 𝜙 𝑜 =
𝑑𝐿 𝑟(𝜃 𝑜, 𝜙 𝑜)
𝑑𝐸(𝜃𝑖, 𝜙𝑖)
=
𝑑𝐿 𝑟(𝜃 𝑜, 𝜙 𝑜)
𝐿𝑖 𝜃𝑖, 𝜙𝑖 𝜔𝑖 ∙ 𝑛 𝑑𝜔𝑖
𝜌 𝜃𝑖, 𝜙𝑖, 𝜃 𝑜, 𝜙 𝑜 = 𝜌 𝜃 𝑜, 𝜙 𝑜, 𝜃𝑖, 𝜙𝑖
・エネルギー保存則
∀𝜔𝑖
Ω
𝜌 𝜔𝑖, 𝜔 𝑜 cos 𝜃𝑖 𝑑𝜔 𝑜 ≤ 1
・非負性
𝜌 ≥ 0
画像生成の基礎
- BRDFモデルのの分類
Lambert
Oren-Nayer
Phong
Cook-Torrance
Torrance-Sparrow
Lafortune
Ashikhmin-Shirey
画像生成の基礎
- BRDFモデルの例
画像生成の基礎
+ Lambertian + Lambertian
- BRDFの計測(MERL BRDF Database)
"A Data-Driven Reflectance Model", Wojciech Matusik, Hanspeter Pfister, Matt Brand and Leonard McMillan, ACM Transactions on Graphics 22, 3(2003), 759-769.
100種類の等方反射BRDFデータベース 1マテリアルあたり、90x90x180=1458000回撮影!(等方性)
画像生成の基礎
- 等方性と非等方性
𝜌 𝜔𝑖, 𝜔 𝑜 = 𝜌 𝜃𝑖, 𝜙𝑖, 𝜃 𝑜, 𝜙 𝑜𝜌 𝜔𝑖, 𝜔 𝑜 = 𝜌 𝜃𝑖, 𝜃 𝑜, |𝜙𝑖 − 𝜙 𝑜|
画像生成の基礎
光源
物体
カメラ
画像生成の基礎
シーンの
radiance
カメラセンサの
irradiance
カメラ内部の変換
(透視投影やガンマ補正等)
線形
シーンの
irradiance
- 光源・物体・カメラのインタラクション
画素値
非線形
- 光について
https://mens.tasclap.jp/a240
光源の種類
・点光源(3自由度)
・平行光源(2自由度)
・面光源(4以上の自由度)
光源の距離
・遠(無限遠点)光源
- どの点でも同じ方向
- 減衰の影響は低い
・近接光源
- 点ごとに方向が異なる
- 減衰の影響が大きい
加えて、光源の波長や指向性、温度等によって
見えが異なる
画像生成の基礎
光源
物体
カメラ
画像生成の基礎
シーンの
radiance
カメラセンサの
irradiance
カメラ内部の変換
(透視投影やガンマ補正等)
線形
シーンの
irradiance
- 光源・物体・カメラのインタラクション
画素値
非線形
- カメラについて
画像生成の基礎
視線方向が平行 視線方向が点によって異なる(Radiance計算時に影響)
- カメラについて
画像生成の基礎
ガンマ補正による見えの変化
第三章 フォトメトリックステレオに基
づく
3次元形状推定の実践
光学的手掛かりから物理情報を復元したい
・形状
・材質
・・・・
物理ベースビジョンの誤解(1)
CGで表現できるものなら、なんでもモデル化できる?
UNREAL ENGINE 4 - Next-Gen 2019 4k Photorealistic Graphics!
https://www.youtube.com/watch?v=njpNEY3FM30
撮影条件がわからなければ、そもそもモデル化できない。
光源は点光源?
いくつ存在すると仮定すれば?
カメラモデルは?
カメラ内部の変換はどうかどうすればわかるの?
物理ベースビジョンの誤解(1)
CGで表現できるものなら、なんでもモデル化できる?
自然光
未知光源
フラッシュ撮影
既知単光源
物理ベースビジョンの誤解(2)
モデル化できれば逆問題は簡単に解ける?
光の経路の単純化
→モデルが複雑ならそれだけ逆問題に不定性が生じる
モデル+αが必要
誤解:物理現象をモデル化できる=逆問題が解ける?
先述した反射率地図
・モデルの正確さ・複雑さ
・扱うことのできる現象・対象
・最適解を得るための困難
・撮影条件の複雑さ
物理ベースビジョンの研究とは、
「逆問題が解ける範囲」でモデル+撮影条件+αを見つけること
物理ベースビジョンにおける最重要「+α」とは、
不定性を解決するための、制約や入力
・シェイプフロムシェーディング法であれば、既知の3次元点や表面の平滑
化を仮定することにより不定性を解決
・フォトメトリックステレオ法であれば、冗長な入力を与えることによって
不定性を解決
以降では、具体的にフォトメトリックステレオ法につ
いて
どのようにモデル化+最適化がなされるかを解説しま
す
フォトメトリックステレオの一般的な仮定①:
一度の撮影で光源は一つ当てる方向もわかってい
る
光源が一つ
光源が複数
35
陰 光が表面で反射
影 光が遮られる
モデル化が簡単
モデル化が困難
フォトメトリックステレオの一般的な仮定②:
影はモデルの誤差として扱う
𝜌(𝒏, 𝒍, 𝒗)
𝒏
𝒍
𝒗
𝐼 𝑐(𝐼) 𝐼′
BRDF センサ上の
Irradiance
内部変換 輝度値
𝒍
𝒏
𝒗
𝜖 𝑰′ = 𝒄 𝑰 = 𝒄(𝒏 𝑻 𝒍𝝆 𝒏, 𝒍, 𝒗 + 𝝐)
無限遠点光源
(平行光源)
平行カメラ
𝒄
𝝆
モデル誤差
+
法線
光源
視点
下準備:フォトメトリックステレオ用の画像生成モデル(単純
化)
𝜌(𝒏, 𝒍, 𝒗)
𝒏
𝒍
𝒗
𝐼
BRDF
𝒍
𝒏
𝒗
𝜖 𝐼 = 𝒏 𝑇
𝒍𝜌 𝒏, 𝒍, 𝒗 + 𝜖
𝜌
モデル誤差
+
法線
光源
視点
センサ上の
Irradiance
無限遠点光源
(平行光源)
平行カメラ
下準備:フォトメトリックステレオ用の画像生成モデル(さら
に単純化)
R. J. Woodham, Photometric Method for Determining Surface Orientation from Multiple Images. Optical Engineering 19(1)139–144 (1980).
画像生成モデル:
BRDF→ランバート拡散反射モデル+影は無
し
光源→既知平行光源(暗室を仮定)
カメラ→平行カメラ(RAW画像を利用)
ランバートフォトメトリックステレオ法
(1980)3枚(以上)の画像から被写体法線マップを復元
データを取得してみよう
ホワイトターゲット
(色補正)
スペキュラー球
(光源校正)
シーン
(可能な限り)暗室
光源(点光源を仮定)
データを取得してみよう(注意事項)
・シーンとカメラとの間に十分な距離を
→視線方向を画素ごとに平行にするため
・同様に光源も離れて当てる
→平行光線を仮定するため
・最近では、「近接光源」、「透
視投影カメラ」を明示的に仮定し
た研究も存在するが、材質や精度
に制限があるため、撮影条件をで
きる限り整えることが重要。
データを取得してみよう(異なる光源下で撮
影)
ハイライ
ト
データを取得してみよう(光源方向の計算)
v (既知)
l(未知)
光源
カメラ
ハイライトの場所は、
「ハーフベクトル」に相当
𝒏 (~0.5 ∗ (𝒗 + 𝒍))
ハイライト点の法線は、
容易に計算可能
データを取得してみよう(光源強度の計算)
・ランバートモデルを仮定して、輝度値と単位拡散反射(𝑛 𝑇 𝑙)の比
を一定に
𝐼 = 𝜌𝒏 𝑇
𝒍
観測輝度 法線
ベクトル
光源ベクトル
𝐼1 = 𝜌𝒏 𝑇
𝒍1
𝐼2 = 𝜌𝒏 𝑇 𝒍2
𝐼3 = 𝜌𝒏 𝑇 𝒍 𝟑
surface albedo(反射率)
𝒍1
𝒍 𝟐
𝒍3
𝐼1 𝐼2 𝐼3
ランバートフォトメトリックステレオ法の適用
画像
拡大
min
𝒙
𝒐 − 𝒙 𝑇 𝐿 2 𝒙 ≜ 𝜌𝒏
* 𝜌(= 𝒙 ) → 𝐼 = 𝜌𝒏 𝑇
𝒍
逆問題
ランバートフォトメトリックステレオ法の適用(結果)
復元された法線 復元された反射
率
参考入力画像
*法線のカラーマッピング 127 * ([nx, ny, nz] +
1)
ランバートフォトメトリックステレオ法の問題点
・影に対する頑健性が存在しない
・あらかじめ影を除去する必要がある
本来であれば、
一様に青緑色であるべき
影の分離は単純な閾値処理では難しい
影により輝度値が低いが
相互反射によりゼロではな
い
輝度値が低いが、
光が水平方向から当たっているため
より賢い影の除去の方法とは?
min
𝜌,𝒏,𝝐
𝑗=1
𝑚
𝐼𝑗 − 𝜌𝒏 𝑇 𝒍 − 𝜖𝑗 2
2
未知変数
𝑚
images
既知変数
影をランバート拡散反射モデルに対する誤差として同時に復元する
モデル誤差項は画像枚数に比例するので、画像枚数をいくら
増やしても不定性は解決しない
スパース回帰という考え方(概
念)
輝度値
𝒏 𝑇 𝒍
外れ値(影由来)
外れ値
(鏡面反射由来)
ランバート拡散反射モデル
𝐼 = 𝜌𝒏 𝑻 𝒍
画像1
画像2 画像4
画像3
画像5
観測されたサンプルが可能な限りランバート拡散反射モ
デルで表現されるような反射率/法線を探す
min
𝜌,𝒏
𝒐 − 𝜌𝒏 𝑇 𝐿 2 ↔ min
𝜌,𝒏
𝒆 2 s. t. 𝑒i = 𝑜𝑖 − 𝜌𝒏 𝑇
𝒍𝑖
線形(𝐿2) 回帰問題
min
𝜌,𝒏
𝒐 − 𝜌𝒏 𝑇 𝐿 0↔ min
𝜌,𝒏
𝒆 0 s. t. 𝑒i = 𝑜𝑖 − 𝜌𝒏 𝑇
𝒍𝑖
スパース (𝐿0) 回帰問題
*𝐿0ノルムはゼロでない要素の数
池畑2012
Woodham1980
スパース回帰に基づくフォトメトリックステレオ
S. Ikehata et al., “Robust Photometric Stereo using Sparse Regression”, IEEE Computer Vision and Pattern
Recognition(CVPR), 2012.
・𝐿0ノルム最小化はスパースベイズ学習(SBL)によって実現
線形回帰とスパース回帰の比較
線形回帰
スパース回帰
Q: スパース回帰の性能評価
スパース性が保たれている場合において有効
ランバート成分: 67.6%, Specular: 8.4%, Shadow: 24%
8.9 degree 0.53 degree
𝐿2 回帰 スパース回帰
ランバート成分: 34.2%, Specular: 65.8% (影をあらかじめ除外)
8.0 degree 4.0 degree
𝐿2 回帰 スパース回帰
inlier outlier
inlier outlier
20 set of 40 images (光源の方向数), Lambertian(拡散反射) + Cook-Torrance(鏡面反射)実験条件
error
error
『ランバート拡散反射モデル+外れ値』の限界
非ランバート拡散反射成分のスパース性はいつも成り立つわけではない
非ランバート拡散反射影が観測中で支配的
非凸表面における影や二次反射がなぜ難しいのか
直接光
直接光+
間接光
凸表面
非凸表面
直接光は反射点のみの情報で
モデル化可能
間接光や影は他の点の情報が
必要→モデル化困難
影
BRDFは表面の各点におけるモデルなので
周囲の形状に依存する影や二次反射をモデル化することはできない
画像生成モデルベースのフォトメトリックステレオの限界
深層学習で直接入力画像から法線を推定することは可能か?
…
固定枚数の入力(順序一定)
構造化された問題
2眼ステレオ
CNN入力
N枚の入力(順不同)
構造化されてない問題
…
?
多眼ステレオ
CNN入力
フォトメトリックステレオ
INTRODUCTION
認識・セグメンテーション等
実は単純な問題ではありません
(1) 撮影条件を固定 (Santo et al. ICCV2017Workshop)
- 深層ニューラルネットワーク(Fully Connected Network)を利用した初の手
法
- 学習において影をDropoutによって自動的に識別
😢トレーニング、テスト時の光源分布を固定
INTRODUCTION
(2) データごとに異なるネットワーク(Taniai and Maehara,
ICML2018)
- 観測画像を予測するための画像生成プロセスをデータから自己学習
- 画像枚数に応じたネットワークをデザイン
😢データごとに毎回学習が必要
フォトメトリックステレオに対して深層学習を適用する試み
(3) 各画像で得られた特徴マップをPooling(Chen et al. ECCV2018)
- 事前学習可能
- 光源方向が未知でも適用可能(Chen et al. CVPR2019)
😢光源方向の情報をMax poolingで圧縮→鏡面反射の方向のみから判断
INTRODUCTION
・あらかじめN枚の画像の情報を固定長の情報(観測地図)へと変換し、それを入
力とする→固定長の情報に変換すれば既存のネットワークをそのまま適用可能
・深層学習に基づく3次元センシングにおいて、可変長→固定長はトレンドの
一つ。例えば、多視点ステレオにおいて共通のコストボリュームを定義し、そ
れに対して3DCNNを適用することと同様のモチベーション(i.e., MVSNet,
Yao2018)
観測地図に基づくフォトメトリックステレオ法(池畑2018
*)
*S. Ikehata., “CNN-PS: CNN-based Photometric Stereo for General Non-Convex Surfaces”, European Conference on
Computer Vision (ECCV), 2018
画素(200,200)の
Observation map
INTRODUCTION
光源方向 ⋯
(200,200)
観測地図(各画素の観測を一つの地図にマッピング)
画素(200,200)の
Observation map
INTRODUCTION
光源方向 ⋯
(200,200)
(200,200)
観測地図(各画素の観測を一つの地図にマッピング)
INTRODUCTION
⋯光源方向 ⋯
(200,200)
(200,200)
画素(200,200)の
Observation map
(200,200)
観測地図(各画素の観測を一つの地図にマッピング)
INTRODUCTION
⋯光源方向 ⋯
(200,200)
(200,200)
画素(200,200)の
Observation map
- 画像枚数や入力順序に依存しない
- 光線方向情報を自然にエンコード可能
- 画素単位の情報なので、入力画像サイズ
の制限が無く、並列化も容易
観測地図表現の利点
(200,200)
観測地図(各画素の観測を一つの地図にマッピング)
INTRODUCTION
非凸表面の一点における観測地図
影 + 二次反射
観測地図を読み解く
baseColor
roughness
object
トレーニングデータの生成(画素ごとに異なる材質でBlenderを利用して合
成)
線形回帰(Woodham1980) スパース回帰(Ikehata2012) 観測地図(Ikehata2018)
性能比較(*法線復元後のランバート拡散反射率復元方法は共通)
共通ベンチマークによる表面法線誤差の比較(DiLiGenTベンチマー
ク)
現在でも世界最高性能(必要なのは画像と光源のみ。閾値処理不
要!)
最終章 物理ベースビジョンの未来
物理ベースビジョンが消える?
・深層学習の台頭によって、『物理モデルを利用しない物理ベースビジョン』が可能に
・そもそも順方向のレンダリング自体がEnd-to-Endで行われるようにもなっている
Meshry et al., Neural Rerendering in the Wild (CVPR2019)
・データ自体から直接推定できるなら物理の知識なんで不要では?という誤解
物理ベースビジョンとデータの共存
・これまでの物理ベースビジョンには存在しないドメイン特有の知識を使うというアプローチ
・人間が与えていた「+α」の制約をデータから導き出すという考え方
自然光源下単眼画像からの3次元形状の復元(*)
*Wu et al., Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild
物理ベースビジョンとデータの共存
・これまでの物理ベースビジョンには存在しないドメイン特有の知識を使うというアプローチ
・人間が与えていた「+α」の制約をデータから導き出すという考え方
• 単眼画像からの画素ごとの法線・反射率・奥行・光源の
推定
• 法線や反射率は「屋内環境」である知識を利用すること
によ推定が容易になる
• 物理モデルをマルチタスクトレーニングにおける整合性
担保に利用する
*Li et al., Inverse Rendering for Complex Indoor Scenes: Shape, Spatially-Varying Lighting and SVBRDF from a Single Image
物理ベースビジョンとデータの共存
・逆問題を解くことができなかった複雑な光学現象を深層学習によるレンダリングで逆問題を成立さ
• 多視点画像+環境マップからの透明物体形状の復元
• 微分可能レンダラによる透明物体のレンダリング
*Li et al., Through the Looking Glass: Neural 3D Reconstruction of Transparent Shapes (CVPR2020)
まとめ
• 物理現象というのはモデル化する事自体は可能でも、それを逆問題として解
くことはして容易ではない→不定性や局所解への収束、入力が得られない等
の問題
• 従来の物理ベースビジョンは、可能な限り問題設定を単純化することにより
逆問題を成立させてきた→ランバート拡散反射を仮定、影が存在しない、暗
室、平行光源など
• 逆問題を解くための手段が充実するにしたがって、物理ベースビジョンの問題
はより現実の問題に即するようになっていった(線形回帰→スパース回帰→深
層学習→…)
• 物理ベースビジョンの問題とデータの双方を利用することによって、それぞ
れの欠点を補完しあうことが可能であることが近年の様々な研究で示されて
いる
最後に
共立出版
「コンピュータビジョン
広がる要素技術と応用」
第5章フォトメトリックステレオ
フォトメトリックステレオ法についてより詳しい解説は以下をご参照ください
また各種ソースコードも(https://satoshi-ikehata.github.io/)にてご利用いただけます
どうもありがとうございました。
質問・議論、お待ちしております。
2020.6.10
池畑 諭 (国立情報学研究所)

SSII2020TS: 物理ベースビジョンの過去・現在・未来 〜 カメラ・物体・光のインタラクションを モデル化するには 〜