SlideShare a Scribd company logo
1 of 36
Download to read offline
前景と背景の画像合成
CTO室 松尾恒
概要 :(前景と背景の)画像合成
• 画像合成の中でも前景と背景の合成を扱う
– Ex. 背景入れ替え : 人画像 → 仮想背景
2
画像A 画像B
単純な方法 = コピー & ペーストで置き換え だと違和感がある
画像処理で自然な合成を実装したい
合成画像
画像合成
• どのような条件で人は自然な画像かどうかを判別している?
– 色, テクスチャ, 境界部分, ノイズ, ライティング が全体で統一的
– 合成部でその差異を除去することでリアルな合成画像が生成可能
• 多重解像度による合成
• Gradientドメインでの合成
• 統計量のマッチング(色, Styleなど)
– 画像合成系のアプローチを紹介
3
Laplacian Pyramidによる合成 [Burt&Adelson83]
• 目的 : 画像合成部のつなぎ目を滑らかに合成したい
– 特徴的なスケールごとに分解しそこで合成して再構成すればよい
4
[Burt&Adelson83] Fig.7より引用
画像 A(x, y) 画像 B(x, y)
合成結果 S(x,y)
マスク画像 R(x, y)
Image Pyramid
• 画像の多重解像度表現 : 特徴的なスケールごとに分解
– Gaussian Pyramid : 各階層で Gaussian Blur & ½倍縮小
– Laplacian Pyramid : Gaussian Pyramidの各階層の差分表現
• 再構成(拡大 & 加算)すると元画像になるようなスケール別画像に分解
5
Gaussian
Pyramid
Laplacian
Pyramid
Laplacian Pyramidによる合成
• 画像 A, B マスク画像 R をそれぞれPyramid分解
– Laplacian Pyramid表現で各解像度で計算し再構成
• マスクは Gaussian Pyramid の結果を利用
6
[Burt&Adelson83] Fig.7より引用 [Burt&Adelson83] Fig.10より引用
Gradient領域での画像編集 [Perez+03]
• 目的 : 境界部分でスムーズに合成しつつ画像の見た目は保持
– 画像のGradientが見た目の重要な要素
– Gradientをなるべく保存するような最適化問題に帰着
• 境界条件、ベクトル場の設定により様々な画像処理に転用可能
7
[Perez+03] Fig. 3 より引用
最適化問題としての枠組み
• 情報として重要な勾配を保持する最適化
– 領域 Ω の境界 𝜕Ω で定義されている 𝑓∗
を内部で補間
• 勾配のガイドとしてベクトル場 𝑣 を使用
– min
𝑓
∫ ∇𝑓 − 𝑣 2
𝑑Ω s. t. 𝑓ȁ 𝜕Ω = 𝑓∗ȁ 𝜕Ω
– 汎関数微分を使って等価な微分方程式が得られる
– Δ𝑓 = div 𝑣 with 𝑓ȁ 𝜕Ω = 𝑓∗ȁ 𝜕Ω (上に等価)
8
[Perez+03] Fig.1 より引用
離散化と実際の最適化方法
• 画像のグリッドの単位で離散化
– min
𝑓
∫ ∇𝑓 − 𝑣 2
𝑑Ω s. t. 𝑓ȁ 𝜕Ω = 𝑓∗ȁ 𝜕Ω
– min
𝑓𝑝
σ 𝑝 σ 𝑞∈𝑁 𝑝
𝑓𝑝 − 𝑓𝑞 − 𝑣 𝑝𝑞
2
s. t. 𝑓𝑝 = 𝑓𝑝
∗
(𝑝 ∈ 𝜕Ω) (離散化ver)
• ピクセル 𝑝 における画素値 𝑓𝑝 , 𝑣 𝑝𝑞 (ピクセル𝑞への方向微分), 近傍 𝑁𝑝
• 𝑁𝑝 𝑓𝑝 − σ 𝑞∈𝑁 𝑝
𝑓𝑞 = σ 𝑞∈𝑁 𝑝
𝑣 𝑝𝑞 (内部の場合)
– 𝑁 𝑝 𝑓𝑝 − σ 𝑞∈𝑁 𝑝∩Ω 𝑓𝑞 = σ 𝑞∈𝜕Ω 𝑓𝑞
∗ + σ 𝑞∈𝑁 𝑝
𝑣 𝑝𝑞 (一般)
– 𝑓𝑝 についての線形方程式として最適化可能
• 線形方程式ソルバで計算可能 (反復解法)
– SOR法
– マルチグリッド法
9
画像合成への適用
• ベクトル場として 𝑣 = Δ𝑔 を使用 (前景の勾配)
– 境界条件として背景のピクセル値を使用
– この場合 𝑣 𝑝𝑞 = 𝑔 𝑝 − 𝑔 𝑞
– 𝑁𝑝 𝑓𝑝 − 𝑔 𝑝 = σ 𝑞∈𝑁 𝑝
𝑓𝑞 − 𝑔 𝑞 (内部の場合)に帰着
– 単純な解法 𝑓𝑝 ← 𝑔 𝑝 +
1
ȁ𝑁 𝑝ȁ
σ 𝑞∈𝑁 𝑝
𝑓𝑞 − 𝑔 𝑞 で反復
• SOR法などを使った方が収束が早い
– これによりテクスチャを保持した合成が可能
10
応用
• ベクトル場と境界条件の操作で様々な応用が可能
– Mixing Gradient
• 𝑣 𝑥 = ∇𝑓∗
𝑥 if ∇𝑓∗
𝑥 > ∇𝑔 𝑥 else ∇𝑔 𝑥
• 元画像の勾配が強い場合にはそちらも考慮
– 無限に続くテクスチャを生成
• 周期的境界条件を使用
11[Perez+03] Fig.6 より引用
[Perez+03] Fig.12 より引用
画像合成における自然さの定量化 [Xue+12]
• 画像の統計量に着目したアプローチ
• 合成画像の自然さ = 統計量のヒストグラムとしての近さ
• 実際にどのような統計量が影響するか?を調査
• 画像統計量をマッチさせるアルゴリズムを提案
12
[Xue+12] Fig.7より引用
統計量による自然さの定量化
• 前景 𝑓, 背景 𝑏 として自然さを 𝑃(𝑅𝑒𝑎𝑙ȁ𝑓, 𝑔) として定量化したい
– これが既知なら 𝑃(𝑅𝑒𝑎𝑙ȁ𝑓, 𝑔) の最大化で適切な合成が可能
– 画像に対する統計量 𝑀𝑓 = {𝑀𝑓
𝑖
} 𝑀𝑔 = {𝑀𝑔
𝑖
} で有効そうな物を調査
• 前景と背景で相関が高い
– 1枚画像ではなくデータセットの画像1枚をサンプルと見なした場合の相関
• 簡単な操作で調整可能
• なるべく独立な量
– 統計量の候補
• ピクセル単位の特徴量を集約してスカラーの値として使用
• 輝度, 色温度(CCT), サチュレーション, 局所的コントラスト, 色相 : ピクセル単位
• 上位の平均, 中位の平均,下位の平均, 尖度, エントロピー : 集約関数
13
ピクセル単位の特徴量 (1)
• 前処理 sRGB 逆ガンマ補正
• 基本的に人間の感覚で数値として均等になる指標を使用
• 輝度 (Luminance)
– xyY色空間(XYZ空間の正規化)のY成分を[0, 1]で正規化して対数変換
• 相関色温度
– 黒体放射のピーク波長と色を対応付け
• 対応が存在しない色は射影して計算(相関の由来)
– 色温度の逆数を使用
• 人間の感覚でリニアに近い
14
http://k-ichikawa.blog.enjoy.jp/etc/HP/js/CIEXYZ2/cie6.html
ピクセル単位の特徴量 (2)
• サチュレーション, 色相
– HSV色空間でのSとHを[0, 1]に正規化した量
– 𝑆 = max 𝑅, 𝐺, 𝐵 − min 𝑅, 𝐺, 𝐵
• 局所的なコントラスト
– 輝度/平均化された輝度 𝑐 𝑥 =
𝐿 𝑥
ത𝐿 𝑥
*色関係の情報は露出が適切な領域で計算 (0.013 ≦ Y ≦ 0.88)
15
https://upload.wikimedia.org/wikipedia/commons/thumb/f/f1/HSV_cone.jpg/600px-HSV_cone.jpg
(平均はGaussian Blurを使用)
集約する関数
• ヒストグラムに対する関数
– H : 0.999分位以上の平均
– M : 単純な平均
– L : 0.001分位以下の平均
– 尖度 :
– エントロピー : ヒストグラム化して計算
* 色相に対する平均は注意が必要 (角度的な量なので平均ベクトルを射影するのが正しい)
16
この分位点による領域をゾーンと呼んでいる
(各特徴量に対応してゾーンは異なる)
L H
輝度の場合ハイライトとシャドウに相当
実画像での分布
• 合成画像ではなく実画像の前景と背景を切り抜いて使用 (4126枚)
• 統計量の差 𝛿𝑖 = 𝑀𝑓
𝑖
− 𝑀 𝑏
𝑖
を解析
– 正規化分散 , 相関係数 で比較
– 𝜎𝑖
∗
が小さく、 𝑟𝑖が大きいほどよい
• 考察
– 𝛿𝑖 はほぼ平均ゼロ
– 輝度は平均よりハイライト、シャドーで合わせた方がよい
– 局所的コントラスト、サチュレーション 相関大
– 色温度 > 色相
– ゾーン毎の平均を合わせれば違和感がなさそう
17
[Xue+12] Table.1より引用
自然さの評価
• 実画像の前景の統計量を操作して違和感を評価
– Amazon Mechanical Turkを使用
– 推定RankがGaussでfittingするとそれっぽい → 輝度、色温度、サチュレーションで推定
18
[Xue+12] Fig.3より引用 [Xue+12] Fig.4より引用
自動合成補正
• 特定のゾーンで統計量が一致するように補正
– 局所的コントラスト(LC)→輝度→色温度→サチュレーションを順に実行
• 局所的なコントラスト以外はゾーンの平均値の差を足し込むだけ
• 局所的なコントラストはピクセル同士が独立でないのでトーンカーブ補正
– 画像全体で一様に同じ関数(Sカーブ、パラメータα)を使用
– 一番補正できるαをグリッドサーチ
19
* 明度平均を起点としたベジエ曲線 × 2
ゾーン認識
• どのゾーンで補正するかを識別する必要がある → 学習
– 各ゾーンにシフト & ランダムに統計量を調整したサンプルで学習
• 特徴量(4種)毎に {H,M,L} のマルチラベルで予測
– マルチラベルなのはラベルに曖昧性があるため
– 入力 : 前景、背景のヒストグラムの各種関数
• 標準偏差、歪度、尖度、エントロピー、ヒストグラムのビンの値
– 出力が複数値の場合はヒストグラムでの補正が小さい物を選択
– 出力が存在しない場合Mを選択
• 予測器はランダムフォレスト
20
結果
• 左が入力画像、コピペ画像、既存手法1-2、右が結果画像
• 人間による評価でも他手法よりもスコアが高い
• ただこの手法では貼り付け位置を考慮しないため
場所に応じた見た目の調整は不可能
21
[Xue+12] Fig.1より引用
Deep Learning ベースの画像合成
• 今までの手法はセマンティックな情報を無視
– より高位の状況によって必要な補正は異なる
• 人に対しては〇〇の補正を加えるなどの必要
• 空による前景への影響 など
– 学習より直接的に自然な画像を生成
22
Deep Image Harmonization [Tsai+17]
• コピペ画像 → 合成画像のネットワークを学習
– Naiveなコピペ画像をRefineするCNN
– 画像合成のデータセットを生成
• 別のインスタンス/写真から色を転移
• 違うスタイルの前景・背景を作成
23
[Tsai+17] の Fig.2 より引用
Deep Image Harmonization [Tsai+17]
• 学習方法
– Encoder + Decoder(Segmentation), Decoder(Image)
– Segmentationと重みと中間チャンネルを共有するマルチタスク学習
– 画像出力はL2損失で学習
• 出力結果をみるとレタッチ様の効果があり、PSNRで比較すると優位
24
[Tsai+17] の Fig.5 より引用
DoveNet [Cong+19]
• [Tsai+17] + GAN的な手法
– 学習データ生成法はほぼ同じ
– U-Net + Attention Block
– 敵対的学習の要素を追加
– GT画像の予測に加えて
• Discriminator (1)
– 合成画像かどうかを判定
• Discriminator (2)
– それぞれの領域の表現を出力して前景と背景の類似度で同一ドメインかを判定
– Partial Convolutionでマスクの影響を排除
– 本物画像ならドメインは同じ、合成画像ならドメインは異なる
25
[Cong+19] Fig.2 より引用
DoveNet [Cong+19] : 結果
• 定量的にも定性的にも改善
26
[Cong+19] Fig. 3 より引用
Deep Image Blending [Zhang+19] : 概要
• Poisson Image Editing の Deep Learning化
– 境界の滑らかな合成と Style の一致を同時に達成したい
– Poisson Image Editingでの最小化関数 → Poisson Blending Loss
– Style変換用の損失も同時に計算 (Style loss + Content loss)
– 一枚Style Transfer[Gatys+16]と同様に画像そのものを最適化
– 学習データセットを用意する必要がない
27
[Gatys+16] Fig. 4 より引用
Deep Image Blending [Zhang+19] : 用いる損失
• Poisson Blending Loss
– Laplacianの差の2乗損失を使用
• 厳密に元の最適化問題に対応していないことに注意
• StyleTransfer用の損失 : [Gatys+16]にほぼ準拠
– StyleはNNの特徴量のチャネル相関に相当
– 2枚の画像のVGG16の中間層出力について
• 差 : Content Loss (2枚画像の意味的な差に相当)
• チャンネルごとの相関の差 : Style Loss を損失として使用
28
元の最適化問題
Poisson Blending Loss
Laplacian
* 他にも正則化として全変動損失などを使用
Deep Image Blending [Zhang+19] : 2段階法
29
• 前ページの損失を2段階で分けて効果的に適用
– 1段階目 : Seamless Blending
• マスク領域の内部のみを最適化して滑らかに接続するように最適化
• Poisson Blending Loss : (合成画像, 前景と背景の平均)に適用
• Content Loss : (合成画像, 前景画像)
• Style Loss : (合成画像, 背景画像)
– 2段階目 : Style Refinement
• 1段階目の出力を初期値としてマスク領域外も含めスタイルを最適化
• Poisson Blending Loss : 使用しない
• Content Loss : (合成画像, 1段階目の出力)
• Style Loss : (合成画像, 背景画像)
Deep Image Blending [Zhang+19] : 結果
30
• 同時に最適化することにより逐次適用よりも良い結果
[Zhang+19] Fig. 6 より引用
ST-GAN [Lin+19] : 概要
• 位置関係が不自然だと不自然な合成になってしまう
– 合成される前景の位置、大きさをGANで補正
– 逐次的にアファイン変換を推定して前景をWarpして合成
• Generator : それまでの合成画像 → アファイン変換係数
• Discriminator : 画像が本物か否か?
31[Lin+19] Fig.2 より引用
ST-GAN [Lin+19] : STN
• Spatial Transformer Network [Jaderberg+15] を利用
– アファイン変換による画像変換は画像、アファイン変換係数について微分可能
– アファイン変換によって生成される微分可能なフローのグリッドを使用するため
32
[Jaderberg+15] Fig.3 より引用
SF-GAN [Zhan+19] : 概要
• 位置関係と見た目を同時に補正して合成
– 画像生成のリアルさを向上させるためにGuided Filterを使用
• 合成画像 = 元画像とGenerator出力のGuided Filter結果
– 学習データ増強手段としても使用可能
– Cycle-GANのアイディアを利用 (前景のドメイン ↔ 背景のドメイン)
33
[Zhan+19] Fig.2 より引用
SF-GAN [Zhan+19] : 結果
• 文字検出のデータセットに対して適用して性能が向上
34
[Zhan+19] Fig.5 より引用
[Zhan+19] Fig.4 より引用
左から前景画像, 背景画像, ST-GAN, SF-GAN
まとめ
• 前景と背景を合成する手法について紹介
– 前景部分と背景部分の画像統計量を揃えることで自然な合成が可能
• 多重解像度による合成
• Gradientドメインでの合成
• 統計量のマッチング(色, Styleなど)
• DLベースで合成の不自然さをデータから学習して直接補正
• 紹介できなかったが他にもノイズや影に着目した補正方法なども存在
35
参考文献
• [Burt&Adelson83] P. J. Burt, E. H. Adelson, "A Multiresolution Spline With Application to Image Mosaics", ACM Transactions on
Graphics, vol. 2, no. 4, pp. 217-236, 1983.
• [Perez+03] P. Pérez, M. Gangnet, A. Blake, "Poisson Image Editing", ACM Transactions on Graphics (SIGGRAPH'03), vol. 22, no.
3, pp. 313-318, 2003.
• [Xue+12] S. Xue, A. Agarwala, J. Dorsey, H. Rushmeier, "Understanding and Improving the Realism of Image Composites", ACM
Transactions on Graphics (SIGGRAPH'12), vol. 31, no. 4, 2012.
• [Tsai+17] Y. H. Tsai, X. Shen, Z. Lin, K. Sunkavalli, X. Lu, M. H. Yang, Deep Image Harmonization, In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition (CVPR'17), pp. 2799-2807, 2017.
• [Cong+19] W. Cong, J. Zhang, L. Niu, L. Liu, Z. Ling, W. Li, L. Zhang, "DoveNet: Deep Image Harmonization via Domain
Verification", arXiv preprint arXiv:1911.13239, 2019.
• [Zhang+19] L. Zhang, T. Wen, J. Shi, "Deep Image Blending", arXiv preprint arXiv:1910.11495, 2019.
• [Gatys+16] L. A. Gatys, A. S. Ecker, M. Bethge, "Image style transfer using convolutional neural networks", In Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition (CVPR'16), pages 2414–2423, 2016.
• [Lin+19] C. H. Lin, E. Yumer, O. Wang, E. Shechtman, S. Lucey, "ST-GAN: Spatial Transformer Generative Adversarial Networks
• for Image Compositing", In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'19), pp. 9455-
9464, 2019.
• [Jaderberg+15] M. Jaderberg, K. Simonyan, A. Zisserman, K. Kavukcuoglu, "Spatial Transformer Networks", In Proceedings of the
28th International Conference on Neural Information Processing Systems (NIPS'15), vol. 2, pp. 2017–2025, 2015.
• [Zhan+19] F. Zhan, H. Zhu, S. Lu, "Spatial Fusion GAN for Image Synthesis", In Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition (CVPR'19), pp. 3648-3657, 2019.
36

More Related Content

What's hot

SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
Face Quality Assessment 顔画像品質評価について
Face Quality Assessment 顔画像品質評価についてFace Quality Assessment 顔画像品質評価について
Face Quality Assessment 顔画像品質評価についてPlot Hong
 
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...Toshiki Sakai
 
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Densitycvpaper. challenge
 
[IBIS2017 講演] ディープラーニングによる画像変換
[IBIS2017 講演] ディープラーニングによる画像変換[IBIS2017 講演] ディープラーニングによる画像変換
[IBIS2017 講演] ディープラーニングによる画像変換Satoshi Iizuka
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)HironoriKanazawa
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめYusuke Uchida
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative ModelDeep Learning JP
 
(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展Takumi Ohkuma
 
3次元計測とフィルタリング
3次元計測とフィルタリング3次元計測とフィルタリング
3次元計測とフィルタリングNorishige Fukushima
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"Deep Learning JP
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太Preferred Networks
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...Deep Learning JP
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
Siftによる特徴点抽出
Siftによる特徴点抽出Siftによる特徴点抽出
Siftによる特徴点抽出Masato Nakai
 

What's hot (20)

SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
Face Quality Assessment 顔画像品質評価について
Face Quality Assessment 顔画像品質評価についてFace Quality Assessment 顔画像品質評価について
Face Quality Assessment 顔画像品質評価について
 
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
 
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
 
[IBIS2017 講演] ディープラーニングによる画像変換
[IBIS2017 講演] ディープラーニングによる画像変換[IBIS2017 講演] ディープラーニングによる画像変換
[IBIS2017 講演] ディープラーニングによる画像変換
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
 
(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展
 
3次元計測とフィルタリング
3次元計測とフィルタリング3次元計測とフィルタリング
3次元計測とフィルタリング
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
Siftによる特徴点抽出
Siftによる特徴点抽出Siftによる特徴点抽出
Siftによる特徴点抽出
 

Similar to 前景と背景の画像合成技術

社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene GraphsKazuhiro Ota
 
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...Deep Learning JP
 
Graph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generationGraph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generationKazuki Fujikawa
 
Deep residual learning for image recognition
Deep residual learning for image recognitionDeep residual learning for image recognition
Deep residual learning for image recognition禎晃 山崎
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph GenerationDeep Learning JP
 

Similar to 前景と背景の画像合成技術 (6)

社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
 
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
 
Graph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generationGraph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generation
 
Deep residual learning for image recognition
Deep residual learning for image recognitionDeep residual learning for image recognition
Deep residual learning for image recognition
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 

More from Morpho, Inc.

(文献紹介)デブラー手法の紹介
(文献紹介)デブラー手法の紹介(文献紹介)デブラー手法の紹介
(文献紹介)デブラー手法の紹介Morpho, Inc.
 
(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向Morpho, Inc.
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
Vieurekaを用いた混雑状況の配信
Vieurekaを用いた混雑状況の配信Vieurekaを用いた混雑状況の配信
Vieurekaを用いた混雑状況の配信Morpho, Inc.
 
Limits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break themLimits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break themMorpho, Inc.
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMMMorpho, Inc.
 
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature FilterMorpho, Inc.
 
(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night SightMorpho, Inc.
 
Demosaicing(デモザイキング)
Demosaicing(デモザイキング)Demosaicing(デモザイキング)
Demosaicing(デモザイキング)Morpho, Inc.
 
Company Profile (Japanese)
Company Profile (Japanese)Company Profile (Japanese)
Company Profile (Japanese)Morpho, Inc.
 

More from Morpho, Inc. (11)

(文献紹介)デブラー手法の紹介
(文献紹介)デブラー手法の紹介(文献紹介)デブラー手法の紹介
(文献紹介)デブラー手法の紹介
 
(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
Vieurekaを用いた混雑状況の配信
Vieurekaを用いた混雑状況の配信Vieurekaを用いた混雑状況の配信
Vieurekaを用いた混雑状況の配信
 
Limits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break themLimits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break them
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
 
(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight
 
Demosaicing(デモザイキング)
Demosaicing(デモザイキング)Demosaicing(デモザイキング)
Demosaicing(デモザイキング)
 
Company Profile (Japanese)
Company Profile (Japanese)Company Profile (Japanese)
Company Profile (Japanese)
 

Recently uploaded

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 

Recently uploaded (11)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

前景と背景の画像合成技術

  • 2. 概要 :(前景と背景の)画像合成 • 画像合成の中でも前景と背景の合成を扱う – Ex. 背景入れ替え : 人画像 → 仮想背景 2 画像A 画像B 単純な方法 = コピー & ペーストで置き換え だと違和感がある 画像処理で自然な合成を実装したい 合成画像
  • 3. 画像合成 • どのような条件で人は自然な画像かどうかを判別している? – 色, テクスチャ, 境界部分, ノイズ, ライティング が全体で統一的 – 合成部でその差異を除去することでリアルな合成画像が生成可能 • 多重解像度による合成 • Gradientドメインでの合成 • 統計量のマッチング(色, Styleなど) – 画像合成系のアプローチを紹介 3
  • 4. Laplacian Pyramidによる合成 [Burt&Adelson83] • 目的 : 画像合成部のつなぎ目を滑らかに合成したい – 特徴的なスケールごとに分解しそこで合成して再構成すればよい 4 [Burt&Adelson83] Fig.7より引用 画像 A(x, y) 画像 B(x, y) 合成結果 S(x,y) マスク画像 R(x, y)
  • 5. Image Pyramid • 画像の多重解像度表現 : 特徴的なスケールごとに分解 – Gaussian Pyramid : 各階層で Gaussian Blur & ½倍縮小 – Laplacian Pyramid : Gaussian Pyramidの各階層の差分表現 • 再構成(拡大 & 加算)すると元画像になるようなスケール別画像に分解 5 Gaussian Pyramid Laplacian Pyramid
  • 6. Laplacian Pyramidによる合成 • 画像 A, B マスク画像 R をそれぞれPyramid分解 – Laplacian Pyramid表現で各解像度で計算し再構成 • マスクは Gaussian Pyramid の結果を利用 6 [Burt&Adelson83] Fig.7より引用 [Burt&Adelson83] Fig.10より引用
  • 7. Gradient領域での画像編集 [Perez+03] • 目的 : 境界部分でスムーズに合成しつつ画像の見た目は保持 – 画像のGradientが見た目の重要な要素 – Gradientをなるべく保存するような最適化問題に帰着 • 境界条件、ベクトル場の設定により様々な画像処理に転用可能 7 [Perez+03] Fig. 3 より引用
  • 8. 最適化問題としての枠組み • 情報として重要な勾配を保持する最適化 – 領域 Ω の境界 𝜕Ω で定義されている 𝑓∗ を内部で補間 • 勾配のガイドとしてベクトル場 𝑣 を使用 – min 𝑓 ∫ ∇𝑓 − 𝑣 2 𝑑Ω s. t. 𝑓ȁ 𝜕Ω = 𝑓∗ȁ 𝜕Ω – 汎関数微分を使って等価な微分方程式が得られる – Δ𝑓 = div 𝑣 with 𝑓ȁ 𝜕Ω = 𝑓∗ȁ 𝜕Ω (上に等価) 8 [Perez+03] Fig.1 より引用
  • 9. 離散化と実際の最適化方法 • 画像のグリッドの単位で離散化 – min 𝑓 ∫ ∇𝑓 − 𝑣 2 𝑑Ω s. t. 𝑓ȁ 𝜕Ω = 𝑓∗ȁ 𝜕Ω – min 𝑓𝑝 σ 𝑝 σ 𝑞∈𝑁 𝑝 𝑓𝑝 − 𝑓𝑞 − 𝑣 𝑝𝑞 2 s. t. 𝑓𝑝 = 𝑓𝑝 ∗ (𝑝 ∈ 𝜕Ω) (離散化ver) • ピクセル 𝑝 における画素値 𝑓𝑝 , 𝑣 𝑝𝑞 (ピクセル𝑞への方向微分), 近傍 𝑁𝑝 • 𝑁𝑝 𝑓𝑝 − σ 𝑞∈𝑁 𝑝 𝑓𝑞 = σ 𝑞∈𝑁 𝑝 𝑣 𝑝𝑞 (内部の場合) – 𝑁 𝑝 𝑓𝑝 − σ 𝑞∈𝑁 𝑝∩Ω 𝑓𝑞 = σ 𝑞∈𝜕Ω 𝑓𝑞 ∗ + σ 𝑞∈𝑁 𝑝 𝑣 𝑝𝑞 (一般) – 𝑓𝑝 についての線形方程式として最適化可能 • 線形方程式ソルバで計算可能 (反復解法) – SOR法 – マルチグリッド法 9
  • 10. 画像合成への適用 • ベクトル場として 𝑣 = Δ𝑔 を使用 (前景の勾配) – 境界条件として背景のピクセル値を使用 – この場合 𝑣 𝑝𝑞 = 𝑔 𝑝 − 𝑔 𝑞 – 𝑁𝑝 𝑓𝑝 − 𝑔 𝑝 = σ 𝑞∈𝑁 𝑝 𝑓𝑞 − 𝑔 𝑞 (内部の場合)に帰着 – 単純な解法 𝑓𝑝 ← 𝑔 𝑝 + 1 ȁ𝑁 𝑝ȁ σ 𝑞∈𝑁 𝑝 𝑓𝑞 − 𝑔 𝑞 で反復 • SOR法などを使った方が収束が早い – これによりテクスチャを保持した合成が可能 10
  • 11. 応用 • ベクトル場と境界条件の操作で様々な応用が可能 – Mixing Gradient • 𝑣 𝑥 = ∇𝑓∗ 𝑥 if ∇𝑓∗ 𝑥 > ∇𝑔 𝑥 else ∇𝑔 𝑥 • 元画像の勾配が強い場合にはそちらも考慮 – 無限に続くテクスチャを生成 • 周期的境界条件を使用 11[Perez+03] Fig.6 より引用 [Perez+03] Fig.12 より引用
  • 12. 画像合成における自然さの定量化 [Xue+12] • 画像の統計量に着目したアプローチ • 合成画像の自然さ = 統計量のヒストグラムとしての近さ • 実際にどのような統計量が影響するか?を調査 • 画像統計量をマッチさせるアルゴリズムを提案 12 [Xue+12] Fig.7より引用
  • 13. 統計量による自然さの定量化 • 前景 𝑓, 背景 𝑏 として自然さを 𝑃(𝑅𝑒𝑎𝑙ȁ𝑓, 𝑔) として定量化したい – これが既知なら 𝑃(𝑅𝑒𝑎𝑙ȁ𝑓, 𝑔) の最大化で適切な合成が可能 – 画像に対する統計量 𝑀𝑓 = {𝑀𝑓 𝑖 } 𝑀𝑔 = {𝑀𝑔 𝑖 } で有効そうな物を調査 • 前景と背景で相関が高い – 1枚画像ではなくデータセットの画像1枚をサンプルと見なした場合の相関 • 簡単な操作で調整可能 • なるべく独立な量 – 統計量の候補 • ピクセル単位の特徴量を集約してスカラーの値として使用 • 輝度, 色温度(CCT), サチュレーション, 局所的コントラスト, 色相 : ピクセル単位 • 上位の平均, 中位の平均,下位の平均, 尖度, エントロピー : 集約関数 13
  • 14. ピクセル単位の特徴量 (1) • 前処理 sRGB 逆ガンマ補正 • 基本的に人間の感覚で数値として均等になる指標を使用 • 輝度 (Luminance) – xyY色空間(XYZ空間の正規化)のY成分を[0, 1]で正規化して対数変換 • 相関色温度 – 黒体放射のピーク波長と色を対応付け • 対応が存在しない色は射影して計算(相関の由来) – 色温度の逆数を使用 • 人間の感覚でリニアに近い 14 http://k-ichikawa.blog.enjoy.jp/etc/HP/js/CIEXYZ2/cie6.html
  • 15. ピクセル単位の特徴量 (2) • サチュレーション, 色相 – HSV色空間でのSとHを[0, 1]に正規化した量 – 𝑆 = max 𝑅, 𝐺, 𝐵 − min 𝑅, 𝐺, 𝐵 • 局所的なコントラスト – 輝度/平均化された輝度 𝑐 𝑥 = 𝐿 𝑥 ത𝐿 𝑥 *色関係の情報は露出が適切な領域で計算 (0.013 ≦ Y ≦ 0.88) 15 https://upload.wikimedia.org/wikipedia/commons/thumb/f/f1/HSV_cone.jpg/600px-HSV_cone.jpg (平均はGaussian Blurを使用)
  • 16. 集約する関数 • ヒストグラムに対する関数 – H : 0.999分位以上の平均 – M : 単純な平均 – L : 0.001分位以下の平均 – 尖度 : – エントロピー : ヒストグラム化して計算 * 色相に対する平均は注意が必要 (角度的な量なので平均ベクトルを射影するのが正しい) 16 この分位点による領域をゾーンと呼んでいる (各特徴量に対応してゾーンは異なる) L H 輝度の場合ハイライトとシャドウに相当
  • 17. 実画像での分布 • 合成画像ではなく実画像の前景と背景を切り抜いて使用 (4126枚) • 統計量の差 𝛿𝑖 = 𝑀𝑓 𝑖 − 𝑀 𝑏 𝑖 を解析 – 正規化分散 , 相関係数 で比較 – 𝜎𝑖 ∗ が小さく、 𝑟𝑖が大きいほどよい • 考察 – 𝛿𝑖 はほぼ平均ゼロ – 輝度は平均よりハイライト、シャドーで合わせた方がよい – 局所的コントラスト、サチュレーション 相関大 – 色温度 > 色相 – ゾーン毎の平均を合わせれば違和感がなさそう 17 [Xue+12] Table.1より引用
  • 18. 自然さの評価 • 実画像の前景の統計量を操作して違和感を評価 – Amazon Mechanical Turkを使用 – 推定RankがGaussでfittingするとそれっぽい → 輝度、色温度、サチュレーションで推定 18 [Xue+12] Fig.3より引用 [Xue+12] Fig.4より引用
  • 19. 自動合成補正 • 特定のゾーンで統計量が一致するように補正 – 局所的コントラスト(LC)→輝度→色温度→サチュレーションを順に実行 • 局所的なコントラスト以外はゾーンの平均値の差を足し込むだけ • 局所的なコントラストはピクセル同士が独立でないのでトーンカーブ補正 – 画像全体で一様に同じ関数(Sカーブ、パラメータα)を使用 – 一番補正できるαをグリッドサーチ 19 * 明度平均を起点としたベジエ曲線 × 2
  • 20. ゾーン認識 • どのゾーンで補正するかを識別する必要がある → 学習 – 各ゾーンにシフト & ランダムに統計量を調整したサンプルで学習 • 特徴量(4種)毎に {H,M,L} のマルチラベルで予測 – マルチラベルなのはラベルに曖昧性があるため – 入力 : 前景、背景のヒストグラムの各種関数 • 標準偏差、歪度、尖度、エントロピー、ヒストグラムのビンの値 – 出力が複数値の場合はヒストグラムでの補正が小さい物を選択 – 出力が存在しない場合Mを選択 • 予測器はランダムフォレスト 20
  • 21. 結果 • 左が入力画像、コピペ画像、既存手法1-2、右が結果画像 • 人間による評価でも他手法よりもスコアが高い • ただこの手法では貼り付け位置を考慮しないため 場所に応じた見た目の調整は不可能 21 [Xue+12] Fig.1より引用
  • 22. Deep Learning ベースの画像合成 • 今までの手法はセマンティックな情報を無視 – より高位の状況によって必要な補正は異なる • 人に対しては〇〇の補正を加えるなどの必要 • 空による前景への影響 など – 学習より直接的に自然な画像を生成 22
  • 23. Deep Image Harmonization [Tsai+17] • コピペ画像 → 合成画像のネットワークを学習 – Naiveなコピペ画像をRefineするCNN – 画像合成のデータセットを生成 • 別のインスタンス/写真から色を転移 • 違うスタイルの前景・背景を作成 23 [Tsai+17] の Fig.2 より引用
  • 24. Deep Image Harmonization [Tsai+17] • 学習方法 – Encoder + Decoder(Segmentation), Decoder(Image) – Segmentationと重みと中間チャンネルを共有するマルチタスク学習 – 画像出力はL2損失で学習 • 出力結果をみるとレタッチ様の効果があり、PSNRで比較すると優位 24 [Tsai+17] の Fig.5 より引用
  • 25. DoveNet [Cong+19] • [Tsai+17] + GAN的な手法 – 学習データ生成法はほぼ同じ – U-Net + Attention Block – 敵対的学習の要素を追加 – GT画像の予測に加えて • Discriminator (1) – 合成画像かどうかを判定 • Discriminator (2) – それぞれの領域の表現を出力して前景と背景の類似度で同一ドメインかを判定 – Partial Convolutionでマスクの影響を排除 – 本物画像ならドメインは同じ、合成画像ならドメインは異なる 25 [Cong+19] Fig.2 より引用
  • 26. DoveNet [Cong+19] : 結果 • 定量的にも定性的にも改善 26 [Cong+19] Fig. 3 より引用
  • 27. Deep Image Blending [Zhang+19] : 概要 • Poisson Image Editing の Deep Learning化 – 境界の滑らかな合成と Style の一致を同時に達成したい – Poisson Image Editingでの最小化関数 → Poisson Blending Loss – Style変換用の損失も同時に計算 (Style loss + Content loss) – 一枚Style Transfer[Gatys+16]と同様に画像そのものを最適化 – 学習データセットを用意する必要がない 27 [Gatys+16] Fig. 4 より引用
  • 28. Deep Image Blending [Zhang+19] : 用いる損失 • Poisson Blending Loss – Laplacianの差の2乗損失を使用 • 厳密に元の最適化問題に対応していないことに注意 • StyleTransfer用の損失 : [Gatys+16]にほぼ準拠 – StyleはNNの特徴量のチャネル相関に相当 – 2枚の画像のVGG16の中間層出力について • 差 : Content Loss (2枚画像の意味的な差に相当) • チャンネルごとの相関の差 : Style Loss を損失として使用 28 元の最適化問題 Poisson Blending Loss Laplacian * 他にも正則化として全変動損失などを使用
  • 29. Deep Image Blending [Zhang+19] : 2段階法 29 • 前ページの損失を2段階で分けて効果的に適用 – 1段階目 : Seamless Blending • マスク領域の内部のみを最適化して滑らかに接続するように最適化 • Poisson Blending Loss : (合成画像, 前景と背景の平均)に適用 • Content Loss : (合成画像, 前景画像) • Style Loss : (合成画像, 背景画像) – 2段階目 : Style Refinement • 1段階目の出力を初期値としてマスク領域外も含めスタイルを最適化 • Poisson Blending Loss : 使用しない • Content Loss : (合成画像, 1段階目の出力) • Style Loss : (合成画像, 背景画像)
  • 30. Deep Image Blending [Zhang+19] : 結果 30 • 同時に最適化することにより逐次適用よりも良い結果 [Zhang+19] Fig. 6 より引用
  • 31. ST-GAN [Lin+19] : 概要 • 位置関係が不自然だと不自然な合成になってしまう – 合成される前景の位置、大きさをGANで補正 – 逐次的にアファイン変換を推定して前景をWarpして合成 • Generator : それまでの合成画像 → アファイン変換係数 • Discriminator : 画像が本物か否か? 31[Lin+19] Fig.2 より引用
  • 32. ST-GAN [Lin+19] : STN • Spatial Transformer Network [Jaderberg+15] を利用 – アファイン変換による画像変換は画像、アファイン変換係数について微分可能 – アファイン変換によって生成される微分可能なフローのグリッドを使用するため 32 [Jaderberg+15] Fig.3 より引用
  • 33. SF-GAN [Zhan+19] : 概要 • 位置関係と見た目を同時に補正して合成 – 画像生成のリアルさを向上させるためにGuided Filterを使用 • 合成画像 = 元画像とGenerator出力のGuided Filter結果 – 学習データ増強手段としても使用可能 – Cycle-GANのアイディアを利用 (前景のドメイン ↔ 背景のドメイン) 33 [Zhan+19] Fig.2 より引用
  • 34. SF-GAN [Zhan+19] : 結果 • 文字検出のデータセットに対して適用して性能が向上 34 [Zhan+19] Fig.5 より引用 [Zhan+19] Fig.4 より引用 左から前景画像, 背景画像, ST-GAN, SF-GAN
  • 35. まとめ • 前景と背景を合成する手法について紹介 – 前景部分と背景部分の画像統計量を揃えることで自然な合成が可能 • 多重解像度による合成 • Gradientドメインでの合成 • 統計量のマッチング(色, Styleなど) • DLベースで合成の不自然さをデータから学習して直接補正 • 紹介できなかったが他にもノイズや影に着目した補正方法なども存在 35
  • 36. 参考文献 • [Burt&Adelson83] P. J. Burt, E. H. Adelson, "A Multiresolution Spline With Application to Image Mosaics", ACM Transactions on Graphics, vol. 2, no. 4, pp. 217-236, 1983. • [Perez+03] P. Pérez, M. Gangnet, A. Blake, "Poisson Image Editing", ACM Transactions on Graphics (SIGGRAPH'03), vol. 22, no. 3, pp. 313-318, 2003. • [Xue+12] S. Xue, A. Agarwala, J. Dorsey, H. Rushmeier, "Understanding and Improving the Realism of Image Composites", ACM Transactions on Graphics (SIGGRAPH'12), vol. 31, no. 4, 2012. • [Tsai+17] Y. H. Tsai, X. Shen, Z. Lin, K. Sunkavalli, X. Lu, M. H. Yang, Deep Image Harmonization, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'17), pp. 2799-2807, 2017. • [Cong+19] W. Cong, J. Zhang, L. Niu, L. Liu, Z. Ling, W. Li, L. Zhang, "DoveNet: Deep Image Harmonization via Domain Verification", arXiv preprint arXiv:1911.13239, 2019. • [Zhang+19] L. Zhang, T. Wen, J. Shi, "Deep Image Blending", arXiv preprint arXiv:1910.11495, 2019. • [Gatys+16] L. A. Gatys, A. S. Ecker, M. Bethge, "Image style transfer using convolutional neural networks", In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'16), pages 2414–2423, 2016. • [Lin+19] C. H. Lin, E. Yumer, O. Wang, E. Shechtman, S. Lucey, "ST-GAN: Spatial Transformer Generative Adversarial Networks • for Image Compositing", In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'19), pp. 9455- 9464, 2019. • [Jaderberg+15] M. Jaderberg, K. Simonyan, A. Zisserman, K. Kavukcuoglu, "Spatial Transformer Networks", In Proceedings of the 28th International Conference on Neural Information Processing Systems (NIPS'15), vol. 2, pp. 2017–2025, 2015. • [Zhan+19] F. Zhan, H. Zhu, S. Lu, "Spatial Fusion GAN for Image Synthesis", In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'19), pp. 3648-3657, 2019. 36