SlideShare a Scribd company logo
前景と背景の画像合成
CTO室 松尾恒
概要 :(前景と背景の)画像合成
• 画像合成の中でも前景と背景の合成を扱う
– Ex. 背景入れ替え : 人画像 → 仮想背景
2
画像A 画像B
単純な方法 = コピー & ペーストで置き換え だと違和感がある
画像処理で自然な合成を実装したい
合成画像
画像合成
• どのような条件で人は自然な画像かどうかを判別している?
– 色, テクスチャ, 境界部分, ノイズ, ライティング が全体で統一的
– 合成部でその差異を除去することでリアルな合成画像が生成可能
• 多重解像度による合成
• Gradientドメインでの合成
• 統計量のマッチング(色, Styleなど)
– 画像合成系のアプローチを紹介
3
Laplacian Pyramidによる合成 [Burt&Adelson83]
• 目的 : 画像合成部のつなぎ目を滑らかに合成したい
– 特徴的なスケールごとに分解しそこで合成して再構成すればよい
4
[Burt&Adelson83] Fig.7より引用
画像 A(x, y) 画像 B(x, y)
合成結果 S(x,y)
マスク画像 R(x, y)
Image Pyramid
• 画像の多重解像度表現 : 特徴的なスケールごとに分解
– Gaussian Pyramid : 各階層で Gaussian Blur & ½倍縮小
– Laplacian Pyramid : Gaussian Pyramidの各階層の差分表現
• 再構成(拡大 & 加算)すると元画像になるようなスケール別画像に分解
5
Gaussian
Pyramid
Laplacian
Pyramid
Laplacian Pyramidによる合成
• 画像 A, B マスク画像 R をそれぞれPyramid分解
– Laplacian Pyramid表現で各解像度で計算し再構成
• マスクは Gaussian Pyramid の結果を利用
6
[Burt&Adelson83] Fig.7より引用 [Burt&Adelson83] Fig.10より引用
Gradient領域での画像編集 [Perez+03]
• 目的 : 境界部分でスムーズに合成しつつ画像の見た目は保持
– 画像のGradientが見た目の重要な要素
– Gradientをなるべく保存するような最適化問題に帰着
• 境界条件、ベクトル場の設定により様々な画像処理に転用可能
7
[Perez+03] Fig. 3 より引用
最適化問題としての枠組み
• 情報として重要な勾配を保持する最適化
– 領域 Ω の境界 𝜕Ω で定義されている 𝑓∗
を内部で補間
• 勾配のガイドとしてベクトル場 𝑣 を使用
– min
𝑓
∫ ∇𝑓 − 𝑣 2
𝑑Ω s. t. 𝑓ȁ 𝜕Ω = 𝑓∗ȁ 𝜕Ω
– 汎関数微分を使って等価な微分方程式が得られる
– Δ𝑓 = div 𝑣 with 𝑓ȁ 𝜕Ω = 𝑓∗ȁ 𝜕Ω (上に等価)
8
[Perez+03] Fig.1 より引用
離散化と実際の最適化方法
• 画像のグリッドの単位で離散化
– min
𝑓
∫ ∇𝑓 − 𝑣 2
𝑑Ω s. t. 𝑓ȁ 𝜕Ω = 𝑓∗ȁ 𝜕Ω
– min
𝑓𝑝
σ 𝑝 σ 𝑞∈𝑁 𝑝
𝑓𝑝 − 𝑓𝑞 − 𝑣 𝑝𝑞
2
s. t. 𝑓𝑝 = 𝑓𝑝
∗
(𝑝 ∈ 𝜕Ω) (離散化ver)
• ピクセル 𝑝 における画素値 𝑓𝑝 , 𝑣 𝑝𝑞 (ピクセル𝑞への方向微分), 近傍 𝑁𝑝
• 𝑁𝑝 𝑓𝑝 − σ 𝑞∈𝑁 𝑝
𝑓𝑞 = σ 𝑞∈𝑁 𝑝
𝑣 𝑝𝑞 (内部の場合)
– 𝑁 𝑝 𝑓𝑝 − σ 𝑞∈𝑁 𝑝∩Ω 𝑓𝑞 = σ 𝑞∈𝜕Ω 𝑓𝑞
∗ + σ 𝑞∈𝑁 𝑝
𝑣 𝑝𝑞 (一般)
– 𝑓𝑝 についての線形方程式として最適化可能
• 線形方程式ソルバで計算可能 (反復解法)
– SOR法
– マルチグリッド法
9
画像合成への適用
• ベクトル場として 𝑣 = Δ𝑔 を使用 (前景の勾配)
– 境界条件として背景のピクセル値を使用
– この場合 𝑣 𝑝𝑞 = 𝑔 𝑝 − 𝑔 𝑞
– 𝑁𝑝 𝑓𝑝 − 𝑔 𝑝 = σ 𝑞∈𝑁 𝑝
𝑓𝑞 − 𝑔 𝑞 (内部の場合)に帰着
– 単純な解法 𝑓𝑝 ← 𝑔 𝑝 +
1
ȁ𝑁 𝑝ȁ
σ 𝑞∈𝑁 𝑝
𝑓𝑞 − 𝑔 𝑞 で反復
• SOR法などを使った方が収束が早い
– これによりテクスチャを保持した合成が可能
10
応用
• ベクトル場と境界条件の操作で様々な応用が可能
– Mixing Gradient
• 𝑣 𝑥 = ∇𝑓∗
𝑥 if ∇𝑓∗
𝑥 > ∇𝑔 𝑥 else ∇𝑔 𝑥
• 元画像の勾配が強い場合にはそちらも考慮
– 無限に続くテクスチャを生成
• 周期的境界条件を使用
11[Perez+03] Fig.6 より引用
[Perez+03] Fig.12 より引用
画像合成における自然さの定量化 [Xue+12]
• 画像の統計量に着目したアプローチ
• 合成画像の自然さ = 統計量のヒストグラムとしての近さ
• 実際にどのような統計量が影響するか?を調査
• 画像統計量をマッチさせるアルゴリズムを提案
12
[Xue+12] Fig.7より引用
統計量による自然さの定量化
• 前景 𝑓, 背景 𝑏 として自然さを 𝑃(𝑅𝑒𝑎𝑙ȁ𝑓, 𝑔) として定量化したい
– これが既知なら 𝑃(𝑅𝑒𝑎𝑙ȁ𝑓, 𝑔) の最大化で適切な合成が可能
– 画像に対する統計量 𝑀𝑓 = {𝑀𝑓
𝑖
} 𝑀𝑔 = {𝑀𝑔
𝑖
} で有効そうな物を調査
• 前景と背景で相関が高い
– 1枚画像ではなくデータセットの画像1枚をサンプルと見なした場合の相関
• 簡単な操作で調整可能
• なるべく独立な量
– 統計量の候補
• ピクセル単位の特徴量を集約してスカラーの値として使用
• 輝度, 色温度(CCT), サチュレーション, 局所的コントラスト, 色相 : ピクセル単位
• 上位の平均, 中位の平均,下位の平均, 尖度, エントロピー : 集約関数
13
ピクセル単位の特徴量 (1)
• 前処理 sRGB 逆ガンマ補正
• 基本的に人間の感覚で数値として均等になる指標を使用
• 輝度 (Luminance)
– xyY色空間(XYZ空間の正規化)のY成分を[0, 1]で正規化して対数変換
• 相関色温度
– 黒体放射のピーク波長と色を対応付け
• 対応が存在しない色は射影して計算(相関の由来)
– 色温度の逆数を使用
• 人間の感覚でリニアに近い
14
http://k-ichikawa.blog.enjoy.jp/etc/HP/js/CIEXYZ2/cie6.html
ピクセル単位の特徴量 (2)
• サチュレーション, 色相
– HSV色空間でのSとHを[0, 1]に正規化した量
– 𝑆 = max 𝑅, 𝐺, 𝐵 − min 𝑅, 𝐺, 𝐵
• 局所的なコントラスト
– 輝度/平均化された輝度 𝑐 𝑥 =
𝐿 𝑥
ത𝐿 𝑥
*色関係の情報は露出が適切な領域で計算 (0.013 ≦ Y ≦ 0.88)
15
https://upload.wikimedia.org/wikipedia/commons/thumb/f/f1/HSV_cone.jpg/600px-HSV_cone.jpg
(平均はGaussian Blurを使用)
集約する関数
• ヒストグラムに対する関数
– H : 0.999分位以上の平均
– M : 単純な平均
– L : 0.001分位以下の平均
– 尖度 :
– エントロピー : ヒストグラム化して計算
* 色相に対する平均は注意が必要 (角度的な量なので平均ベクトルを射影するのが正しい)
16
この分位点による領域をゾーンと呼んでいる
(各特徴量に対応してゾーンは異なる)
L H
輝度の場合ハイライトとシャドウに相当
実画像での分布
• 合成画像ではなく実画像の前景と背景を切り抜いて使用 (4126枚)
• 統計量の差 𝛿𝑖 = 𝑀𝑓
𝑖
− 𝑀 𝑏
𝑖
を解析
– 正規化分散 , 相関係数 で比較
– 𝜎𝑖
∗
が小さく、 𝑟𝑖が大きいほどよい
• 考察
– 𝛿𝑖 はほぼ平均ゼロ
– 輝度は平均よりハイライト、シャドーで合わせた方がよい
– 局所的コントラスト、サチュレーション 相関大
– 色温度 > 色相
– ゾーン毎の平均を合わせれば違和感がなさそう
17
[Xue+12] Table.1より引用
自然さの評価
• 実画像の前景の統計量を操作して違和感を評価
– Amazon Mechanical Turkを使用
– 推定RankがGaussでfittingするとそれっぽい → 輝度、色温度、サチュレーションで推定
18
[Xue+12] Fig.3より引用 [Xue+12] Fig.4より引用
自動合成補正
• 特定のゾーンで統計量が一致するように補正
– 局所的コントラスト(LC)→輝度→色温度→サチュレーションを順に実行
• 局所的なコントラスト以外はゾーンの平均値の差を足し込むだけ
• 局所的なコントラストはピクセル同士が独立でないのでトーンカーブ補正
– 画像全体で一様に同じ関数(Sカーブ、パラメータα)を使用
– 一番補正できるαをグリッドサーチ
19
* 明度平均を起点としたベジエ曲線 × 2
ゾーン認識
• どのゾーンで補正するかを識別する必要がある → 学習
– 各ゾーンにシフト & ランダムに統計量を調整したサンプルで学習
• 特徴量(4種)毎に {H,M,L} のマルチラベルで予測
– マルチラベルなのはラベルに曖昧性があるため
– 入力 : 前景、背景のヒストグラムの各種関数
• 標準偏差、歪度、尖度、エントロピー、ヒストグラムのビンの値
– 出力が複数値の場合はヒストグラムでの補正が小さい物を選択
– 出力が存在しない場合Mを選択
• 予測器はランダムフォレスト
20
結果
• 左が入力画像、コピペ画像、既存手法1-2、右が結果画像
• 人間による評価でも他手法よりもスコアが高い
• ただこの手法では貼り付け位置を考慮しないため
場所に応じた見た目の調整は不可能
21
[Xue+12] Fig.1より引用
Deep Learning ベースの画像合成
• 今までの手法はセマンティックな情報を無視
– より高位の状況によって必要な補正は異なる
• 人に対しては〇〇の補正を加えるなどの必要
• 空による前景への影響 など
– 学習より直接的に自然な画像を生成
22
Deep Image Harmonization [Tsai+17]
• コピペ画像 → 合成画像のネットワークを学習
– Naiveなコピペ画像をRefineするCNN
– 画像合成のデータセットを生成
• 別のインスタンス/写真から色を転移
• 違うスタイルの前景・背景を作成
23
[Tsai+17] の Fig.2 より引用
Deep Image Harmonization [Tsai+17]
• 学習方法
– Encoder + Decoder(Segmentation), Decoder(Image)
– Segmentationと重みと中間チャンネルを共有するマルチタスク学習
– 画像出力はL2損失で学習
• 出力結果をみるとレタッチ様の効果があり、PSNRで比較すると優位
24
[Tsai+17] の Fig.5 より引用
DoveNet [Cong+19]
• [Tsai+17] + GAN的な手法
– 学習データ生成法はほぼ同じ
– U-Net + Attention Block
– 敵対的学習の要素を追加
– GT画像の予測に加えて
• Discriminator (1)
– 合成画像かどうかを判定
• Discriminator (2)
– それぞれの領域の表現を出力して前景と背景の類似度で同一ドメインかを判定
– Partial Convolutionでマスクの影響を排除
– 本物画像ならドメインは同じ、合成画像ならドメインは異なる
25
[Cong+19] Fig.2 より引用
DoveNet [Cong+19] : 結果
• 定量的にも定性的にも改善
26
[Cong+19] Fig. 3 より引用
Deep Image Blending [Zhang+19] : 概要
• Poisson Image Editing の Deep Learning化
– 境界の滑らかな合成と Style の一致を同時に達成したい
– Poisson Image Editingでの最小化関数 → Poisson Blending Loss
– Style変換用の損失も同時に計算 (Style loss + Content loss)
– 一枚Style Transfer[Gatys+16]と同様に画像そのものを最適化
– 学習データセットを用意する必要がない
27
[Gatys+16] Fig. 4 より引用
Deep Image Blending [Zhang+19] : 用いる損失
• Poisson Blending Loss
– Laplacianの差の2乗損失を使用
• 厳密に元の最適化問題に対応していないことに注意
• StyleTransfer用の損失 : [Gatys+16]にほぼ準拠
– StyleはNNの特徴量のチャネル相関に相当
– 2枚の画像のVGG16の中間層出力について
• 差 : Content Loss (2枚画像の意味的な差に相当)
• チャンネルごとの相関の差 : Style Loss を損失として使用
28
元の最適化問題
Poisson Blending Loss
Laplacian
* 他にも正則化として全変動損失などを使用
Deep Image Blending [Zhang+19] : 2段階法
29
• 前ページの損失を2段階で分けて効果的に適用
– 1段階目 : Seamless Blending
• マスク領域の内部のみを最適化して滑らかに接続するように最適化
• Poisson Blending Loss : (合成画像, 前景と背景の平均)に適用
• Content Loss : (合成画像, 前景画像)
• Style Loss : (合成画像, 背景画像)
– 2段階目 : Style Refinement
• 1段階目の出力を初期値としてマスク領域外も含めスタイルを最適化
• Poisson Blending Loss : 使用しない
• Content Loss : (合成画像, 1段階目の出力)
• Style Loss : (合成画像, 背景画像)
Deep Image Blending [Zhang+19] : 結果
30
• 同時に最適化することにより逐次適用よりも良い結果
[Zhang+19] Fig. 6 より引用
ST-GAN [Lin+19] : 概要
• 位置関係が不自然だと不自然な合成になってしまう
– 合成される前景の位置、大きさをGANで補正
– 逐次的にアファイン変換を推定して前景をWarpして合成
• Generator : それまでの合成画像 → アファイン変換係数
• Discriminator : 画像が本物か否か?
31[Lin+19] Fig.2 より引用
ST-GAN [Lin+19] : STN
• Spatial Transformer Network [Jaderberg+15] を利用
– アファイン変換による画像変換は画像、アファイン変換係数について微分可能
– アファイン変換によって生成される微分可能なフローのグリッドを使用するため
32
[Jaderberg+15] Fig.3 より引用
SF-GAN [Zhan+19] : 概要
• 位置関係と見た目を同時に補正して合成
– 画像生成のリアルさを向上させるためにGuided Filterを使用
• 合成画像 = 元画像とGenerator出力のGuided Filter結果
– 学習データ増強手段としても使用可能
– Cycle-GANのアイディアを利用 (前景のドメイン ↔ 背景のドメイン)
33
[Zhan+19] Fig.2 より引用
SF-GAN [Zhan+19] : 結果
• 文字検出のデータセットに対して適用して性能が向上
34
[Zhan+19] Fig.5 より引用
[Zhan+19] Fig.4 より引用
左から前景画像, 背景画像, ST-GAN, SF-GAN
まとめ
• 前景と背景を合成する手法について紹介
– 前景部分と背景部分の画像統計量を揃えることで自然な合成が可能
• 多重解像度による合成
• Gradientドメインでの合成
• 統計量のマッチング(色, Styleなど)
• DLベースで合成の不自然さをデータから学習して直接補正
• 紹介できなかったが他にもノイズや影に着目した補正方法なども存在
35
参考文献
• [Burt&Adelson83] P. J. Burt, E. H. Adelson, "A Multiresolution Spline With Application to Image Mosaics", ACM Transactions on
Graphics, vol. 2, no. 4, pp. 217-236, 1983.
• [Perez+03] P. Pérez, M. Gangnet, A. Blake, "Poisson Image Editing", ACM Transactions on Graphics (SIGGRAPH'03), vol. 22, no.
3, pp. 313-318, 2003.
• [Xue+12] S. Xue, A. Agarwala, J. Dorsey, H. Rushmeier, "Understanding and Improving the Realism of Image Composites", ACM
Transactions on Graphics (SIGGRAPH'12), vol. 31, no. 4, 2012.
• [Tsai+17] Y. H. Tsai, X. Shen, Z. Lin, K. Sunkavalli, X. Lu, M. H. Yang, Deep Image Harmonization, In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition (CVPR'17), pp. 2799-2807, 2017.
• [Cong+19] W. Cong, J. Zhang, L. Niu, L. Liu, Z. Ling, W. Li, L. Zhang, "DoveNet: Deep Image Harmonization via Domain
Verification", arXiv preprint arXiv:1911.13239, 2019.
• [Zhang+19] L. Zhang, T. Wen, J. Shi, "Deep Image Blending", arXiv preprint arXiv:1910.11495, 2019.
• [Gatys+16] L. A. Gatys, A. S. Ecker, M. Bethge, "Image style transfer using convolutional neural networks", In Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition (CVPR'16), pages 2414–2423, 2016.
• [Lin+19] C. H. Lin, E. Yumer, O. Wang, E. Shechtman, S. Lucey, "ST-GAN: Spatial Transformer Generative Adversarial Networks
• for Image Compositing", In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'19), pp. 9455-
9464, 2019.
• [Jaderberg+15] M. Jaderberg, K. Simonyan, A. Zisserman, K. Kavukcuoglu, "Spatial Transformer Networks", In Proceedings of the
28th International Conference on Neural Information Processing Systems (NIPS'15), vol. 2, pp. 2017–2025, 2015.
• [Zhan+19] F. Zhan, H. Zhu, S. Lu, "Spatial Fusion GAN for Image Synthesis", In Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition (CVPR'19), pp. 3648-3657, 2019.
36

More Related Content

What's hot

How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
 
異常検知とGAN: AnoGan
異常検知とGAN: AnoGan異常検知とGAN: AnoGan
異常検知とGAN: AnoGan
Koichiro tamura
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
 
【CVPR 2020 メタサーベイ】Computational Photography
【CVPR 2020 メタサーベイ】Computational Photography【CVPR 2020 メタサーベイ】Computational Photography
【CVPR 2020 メタサーベイ】Computational Photography
cvpaper. challenge
 
[IBIS2017 講演] ディープラーニングによる画像変換
[IBIS2017 講演] ディープラーニングによる画像変換[IBIS2017 講演] ディープラーニングによる画像変換
[IBIS2017 講演] ディープラーニングによる画像変換
Satoshi Iizuka
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
 
Data-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組みData-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組み
Takeshi Suzuki
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
Hironobu Fujiyoshi
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
SSII
 
Color Science for Games(JP)
Color Science for Games(JP)Color Science for Games(JP)
Color Science for Games(JP)
Hajime Uchimura
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
Deep Learning JP
 
【DL輪読会】Monocular real time volumetric performance capture
【DL輪読会】Monocular real time volumetric performance capture 【DL輪読会】Monocular real time volumetric performance capture
【DL輪読会】Monocular real time volumetric performance capture
Deep Learning JP
 
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
Norishige Fukushima
 
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
Takao Yamanaka
 
イメージベーストライティングによる写実的な画像の生成
イメージベーストライティングによる写実的な画像の生成イメージベーストライティングによる写実的な画像の生成
イメージベーストライティングによる写実的な画像の生成
RyotaMaeda
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
Deep Learning JP
 

What's hot (20)

How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
異常検知とGAN: AnoGan
異常検知とGAN: AnoGan異常検知とGAN: AnoGan
異常検知とGAN: AnoGan
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
【CVPR 2020 メタサーベイ】Computational Photography
【CVPR 2020 メタサーベイ】Computational Photography【CVPR 2020 メタサーベイ】Computational Photography
【CVPR 2020 メタサーベイ】Computational Photography
 
[IBIS2017 講演] ディープラーニングによる画像変換
[IBIS2017 講演] ディープラーニングによる画像変換[IBIS2017 講演] ディープラーニングによる画像変換
[IBIS2017 講演] ディープラーニングによる画像変換
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
Data-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組みData-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組み
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
Color Science for Games(JP)
Color Science for Games(JP)Color Science for Games(JP)
Color Science for Games(JP)
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
 
【DL輪読会】Monocular real time volumetric performance capture
【DL輪読会】Monocular real time volumetric performance capture 【DL輪読会】Monocular real time volumetric performance capture
【DL輪読会】Monocular real time volumetric performance capture
 
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
 
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
 
イメージベーストライティングによる写実的な画像の生成
イメージベーストライティングによる写実的な画像の生成イメージベーストライティングによる写実的な画像の生成
イメージベーストライティングによる写実的な画像の生成
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 

Similar to 前景と背景の画像合成技術

社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
Kazuhiro Ota
 
Graph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generationGraph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generation
Kazuki Fujikawa
 
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
Deep Learning JP
 
Deep residual learning for image recognition
Deep residual learning for image recognitionDeep residual learning for image recognition
Deep residual learning for image recognition
禎晃 山崎
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
Deep Learning JP
 

Similar to 前景と背景の画像合成技術 (6)

社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
 
Graph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generationGraph convolutional policy network for goal directed molecular graph generation
Graph convolutional policy network for goal directed molecular graph generation
 
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
 
Deep residual learning for image recognition
Deep residual learning for image recognitionDeep residual learning for image recognition
Deep residual learning for image recognition
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 

More from Morpho, Inc.

(文献紹介)デブラー手法の紹介
(文献紹介)デブラー手法の紹介(文献紹介)デブラー手法の紹介
(文献紹介)デブラー手法の紹介
Morpho, Inc.
 
(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向
Morpho, Inc.
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
Morpho, Inc.
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
 
Vieurekaを用いた混雑状況の配信
Vieurekaを用いた混雑状況の配信Vieurekaを用いた混雑状況の配信
Vieurekaを用いた混雑状況の配信
Morpho, Inc.
 
Limits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break themLimits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break them
Morpho, Inc.
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
Morpho, Inc.
 
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
Morpho, Inc.
 
(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight
Morpho, Inc.
 
Demosaicing(デモザイキング)
Demosaicing(デモザイキング)Demosaicing(デモザイキング)
Demosaicing(デモザイキング)
Morpho, Inc.
 
Company Profile (Japanese)
Company Profile (Japanese)Company Profile (Japanese)
Company Profile (Japanese)
Morpho, Inc.
 

More from Morpho, Inc. (11)

(文献紹介)デブラー手法の紹介
(文献紹介)デブラー手法の紹介(文献紹介)デブラー手法の紹介
(文献紹介)デブラー手法の紹介
 
(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
Vieurekaを用いた混雑状況の配信
Vieurekaを用いた混雑状況の配信Vieurekaを用いた混雑状況の配信
Vieurekaを用いた混雑状況の配信
 
Limits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break themLimits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break them
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
 
(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight
 
Demosaicing(デモザイキング)
Demosaicing(デモザイキング)Demosaicing(デモザイキング)
Demosaicing(デモザイキング)
 
Company Profile (Japanese)
Company Profile (Japanese)Company Profile (Japanese)
Company Profile (Japanese)
 

Recently uploaded

ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
azuma satoshi
 
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
ARISE analytics
 
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
sugiuralab
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
Yuki Miyazaki
 
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
Osaka University
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
osamut
 
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptxiMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
kitamisetagayaxxx
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 

Recently uploaded (10)

ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
 
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
 
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
 
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
 
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptxiMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 

前景と背景の画像合成技術

  • 2. 概要 :(前景と背景の)画像合成 • 画像合成の中でも前景と背景の合成を扱う – Ex. 背景入れ替え : 人画像 → 仮想背景 2 画像A 画像B 単純な方法 = コピー & ペーストで置き換え だと違和感がある 画像処理で自然な合成を実装したい 合成画像
  • 3. 画像合成 • どのような条件で人は自然な画像かどうかを判別している? – 色, テクスチャ, 境界部分, ノイズ, ライティング が全体で統一的 – 合成部でその差異を除去することでリアルな合成画像が生成可能 • 多重解像度による合成 • Gradientドメインでの合成 • 統計量のマッチング(色, Styleなど) – 画像合成系のアプローチを紹介 3
  • 4. Laplacian Pyramidによる合成 [Burt&Adelson83] • 目的 : 画像合成部のつなぎ目を滑らかに合成したい – 特徴的なスケールごとに分解しそこで合成して再構成すればよい 4 [Burt&Adelson83] Fig.7より引用 画像 A(x, y) 画像 B(x, y) 合成結果 S(x,y) マスク画像 R(x, y)
  • 5. Image Pyramid • 画像の多重解像度表現 : 特徴的なスケールごとに分解 – Gaussian Pyramid : 各階層で Gaussian Blur & ½倍縮小 – Laplacian Pyramid : Gaussian Pyramidの各階層の差分表現 • 再構成(拡大 & 加算)すると元画像になるようなスケール別画像に分解 5 Gaussian Pyramid Laplacian Pyramid
  • 6. Laplacian Pyramidによる合成 • 画像 A, B マスク画像 R をそれぞれPyramid分解 – Laplacian Pyramid表現で各解像度で計算し再構成 • マスクは Gaussian Pyramid の結果を利用 6 [Burt&Adelson83] Fig.7より引用 [Burt&Adelson83] Fig.10より引用
  • 7. Gradient領域での画像編集 [Perez+03] • 目的 : 境界部分でスムーズに合成しつつ画像の見た目は保持 – 画像のGradientが見た目の重要な要素 – Gradientをなるべく保存するような最適化問題に帰着 • 境界条件、ベクトル場の設定により様々な画像処理に転用可能 7 [Perez+03] Fig. 3 より引用
  • 8. 最適化問題としての枠組み • 情報として重要な勾配を保持する最適化 – 領域 Ω の境界 𝜕Ω で定義されている 𝑓∗ を内部で補間 • 勾配のガイドとしてベクトル場 𝑣 を使用 – min 𝑓 ∫ ∇𝑓 − 𝑣 2 𝑑Ω s. t. 𝑓ȁ 𝜕Ω = 𝑓∗ȁ 𝜕Ω – 汎関数微分を使って等価な微分方程式が得られる – Δ𝑓 = div 𝑣 with 𝑓ȁ 𝜕Ω = 𝑓∗ȁ 𝜕Ω (上に等価) 8 [Perez+03] Fig.1 より引用
  • 9. 離散化と実際の最適化方法 • 画像のグリッドの単位で離散化 – min 𝑓 ∫ ∇𝑓 − 𝑣 2 𝑑Ω s. t. 𝑓ȁ 𝜕Ω = 𝑓∗ȁ 𝜕Ω – min 𝑓𝑝 σ 𝑝 σ 𝑞∈𝑁 𝑝 𝑓𝑝 − 𝑓𝑞 − 𝑣 𝑝𝑞 2 s. t. 𝑓𝑝 = 𝑓𝑝 ∗ (𝑝 ∈ 𝜕Ω) (離散化ver) • ピクセル 𝑝 における画素値 𝑓𝑝 , 𝑣 𝑝𝑞 (ピクセル𝑞への方向微分), 近傍 𝑁𝑝 • 𝑁𝑝 𝑓𝑝 − σ 𝑞∈𝑁 𝑝 𝑓𝑞 = σ 𝑞∈𝑁 𝑝 𝑣 𝑝𝑞 (内部の場合) – 𝑁 𝑝 𝑓𝑝 − σ 𝑞∈𝑁 𝑝∩Ω 𝑓𝑞 = σ 𝑞∈𝜕Ω 𝑓𝑞 ∗ + σ 𝑞∈𝑁 𝑝 𝑣 𝑝𝑞 (一般) – 𝑓𝑝 についての線形方程式として最適化可能 • 線形方程式ソルバで計算可能 (反復解法) – SOR法 – マルチグリッド法 9
  • 10. 画像合成への適用 • ベクトル場として 𝑣 = Δ𝑔 を使用 (前景の勾配) – 境界条件として背景のピクセル値を使用 – この場合 𝑣 𝑝𝑞 = 𝑔 𝑝 − 𝑔 𝑞 – 𝑁𝑝 𝑓𝑝 − 𝑔 𝑝 = σ 𝑞∈𝑁 𝑝 𝑓𝑞 − 𝑔 𝑞 (内部の場合)に帰着 – 単純な解法 𝑓𝑝 ← 𝑔 𝑝 + 1 ȁ𝑁 𝑝ȁ σ 𝑞∈𝑁 𝑝 𝑓𝑞 − 𝑔 𝑞 で反復 • SOR法などを使った方が収束が早い – これによりテクスチャを保持した合成が可能 10
  • 11. 応用 • ベクトル場と境界条件の操作で様々な応用が可能 – Mixing Gradient • 𝑣 𝑥 = ∇𝑓∗ 𝑥 if ∇𝑓∗ 𝑥 > ∇𝑔 𝑥 else ∇𝑔 𝑥 • 元画像の勾配が強い場合にはそちらも考慮 – 無限に続くテクスチャを生成 • 周期的境界条件を使用 11[Perez+03] Fig.6 より引用 [Perez+03] Fig.12 より引用
  • 12. 画像合成における自然さの定量化 [Xue+12] • 画像の統計量に着目したアプローチ • 合成画像の自然さ = 統計量のヒストグラムとしての近さ • 実際にどのような統計量が影響するか?を調査 • 画像統計量をマッチさせるアルゴリズムを提案 12 [Xue+12] Fig.7より引用
  • 13. 統計量による自然さの定量化 • 前景 𝑓, 背景 𝑏 として自然さを 𝑃(𝑅𝑒𝑎𝑙ȁ𝑓, 𝑔) として定量化したい – これが既知なら 𝑃(𝑅𝑒𝑎𝑙ȁ𝑓, 𝑔) の最大化で適切な合成が可能 – 画像に対する統計量 𝑀𝑓 = {𝑀𝑓 𝑖 } 𝑀𝑔 = {𝑀𝑔 𝑖 } で有効そうな物を調査 • 前景と背景で相関が高い – 1枚画像ではなくデータセットの画像1枚をサンプルと見なした場合の相関 • 簡単な操作で調整可能 • なるべく独立な量 – 統計量の候補 • ピクセル単位の特徴量を集約してスカラーの値として使用 • 輝度, 色温度(CCT), サチュレーション, 局所的コントラスト, 色相 : ピクセル単位 • 上位の平均, 中位の平均,下位の平均, 尖度, エントロピー : 集約関数 13
  • 14. ピクセル単位の特徴量 (1) • 前処理 sRGB 逆ガンマ補正 • 基本的に人間の感覚で数値として均等になる指標を使用 • 輝度 (Luminance) – xyY色空間(XYZ空間の正規化)のY成分を[0, 1]で正規化して対数変換 • 相関色温度 – 黒体放射のピーク波長と色を対応付け • 対応が存在しない色は射影して計算(相関の由来) – 色温度の逆数を使用 • 人間の感覚でリニアに近い 14 http://k-ichikawa.blog.enjoy.jp/etc/HP/js/CIEXYZ2/cie6.html
  • 15. ピクセル単位の特徴量 (2) • サチュレーション, 色相 – HSV色空間でのSとHを[0, 1]に正規化した量 – 𝑆 = max 𝑅, 𝐺, 𝐵 − min 𝑅, 𝐺, 𝐵 • 局所的なコントラスト – 輝度/平均化された輝度 𝑐 𝑥 = 𝐿 𝑥 ത𝐿 𝑥 *色関係の情報は露出が適切な領域で計算 (0.013 ≦ Y ≦ 0.88) 15 https://upload.wikimedia.org/wikipedia/commons/thumb/f/f1/HSV_cone.jpg/600px-HSV_cone.jpg (平均はGaussian Blurを使用)
  • 16. 集約する関数 • ヒストグラムに対する関数 – H : 0.999分位以上の平均 – M : 単純な平均 – L : 0.001分位以下の平均 – 尖度 : – エントロピー : ヒストグラム化して計算 * 色相に対する平均は注意が必要 (角度的な量なので平均ベクトルを射影するのが正しい) 16 この分位点による領域をゾーンと呼んでいる (各特徴量に対応してゾーンは異なる) L H 輝度の場合ハイライトとシャドウに相当
  • 17. 実画像での分布 • 合成画像ではなく実画像の前景と背景を切り抜いて使用 (4126枚) • 統計量の差 𝛿𝑖 = 𝑀𝑓 𝑖 − 𝑀 𝑏 𝑖 を解析 – 正規化分散 , 相関係数 で比較 – 𝜎𝑖 ∗ が小さく、 𝑟𝑖が大きいほどよい • 考察 – 𝛿𝑖 はほぼ平均ゼロ – 輝度は平均よりハイライト、シャドーで合わせた方がよい – 局所的コントラスト、サチュレーション 相関大 – 色温度 > 色相 – ゾーン毎の平均を合わせれば違和感がなさそう 17 [Xue+12] Table.1より引用
  • 18. 自然さの評価 • 実画像の前景の統計量を操作して違和感を評価 – Amazon Mechanical Turkを使用 – 推定RankがGaussでfittingするとそれっぽい → 輝度、色温度、サチュレーションで推定 18 [Xue+12] Fig.3より引用 [Xue+12] Fig.4より引用
  • 19. 自動合成補正 • 特定のゾーンで統計量が一致するように補正 – 局所的コントラスト(LC)→輝度→色温度→サチュレーションを順に実行 • 局所的なコントラスト以外はゾーンの平均値の差を足し込むだけ • 局所的なコントラストはピクセル同士が独立でないのでトーンカーブ補正 – 画像全体で一様に同じ関数(Sカーブ、パラメータα)を使用 – 一番補正できるαをグリッドサーチ 19 * 明度平均を起点としたベジエ曲線 × 2
  • 20. ゾーン認識 • どのゾーンで補正するかを識別する必要がある → 学習 – 各ゾーンにシフト & ランダムに統計量を調整したサンプルで学習 • 特徴量(4種)毎に {H,M,L} のマルチラベルで予測 – マルチラベルなのはラベルに曖昧性があるため – 入力 : 前景、背景のヒストグラムの各種関数 • 標準偏差、歪度、尖度、エントロピー、ヒストグラムのビンの値 – 出力が複数値の場合はヒストグラムでの補正が小さい物を選択 – 出力が存在しない場合Mを選択 • 予測器はランダムフォレスト 20
  • 21. 結果 • 左が入力画像、コピペ画像、既存手法1-2、右が結果画像 • 人間による評価でも他手法よりもスコアが高い • ただこの手法では貼り付け位置を考慮しないため 場所に応じた見た目の調整は不可能 21 [Xue+12] Fig.1より引用
  • 22. Deep Learning ベースの画像合成 • 今までの手法はセマンティックな情報を無視 – より高位の状況によって必要な補正は異なる • 人に対しては〇〇の補正を加えるなどの必要 • 空による前景への影響 など – 学習より直接的に自然な画像を生成 22
  • 23. Deep Image Harmonization [Tsai+17] • コピペ画像 → 合成画像のネットワークを学習 – Naiveなコピペ画像をRefineするCNN – 画像合成のデータセットを生成 • 別のインスタンス/写真から色を転移 • 違うスタイルの前景・背景を作成 23 [Tsai+17] の Fig.2 より引用
  • 24. Deep Image Harmonization [Tsai+17] • 学習方法 – Encoder + Decoder(Segmentation), Decoder(Image) – Segmentationと重みと中間チャンネルを共有するマルチタスク学習 – 画像出力はL2損失で学習 • 出力結果をみるとレタッチ様の効果があり、PSNRで比較すると優位 24 [Tsai+17] の Fig.5 より引用
  • 25. DoveNet [Cong+19] • [Tsai+17] + GAN的な手法 – 学習データ生成法はほぼ同じ – U-Net + Attention Block – 敵対的学習の要素を追加 – GT画像の予測に加えて • Discriminator (1) – 合成画像かどうかを判定 • Discriminator (2) – それぞれの領域の表現を出力して前景と背景の類似度で同一ドメインかを判定 – Partial Convolutionでマスクの影響を排除 – 本物画像ならドメインは同じ、合成画像ならドメインは異なる 25 [Cong+19] Fig.2 より引用
  • 26. DoveNet [Cong+19] : 結果 • 定量的にも定性的にも改善 26 [Cong+19] Fig. 3 より引用
  • 27. Deep Image Blending [Zhang+19] : 概要 • Poisson Image Editing の Deep Learning化 – 境界の滑らかな合成と Style の一致を同時に達成したい – Poisson Image Editingでの最小化関数 → Poisson Blending Loss – Style変換用の損失も同時に計算 (Style loss + Content loss) – 一枚Style Transfer[Gatys+16]と同様に画像そのものを最適化 – 学習データセットを用意する必要がない 27 [Gatys+16] Fig. 4 より引用
  • 28. Deep Image Blending [Zhang+19] : 用いる損失 • Poisson Blending Loss – Laplacianの差の2乗損失を使用 • 厳密に元の最適化問題に対応していないことに注意 • StyleTransfer用の損失 : [Gatys+16]にほぼ準拠 – StyleはNNの特徴量のチャネル相関に相当 – 2枚の画像のVGG16の中間層出力について • 差 : Content Loss (2枚画像の意味的な差に相当) • チャンネルごとの相関の差 : Style Loss を損失として使用 28 元の最適化問題 Poisson Blending Loss Laplacian * 他にも正則化として全変動損失などを使用
  • 29. Deep Image Blending [Zhang+19] : 2段階法 29 • 前ページの損失を2段階で分けて効果的に適用 – 1段階目 : Seamless Blending • マスク領域の内部のみを最適化して滑らかに接続するように最適化 • Poisson Blending Loss : (合成画像, 前景と背景の平均)に適用 • Content Loss : (合成画像, 前景画像) • Style Loss : (合成画像, 背景画像) – 2段階目 : Style Refinement • 1段階目の出力を初期値としてマスク領域外も含めスタイルを最適化 • Poisson Blending Loss : 使用しない • Content Loss : (合成画像, 1段階目の出力) • Style Loss : (合成画像, 背景画像)
  • 30. Deep Image Blending [Zhang+19] : 結果 30 • 同時に最適化することにより逐次適用よりも良い結果 [Zhang+19] Fig. 6 より引用
  • 31. ST-GAN [Lin+19] : 概要 • 位置関係が不自然だと不自然な合成になってしまう – 合成される前景の位置、大きさをGANで補正 – 逐次的にアファイン変換を推定して前景をWarpして合成 • Generator : それまでの合成画像 → アファイン変換係数 • Discriminator : 画像が本物か否か? 31[Lin+19] Fig.2 より引用
  • 32. ST-GAN [Lin+19] : STN • Spatial Transformer Network [Jaderberg+15] を利用 – アファイン変換による画像変換は画像、アファイン変換係数について微分可能 – アファイン変換によって生成される微分可能なフローのグリッドを使用するため 32 [Jaderberg+15] Fig.3 より引用
  • 33. SF-GAN [Zhan+19] : 概要 • 位置関係と見た目を同時に補正して合成 – 画像生成のリアルさを向上させるためにGuided Filterを使用 • 合成画像 = 元画像とGenerator出力のGuided Filter結果 – 学習データ増強手段としても使用可能 – Cycle-GANのアイディアを利用 (前景のドメイン ↔ 背景のドメイン) 33 [Zhan+19] Fig.2 より引用
  • 34. SF-GAN [Zhan+19] : 結果 • 文字検出のデータセットに対して適用して性能が向上 34 [Zhan+19] Fig.5 より引用 [Zhan+19] Fig.4 より引用 左から前景画像, 背景画像, ST-GAN, SF-GAN
  • 35. まとめ • 前景と背景を合成する手法について紹介 – 前景部分と背景部分の画像統計量を揃えることで自然な合成が可能 • 多重解像度による合成 • Gradientドメインでの合成 • 統計量のマッチング(色, Styleなど) • DLベースで合成の不自然さをデータから学習して直接補正 • 紹介できなかったが他にもノイズや影に着目した補正方法なども存在 35
  • 36. 参考文献 • [Burt&Adelson83] P. J. Burt, E. H. Adelson, "A Multiresolution Spline With Application to Image Mosaics", ACM Transactions on Graphics, vol. 2, no. 4, pp. 217-236, 1983. • [Perez+03] P. Pérez, M. Gangnet, A. Blake, "Poisson Image Editing", ACM Transactions on Graphics (SIGGRAPH'03), vol. 22, no. 3, pp. 313-318, 2003. • [Xue+12] S. Xue, A. Agarwala, J. Dorsey, H. Rushmeier, "Understanding and Improving the Realism of Image Composites", ACM Transactions on Graphics (SIGGRAPH'12), vol. 31, no. 4, 2012. • [Tsai+17] Y. H. Tsai, X. Shen, Z. Lin, K. Sunkavalli, X. Lu, M. H. Yang, Deep Image Harmonization, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'17), pp. 2799-2807, 2017. • [Cong+19] W. Cong, J. Zhang, L. Niu, L. Liu, Z. Ling, W. Li, L. Zhang, "DoveNet: Deep Image Harmonization via Domain Verification", arXiv preprint arXiv:1911.13239, 2019. • [Zhang+19] L. Zhang, T. Wen, J. Shi, "Deep Image Blending", arXiv preprint arXiv:1910.11495, 2019. • [Gatys+16] L. A. Gatys, A. S. Ecker, M. Bethge, "Image style transfer using convolutional neural networks", In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'16), pages 2414–2423, 2016. • [Lin+19] C. H. Lin, E. Yumer, O. Wang, E. Shechtman, S. Lucey, "ST-GAN: Spatial Transformer Generative Adversarial Networks • for Image Compositing", In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'19), pp. 9455- 9464, 2019. • [Jaderberg+15] M. Jaderberg, K. Simonyan, A. Zisserman, K. Kavukcuoglu, "Spatial Transformer Networks", In Proceedings of the 28th International Conference on Neural Information Processing Systems (NIPS'15), vol. 2, pp. 2017–2025, 2015. • [Zhan+19] F. Zhan, H. Zhu, S. Lu, "Spatial Fusion GAN for Image Synthesis", In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'19), pp. 3648-3657, 2019. 36