Mask Guided Portrait Editing with conditional GANs

名古屋CV・PRML勉強会
Mask-Guided Portrait Editing with Conditional GANs
Hiroki Adachi

自己紹介
研究分野 (Research fields)
コンピュータビジョン
（生成モデル，距離推定）
足立浩規 (Hiroki Adachi) 修士2年
名前 (Name)
Machine Perception and Robotics Group
所属 (Affiliation)

•Snapchatやfacetuneなどのアプリ
- 顔の交換や化粧など様々な加工が可能
Face editingの応用先
3

•conditionalGANsベースで顔画像の編集が可能
- 条件：顔に対するセグメンテーションマスク画像
•顔のパーツの扱い方にフォーカスして生成
- 上手なセグメンテーションマスクの利用
どのような論文？
4

•Generative Adversarial Networks[Goodfellow+, NIPS’14]の略
- GeneratorとDiscriminatorを競い合わせた学習
• Generator：本物っぽい画像を生成
• Discriminator：生成画像か実画像かを正確に判別
GANsとは
5
Generator (偽札職人) Discriminator (警察官)
ノイズベクトル生成画像
実画像
or
GANsの目的関数

GANsとは
6
実画像
or
GANsの目的関数
最小化

GANsとは
7
実画像
or
GANsの目的関数
最大化

•ネットワークへの入力は4種類
- ソース画像andマスク
- ターゲット画像andマスク
•3段構造のネットワーク構成
- Local Embedding Sub-Network
• 顔の成分（口や目）の特徴を抽出
- Mask-Guided Generative Sub-Network
• ターゲットマスクから顔を生成
- Background Fusing Sub-Network
• ターゲット画像の背景にペースト
ネットワークのOverview
9

10

•Helen datasetで学習したFCNによりソースマスクを取得
Local Embedding Sub-Network
11
①

•顔を5つの領域に分割
- 右目，左目，口，肌と鼻，髪
12
②

•顔を5つの領域に分割
- 右目，左目，口，肌と鼻，髪
•分割した領域をAutoencoderへ入力
- Encoderの出力へInstance-wise average poolingを追加
13
右目，左目．．．
各要素に関する再構成誤差

14

•ターゲットマスクをEncoderへ入力
Mask-Guided Generative Sub-Network
15
①

•ターゲットマスクをEncoderへ入力
•local embedding sub-netのEncoderの出力を結合
•結合したテンソルをGmへ入力
Mask-Guided Generative Sub-Network
16
: 各要素の中心位置
: 全要素が0のテンソル
口を結合するときの例
中心位置を利用してコピー
Concat

17

•単純に生成するとartifactの原因
- 背景画像に含まれる首と，Source画像の肌の色と異なる
- 髪に関する領域分割が完璧にできているとは限らない
背景の合成における問題点
18
Sourceの顔
肌の色が異なる
背景画像

•マスク画像を使用してtarget画像の背景を取得
Background Fusing Sub-Network
19

•背景の特徴を抽出したテンソルを取得
20

•顔の特徴マップ（Source画像）を結合
21
Concat

•生成ネットワークへ結果を取得
22
Concat

•生成ネットワークへ結果を取得
誤差関数
23
Concat
：ソース画像
：マスク画像（ソース）
：ターゲット画像
：マスク画像（ターゲット）
Global Reconstruction
：Discriminatorの中間層の特徴
Adversarial Loss
ターゲットと生成したサンプルのマスクを一貫させるための誤差

•データセット（合計22,000）
- Helen Dataset
• 2,330枚の顔画像（学習用：2,000，評価用：330）
- VGGFace2から20,000枚
• マスク画像のバリエーションを増やすために使用
•各インスタンスの入力サイズ
- 目（左右）：48x32
- 口：144x80
- 肌：256x256
- 髪：256x256
実験概要
24

•ローカルな特徴抽出により詳細な情報のキープが可能
- 目の大きさ，肌の色，髪の色
Ablation study
25
setting1) global autoencoderのみ使用
setting2) local autoencoderも使用
setting3) 手法すべてを使用

•ローカルな特徴抽出により詳細な情報のキープが可能
- 目の大きさ，肌の色，髪の色
•手法すべてを使用することで，輪郭のガタつきが削減可能
•手法の全部入りが最も高いFIDのスコア
- 他の設定と比較して，2ポイント以上良い
Ablation study
26
setting1) global autoencoderのみ使用
setting2) local autoencoderも使用
setting3) 手法すべてを使用
設定ごとのFIDのスコア

•従来手法は2つとも，多様性にかける生成結果
- global autoencoderを使用していることが原因
•提案手法はリアリスティックで綺麗
従来手法との比較
27
従来手法との比較
提案手法で合成した画像の例

•実験1: ターゲットマスクに変更を加える
•実験2: 他の画像を使用してターゲット画像の顔の要素を置き換える
Face editing & Face swap+
28

Face editingの結果
29
マスク画像に変更を加えて生成した例生成画像の一部を他の画像の要素で置き換えた例

Face editingの結果
30
マスク画像に変更を加えて生成した例生成画像の一部を他の画像の要素で置き換えた例

Face swap+の結果
31
顔の角度がかなり異なる
メガネの有無
入力画像
入力画像

Face swap+の結果
32
それでも綺麗に合成が可能！！
入力画像
入力画像

Mask Guided Portrait Editing with conditional GANs

Recommended

Recommended

More Related Content

Similar to Mask Guided Portrait Editing with conditional GANs

Similar to Mask Guided Portrait Editing with conditional GANs (20)

Recently uploaded

Recently uploaded (8)

Mask Guided Portrait Editing with conditional GANs