PR-073 : Generative Semantic Manipulation with Contrasting GAN

Generative Semantic Manipulation
with Contrasting GAN
Xiaodan Liang, Hao Zhang, Eric P. Xing
Carnegie Mellon University and Petuum Inc.
AIRI 이광희

Unpaired Image-to-Image Translation
CycleGAN (ICCV 2017)
DiscoGAN (ICML 2017)
StarGAN (CVPR 2018)
UNIT (NIPS 2017)

Unpaired Image-to-Image Translation
Limitations
변경 대상이 아닌 것도 변화됨.
배경 컬러가 변질되거나 달라짐.
Geometry 변환을 잘 못함.

Geometry Change
DiscoGAN vs CycleGAN
?
DiscoGAN은 geometry 변경이 잘 되는데 왜 CycleGAN은 안될까?

Geometry Change – Loss
DiscoGAN과 CycleGAN은 개념적으로 동일!

Geometry Change – Network
O X
Convolution layers
Discriminator (PatchGAN)
CycleGAN DiscoGAN
DownSampling 3(1/8) 4(1/16)
CycleGAN DiscoGAN
DownSampling 2(1/4) 4(1/16)
Normalizer Instance Norm Batch Norm
Filter 7x7 4x4
Resnet Block 6 or 9 X
Reconstruction Loss L1 (weight = 10) MSE, Cosine, Hinge
(weight =1)
Generator
More Global View
Cross Domain Relation Style Transfer

Geometry Change
cat dogcat dog
DiscoGANCycleGAN
• 컬러분포만 변함
• Geometry의 변화는 거의 없음.
• 원본 이미지의 정보를 너무 많이 유지함.
• Geometry의 변화는 잘 됨.
• 원본 이미지의 정보가 대부분 손실됨.

Generator의 변형을 통한 실험
목표 : 변환 대상의 geometry는 변화시키되 원본 이미지의 나머지 특성 (scale, viewpoint, color 등)은 유지하자.
실험 환경
CycleGAN의 Generator 변경
• Residual block skip connection 제거
• Instance Norm을 batch norm으로 변경
• Cyclic Loss weight 변경

Instance Norm vs Batch Norm
Input
IN
BN
Dog
Cat

IN & Skip Connection
Input
IN
SC : X
IN
SC : O
Dog
Cat

BN & Skip Connection
Input
BN
SC : X
BN
SC : O
Dog
Cat

Discriminator의 변형을 통한 실험
• 개와 고양이는 로컬 영역에 대해서 특징이 유사하다.
• CycleGAN의 Discriminator 변경 (좀 더 global view로 바라보자)
• itok_msi (개/고양이 변환 연구) 참고
https://qiita.com/itok_msi/items/b6b615bc28b1a720afd7#%E8%BF%BD%E5%8A%A0%E5%AE%9F%E9%A8%93%E7%B5%90%E6%9E%9C20170614%E8%BF%BD%E8%A8%987

Generator & Discriminator
Input
BN
SC : O
D : Global
IN
SC : O
D : Global
Dog
Cat

어떤 Dataset에서 geometry 변경이 더 쉬울까?
- 변환을 위한 학습대상이 되는 데이터들이 공간적으로 분포가 유사할 수록 (crop, align등)
CelebA > MSCOCO
- 동일한 도메인의 데이터의 variation이 적을 수록
단일종의 강아지->단일종의 고양이 > 여러종의 강아지-> 여러종의 고양이
- 두 도메인의 형상의 차이가 적을 수록
말->얼룩말 > 승용차-> 버스

• 참고자료
김태오님 블로그 (PR12 member)
https://taeoh-kim.github.io/blog/gan%EC%9D%84-%EC%9D%B4%EC%9A%A9%ED%95%9C-image-to-
image-translation-pix2pix-cyclegan-discogan/
itok_msi (개/고양이 변환 연구)
https://qiita.com/itok_msi/items/b6b615bc28b1a720afd7#%E8%BF%BD%E5%8A%A0%E5%AE%9F%E9%A
8%93%E7%B5%90%E6%9E%9C20170614%E8%BF%BD%E8%A8%987

이 논문이 해결하려는 문제..
변경 대상이 아닌 것도 변화됨.
배경 컬러가 변질되거나 달라짐.
Geometry 변환을 잘 못함.

Goal
• 기존 cGAN은 low level information (color or texture change) 변환은 잘하지만, high level semantic
meaning (geometric structure or content)에 대해서는 실패함.
• Manipulate high-level object semantics: 물체의 semantic meaning은 변화시키되 low-level
Information (color changes)은 유지
• Contrast-GAN ( geometry 변경을 잘하기 위해) : distance comparisons between samples
• Propose a mask-conditional contrast-GAN architecture (배경과 오브젝트를 구분하기 위해)

Proposed Method
Mask-conditional Contrast-GAN
Contrast-GAN

Semantic Manipulation with Contrasting GAN
Siamese Network with Triplet Loss : 동일한 클래스간의 distance는 최소화, 다른 클래스와
의 distance는 최대화, feature embedding space learning, metric learning
Contrasting GAN Loss : 변환된 이미지의 feature는 입력(소스 도메인) 이미지의
feature보다 타겟 도메인의 feature와 더 가깝도록
FaceNet: A Unified Embedding for Face Recognition and Clustering, CVPR2015

Semantic Manipulation with Contrasting GAN
변환된 이미지 입력 이미지 타겟 도메인의
이미지 셋

PR-073 : Generative Semantic Manipulation with Contrasting GAN

Recommended

Recommended

More Related Content

Similar to PR-073 : Generative Semantic Manipulation with Contrasting GAN

Similar to PR-073 : Generative Semantic Manipulation with Contrasting GAN (10)

More from 광희 이

More from 광희 이 (7)

Recently uploaded

Recently uploaded (8)

PR-073 : Generative Semantic Manipulation with Contrasting GAN