SlideShare a Scribd company logo
1 of 27
Download to read offline
Generative Semantic Manipulation
with Contrasting GAN
Xiaodan Liang, Hao Zhang, Eric P. Xing
Carnegie Mellon University and Petuum Inc.
AIRI 이광희
Unpaired Image-to-Image Translation
CycleGAN (ICCV 2017)
DiscoGAN (ICML 2017)
StarGAN (CVPR 2018)
UNIT (NIPS 2017)
Unpaired Image-to-Image Translation
Limitations
변경 대상이 아닌 것도 변화됨.
배경 컬러가 변질되거나 달라짐.
Geometry 변환을 잘 못함.
Geometry Change
DiscoGAN vs CycleGAN
?
DiscoGAN은 geometry 변경이 잘 되는데 왜 CycleGAN은 안될까?
Geometry Change – Loss
DiscoGAN vs CycleGAN
DiscoGAN과 CycleGAN은 개념적으로 동일!
Geometry Change – Network
DiscoGAN vs CycleGAN
O X
Convolution layers
Discriminator (PatchGAN)
CycleGAN DiscoGAN
DownSampling 3(1/8) 4(1/16)
CycleGAN DiscoGAN
DownSampling 2(1/4) 4(1/16)
Normalizer Instance Norm Batch Norm
Filter 7x7 4x4
Resnet Block 6 or 9 X
Reconstruction Loss L1 (weight = 10) MSE, Cosine, Hinge
(weight =1)
Generator
More Global View
Cross Domain Relation Style Transfer
Geometry Change
cat dogcat dog
DiscoGANCycleGAN
• 컬러분포만 변함
• Geometry의 변화는 거의 없음.
• 원본 이미지의 정보를 너무 많이 유지함.
• Geometry의 변화는 잘 됨.
• 원본 이미지의 정보가 대부분 손실됨.
Generator의 변형을 통한 실험
목표 : 변환 대상의 geometry는 변화시키되 원본 이미지의 나머지 특성 (scale, viewpoint, color 등)은 유지하자.
실험 환경
CycleGAN의 Generator 변경
• Residual block skip connection 제거
• Instance Norm을 batch norm으로 변경
• Cyclic Loss weight 변경
Instance Norm vs Batch Norm
Input
IN
BN
Dog
Cat
IN & Skip Connection
Input
IN
SC : X
IN
SC : O
Dog
Cat
BN & Skip Connection
Input
BN
SC : X
BN
SC : O
Dog
Cat
Discriminator의 변형을 통한 실험
• 개와 고양이는 로컬 영역에 대해서 특징이 유사하다.
• CycleGAN의 Discriminator 변경 (좀 더 global view로 바라보자)
• itok_msi (개/고양이 변환 연구) 참고
https://qiita.com/itok_msi/items/b6b615bc28b1a720afd7#%E8%BF%BD%E5%8A%A0%E5%AE%9F%E9%A8%93%E7%B5%90%E6%9E%9C20170614%E8%BF%BD%E8%A8%987
Generator & Discriminator
Input
BN
SC : O
D : Global
IN
SC : O
D : Global
Dog
Cat
어떤 Dataset에서 geometry 변경이 더 쉬울까?
- 변환을 위한 학습대상이 되는 데이터들이 공간적으로 분포가 유사할 수록 (crop, align등)
CelebA > MSCOCO
- 동일한 도메인의 데이터의 variation이 적을 수록
단일종의 강아지->단일종의 고양이 > 여러종의 강아지-> 여러종의 고양이
- 두 도메인의 형상의 차이가 적을 수록
말->얼룩말 > 승용차-> 버스
• 참고자료
김태오님 블로그 (PR12 member)
https://taeoh-kim.github.io/blog/gan%EC%9D%84-%EC%9D%B4%EC%9A%A9%ED%95%9C-image-to-
image-translation-pix2pix-cyclegan-discogan/
itok_msi (개/고양이 변환 연구)
https://qiita.com/itok_msi/items/b6b615bc28b1a720afd7#%E8%BF%BD%E5%8A%A0%E5%AE%9F%E9%A
8%93%E7%B5%90%E6%9E%9C20170614%E8%BF%BD%E8%A8%987
이 논문이 해결하려는 문제..
변경 대상이 아닌 것도 변화됨.
배경 컬러가 변질되거나 달라짐.
Geometry 변환을 잘 못함.
Goal
• 기존 cGAN은 low level information (color or texture change) 변환은 잘하지만, high level semantic
meaning (geometric structure or content)에 대해서는 실패함.
• Manipulate high-level object semantics: 물체의 semantic meaning은 변화시키되 low-level
Information (color changes)은 유지
• Contrast-GAN ( geometry 변경을 잘하기 위해) : distance comparisons between samples
• Propose a mask-conditional contrast-GAN architecture (배경과 오브젝트를 구분하기 위해)
Proposed Method
Mask-conditional Contrast-GAN
Contrast-GAN
Semantic Manipulation with Contrasting GAN
Siamese Network with Triplet Loss : 동일한 클래스간의 distance는 최소화, 다른 클래스와
의 distance는 최대화, feature embedding space learning, metric learning
Contrasting GAN Loss : 변환된 이미지의 feature는 입력(소스 도메인) 이미지의
feature보다 타겟 도메인의 feature와 더 가깝도록
FaceNet: A Unified Embedding for Face Recognition and Clustering, CVPR2015
Semantic Manipulation with Contrasting GAN
변환된 이미지 입력 이미지 타겟 도메인의
이미지 셋
Experiments
Experiments
Experiments
Experiments
Experiments
Thank You
Q & A

More Related Content

Similar to PR-073 : Generative Semantic Manipulation with Contrasting GAN

[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
OpenStack Korea Community
 

Similar to PR-073 : Generative Semantic Manipulation with Contrasting GAN (10)

Long term feature banks for detailed video understanding (Action Recognition)
Long term feature banks for detailed video understanding (Action Recognition)Long term feature banks for detailed video understanding (Action Recognition)
Long term feature banks for detailed video understanding (Action Recognition)
 
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계
[Pgday.Seoul 2018]  Greenplum의 노드 분산 설계[Pgday.Seoul 2018]  Greenplum의 노드 분산 설계
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계
 
[Paper] EDA : easy data augmentation techniques for boosting performance on t...
[Paper] EDA : easy data augmentation techniques for boosting performance on t...[Paper] EDA : easy data augmentation techniques for boosting performance on t...
[Paper] EDA : easy data augmentation techniques for boosting performance on t...
 
Deep learning framework 제작
Deep learning framework 제작Deep learning framework 제작
Deep learning framework 제작
 
안드로이드 Oreo의 변화와 모바일 앱/플랫폼의 적합한 성능 측정 방법
안드로이드 Oreo의 변화와  모바일 앱/플랫폼의 적합한 성능 측정 방법안드로이드 Oreo의 변화와  모바일 앱/플랫폼의 적합한 성능 측정 방법
안드로이드 Oreo의 변화와 모바일 앱/플랫폼의 적합한 성능 측정 방법
 
"Learning transferable architectures for scalable image recognition" Paper Re...
"Learning transferable architectures for scalable image recognition" Paper Re..."Learning transferable architectures for scalable image recognition" Paper Re...
"Learning transferable architectures for scalable image recognition" Paper Re...
 
Simple Review of Single Image Super Resolution Task
Simple Review of Single Image Super Resolution TaskSimple Review of Single Image Super Resolution Task
Simple Review of Single Image Super Resolution Task
 
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
 
[122]네이버의모던웹라이브러리 박재성
[122]네이버의모던웹라이브러리 박재성[122]네이버의모던웹라이브러리 박재성
[122]네이버의모던웹라이브러리 박재성
 
11_빠른 개발 가능한 레벨 편집 시스템
11_빠른 개발 가능한 레벨 편집 시스템11_빠른 개발 가능한 레벨 편집 시스템
11_빠른 개발 가능한 레벨 편집 시스템
 

More from 광희 이

PR-065 : High-Resolution Image Synthesis and Semantic Manipulation with Condi...
PR-065 : High-Resolution Image Synthesis and Semantic Manipulation with Condi...PR-065 : High-Resolution Image Synthesis and Semantic Manipulation with Condi...
PR-065 : High-Resolution Image Synthesis and Semantic Manipulation with Condi...
광희 이
 

More from 광희 이 (7)

LFI-CAM: Learning Feature Importance for Better Visual Explanation
LFI-CAM: Learning Feature Importance for Better Visual ExplanationLFI-CAM: Learning Feature Importance for Better Visual Explanation
LFI-CAM: Learning Feature Importance for Better Visual Explanation
 
Unsupervised image to-image translation via pre-trained style gan2 network
Unsupervised image to-image translation via pre-trained style gan2 networkUnsupervised image to-image translation via pre-trained style gan2 network
Unsupervised image to-image translation via pre-trained style gan2 network
 
보다 유연한 이미지 변환을 하려면?
보다 유연한 이미지 변환을 하려면?보다 유연한 이미지 변환을 하려면?
보다 유연한 이미지 변환을 하려면?
 
PR100: SeedNet: Automatic Seed Generation with Deep Reinforcement Learning fo...
PR100: SeedNet: Automatic Seed Generation with Deep Reinforcement Learning fo...PR100: SeedNet: Automatic Seed Generation with Deep Reinforcement Learning fo...
PR100: SeedNet: Automatic Seed Generation with Deep Reinforcement Learning fo...
 
PR098: MegaDepth: Learning Single-View Depth Prediction from Internet Photos
PR098: MegaDepth: Learning Single-View Depth Prediction from Internet PhotosPR098: MegaDepth: Learning Single-View Depth Prediction from Internet Photos
PR098: MegaDepth: Learning Single-View Depth Prediction from Internet Photos
 
PR-065 : High-Resolution Image Synthesis and Semantic Manipulation with Condi...
PR-065 : High-Resolution Image Synthesis and Semantic Manipulation with Condi...PR-065 : High-Resolution Image Synthesis and Semantic Manipulation with Condi...
PR-065 : High-Resolution Image Synthesis and Semantic Manipulation with Condi...
 
PR12-CAM
PR12-CAMPR12-CAM
PR12-CAM
 

Recently uploaded

Recently uploaded (8)

JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!
 
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화
 
JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례
 

PR-073 : Generative Semantic Manipulation with Contrasting GAN

  • 1. Generative Semantic Manipulation with Contrasting GAN Xiaodan Liang, Hao Zhang, Eric P. Xing Carnegie Mellon University and Petuum Inc. AIRI 이광희
  • 2.
  • 3. Unpaired Image-to-Image Translation CycleGAN (ICCV 2017) DiscoGAN (ICML 2017) StarGAN (CVPR 2018) UNIT (NIPS 2017)
  • 4. Unpaired Image-to-Image Translation Limitations 변경 대상이 아닌 것도 변화됨. 배경 컬러가 변질되거나 달라짐. Geometry 변환을 잘 못함.
  • 5. Geometry Change DiscoGAN vs CycleGAN ? DiscoGAN은 geometry 변경이 잘 되는데 왜 CycleGAN은 안될까?
  • 6. Geometry Change – Loss DiscoGAN vs CycleGAN DiscoGAN과 CycleGAN은 개념적으로 동일!
  • 7. Geometry Change – Network DiscoGAN vs CycleGAN O X Convolution layers Discriminator (PatchGAN) CycleGAN DiscoGAN DownSampling 3(1/8) 4(1/16) CycleGAN DiscoGAN DownSampling 2(1/4) 4(1/16) Normalizer Instance Norm Batch Norm Filter 7x7 4x4 Resnet Block 6 or 9 X Reconstruction Loss L1 (weight = 10) MSE, Cosine, Hinge (weight =1) Generator More Global View Cross Domain Relation Style Transfer
  • 8. Geometry Change cat dogcat dog DiscoGANCycleGAN • 컬러분포만 변함 • Geometry의 변화는 거의 없음. • 원본 이미지의 정보를 너무 많이 유지함. • Geometry의 변화는 잘 됨. • 원본 이미지의 정보가 대부분 손실됨.
  • 9. Generator의 변형을 통한 실험 목표 : 변환 대상의 geometry는 변화시키되 원본 이미지의 나머지 특성 (scale, viewpoint, color 등)은 유지하자. 실험 환경 CycleGAN의 Generator 변경 • Residual block skip connection 제거 • Instance Norm을 batch norm으로 변경 • Cyclic Loss weight 변경
  • 10. Instance Norm vs Batch Norm Input IN BN Dog Cat
  • 11. IN & Skip Connection Input IN SC : X IN SC : O Dog Cat
  • 12. BN & Skip Connection Input BN SC : X BN SC : O Dog Cat
  • 13. Discriminator의 변형을 통한 실험 • 개와 고양이는 로컬 영역에 대해서 특징이 유사하다. • CycleGAN의 Discriminator 변경 (좀 더 global view로 바라보자) • itok_msi (개/고양이 변환 연구) 참고 https://qiita.com/itok_msi/items/b6b615bc28b1a720afd7#%E8%BF%BD%E5%8A%A0%E5%AE%9F%E9%A8%93%E7%B5%90%E6%9E%9C20170614%E8%BF%BD%E8%A8%987
  • 14. Generator & Discriminator Input BN SC : O D : Global IN SC : O D : Global Dog Cat
  • 15. 어떤 Dataset에서 geometry 변경이 더 쉬울까? - 변환을 위한 학습대상이 되는 데이터들이 공간적으로 분포가 유사할 수록 (crop, align등) CelebA > MSCOCO - 동일한 도메인의 데이터의 variation이 적을 수록 단일종의 강아지->단일종의 고양이 > 여러종의 강아지-> 여러종의 고양이 - 두 도메인의 형상의 차이가 적을 수록 말->얼룩말 > 승용차-> 버스
  • 16. • 참고자료 김태오님 블로그 (PR12 member) https://taeoh-kim.github.io/blog/gan%EC%9D%84-%EC%9D%B4%EC%9A%A9%ED%95%9C-image-to- image-translation-pix2pix-cyclegan-discogan/ itok_msi (개/고양이 변환 연구) https://qiita.com/itok_msi/items/b6b615bc28b1a720afd7#%E8%BF%BD%E5%8A%A0%E5%AE%9F%E9%A 8%93%E7%B5%90%E6%9E%9C20170614%E8%BF%BD%E8%A8%987
  • 17. 이 논문이 해결하려는 문제.. 변경 대상이 아닌 것도 변화됨. 배경 컬러가 변질되거나 달라짐. Geometry 변환을 잘 못함.
  • 18. Goal • 기존 cGAN은 low level information (color or texture change) 변환은 잘하지만, high level semantic meaning (geometric structure or content)에 대해서는 실패함. • Manipulate high-level object semantics: 물체의 semantic meaning은 변화시키되 low-level Information (color changes)은 유지 • Contrast-GAN ( geometry 변경을 잘하기 위해) : distance comparisons between samples • Propose a mask-conditional contrast-GAN architecture (배경과 오브젝트를 구분하기 위해)
  • 20. Semantic Manipulation with Contrasting GAN Siamese Network with Triplet Loss : 동일한 클래스간의 distance는 최소화, 다른 클래스와 의 distance는 최대화, feature embedding space learning, metric learning Contrasting GAN Loss : 변환된 이미지의 feature는 입력(소스 도메인) 이미지의 feature보다 타겟 도메인의 feature와 더 가깝도록 FaceNet: A Unified Embedding for Face Recognition and Clustering, CVPR2015
  • 21. Semantic Manipulation with Contrasting GAN 변환된 이미지 입력 이미지 타겟 도메인의 이미지 셋