SlideShare a Scribd company logo
1 of 24
Download to read offline
文献紹介
Pixel-Level Domain Transfer
author: Yoo, Donggeun
abstract
- street outfit image から shop per-garment image の生成
Table of Contents
- Introduction
- Domain adaptation
- GANs
- Method
- Results
- manual evaluation
- automated evaluation
Introduction - Domain adaptation
- 関数の定義域 (domain) となる集合を、他の集合に変える/対応させる手法
- domain transfer とも言う
- fine-tuning もそのうちの 1 つ
- X には label Y があるが、 X’ には label がないときなどに使える
fX
shop image
Y
attributes
(“coat”, “olive”)
X’
street image
attribute predictor
Introduction - street to shop
- domain adaptation, domain transfer の一手法としての応用
- cross-domain image retrieval や、 street/shop image のみしか扱えない fashion model を両方に
対応させることができる。
- 先行研究では、 similarity learning などで、 対応する pair が同一の feature
space で近くになるように embedding というような手法がある。
CNN
CNN
street
outfit
image
shop
per-garment
image
Introduction - our work
- 今回は、 street image から shop image を生成するモデル
- street image を撮るだけで、 shop image を撮らなくて済む。
Introduction - GANs: Generative Adversarial Networks
- 設計の難しい loss 関数に対し、その loss 関数すら Neural Network で学習させて
しまおうという手法
- image generation, text generation などの多くの応用先
- 生成モデル(generative model) ≒ 教師なし (unsupervised)
- P(X) をモデリング (X: 画像など)
Generator
c.f. ProgressinGAN
gaussian noise
generated image
OR Discriminator
real image
True 1
/
False 0
Introduction - GANs: Generative Adversarial Networks
- Generator, Discriminator を交互に学習させる。
- Discriminator は Generator が生成した画像か本物かを識別できるよう学習。
- Generator は Discriminator を騙すような画像を生成するよう学習。
Generator
c.f. ProgressinGAN
gaussian noise
generated image
OR Discriminator
real image
True 1
/
False 0
Method
- 以下の 3 つの module から成る。
- converter
- real/fake-discriminator
- domain-discriminator
Method - Converter
- street image Is を shop image
I^t に変換する Network
- CNN Encoder, Decoder から成
る。
本質的な意味の情報だけを持つ
Method - Real/fake-discriminator
- Converter が生成した画像が 本
物かどうかを見破る Network
- GAN でなく、MSE だと画像がぼ
やけてしまう。
Method - GAN を用いる理由
- target domain の shop image の正解は複数あり、正解を一意に定められない。
- source と target 集合の画像の性質がかなり異なる。
- e.g. 動画の frame 予測などは frame ごとに画像の性質は近いので、 MSE などでも大丈夫らし
い。
Method - Domain-discriminator
- source image とtarget image が
関係あるかないかを識別する
Network
- Real/fake D. だけだと、1度
target っぽい image を生成できて
しまえば、 source image がなん
だろうと、そのそれっぽい target
image を生成すれば、 Real/fake
D. をずっと騙せる。
Dataset - LookBook
- 新しく提案
- 複数の street image と対応する 1 枚の shop image の集合。
- category は tops のみ。
Results - Quantitative evaluation
- evaluation metrics
- user study score: manual
- RMSE, C-SSIM: automated
Results - Quantitative evaluation - user study
- ours, C+RF, C+MSE よって生成し
た image 3 つに対し、以下の 3つの
観点で score をつける。
- Real: real or fake: [0,2]
- Att: how associated to
sourced: [0,2]
- Cat: the same/not category
as source: {0,1}
- 25 users
- 100 image pairs/user
Results - Quantitative evaluation - user study
- C+MSE: Att を反映してるが、 本
物っぽくない
- C+RF: MSE に比べ、本物っぽい
が、 source と関係ないものを生成
してるので、AttはMSEより低い。
- Ours: Sourceのattribute, category
などを保ちつつ、本物っぽい画像を
生成できてる。
Results - Qualitative evaluation
Results - Qualitative evaluation
- 同じ item で異なる
street image でも大体
同じような shop image
を生成できている。
Results - Quantitative evaluation - C-SSIM
- Channel-wise Structured
SIMilarity
- real shop image と
generated shop image の
差異を測る
- a manual metric which is
consistent with human
perception
- Ours が他の全ての
baselines に優った。
Results - Quantitative evaluation - C-SSIM
- C+RF+DD-Neg: Negative
なし。
- Negativeもあったがほうが、
DDがより効く
Results - Quantitative evaluation - C-SSIM
- Retrieval by DD-score: sourceと
同じ item の generative shop
image か、 source と似てる
(DD-score 低い) item の real shop
image とどっちが 本物の real shop
image と似てるかを検証
- Ours の汎化性を検証するため。(汎
化できてなければ、未知の item に
弱く、検索した similar item image
に負ける)
Results - Virtual Try On
- shop image to street image と
いう逆の task も、データを入れ
替えれば同じ model でできる。
- コンピュータを用いた仮想的な試
着などの応用が考えられる。他
の論文も結構ある。
Conclusion
- street2shop image generation で pixel-level での domain trasfer の手法を初め
て提案した。
- Domain-discriminator により、 Source の意味情報を保ったまま、本物っぽい画像
の生成ができるようになった。
- street-shop image の novel dataset を提案。

More Related Content

Featured

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Featured (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

20180518 pixel level domain transfer

  • 2. abstract - street outfit image から shop per-garment image の生成
  • 3. Table of Contents - Introduction - Domain adaptation - GANs - Method - Results - manual evaluation - automated evaluation
  • 4. Introduction - Domain adaptation - 関数の定義域 (domain) となる集合を、他の集合に変える/対応させる手法 - domain transfer とも言う - fine-tuning もそのうちの 1 つ - X には label Y があるが、 X’ には label がないときなどに使える fX shop image Y attributes (“coat”, “olive”) X’ street image attribute predictor
  • 5. Introduction - street to shop - domain adaptation, domain transfer の一手法としての応用 - cross-domain image retrieval や、 street/shop image のみしか扱えない fashion model を両方に 対応させることができる。 - 先行研究では、 similarity learning などで、 対応する pair が同一の feature space で近くになるように embedding というような手法がある。 CNN CNN street outfit image shop per-garment image
  • 6. Introduction - our work - 今回は、 street image から shop image を生成するモデル - street image を撮るだけで、 shop image を撮らなくて済む。
  • 7. Introduction - GANs: Generative Adversarial Networks - 設計の難しい loss 関数に対し、その loss 関数すら Neural Network で学習させて しまおうという手法 - image generation, text generation などの多くの応用先 - 生成モデル(generative model) ≒ 教師なし (unsupervised) - P(X) をモデリング (X: 画像など) Generator c.f. ProgressinGAN gaussian noise generated image OR Discriminator real image True 1 / False 0
  • 8. Introduction - GANs: Generative Adversarial Networks - Generator, Discriminator を交互に学習させる。 - Discriminator は Generator が生成した画像か本物かを識別できるよう学習。 - Generator は Discriminator を騙すような画像を生成するよう学習。 Generator c.f. ProgressinGAN gaussian noise generated image OR Discriminator real image True 1 / False 0
  • 9. Method - 以下の 3 つの module から成る。 - converter - real/fake-discriminator - domain-discriminator
  • 10. Method - Converter - street image Is を shop image I^t に変換する Network - CNN Encoder, Decoder から成 る。 本質的な意味の情報だけを持つ
  • 11. Method - Real/fake-discriminator - Converter が生成した画像が 本 物かどうかを見破る Network - GAN でなく、MSE だと画像がぼ やけてしまう。
  • 12. Method - GAN を用いる理由 - target domain の shop image の正解は複数あり、正解を一意に定められない。 - source と target 集合の画像の性質がかなり異なる。 - e.g. 動画の frame 予測などは frame ごとに画像の性質は近いので、 MSE などでも大丈夫らし い。
  • 13. Method - Domain-discriminator - source image とtarget image が 関係あるかないかを識別する Network - Real/fake D. だけだと、1度 target っぽい image を生成できて しまえば、 source image がなん だろうと、そのそれっぽい target image を生成すれば、 Real/fake D. をずっと騙せる。
  • 14. Dataset - LookBook - 新しく提案 - 複数の street image と対応する 1 枚の shop image の集合。 - category は tops のみ。
  • 15. Results - Quantitative evaluation - evaluation metrics - user study score: manual - RMSE, C-SSIM: automated
  • 16. Results - Quantitative evaluation - user study - ours, C+RF, C+MSE よって生成し た image 3 つに対し、以下の 3つの 観点で score をつける。 - Real: real or fake: [0,2] - Att: how associated to sourced: [0,2] - Cat: the same/not category as source: {0,1} - 25 users - 100 image pairs/user
  • 17. Results - Quantitative evaluation - user study - C+MSE: Att を反映してるが、 本 物っぽくない - C+RF: MSE に比べ、本物っぽい が、 source と関係ないものを生成 してるので、AttはMSEより低い。 - Ours: Sourceのattribute, category などを保ちつつ、本物っぽい画像を 生成できてる。
  • 18. Results - Qualitative evaluation
  • 19. Results - Qualitative evaluation - 同じ item で異なる street image でも大体 同じような shop image を生成できている。
  • 20. Results - Quantitative evaluation - C-SSIM - Channel-wise Structured SIMilarity - real shop image と generated shop image の 差異を測る - a manual metric which is consistent with human perception - Ours が他の全ての baselines に優った。
  • 21. Results - Quantitative evaluation - C-SSIM - C+RF+DD-Neg: Negative なし。 - Negativeもあったがほうが、 DDがより効く
  • 22. Results - Quantitative evaluation - C-SSIM - Retrieval by DD-score: sourceと 同じ item の generative shop image か、 source と似てる (DD-score 低い) item の real shop image とどっちが 本物の real shop image と似てるかを検証 - Ours の汎化性を検証するため。(汎 化できてなければ、未知の item に 弱く、検索した similar item image に負ける)
  • 23. Results - Virtual Try On - shop image to street image と いう逆の task も、データを入れ 替えれば同じ model でできる。 - コンピュータを用いた仮想的な試 着などの応用が考えられる。他 の論文も結構ある。
  • 24. Conclusion - street2shop image generation で pixel-level での domain trasfer の手法を初め て提案した。 - Domain-discriminator により、 Source の意味情報を保ったまま、本物っぽい画像 の生成ができるようになった。 - street-shop image の novel dataset を提案。