20180518 pixel level domain transfer
- 3. Table of Contents
- Introduction
- Domain adaptation
- GANs
- Method
- Results
- manual evaluation
- automated evaluation
- 4. Introduction - Domain adaptation
- 関数の定義域 (domain) となる集合を、他の集合に変える/対応させる手法
- domain transfer とも言う
- fine-tuning もそのうちの 1 つ
- X には label Y があるが、 X’ には label がないときなどに使える
fX
shop image
Y
attributes
(“coat”, “olive”)
X’
street image
attribute predictor
- 5. Introduction - street to shop
- domain adaptation, domain transfer の一手法としての応用
- cross-domain image retrieval や、 street/shop image のみしか扱えない fashion model を両方に
対応させることができる。
- 先行研究では、 similarity learning などで、 対応する pair が同一の feature
space で近くになるように embedding というような手法がある。
CNN
CNN
street
outfit
image
shop
per-garment
image
- 6. Introduction - our work
- 今回は、 street image から shop image を生成するモデル
- street image を撮るだけで、 shop image を撮らなくて済む。
- 7. Introduction - GANs: Generative Adversarial Networks
- 設計の難しい loss 関数に対し、その loss 関数すら Neural Network で学習させて
しまおうという手法
- image generation, text generation などの多くの応用先
- 生成モデル(generative model) ≒ 教師なし (unsupervised)
- P(X) をモデリング (X: 画像など)
Generator
c.f. ProgressinGAN
gaussian noise
generated image
OR Discriminator
real image
True 1
/
False 0
- 8. Introduction - GANs: Generative Adversarial Networks
- Generator, Discriminator を交互に学習させる。
- Discriminator は Generator が生成した画像か本物かを識別できるよう学習。
- Generator は Discriminator を騙すような画像を生成するよう学習。
Generator
c.f. ProgressinGAN
gaussian noise
generated image
OR Discriminator
real image
True 1
/
False 0
- 9. Method
- 以下の 3 つの module から成る。
- converter
- real/fake-discriminator
- domain-discriminator
- 10. Method - Converter
- street image Is を shop image
I^t に変換する Network
- CNN Encoder, Decoder から成
る。
本質的な意味の情報だけを持つ
- 12. Method - GAN を用いる理由
- target domain の shop image の正解は複数あり、正解を一意に定められない。
- source と target 集合の画像の性質がかなり異なる。
- e.g. 動画の frame 予測などは frame ごとに画像の性質は近いので、 MSE などでも大丈夫らし
い。
- 13. Method - Domain-discriminator
- source image とtarget image が
関係あるかないかを識別する
Network
- Real/fake D. だけだと、1度
target っぽい image を生成できて
しまえば、 source image がなん
だろうと、そのそれっぽい target
image を生成すれば、 Real/fake
D. をずっと騙せる。
- 15. Results - Quantitative evaluation
- evaluation metrics
- user study score: manual
- RMSE, C-SSIM: automated
- 16. Results - Quantitative evaluation - user study
- ours, C+RF, C+MSE よって生成し
た image 3 つに対し、以下の 3つの
観点で score をつける。
- Real: real or fake: [0,2]
- Att: how associated to
sourced: [0,2]
- Cat: the same/not category
as source: {0,1}
- 25 users
- 100 image pairs/user
- 17. Results - Quantitative evaluation - user study
- C+MSE: Att を反映してるが、 本
物っぽくない
- C+RF: MSE に比べ、本物っぽい
が、 source と関係ないものを生成
してるので、AttはMSEより低い。
- Ours: Sourceのattribute, category
などを保ちつつ、本物っぽい画像を
生成できてる。
- 20. Results - Quantitative evaluation - C-SSIM
- Channel-wise Structured
SIMilarity
- real shop image と
generated shop image の
差異を測る
- a manual metric which is
consistent with human
perception
- Ours が他の全ての
baselines に優った。
- 22. Results - Quantitative evaluation - C-SSIM
- Retrieval by DD-score: sourceと
同じ item の generative shop
image か、 source と似てる
(DD-score 低い) item の real shop
image とどっちが 本物の real shop
image と似てるかを検証
- Ours の汎化性を検証するため。(汎
化できてなければ、未知の item に
弱く、検索した similar item image
に負ける)
- 23. Results - Virtual Try On
- shop image to street image と
いう逆の task も、データを入れ
替えれば同じ model でできる。
- コンピュータを用いた仮想的な試
着などの応用が考えられる。他
の論文も結構ある。
- 24. Conclusion
- street2shop image generation で pixel-level での domain trasfer の手法を初め
て提案した。
- Domain-discriminator により、 Source の意味情報を保ったまま、本物っぽい画像
の生成ができるようになった。
- street-shop image の novel dataset を提案。