Unsupervised Image-to-Image Translation Networksの紹介

Unsupervised Image-to-Image
Translation Networks
論文紹介
Twitter:@UMU____

何の論文か
• 「教師なし」で画像から画像への変換を行う．
• ＧＡＮの拡張．

何の論文か
• 一方に属する画像データセットと，もう一方に属する画像デー
タセットを独立に用意して，学習を行い，一方に属する画像を
もう一方に属する画像に変換することができる．
（[一方に属する画像,もう一方に属する画像]）のペアとしてデー
タセットを用意する必要がない．
ペアを作らないでいい

目次
• ＶＡＥ(Variational Autoencoder)
• ＧＡＮ(Generative Adversarial Network)
• ＵＮＩＴ(Unsupervised Image Translation)

ＶＡＥ(Variational Autoencoder)
• データの生成モデルを学習する．
• VAEは，データXの確率分布が潜在変数Ｚに依存していると考
え，特定のＸからZの条件付き確率分布を出力するＮＮと
（Encoder），特定のＺからＸの条件付き確率分布を出力する
ＮＮ（Decoder）をつなげて学習を行う．
この際，P(Z|X)は正規分布と仮定し，EncoderはP(Z|X)の平均と
分散を出力する．また，P(Ｚ)を平均０，分散１の正規分布とす
る（正規化）．
・学習は，損失関数Ｌ＝xとDecoder(Encoder(x)）の差+正規化
を最小化するように学習．

ＧＡＮ(Generative Adversarial Network)
• Ｄ(Discriminator，識別器)とG(Generator，生成器)から成る．
• 損失関数Ｌは，Ｇが生成した画像と，本物の画像を，それぞれ，
Ｄが「Ｇが生成した」，Ｄが「本物の画像だ」と判別できた頻
度が高いほど，大きな値を取る．
損失関数Ｌを，
• Ｄの重みは，最大化するように学習．（すごい識別！）
• Ｇの重みは，最小化するように学習．（識別されにくく！）
→敵対的生成ネットワーク．

ＵＮＩＴ(Unsupervised Image Translation)
• 仕組み

• VAEとGANを組み合わせたモデル．
６つのネットワーク(Ex,Gx,Dx(x=1,2))から構成される．
(以下”S1”を一方に属するデータセット，”S2”を他方とする．)
• Ex:Sxの画像を，S1,S2共通の潜在変数Z(の条件付き確率分布の
平均と分散)へ変換する．(VAEのEncoder)
• Gx:潜在変数Zの平均と分散から，Sxに属す（とDxが判定する
ような）画像を生成する．(GANのＧ)
• Dx:Sxに本当に属すか，Gxが生成した物かを判定する．(Gxが
生成したなら1,本物なら0.)

• 2つのVAE (E1&G1とE2&G2)によって，S1,S2共通の潜在変数Z
を獲得することができれば，S1の画像をEncoderに通し，zに
変換し，これをG2に通すことで，画像変換を行うことができる．逆も可

• 重み共有(Weight-sharing)をおこなう．
潜在変数Ｚは双方のデータセットで共通なため，E1とE2および
G1とG2を関係させる．（全くの独立のネットワークとしない）
→G1とG2の最初の数層，またE1とE2の最後の数層を共有させる
ことで，Zの前後に層の高次元特徴空間上で，ペアとなるべき画
像(S1上の画像に対応するS2上の画像)が一致（できるように）
する．
注意：この共通化自体が，ペアとなるべき画像が同じZをもたら
すことを保証しているわけではない．
• Dxの最後の数層も同じく共有．
重みを共有することで，NNの表現力を落とすという役割もある

• 学習
学習は，4つの損失関数の和として表される損失関数（下式）を，
Ex,Gxは最小化，Dxは最大化するように行う．
これは２つのVAEと2つのGANを同時に学習するのと同じ．
・GAN部分損失関数の計算の際には，異なるSx間でZが共有されてい
るため，普通のＧＡＮとはことなり，S1→E1→G1→D1→と来るデー
タと， S2→E2→G1→D1→と来るデータと，本物のデータという3種
類の項がある．
このようにすることで，画像変換時にもLossを定義できるという利点がある．

その他
• Stochastic Skip Connectionsの導入
U-netのSkipをVAE用に拡張したもの．生成される画像の改善．
• Spatial Context
画像生成精度を高めるために，y-image(上方が1,下方が-1に正規
化された画像)を画像のチャネルに追加．(RGB→RGBY)
よくわからない．知っている方いたら教えてください．

まとめ
• VAEとGANを組み合わせたUNITで，教師なしでの画像変換を
学習することができた．

Unsupervised Image-to-Image Translation Networksの紹介

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from KCS Keio Computer Society

More from KCS Keio Computer Society (20)

Recently uploaded

Recently uploaded (10)

Unsupervised Image-to-Image Translation Networksの紹介