Unsupervised Image-to-Image
Translation Networks
論文紹介
Twitter:@UMU____
何の論文か
• 「教師なし」で画像から画像への変換を行う.
• GANの拡張.
何の論文か
• 一方に属する画像データセットと,もう一方に属する画像デー
タセットを独立に用意して,学習を行い,一方に属する画像を
もう一方に属する画像に変換することができる.
([一方に属する画像,もう一方に属する画像])のペアとしてデー
タセットを用意する必要がない.
ペアを作らないでいい
目次
• VAE(Variational Autoencoder)
• GAN(Generative Adversarial Network)
• UNIT(Unsupervised Image Translation)
VAE(Variational Autoencoder)
• データの生成モデルを学習する.
• VAEは,データXの確率分布が潜在変数Zに依存していると考
え,特定のXからZの条件付き確率分布を出力するNNと
(Encoder),特定のZからXの条件付き確率分布を出力する
NN(Decoder)をつなげて学習を行う.
この際,P(Z|X)は正規分布と仮定し,EncoderはP(Z|X)の平均と
分散を出力する.また,P(Z)を平均0,分散1の正規分布とす
る(正規化).
・学習は,損失関数L=xとDecoder(Encoder(x))の差+正規化
を最小化するように学習.
GAN(Generative Adversarial Network)
• D(Discriminator,識別器)とG(Generator,生成器)から成る.
• 損失関数Lは,Gが生成した画像と,本物の画像を,それぞれ,
Dが「Gが生成した」,Dが「本物の画像だ」と判別できた頻
度が高いほど,大きな値を取る.
損失関数Lを,
• Dの重みは,最大化するように学習.(すごい識別!)
• Gの重みは,最小化するように学習.(識別されにくく!)
→敵対的生成ネットワーク.
UNIT(Unsupervised Image Translation)
• 仕組み
UNIT(Unsupervised Image Translation)
• VAEとGANを組み合わせたモデル.
6つのネットワーク(Ex,Gx,Dx(x=1,2))から構成される.
(以下”S1”を一方に属するデータセット,”S2”を他方とする.)
• Ex:Sxの画像を,S1,S2共通の潜在変数Z(の条件付き確率分布の
平均と分散)へ変換する.(VAEのEncoder)
• Gx:潜在変数Zの平均と分散から,Sxに属す(とDxが判定する
ような)画像を生成する.(GANのG)
• Dx:Sxに本当に属すか,Gxが生成した物かを判定する.(Gxが
生成したなら1,本物なら0.)
UNIT(Unsupervised Image Translation)
• 2つのVAE (E1&G1とE2&G2)によって,S1,S2共通の潜在変数Z
を獲得することができれば,S1の画像をEncoderに通し,zに
変換し,これをG2に通すことで,画像変換を行うことができる.逆も可
UNIT(Unsupervised Image Translation)
• 重み共有(Weight-sharing)をおこなう.
潜在変数Zは双方のデータセットで共通なため,E1とE2および
G1とG2を関係させる.(全くの独立のネットワークとしない)
→G1とG2の最初の数層,またE1とE2の最後の数層を共有させる
ことで,Zの前後に層の高次元特徴空間上で,ペアとなるべき画
像(S1上の画像に対応するS2上の画像)が一致(できるように)
する.
注意:この共通化自体が,ペアとなるべき画像が同じZをもたら
すことを保証しているわけではない.
• Dxの最後の数層も同じく共有.
重みを共有することで,NNの表現力を落とすという役割もある
UNIT(Unsupervised Image Translation)
• 学習
学習は,4つの損失関数の和として表される損失関数(下式)を,
Ex,Gxは最小化,Dxは最大化するように行う.
これは2つのVAEと2つのGANを同時に学習するのと同じ.
・GAN部分損失関数の計算の際には,異なるSx間でZが共有されてい
るため,普通のGANとはことなり,S1→E1→G1→D1→と来るデー
タと, S2→E2→G1→D1→と来るデータと,本物のデータという3種
類の項がある.
このようにすることで,画像変換時にもLossを定義できるという利点がある.
その他
• Stochastic Skip Connectionsの導入
U-netのSkipをVAE用に拡張したもの.生成される画像の改善.
• Spatial Context
画像生成精度を高めるために,y-image(上方が1,下方が-1に正規
化された画像)を画像のチャネルに追加.(RGB→RGBY)
よくわからない.知っている方いたら教えてください.
まとめ
• VAEとGANを組み合わせたUNITで,教師なしでの画像変換を
学習することができた.
生成画像
• 論文参照

Unsupervised Image-to-Image Translation Networksの紹介