Attention-Guided GANについて

Attention-Guided GAN について
Unsupervised Attention-guided Image-to-Image Translation
Youssef A. Mejjati, et al. In NIPS, 2018.
2018.10.29
hei4

画像変換系の GAN
訓練データは変換前後の Paired 訓練データは Unpaired
●
訓練データが変換前後で Paired なものと、 Unpaired なものがある
●
Paired （例 pix2pix ）　：タスクによってはデータをペアで用意することが困難
●
Unpaired （例 CycleGAN 、 DiscoGAN など）　：利便性が高い

CycleGAN の課題
Jun-Yan Zhu, et al. 2017 より
●
CycleGAN は高精細な画像変換に成功
●
一方で背景画像は変換が成功していない（＝不要に変換している）
●
Unpaired な訓練データで、背景画像も高精細にすることはできないか？

本日紹介する論文
● “Unsupervised Attention-guided Image-to-Image Translation”
●
Youssef A. Mejjati, et al. 　英国バース大学の研究チーム
●
NIPS 2018 のポスターに採択

Unpaired な既存手法の課題
既存手法提案手法
●
前景画像に対しては高精細な画像変換に成功している手法でも、
　背景画像は改善の余地あり
●
アテンション構造で課題を解決する、 Attention-Guided GAN を提案（本手法）

Attention-Guided GAN の構造
アテンションネットワーク
ジェネレーター
（ソース→ターゲット）
ソース画
像
アテンショ
ンマップ
ソース画
像
前景
贋作
ターゲット画
像
前景
贋作
ターゲット画
像
前景（調整
後）

ソース画
像
贋作
ターゲット画
像
前景（調整
後）
反転した
アテンショ
ンマップ
ソース画
像
背景
贋作
ターゲット画
像

贋作
ターゲット画
像
ソース画
像
アテンションネットワーク
ジェネレーター
（ソース→ターゲット）
ソース画
像
再構築画像
贋作ターゲット画
像
AT
?
ディスクリミネーター
（ターゲット）χT
?

adversarial loss
AT
?
χT
?
cycle consistency loss
元画像贋作画像

Attention-Guided GAN の損失
adversarial loss
cycle consistency loss
全体の loss
ハイパーパラメータ： λcyc
＝ 10

学習の工夫 (Attention-guided Discriminator)
元画像贋作画像背景部分は、元画像も贋作画像も同じ
ディスクリミネーターで背景部分について
識別および学習する意義はない
●
前景部分のみ学習すればよい。
　ただし、前景と背景に分離できている
　（＝正しくアテンションできている）必要がある
●
30 エポック以降から、前景のみで学習
●
30 エポック以降はアテンションネットワークは
　ゆるやかに学習（学習率 100 分の 1 に）
ハイパーパラメータ： τ ＝ 0.1

アテンションマップの生成例
●
アテンションネットワークによって前景部分にアテンションが行われている
horse で学習 zebra で学習
horse も zebra も写っていないので、アテンションなし（＝背景のみ
・・・正しい結果

既存手法との定性的比較

既存手法との定量的比較
A:Apple
O:Orange
Z:Zebra
H:Horse
L:Lion
T:Tiger
●
贋作画像と元画像との Frecet Inception Distance (FID) で評価。
●
FID は特徴量に対して、曲線同士の距離を測る Frechet Distance を適用するもの
　 FID が小さいほど２つの画像集合の画像的特性が近しい。
●
贋作画像と元画像をそれぞれ Inception Net に入力した最終特徴量マップを使用
●
FID を用いて定量的に評価し、既存手法と比較
●
Attention-guided GAN で変換した贋作画像が、元画像との FID が最も小さい

Attention GAN との違い
“Attention-GAN for Object Transfiguration in Wild Images”
Xinyuan Chen, et al. 2018
●
Attention-Guided GAN と Attention GAN との相違点
1.前者は前景部のみを生成器に入力して変換。後者は分離前に全体を変換
2.前者は 30 エポック以降は前景部のみを識別器に入力

構成要素の効果（ Attention GAN との比較）
提案
手法
AttentionGAN
に相当
cycle consistency
loss ぬき
再構築時に再度
アテンションマップ
AT
(s’) を生成しない
アテンションネッ
トが単一
Attention-guided
Discriminator を
通常の D に
表中の値は FID

構成要素の効果（ Attention GAN との比較）
AttentionGAN に相当

公式実装（ TensorFlow ）での動作結果
GTX1080Ti 使用　学習時間 7h

総括
●
アテンション構造を使った Attention-Guided GAN を提案
●
既存の Unpaired な画像変換手法と比較して、
　定性的・定量的に高精細な画像変換を達成
●
AttentionGAN と比較して、アテンションされた前景部分を変換している
点、
　学習が進むと前景部分のみを識別器で判断している点が異なる
●
AttentionnGAN よりも高精細に変換できることを確認

Attention-Guided GANについて

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Attention-Guided GANについて

Similar to Attention-Guided GANについて (8)

More from yohei okawa

More from yohei okawa (15)

Recently uploaded

Recently uploaded (15)

Attention-Guided GANについて