ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向

ICLR 2019 読み会 in 京都
ICLRから読み取るFeature Disentangleの研究動向
[紹介論文]
Emerging Disentanglement in Auto-Encoder
Based Unsupervised Image Content Transfer
2019/06/02 Yamato OKAMOTO

自己紹介岡本大和（おかもとやまと）
 京都大学でパターン認識を研究して修士課程修了
 オムロンで技術起点のBusiness Developmentを担当
 夢は京都をポスト・シリコンバレーにすること
⇒ 京都の学生と変人が持つパワーを世界に知らしめたい
@ICDM’18
Banquet
Twitter : RoadRoller_DESU

本日の発表内容
 Feature Disentangleってどんな技術？
 なんで必要なの？
 今までどんな手法が提案されたの？
 ICLRでどんな論文が出たの？
Disentangleという技術を
背景から正しく理解して頂くための
スライド構成となっています

Paper about Disentangle is Increasing
タイトルに『Disentangle』を含む論文数
CVPR’2018 １件
CVPR’2018 ５件
CVPR’2019 ８件
NIPS’2016 ０件
NIPS’2017 ４件
NIPS’2018 ８件
ICLR’2016 １件
ICLR’2017 １件
ICLR’2018 ２件

What is Feature Disentangle ??
『entangle』と『disentangle』
引用元: https://ejje.weblio.jp/
『Feature Disentangle』とは
機械学習における特徴量のもつれをほどく研究

機械学習で画像識別器を構築
Why need Disentangle ??
機械学習は与えられたデータに対してタスクを解けるよう特徴量設計する
人間にとって意味の分かる形(Semantic)に設計されるとは限らない
学習データは識別できても
現場では識別できないことが多い
外形や部品有無に注目すれば『Telephone』と類似する
しかし、色味や背景や部品配置に注目すると完全一致はしていない
⇒ 注目してほしくない部分まで特徴量に含めて学習することがある
AI PC
AI Cup AI
Telephone
AI
???
引用元: Amazon-Dataset、DSLR-Dataset

Problem Example (1)
（例）Classification (*Unsupervised Domain Adaptation)
• 外形の特徴にだけ注目すれば数字識別は可能
• 背景、配色、シャープネスに注目するとどれも異なって見えてしまう
引用元: http://ufldl.stanford.edu/housenumbers/
USPS Dataset SVHN Dataset
どんな特徴量に注目して数字識別しているか不明。
USPS Datasetを完璧に識別できるモデルを構築しても
SVHN Datasetは識別できないかもしれない

Problem Example (2)
（例）Image Translation
• 顔画像を『笑顔に変換しなさい』というタスクを実行するとき
『表情』に関する特徴量を
操作することで、笑顔への
画像変換に成功
笑顔に変換できたものの、
顔の構造まで変わって別人
になっている
引用元: Exploring Disentangled Feature Representation Beyond Face Identification
https://arxiv.org/pdf/1804.03487.pdf
『顔構造』と『表情』の特徴量が
ごちゃまぜのentangle状態になっている
画像変換

Traditional Method
ドメインを識別できる特徴量と、それ以外の特徴量へと分離抽出する
ドメインを識別できない特徴量
(ドメイン共通で存在する特徴量)
によって、ドメインの相違に惑わ
されないロバストな識別を実現。
２つに分離した特徴量のうち、
一方を変換(or合成)することで、
スタイル変換(or合成)を実現。
特徴量
(ドメイン識別不可)
データ
特徴量
(ドメイン識別可能)
敵対学習やReconstructionが
広く用いられる
損失なく、かつ、重複なく、
分離できるかどうかがカギ

A Unified Feature Disentangler for Multi-Domain
Image Translation and Manipulation(NIPS'18)
ドメイン特徴量と、数字の特徴量をDisentangleする手法
①数字識別できる、かつ、ドメイン識別できないような特徴量を抽出
・数字識別： 0 or 1 or ... or 9 ?
・ドメイン識別： USPS or SVHN ?
②元データを『特徴量＋ドメイン情報』から復元できるよう制約する
・ドメイン情報以外は全て特徴量に抜け漏れなく含まれるようになる
引用元: https://papers.nips.cc/paper/7525-a-unified-feature-disentangler-
for-multi-domain-image-translation-and-manipulation.pdf
特徴量
(ドメイン識別不可)
データ
X
特徴量
抽出器
ドメイン
識別不可
数字
識別可
ドメイン情報
(USPS or SVHN)
データ
復元
X’
復元器＋

Exploring Disentangled Feature Representation
Beyond Face Identification (CVPR’18)
特徴量の各成分を[male],[smile] など意味ある内容に対応させる手法
敵対学習により個人を識別できる特徴量とそうでない特徴量に分離
VAEで特徴量の各成分の独立性を大きくする
引用元: 関西CVPRML勉強会 CVPR2018読み会 - feature disentangling 橋本敦史
https://www.slideshare.net/atsushihasimoto/cvprml-cvpr2018-feature-disentangling
ネットワーク構造
目的の成分だけを操作して
思い通りに画像を変換可能

Diverse Image-to-Image Translation
via Disentangled Representations (ECCV'18)
分離抽出したドメイン特徴量を操作することでStyle変換する手法
猫と犬のStyle変換、冬と夏のStyle変換、画風のStyle変換、etc...
引用元: https://eccv2018.org/openaccess/content_ECCV_2018/papers/Hsin-Ying_Lee_Diverse_Image-to-
Image_Translation_ECCV_2018_paper.pdf
＋＝
＋＝
＋＝
Photograph -> Portrait
Winter -> Summer
Moment -> van Gogh

Simple Question
これってどんな関係性？？
『ドメインAのサンプルをａとする』
『ドメインBのサンプルをｂとする』
『ｂはａに含まれる情報を全て含む』
『さらにｂはａに含まれない情報も含む』

Simple Question
これってどんな関係性？？
ドメインＡドメインＢ

Emerging Disentanglement in Auto-Encoder Based
Unsupervised Image Content Transfer (ICLR’19)
これから紹介する論文は、このような条件下で
Content Additionする手法（※Style Transferではない）
＋＝
＋＝
Style Transfer Content Addition

Their Contributions
Q. 従来手法でContent Additionは実現できなかったのか？
A. 難しいです
従来手法は『Content+Style』という構成を前提として、
低次元かつ独立性を高めることでStyleをうまく抽出した。
つまり『Content+Content』という構成は想定していない
※Content：高次元特徴量（顔の基本構造、風景）
※Style ：低次元特徴量（表情、季節、配色）
提案手法従来手法
Ｂ
Ａ
従来手法は、AとBがそれぞれ
ドメイン特徴量を含む前提なので、
今回の条件は想定外。
ドメインを区別する特徴量として
Bにだけ存在するメガネではなく、
色合いの情報を捉えてしまった。

Their Contributions
Q. 従来手法でContent Additionは実現できなかったのか？
A. 難しいです
データ次第では『メガネ有り』というStyleを抽出できる場合もあるかもしれない。
しかし、従来のネットワーク構造では低次元のStyleとしての記述を前提とするため、
ある画像中の特定のメガネをAdditionすることは困難。
（一律で代表的なメガネをAdditionさせることなら可能かもしれない）
Ｂ
Ａ

Proposed Method
E2
特徴量
ｚ2
D
E1
特徴量
ｚ1
E2 0
D
E1
特徴量
ｚ1
D
(1)Domain Confusion Loss
(2)Reconstruction Loss
ドメインＢ
ドメインＡ

Proposed Method
E2
特徴量
ｚ2
D
E1
特徴量
ｚ1
E2 0
D
E1
特徴量
ｚ1
(3)Reconstruction Lossによって、
E1が顔の特徴量を捉えられるよう学習される
ドメインＢ
ドメインＡ

Proposed Method
E2
特徴量
ｚ2
D
E1
特徴量
ｚ1
E2 0
D
E1
特徴量
ｚ1
(2)Reconstruction Lossによって、
E1とE2あわせて顔とメガネの特徴量を捉えられるよう学習される
ドメインＢ
ドメインＡ

Proposed Method
E2
特徴量
ｚ2
D
E1
特徴量
ｚ1
E2 0
D
E1
特徴量
ｚ1
ただし、これではz1とz2の役割分担が不明。
z1が全特徴量を捉えたり、特徴量がEntangleしている場合もある。
？？？
ドメインＢ
ドメインＡ

Proposed Method
E2
特徴量
ｚ2
D
E1
特徴量
ｚ1
E2 0
D
E1
特徴量
ｚ1
そこで、(1)Domain Confusion Lossを導入。
Discriminatorを設けてz1からドメイン推測できないよう学習。
Which Domain ??
(推測不可にする)
Which Domain ??
(推測不可にする)
ドメインＢ
ドメインＡ

Proposed Method
E2
特徴量
ｚ2
D
E1
特徴量
ｚ1
E2 0
D
E1
特徴量
ｚ1
メガネの特徴量がz1に含まれてしまうと、
ドメインＢにしか存在しない特徴量なので即ドメインがばれる。
ドメインＢ
ドメインＡ
メガネ特徴量を含むから
ドメインＢだ！！
顔の特徴量
メガネの特徴量

Proposed Method
E2
特徴量
ｚ2
D
E1
特徴量
ｚ1
E2 0
D
E1
特徴量
ｚ1
顔の特徴量がz2に流れてしまうと、
ドメインＡで(3)Reconstructionが成立しない。
ドメインＢ
ドメインＡ
一部の情報が欠損する
顔の特徴量

Proposed Method
E2
特徴量
ｚ2
D
E1
特徴量
ｚ1
E2 0
D
E1
特徴量
ｚ1
よって、顔の特徴量はz1に、メガネの特徴量はz2に
分離して流れるよう学習される。
ドメインＢ
ドメインＡ
顔の特徴量

Proposed Method
E2
特徴量
ｚ2
E1
特徴量
ｚ1
E2 0
E1
特徴量
ｚ1
D
最後は２つのドメインで特徴量を合成すれば、
Content Additionが成立！！
ドメインＢ
ドメインＡ
顔の特徴量

Proposed Method
E2
特徴量
ｚ2
D
E1
特徴量
ｚ1
E2 0
D
E1
特徴量
ｚ1
D
ドメインＢ
ドメインＡ
※(再掲) 全体像※

Experiment
提案手法従来手法提案手法従来手法
メガネだけでなく、髭、口など、
ドメイン定義と応用は様々

まとめ
Feature Disentangleにより合成画像を生成する手法を紹介
従来のStyle Transferではなく、Content Additionした点が新しい
着眼点や問題設定がうまい論文だと感じた
単純な手法だけにドメイン定義の工夫次第で様々な応用が考えられる
例）Content Removalにも応用可能

ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向

Similar to ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向 (20)

More from Yamato OKAMOTO

More from Yamato OKAMOTO (20)

Recently uploaded

Recently uploaded (15)

ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向