1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Disentangling Disentanglement
Hiroshi Sekiguchi, Morikawa Lab
書誌情報
• “Disentangling Disentanglement”
(Third workshop on Bayesian Deep Learning (NeurIPS 2018))
• Author: Emile Mathieu Tom Rainforth N. Siddharth Yee Whye The
University of Oxford
• 概要:
– Disentanglement: 「からまっている物事を解きほぐすこと」、「解きほぐし」
→ Disentangling Disentanglement: 「”解きほぐし”のからまりを解きほぐす」
– 既存のVAE生成モデル( VAE、βーVAE):解釈可能な潜在表現を求める解法は、設定問題
に依存していて、一般化するのは難しかった。
→ 本研究は、これを一般化するスキームを提案する
Generalization of Disentanglement : 「Decomposition(分解)」という言葉を提唱!
• 関連プレゼン https://deeplearning.jp/recent-advances-in-autoencoder-based-
representation-learning-2/ by 松嶋さん 2
アジェンダ
• 既存VAE(VAE、βーVAEなど)の問題点
• 一般化の導入
• 実験結果
• まとめ
3
既存VAE(VAE、βーVAEなど)の問題点(1)
• VAEの研究の動機:観測データを生成する潜在変数の直感的な解釈!
(例)顔画像の独立な特徴要素:髪の色、顔の向き、拡大縮小
• 既存VAEの方法:観測データから、互いに独立な潜在変数を求めること
に注力。これが、Disentanglement「ほぐし」と呼ばれて、優先されてき
た。
• 目的関数:以下の𝐿を最大化する
– VAEの場合: 𝐿(𝑥) = 𝐸 𝑞Φ(𝑧|𝑥)[log 𝑝θ(𝑥|𝑧)] − 𝐾𝐿(𝑞Φ(𝑧|𝑥)||𝑝θ 𝑧 )
– β-VAEの場合: 𝐿β(𝑥) = 𝐸 𝑞Φ(𝑧|𝑥)[log 𝑝θ(𝑥|𝑧)] − β 𝐾𝐿(𝑞Φ(𝑧|𝑥)||𝑝θ 𝑧 )
4
既存VAE(VAE、βーVAEなど)の問題点(2)
• 問題点
– 「新設定問題→ほぐしの新尺度の新提案→新目的関数→ほぐしの新手法」の無
限ループ
問題設定ごとにアドホック。一般化ができない。
– 複雑な観測データの潜在空間は同様に複雑で、潜在変数以上の数の特徴要素で
できているだろう。潜在変数には、複数の特徴要素を掛け持ちしなければなら
ない。潜在変数には、互いに独立でないものもたくさんあるはず。→ 独立な
潜在変数と独立ではない潜在変数両方を合わせた𝑝(𝑧)を正しく抽出しなければ
ならない。
• 本来やりたいことは、(1) 独立な潜在変数を抽出して直感的解釈に使
うことだが、同時に、(2) 潜在空間zがどのようになっているのかを正
しく抽出したい。
– VAEやβーVAEは、(1)のみに注力していて、(2)ができていない。 5
一般化の導入(1)
• そこで、以下の2つを同時に満たす手法が必要。
(a) 潜在空間内の重なり(Overlap)が丁度良いこと(大きすぎず小さすぎず):
多くの𝑥に対し、エンコーダ𝑞Φ(𝑧|𝑥)が潜在空間に写像する複数の𝑧の密度分布間の
重なり(Overlap)が丁度良いこと:これが満たせれれば、意味のあるエンコーダ。
重なりが大きすぎ:観測データ𝑥と潜在変数𝑧の間の写像がボケ過ぎて写像ではなくなる
重なりが小さすぎ:𝑥と𝑧の関係が決定論的になり、本来の確率生成モデルの趣旨からはずれる
(b) 周辺化事後確率𝑞Φ 𝑧 = 𝐸 𝑝 𝐴(𝑥)
[𝑞Φ 𝑧 𝑥 ]が事前確率𝑝(𝑧)に近づくこと:
ここで、𝑝 𝐴(𝑥)は観測データの母体の確率密度分布:
これで、𝑞Φ(𝑧)は𝑝(𝑧)と同じ分布になることが担保される。
6
一般化の導入(2)
• 目的関数:
– 新提案の場合:
𝐿α,β(𝑥) = 𝐿β(𝑥) − α 𝐷(𝑞Φ 𝑧 , 𝑝 𝑧 )
= 𝐸 𝑞Φ 𝑧 𝑥 [log 𝑝θ(𝑥|𝑧)] − 𝛽 𝐾𝐿(𝑞Φ(𝑧|𝑥)||𝑝θ 𝑧 ) − α 𝐷(𝑞Φ 𝑧 , 𝑝 𝑧 )
(b)に対応する項目を追加
𝐷 𝑞Φ 𝑧 , 𝑝 𝑧 ≜ 𝐾𝐿(𝑝 𝑧 ||𝑞Φ 𝑧 ) = 𝐸 𝑝 𝑧 [log 𝑝 𝑧 − log(𝐸 𝑝 𝐴(𝑥)
[𝑞Φ 𝑧 𝑥 ])]
≈ σ 𝑗=1
𝐵
log 𝑝(𝑧𝑗) − log σ𝑖=1
𝑛
𝑞Φ(𝑧𝑗|𝑥𝑖
• Disentanglement「ほぐし」の尺度:以下のネットワークでの正解率
7Disentanglement by Factorizing(Factor VAE)より
既存手法βーVAEの特性
• βを変化させることは、(a)の重なり(Overlap)を変化させていることで
ある。(b)に対する効果は全くない。(証明はここでは省略)
→ βが大きい:重なりが大きいということ
βが小さい:重なり小さいということ
→ βが大きすぎたり、小さすぎると、エンコーダが機能しなくなる。
→ disentanglement scoreは下がる。(実験結果(1))
• ΒーVAEでは、事前確率をガウシアンにすると、潜在変数はすべて互い
に独立になる。→ しかし、実社会の観測データは、もっと複雑なた
め、潜在変数が全て独立であることは、ほとんどなく、非現実。
→ 事前確率を等方性ガウシアンにすると、潜在空間で回転の操作は、
正しく抽出できない。(実験結果(1))
8
実験結果(1)
• 実験1)事前確率の違いによるdisentanglement scoreの変化
– 手法: α=0すなわちβーVAEの場合
– 事前確率
• 等方性ガウシアン:潜在空間での回転操作が認識不可
• 非等方性ガウシアン:
• Student-t分布:
– データセット
• 2D Shape: 二値画像 64x64画素 737,280個の画像
形:3種類、拡大縮小:6種類、回転:40種類
平行移動:x方向:32種類、y方向:32種類
– エンコーダとデコーダ:CNN+FC
– 結果
• Disentanglement Scoreは、事前確率を
変えただけで、良くなる。
• Βが大きい→Disentanglement Scoreは
悪くなる。
9
数字:自由度
数字:β値
実験結果(2)
• 実験2)新提案による周辺化事後分布𝑞Φ 𝑧 = 𝐸 𝑝 𝐴(𝑥)
[𝑞Φ 𝑧 𝑥 ]が事前
分布𝑝(𝑧)を表現する例
– 手法: 新手法:αとβを変化
– 事前確率:4等重み付けガウシアン
– データセット:
• Pinwheel: 400データ
– エンコーダとデコーダ:全結合(FC)
– 結果
• αを固定して、βを変化させる。βが大きく
なると、周辺化事後確率𝑞Φ(𝑧)は、4ガウシアンから
2ガウシアンへの事前確率から離脱してしまう。
• βを固定してαを変化せても、周辺化事後確率𝑞Φ 𝑧 は
4ガウシアンのまま事前確率と合同を維持できる。
→ 新提案は有用!
10
事前確率
まとめ
• βーVAEの目的関数に、周辺化事後確率𝑞Φ 𝑧 = 𝐸 𝑝 𝐴(𝑥)
[𝑞Φ 𝑧 𝑥 ]と、事前
確率𝑝(𝑧)の差異を少なくする正則化を追加して、実世界の事前確率を学
習する手法を提案した。
11
END
12

[DL輪読会]Disentangling Disentanglement