Disentanglement Survey:Can You Explain How Much Are Generative models Disentangled?
- 19. VAEベースの教師なしDisentanglementの風雲児
ℒ = 𝔼 𝑞φ(𝑧|𝑥) 𝑙𝑜𝑔𝑝θ (𝑥|𝑧) − 𝐷 𝐾𝐿 𝑞φ 𝑧 𝑥 ||𝑝(𝑧)
β-VAE(2/4)
19
変分下界(Lower Bound)
VAEにおいて最大化すべき
目的関数
パラメータθのNN(Decoder)で再構成
する分布をパラメータΦのNN (Encoder)
で期待値を取った項
要するにやることは期待値の最大化
(=エンコードしたzを使ってxを完璧に再構
成する)なので、再構成誤差の最小化の項
VAE-based/確率論
- 20. VAEベースの教師なしDisentanglementの風雲児
ℒ = 𝔼 𝑞φ(𝑧|𝑥) 𝑙𝑜𝑔𝑝θ (𝑥|𝑧) − 𝐷 𝐾𝐿 𝑞φ 𝑧 𝑥 ||𝑝(𝑧)
β-VAE(2/4)
20
パラメータΦのNN(Encoer)でxから
推定したエンコードしたzの分布と
事前に選んでおいた分布とのKLDを
取る項
要するに事前分布に推定した分布を
近づけたいので、KLDの最小化の項
VAE-based/確率論
- 21. VAEベースの教師なしDisentanglementの風雲児
ℒ = 𝔼 𝑞φ(𝑧|𝑥) 𝑙𝑜𝑔𝑝θ (𝑥|𝑧) − 𝐷 𝐾𝐿 𝑞φ 𝑧 𝑥 ||𝑝(𝑧)
β-VAE(2/4)
21
𝜷𝐷 𝐾𝐿 𝑞φ 𝑧 𝑥 ||𝑝(𝑧)
KLD項に重み係数β(β>1)を
加えることで各潜在変数が
より強く事前分布に従うよう
に制約を加える
VAE-based/確率論
- 26. 式分解戦国時代の幕開け、Total Correlation(TC)
β-VAEの再構成誤差が増加する原因とは?
ℒβ−𝑉𝐴𝐸 =
1
𝑁
σ 𝑛=1
𝑁
ℒ 𝑟𝑒𝑐𝑜𝑛𝑠𝑡 +β(−𝐼 𝑥; 𝑧 +ℒ 𝐾𝐿 𝑞 𝑧 , 𝑝 𝑧 )
FactorVAE(2/5)
26
VAE-based/確率論、情報理論
KLD項(分布の不一致度)
ここではz単体の分布と事前
分布の不一致度
この項の最小化で各潜在変数
は独立となる
ℒβ−𝑉𝐴𝐸 =
1
𝑁
σ 𝑛=1
𝑁
ℒ 𝑟𝑒𝑐𝑜𝑛𝑠𝑡 + βℒ 𝐾𝐿 (N:minibatch)
KLDのデータ分布での期待値を分解
1
𝑁
σ 𝑛=1
𝑁
𝐴 = 𝔼 𝑝(𝑥) 𝐴
MI項(Mutual Information:相互情報量)
2分布間の依存関係を表している
ここでは入力xと潜在変数zの依存関係
この項の最大化でxとzの対応関係が獲得される
既存の損失関数は𝔼 𝑝(𝑥) ℒ 𝐾𝐿 を最小化しようとして
たので、相互情報量も最小化してしまっていた!
→xからzへの情報損失=再構成誤差の増加
- 28. 式分解戦国時代の幕開け、Total Correlation(TC)
β-VAEの再構成誤差が増加する原因とは?
ℒ 𝐹𝑎𝑐𝑜𝑟𝑉𝐴𝐸 =
1
𝑁
σ 𝑛=1
𝑁
ℒ 𝑟𝑒𝑐𝑜𝑛𝑠𝑡 + ℒ 𝐾𝐿 +γℒ 𝑇𝐶
FactorVAE(2/5)
28
VAE-based/確率論、情報理論
ℒβ−𝑉𝐴𝐸 =
1
𝑁
σ 𝑛=1
𝑁
ℒ 𝑟𝑒𝑐𝑜𝑛𝑠𝑡 + βℒ 𝐾𝐿 (N:minibatch)
KLDのデータ分布での期待値を分解
1
𝑁
σ 𝑛=1
𝑁
𝐴 = 𝔼 𝑝(𝑥) 𝐴
TCの制約項(2分布間の独立性)
相互情報量があまり小さくしないようにし、それとは
別に潜在変数同士が独立になる制約項を追加
この項を最小化することで潜在変数が独立になる!
→Disentanglementのみが促される!
ℒβ−𝑉𝐴𝐸 =
1
𝑁
σ 𝑛=1
𝑁
ℒ 𝑟𝑒𝑐𝑜𝑛𝑠𝑡 +β(−𝐼 𝑥; 𝑧 +ℒ 𝐾𝐿 𝑞 𝑧 , 𝑝 𝑧 )
- 38. Disentanglement Metric Scoreを正しい尺度へ
Disentanglement Metric Scoreには問題が、、、
⚫ iteration数、重み初期化などのハイパラに線形分類器が敏感
⚫ 線形分類器に通してしまうと直感的ではない
(説明性の観点でも分類器に通すのは厄介)
⚫ K個中K-1個の因子のDisentanglementでスコア100%が出る
→致命的なバグ
Improved Disentanglement Metric Score(1/3)
38
Metric
- 39. Disentanglement Metric Scoreを正しい尺度へ
Disentanglement Metric Scoreを改良した評価尺度について
⚫ FactorVAEで提案された評価尺度
⚫ 分解される因子(e.g. 回転、太さ)があらかじめわかっている
ときのみ使用可能
⚫ クラス分類ではなく多数決で因子を決定することでハイパラ
に敏感でなくなった
⚫ 旧手法に比べてトータルの速度は210倍~1800倍!!※
(旧手法:30分、本手法:数秒)
39
Metric
※ 旧手法はクラス分類器の訓練が必要なので遅い
Improved Disentanglement Metric Score(2/3)
- 44. 乱立するDisentanglement Metric
⚫ SAP (Separated Attribute Predictability)
線形回帰を行うことでハイパラに依存しないMetricの提案
(Factor VAE Metric以前に登場)
⚫ Modularity
ModularityとExplicitnessを評価
Modularity:1つの因子に分解されているか
Explicitness:ロジスティック回帰で容易に回帰できるか
→容易に回帰可能なら説明性も高いという解釈
その他のDisentanglement Metric
44
Metric
- 45. 乱立するDisentanglement Metric
⚫ DCI Disentanglement (論文中では名称なし)
Disentanglement、Completeness、Informativenessを評価
Lasso回帰またはランダムフォレスト分類器を用いる
Disentanglement:因子分類において有益な潜在変数
Completeness:分類された因子のエントロピーの差
→どれだけ因子分解がしっかり行われているか
Informativeness:分類器の予測誤差
→正しくDisentanglementできているか
⚫ MIG (Mutual Information Gap)
相互情報量の最も高い因子と次点の因子の差※
現在最新のDisentanglementのMetric
※ 相互情報量は高いほどDisentanglementが出来ている
その他のDisentanglement Metric
45
Metric