Copyright©2017 NTT corp. All Rights Reserved.
深層学習におけるDisentangleな表現
NTT研究所 山田 真徳
• Irina Higgins, Loic Matthey, Xavier Glorot, Arka Pal, Benigno Uria, Charles Blundell, Shakir Mo- hamed, Alexander Lerchner, Early Visual Con- cept Learning with
Unsupervised Deep Learn- ing. , [arXiv:1606.05579 [stat.ML]] (2016).
• Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, Pieter Abbeel, Info- GAN: Interpretable Representation Learning by Information Maximizing
Generative Adversarial Nets. , [arXiv:1606.03657 [cs.LG]] (2016).
• Arka Pal, Christopher Burgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed, Alexander Lerchner, beta-VAE: Learning Basic Visual Con- cepts with a Constrained
Variational Framework. in ICLR (2017).
参考文献
Copyright©2017 NTT corp. All Rights Reserved.
自己紹介
山田真徳
NTT入社3年目(セキュリティの研究してます)
機械学習はちょうど2年くらい
・強化学習と教師なし学習に興味あります
博士までは物理(素粒子理論)やってました
Copyright©2017 NTT corp. All Rights Reserved.
会社紹介
NTTグループ
収益11兆円
利益1.5兆円
従業員27万人
会社数900以上
R&D R&D R&D R&D
←基盤的研究開発(持株会社)
Copyright©2017 NTT corp. All Rights Reserved.
個人的に最近NTTで気になった研究を紹介
量子ニューラルネット マクスウェルの悪魔をつかった発電
熱ノイズからの発電
(情報をエネルギーに変換)
光を使って計算
(電子じゃない)
Copyright©2017 NTT corp. All Rights Reserved.
目的:Disentangleな表現の説明をする
今回の話は教師なしDeepLearningです
Copyright©2017 NTT corp. All Rights Reserved.
2つの深層生成モデル
• VAE(Variational Auto-encoder) type
• GAN(Generative Adversarial Network) type
引用:http://www.araya.org/archives/1183
引用:http://blog.fastforwardlabs.com/2016/08/22/under-the-hood-of-the-variational-autoencoder-in.html
z
x
p (x) =
Z
p (x|z) p (z) dz
Copyright©2017 NTT corp. All Rights Reserved.
生成モデルでの意味の演算はすごい!
DCGAN
Copyright©2017 NTT corp. All Rights Reserved.
z1
z2
Z空間(意味)
smiling
man
smiling man
X空間(画像)
Copyright©2017 NTT corp. All Rights Reserved.
z1
z2
Z空間(意味)
smiling
man
smiling man
X空間(画像)
Disentangled representation
意味がz軸に うように学習する
Copyright©2017 NTT corp. All Rights Reserved.
Disentangled representation learningの面白さ
教師なし学習から概念の抽出ができる
データが無いところでもある程度予言ができる(zero shot学習)
Deep Learningに解釈を与えられる可能性がある??
転移学習やマルチモーダル学習で重要な役割??
抽象的かつ、混ざってない意味を抽出できるので
引用:http://arxiv.org/abs/1606.05579
Copyright©2017 NTT corp. All Rights Reserved.
Disentangleな学習の結果
上:disentangle, 下:普通の学習(VAE)
Copyright©2017 NTT corp. All Rights Reserved.
1つのzに1つの意味を押し付ける
例:http://tinyurl.com/jgbyzke
Copyright©2017 NTT corp. All Rights Reserved.
disentanglement 化
β-VAE
InfoGAN
VAE
GAN
基礎となるmodel
2種類のdisentanglement 学習
arXiv:1312.6114 [stat.ML]
arXiv:1406.2661 [stat.ML]
arXiv:1606.05579 [stat.ML]
arXiv:1606.03657 [cs.LG]
β-VAEとInfoGANを同じデータで比較した論文[Arka Pal, et al., ICLR (2017)]
Copyright©2017 NTT corp. All Rights Reserved.
{xi} ! p (x)
β-VAE
Copyright©2017 NTT corp. All Rights Reserved.
まずは普通のVAE
(大きくする)
分布を仮定
再構成誤差 正則化項
変分下限
q (z|x) p✓ (x|z)q (z|x) p✓ (x|z)
確率的(逆誤差伝搬不可能)
決定的(逆誤差伝搬可能)
KL divergenceによる束縛
µ
µ
z
z
µ
in out
p(z)
log p (x) = Eq (z|x) [log p✓ (x|z)] DKL (q (z|x) ||p (z)) + DKL (q (z|x) ||p (z|x))
Copyright©2017 NTT corp. All Rights Reserved.
log p (x) Eq (z|x) [log p✓ (x|z)] DKL (q (z|x) |p (z))
β>1
p (z) = N (µ = 0, = 1)
xと独立したzが平均0のガウス分布に近づく
↓
意味を持っているzの数が少なくなる
β-VAE
VAEのKL項の係数を大きくするだけ!
Copyright©2017 NTT corp. All Rights Reserved.
β-VAEの実験結果(z→x)
Dataset: 3d chairs
Copyright©2017 NTT corp. All Rights Reserved.
InfoGAN
Copyright©2017 NTT corp. All Rights Reserved.
InfoGAN
VAEの潜在変数z1つ1つに1つの意味を意味を押し付けるようなことがしたい
→潜在変数zと可視変数xの間に関係をつける
戦略:潜在変数と出力の相互情報量を最大にする
VI (G, D) ⌘ V (G, D) I (c; G (z, c))
min
G
max
D
VI (G, D)
c:カテゴリ変数
λ:重み
普通のGAN 相互情報量
I (X; Y ) ⌘
Z
X
Z
Y
p (x, y) log
p (x, y)
p (x) p (y)
dxdy
= DKL (p (x, y) ||p (x) p (y))
相互情報量
cとGが絡み合うようにする
Copyright©2017 NTT corp. All Rights Reserved.
図による比較
絡み合いを強くする
(mutual information
を大きくする)
Copyright©2017 NTT corp. All Rights Reserved.
InfoGANの実験結果
右上:普通のGAN
左上:categorical分布
下段:一様分布
意味が分離できている!
変化
Copyright©2017 NTT corp. All Rights Reserved.
画像の鮮明さ Disentangle度合い
β-VAE ☓ ○
InfoGAN ○ ☓
• Disentagleな表現学習であるβ-VAEとInfoGANの紹介を行った。
• β-VAEはVAEのKL divergence項を強めた学習
• InfoGANはGANに相互情報量を最大化する項を加えた学習
まとめ

20170624yamada

  • 1.
    Copyright©2017 NTT corp.All Rights Reserved. 深層学習におけるDisentangleな表現 NTT研究所 山田 真徳 • Irina Higgins, Loic Matthey, Xavier Glorot, Arka Pal, Benigno Uria, Charles Blundell, Shakir Mo- hamed, Alexander Lerchner, Early Visual Con- cept Learning with Unsupervised Deep Learn- ing. , [arXiv:1606.05579 [stat.ML]] (2016). • Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, Pieter Abbeel, Info- GAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets. , [arXiv:1606.03657 [cs.LG]] (2016). • Arka Pal, Christopher Burgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed, Alexander Lerchner, beta-VAE: Learning Basic Visual Con- cepts with a Constrained Variational Framework. in ICLR (2017). 参考文献
  • 2.
    Copyright©2017 NTT corp.All Rights Reserved. 自己紹介 山田真徳 NTT入社3年目(セキュリティの研究してます) 機械学習はちょうど2年くらい ・強化学習と教師なし学習に興味あります 博士までは物理(素粒子理論)やってました
  • 3.
    Copyright©2017 NTT corp.All Rights Reserved. 会社紹介 NTTグループ 収益11兆円 利益1.5兆円 従業員27万人 会社数900以上 R&D R&D R&D R&D ←基盤的研究開発(持株会社)
  • 4.
    Copyright©2017 NTT corp.All Rights Reserved. 個人的に最近NTTで気になった研究を紹介 量子ニューラルネット マクスウェルの悪魔をつかった発電 熱ノイズからの発電 (情報をエネルギーに変換) 光を使って計算 (電子じゃない)
  • 5.
    Copyright©2017 NTT corp.All Rights Reserved. 目的:Disentangleな表現の説明をする 今回の話は教師なしDeepLearningです
  • 6.
    Copyright©2017 NTT corp.All Rights Reserved. 2つの深層生成モデル • VAE(Variational Auto-encoder) type • GAN(Generative Adversarial Network) type 引用:http://www.araya.org/archives/1183 引用:http://blog.fastforwardlabs.com/2016/08/22/under-the-hood-of-the-variational-autoencoder-in.html z x p (x) = Z p (x|z) p (z) dz
  • 7.
    Copyright©2017 NTT corp.All Rights Reserved. 生成モデルでの意味の演算はすごい! DCGAN
  • 8.
    Copyright©2017 NTT corp.All Rights Reserved. z1 z2 Z空間(意味) smiling man smiling man X空間(画像)
  • 9.
    Copyright©2017 NTT corp.All Rights Reserved. z1 z2 Z空間(意味) smiling man smiling man X空間(画像) Disentangled representation 意味がz軸に うように学習する
  • 10.
    Copyright©2017 NTT corp.All Rights Reserved. Disentangled representation learningの面白さ 教師なし学習から概念の抽出ができる データが無いところでもある程度予言ができる(zero shot学習) Deep Learningに解釈を与えられる可能性がある?? 転移学習やマルチモーダル学習で重要な役割?? 抽象的かつ、混ざってない意味を抽出できるので 引用:http://arxiv.org/abs/1606.05579
  • 11.
    Copyright©2017 NTT corp.All Rights Reserved. Disentangleな学習の結果 上:disentangle, 下:普通の学習(VAE)
  • 12.
    Copyright©2017 NTT corp.All Rights Reserved. 1つのzに1つの意味を押し付ける 例:http://tinyurl.com/jgbyzke
  • 13.
    Copyright©2017 NTT corp.All Rights Reserved. disentanglement 化 β-VAE InfoGAN VAE GAN 基礎となるmodel 2種類のdisentanglement 学習 arXiv:1312.6114 [stat.ML] arXiv:1406.2661 [stat.ML] arXiv:1606.05579 [stat.ML] arXiv:1606.03657 [cs.LG] β-VAEとInfoGANを同じデータで比較した論文[Arka Pal, et al., ICLR (2017)]
  • 14.
    Copyright©2017 NTT corp.All Rights Reserved. {xi} ! p (x) β-VAE
  • 15.
    Copyright©2017 NTT corp.All Rights Reserved. まずは普通のVAE (大きくする) 分布を仮定 再構成誤差 正則化項 変分下限 q (z|x) p✓ (x|z)q (z|x) p✓ (x|z) 確率的(逆誤差伝搬不可能) 決定的(逆誤差伝搬可能) KL divergenceによる束縛 µ µ z z µ in out p(z) log p (x) = Eq (z|x) [log p✓ (x|z)] DKL (q (z|x) ||p (z)) + DKL (q (z|x) ||p (z|x))
  • 16.
    Copyright©2017 NTT corp.All Rights Reserved. log p (x) Eq (z|x) [log p✓ (x|z)] DKL (q (z|x) |p (z)) β>1 p (z) = N (µ = 0, = 1) xと独立したzが平均0のガウス分布に近づく ↓ 意味を持っているzの数が少なくなる β-VAE VAEのKL項の係数を大きくするだけ!
  • 17.
    Copyright©2017 NTT corp.All Rights Reserved. β-VAEの実験結果(z→x) Dataset: 3d chairs
  • 18.
    Copyright©2017 NTT corp.All Rights Reserved. InfoGAN
  • 19.
    Copyright©2017 NTT corp.All Rights Reserved. InfoGAN VAEの潜在変数z1つ1つに1つの意味を意味を押し付けるようなことがしたい →潜在変数zと可視変数xの間に関係をつける 戦略:潜在変数と出力の相互情報量を最大にする VI (G, D) ⌘ V (G, D) I (c; G (z, c)) min G max D VI (G, D) c:カテゴリ変数 λ:重み 普通のGAN 相互情報量 I (X; Y ) ⌘ Z X Z Y p (x, y) log p (x, y) p (x) p (y) dxdy = DKL (p (x, y) ||p (x) p (y)) 相互情報量 cとGが絡み合うようにする
  • 20.
    Copyright©2017 NTT corp.All Rights Reserved. 図による比較 絡み合いを強くする (mutual information を大きくする)
  • 21.
    Copyright©2017 NTT corp.All Rights Reserved. InfoGANの実験結果 右上:普通のGAN 左上:categorical分布 下段:一様分布 意味が分離できている! 変化
  • 22.
    Copyright©2017 NTT corp.All Rights Reserved. 画像の鮮明さ Disentangle度合い β-VAE ☓ ○ InfoGAN ○ ☓ • Disentagleな表現学習であるβ-VAEとInfoGANの紹介を行った。 • β-VAEはVAEのKL divergence項を強めた学習 • InfoGANはGANに相互情報量を最大化する項を加えた学習 まとめ