SlideShare a Scribd company logo
1 of 22
Download to read offline
Copyright©2017 NTT corp. All Rights Reserved.
深層学習におけるDisentangleな表現
NTT研究所 山田 真徳
• Irina Higgins, Loic Matthey, Xavier Glorot, Arka Pal, Benigno Uria, Charles Blundell, Shakir Mo- hamed, Alexander Lerchner, Early Visual Con- cept Learning with
Unsupervised Deep Learn- ing. , [arXiv:1606.05579 [stat.ML]] (2016).
• Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, Pieter Abbeel, Info- GAN: Interpretable Representation Learning by Information Maximizing
Generative Adversarial Nets. , [arXiv:1606.03657 [cs.LG]] (2016).
• Arka Pal, Christopher Burgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed, Alexander Lerchner, beta-VAE: Learning Basic Visual Con- cepts with a Constrained
Variational Framework. in ICLR (2017).
参考文献
Copyright©2017 NTT corp. All Rights Reserved.
自己紹介
山田真徳
NTT入社3年目(セキュリティの研究してます)
機械学習はちょうど2年くらい
・強化学習と教師なし学習に興味あります
博士までは物理(素粒子理論)やってました
Copyright©2017 NTT corp. All Rights Reserved.
会社紹介
NTTグループ
収益11兆円
利益1.5兆円
従業員27万人
会社数900以上
R&D R&D R&D R&D
←基盤的研究開発(持株会社)
Copyright©2017 NTT corp. All Rights Reserved.
個人的に最近NTTで気になった研究を紹介
量子ニューラルネット マクスウェルの悪魔をつかった発電
熱ノイズからの発電
(情報をエネルギーに変換)
光を使って計算
(電子じゃない)
Copyright©2017 NTT corp. All Rights Reserved.
目的:Disentangleな表現の説明をする
今回の話は教師なしDeepLearningです
Copyright©2017 NTT corp. All Rights Reserved.
2つの深層生成モデル
• VAE(Variational Auto-encoder) type
• GAN(Generative Adversarial Network) type
引用:http://www.araya.org/archives/1183
引用:http://blog.fastforwardlabs.com/2016/08/22/under-the-hood-of-the-variational-autoencoder-in.html
z
x
p (x) =
Z
p (x|z) p (z) dz
Copyright©2017 NTT corp. All Rights Reserved.
生成モデルでの意味の演算はすごい!
DCGAN
Copyright©2017 NTT corp. All Rights Reserved.
z1
z2
Z空間(意味)
smiling
man
smiling man
X空間(画像)
Copyright©2017 NTT corp. All Rights Reserved.
z1
z2
Z空間(意味)
smiling
man
smiling man
X空間(画像)
Disentangled representation
意味がz軸に うように学習する
Copyright©2017 NTT corp. All Rights Reserved.
Disentangled representation learningの面白さ
教師なし学習から概念の抽出ができる
データが無いところでもある程度予言ができる(zero shot学習)
Deep Learningに解釈を与えられる可能性がある??
転移学習やマルチモーダル学習で重要な役割??
抽象的かつ、混ざってない意味を抽出できるので
引用:http://arxiv.org/abs/1606.05579
Copyright©2017 NTT corp. All Rights Reserved.
Disentangleな学習の結果
上:disentangle, 下:普通の学習(VAE)
Copyright©2017 NTT corp. All Rights Reserved.
1つのzに1つの意味を押し付ける
例:http://tinyurl.com/jgbyzke
Copyright©2017 NTT corp. All Rights Reserved.
disentanglement 化
β-VAE
InfoGAN
VAE
GAN
基礎となるmodel
2種類のdisentanglement 学習
arXiv:1312.6114 [stat.ML]
arXiv:1406.2661 [stat.ML]
arXiv:1606.05579 [stat.ML]
arXiv:1606.03657 [cs.LG]
β-VAEとInfoGANを同じデータで比較した論文[Arka Pal, et al., ICLR (2017)]
Copyright©2017 NTT corp. All Rights Reserved.
{xi} ! p (x)
β-VAE
Copyright©2017 NTT corp. All Rights Reserved.
まずは普通のVAE
(大きくする)
分布を仮定
再構成誤差 正則化項
変分下限
q (z|x) p✓ (x|z)q (z|x) p✓ (x|z)
確率的(逆誤差伝搬不可能)
決定的(逆誤差伝搬可能)
KL divergenceによる束縛
µ
µ
z
z
µ
in out
p(z)
log p (x) = Eq (z|x) [log p✓ (x|z)] DKL (q (z|x) ||p (z)) + DKL (q (z|x) ||p (z|x))
Copyright©2017 NTT corp. All Rights Reserved.
log p (x) Eq (z|x) [log p✓ (x|z)] DKL (q (z|x) |p (z))
β>1
p (z) = N (µ = 0, = 1)
xと独立したzが平均0のガウス分布に近づく
↓
意味を持っているzの数が少なくなる
β-VAE
VAEのKL項の係数を大きくするだけ!
Copyright©2017 NTT corp. All Rights Reserved.
β-VAEの実験結果(z→x)
Dataset: 3d chairs
Copyright©2017 NTT corp. All Rights Reserved.
InfoGAN
Copyright©2017 NTT corp. All Rights Reserved.
InfoGAN
VAEの潜在変数z1つ1つに1つの意味を意味を押し付けるようなことがしたい
→潜在変数zと可視変数xの間に関係をつける
戦略:潜在変数と出力の相互情報量を最大にする
VI (G, D) ⌘ V (G, D) I (c; G (z, c))
min
G
max
D
VI (G, D)
c:カテゴリ変数
λ:重み
普通のGAN 相互情報量
I (X; Y ) ⌘
Z
X
Z
Y
p (x, y) log
p (x, y)
p (x) p (y)
dxdy
= DKL (p (x, y) ||p (x) p (y))
相互情報量
cとGが絡み合うようにする
Copyright©2017 NTT corp. All Rights Reserved.
図による比較
絡み合いを強くする
(mutual information
を大きくする)
Copyright©2017 NTT corp. All Rights Reserved.
InfoGANの実験結果
右上:普通のGAN
左上:categorical分布
下段:一様分布
意味が分離できている!
変化
Copyright©2017 NTT corp. All Rights Reserved.
画像の鮮明さ Disentangle度合い
β-VAE ☓ ○
InfoGAN ○ ☓
• Disentagleな表現学習であるβ-VAEとInfoGANの紹介を行った。
• β-VAEはVAEのKL divergence項を強めた学習
• InfoGANはGANに相互情報量を最大化する項を加えた学習
まとめ

More Related Content

More from Ozawa Kensuke

More from Ozawa Kensuke (10)

15min nov25
15min nov2515min nov25
15min nov25
 
15min発表資料株式会社standard.pptx.compressed
15min発表資料株式会社standard.pptx.compressed 15min発表資料株式会社standard.pptx.compressed
15min発表資料株式会社standard.pptx.compressed
 
Ai受託プロダクト開発アンチパターン (1)
Ai受託プロダクト開発アンチパターン (1)Ai受託プロダクト開発アンチパターン (1)
Ai受託プロダクト開発アンチパターン (1)
 
15min発表資料株式会社standard
15min発表資料株式会社standard15min発表資料株式会社standard
15min発表資料株式会社standard
 
第16回 ml15 三好
第16回 ml15 三好第16回 ml15 三好
第16回 ml15 三好
 
Ai受託プロダクト開発アンチパターン
Ai受託プロダクト開発アンチパターンAi受託プロダクト開発アンチパターン
Ai受託プロダクト開発アンチパターン
 
20170624 発表資料-ml
20170624 発表資料-ml20170624 発表資料-ml
20170624 発表資料-ml
 
Ml15 20170624
Ml15 20170624Ml15 20170624
Ml15 20170624
 
20170624yamada
20170624yamada20170624yamada
20170624yamada
 
ぼくのかんがえたさいきょうの機械学習プロダクトの作り方
ぼくのかんがえたさいきょうの機械学習プロダクトの作り方ぼくのかんがえたさいきょうの機械学習プロダクトの作り方
ぼくのかんがえたさいきょうの機械学習プロダクトの作り方
 

20170624yamada

  • 1. Copyright©2017 NTT corp. All Rights Reserved. 深層学習におけるDisentangleな表現 NTT研究所 山田 真徳 • Irina Higgins, Loic Matthey, Xavier Glorot, Arka Pal, Benigno Uria, Charles Blundell, Shakir Mo- hamed, Alexander Lerchner, Early Visual Con- cept Learning with Unsupervised Deep Learn- ing. , [arXiv:1606.05579 [stat.ML]] (2016). • Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, Pieter Abbeel, Info- GAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets. , [arXiv:1606.03657 [cs.LG]] (2016). • Arka Pal, Christopher Burgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed, Alexander Lerchner, beta-VAE: Learning Basic Visual Con- cepts with a Constrained Variational Framework. in ICLR (2017). 参考文献
  • 2. Copyright©2017 NTT corp. All Rights Reserved. 自己紹介 山田真徳 NTT入社3年目(セキュリティの研究してます) 機械学習はちょうど2年くらい ・強化学習と教師なし学習に興味あります 博士までは物理(素粒子理論)やってました
  • 3. Copyright©2017 NTT corp. All Rights Reserved. 会社紹介 NTTグループ 収益11兆円 利益1.5兆円 従業員27万人 会社数900以上 R&D R&D R&D R&D ←基盤的研究開発(持株会社)
  • 4. Copyright©2017 NTT corp. All Rights Reserved. 個人的に最近NTTで気になった研究を紹介 量子ニューラルネット マクスウェルの悪魔をつかった発電 熱ノイズからの発電 (情報をエネルギーに変換) 光を使って計算 (電子じゃない)
  • 5. Copyright©2017 NTT corp. All Rights Reserved. 目的:Disentangleな表現の説明をする 今回の話は教師なしDeepLearningです
  • 6. Copyright©2017 NTT corp. All Rights Reserved. 2つの深層生成モデル • VAE(Variational Auto-encoder) type • GAN(Generative Adversarial Network) type 引用:http://www.araya.org/archives/1183 引用:http://blog.fastforwardlabs.com/2016/08/22/under-the-hood-of-the-variational-autoencoder-in.html z x p (x) = Z p (x|z) p (z) dz
  • 7. Copyright©2017 NTT corp. All Rights Reserved. 生成モデルでの意味の演算はすごい! DCGAN
  • 8. Copyright©2017 NTT corp. All Rights Reserved. z1 z2 Z空間(意味) smiling man smiling man X空間(画像)
  • 9. Copyright©2017 NTT corp. All Rights Reserved. z1 z2 Z空間(意味) smiling man smiling man X空間(画像) Disentangled representation 意味がz軸に うように学習する
  • 10. Copyright©2017 NTT corp. All Rights Reserved. Disentangled representation learningの面白さ 教師なし学習から概念の抽出ができる データが無いところでもある程度予言ができる(zero shot学習) Deep Learningに解釈を与えられる可能性がある?? 転移学習やマルチモーダル学習で重要な役割?? 抽象的かつ、混ざってない意味を抽出できるので 引用:http://arxiv.org/abs/1606.05579
  • 11. Copyright©2017 NTT corp. All Rights Reserved. Disentangleな学習の結果 上:disentangle, 下:普通の学習(VAE)
  • 12. Copyright©2017 NTT corp. All Rights Reserved. 1つのzに1つの意味を押し付ける 例:http://tinyurl.com/jgbyzke
  • 13. Copyright©2017 NTT corp. All Rights Reserved. disentanglement 化 β-VAE InfoGAN VAE GAN 基礎となるmodel 2種類のdisentanglement 学習 arXiv:1312.6114 [stat.ML] arXiv:1406.2661 [stat.ML] arXiv:1606.05579 [stat.ML] arXiv:1606.03657 [cs.LG] β-VAEとInfoGANを同じデータで比較した論文[Arka Pal, et al., ICLR (2017)]
  • 14. Copyright©2017 NTT corp. All Rights Reserved. {xi} ! p (x) β-VAE
  • 15. Copyright©2017 NTT corp. All Rights Reserved. まずは普通のVAE (大きくする) 分布を仮定 再構成誤差 正則化項 変分下限 q (z|x) p✓ (x|z)q (z|x) p✓ (x|z) 確率的(逆誤差伝搬不可能) 決定的(逆誤差伝搬可能) KL divergenceによる束縛 µ µ z z µ in out p(z) log p (x) = Eq (z|x) [log p✓ (x|z)] DKL (q (z|x) ||p (z)) + DKL (q (z|x) ||p (z|x))
  • 16. Copyright©2017 NTT corp. All Rights Reserved. log p (x) Eq (z|x) [log p✓ (x|z)] DKL (q (z|x) |p (z)) β>1 p (z) = N (µ = 0, = 1) xと独立したzが平均0のガウス分布に近づく ↓ 意味を持っているzの数が少なくなる β-VAE VAEのKL項の係数を大きくするだけ!
  • 17. Copyright©2017 NTT corp. All Rights Reserved. β-VAEの実験結果(z→x) Dataset: 3d chairs
  • 18. Copyright©2017 NTT corp. All Rights Reserved. InfoGAN
  • 19. Copyright©2017 NTT corp. All Rights Reserved. InfoGAN VAEの潜在変数z1つ1つに1つの意味を意味を押し付けるようなことがしたい →潜在変数zと可視変数xの間に関係をつける 戦略:潜在変数と出力の相互情報量を最大にする VI (G, D) ⌘ V (G, D) I (c; G (z, c)) min G max D VI (G, D) c:カテゴリ変数 λ:重み 普通のGAN 相互情報量 I (X; Y ) ⌘ Z X Z Y p (x, y) log p (x, y) p (x) p (y) dxdy = DKL (p (x, y) ||p (x) p (y)) 相互情報量 cとGが絡み合うようにする
  • 20. Copyright©2017 NTT corp. All Rights Reserved. 図による比較 絡み合いを強くする (mutual information を大きくする)
  • 21. Copyright©2017 NTT corp. All Rights Reserved. InfoGANの実験結果 右上:普通のGAN 左上:categorical分布 下段:一様分布 意味が分離できている! 変化
  • 22. Copyright©2017 NTT corp. All Rights Reserved. 画像の鮮明さ Disentangle度合い β-VAE ☓ ○ InfoGAN ○ ☓ • Disentagleな表現学習であるβ-VAEとInfoGANの紹介を行った。 • β-VAEはVAEのKL divergence項を強めた学習 • InfoGANはGANに相互情報量を最大化する項を加えた学習 まとめ