20170624yamada

Copyright©2017 NTT corp. All Rights Reserved.
深層学習におけるDisentangleな表現
NTT研究所山田真徳
• Irina Higgins, Loic Matthey, Xavier Glorot, Arka Pal, Benigno Uria, Charles Blundell, Shakir Mo- hamed, Alexander Lerchner, Early Visual Con- cept Learning with
Unsupervised Deep Learn- ing. , [arXiv:1606.05579 [stat.ML]] (2016).
• Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, Pieter Abbeel, Info- GAN: Interpretable Representation Learning by Information Maximizing
Generative Adversarial Nets. , [arXiv:1606.03657 [cs.LG]] (2016).
• Arka Pal, Christopher Burgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed, Alexander Lerchner, beta-VAE: Learning Basic Visual Con- cepts with a Constrained
Variational Framework. in ICLR (2017).
参考文献

自己紹介
山田真徳
NTT入社3年目(セキュリティの研究してます)
機械学習はちょうど２年くらい
・強化学習と教師なし学習に興味あります
博士までは物理(素粒子理論)やってました

会社紹介
NTTグループ
収益11兆円
利益1.5兆円
従業員27万人
会社数900以上
R&D R&D R&D R&D
←基盤的研究開発(持株会社)

個人的に最近NTTで気になった研究を紹介
量子ニューラルネットマクスウェルの悪魔をつかった発電
熱ノイズからの発電
(情報をエネルギーに変換)
光を使って計算
(電子じゃない)

目的：Disentangleな表現の説明をする
今回の話は教師なしDeepLearningです

２つの深層生成モデル
• VAE(Variational Auto-encoder) type
• GAN(Generative Adversarial Network) type
引用:http://www.araya.org/archives/1183
引用:http://blog.fastforwardlabs.com/2016/08/22/under-the-hood-of-the-variational-autoencoder-in.html
z
x
p (x) =
Z
p (x|z) p (z) dz

生成モデルでの意味の演算はすごい！
DCGAN

z1
z2
Z空間(意味)
smiling
man
smiling man
X空間(画像)

z1
z2
Z空間(意味)
smiling
man
smiling man
X空間(画像)
Disentangled representation
意味がz軸にうように学習する

Disentangled representation learningの面白さ
教師なし学習から概念の抽出ができる
データが無いところでもある程度予言ができる(zero shot学習)
Deep Learningに解釈を与えられる可能性がある??
転移学習やマルチモーダル学習で重要な役割？？
抽象的かつ、混ざってない意味を抽出できるので
引用：http://arxiv.org/abs/1606.05579

Disentangleな学習の結果
上:disentangle, 下:普通の学習(VAE)

１つのzに１つの意味を押し付ける
例:http://tinyurl.com/jgbyzke

disentanglement 化
β-VAE
InfoGAN
VAE
GAN
基礎となるmodel
2種類のdisentanglement 学習
arXiv:1312.6114 [stat.ML]
arXiv:1606.03657 [cs.LG]
β-VAEとInfoGANを同じデータで比較した論文[Arka Pal, et al., ICLR (2017)]

{xi} ! p (x)
β-VAE

まずは普通のVAE
(大きくする)
分布を仮定
再構成誤差正則化項
変分下限
q (z|x) p✓ (x|z)q (z|x) p✓ (x|z)
確率的(逆誤差伝搬不可能)
決定的(逆誤差伝搬可能)
KL divergenceによる束縛
µ
µ
z
z
µ
in out
p(z)
log p (x) = Eq (z|x) [log p✓ (x|z)] DKL (q (z|x) ||p (z)) + DKL (q (z|x) ||p (z|x))

log p (x) Eq (z|x) [log p✓ (x|z)] DKL (q (z|x) |p (z))
β>1
p (z) = N (µ = 0, = 1)
xと独立したzが平均0のガウス分布に近づく
↓
意味を持っているzの数が少なくなる
β-VAE
VAEのKL項の係数を大きくするだけ！

β-VAEの実験結果(z→x)
Dataset: 3d chairs

InfoGAN

InfoGAN
VAEの潜在変数ｚ１つ１つに１つの意味を意味を押し付けるようなことがしたい
→潜在変数zと可視変数xの間に関係をつける
戦略：潜在変数と出力の相互情報量を最大にする
VI (G, D) ⌘ V (G, D) I (c; G (z, c))
min
G
max
D
VI (G, D)
c:カテゴリ変数
λ:重み
普通のGAN 相互情報量
I (X; Y ) ⌘
Z
X
Z
Y
p (x, y) log
p (x, y)
p (x) p (y)
dxdy
= DKL (p (x, y) ||p (x) p (y))
相互情報量
cとGが絡み合うようにする

図による比較
絡み合いを強くする
(mutual information
を大きくする)

InfoGANの実験結果
右上：普通のGAN
左上：categorical分布
下段：一様分布
意味が分離できている！
変化

画像の鮮明さ Disentangle度合い
β-VAE ☓ ○
InfoGAN ○ ☓
• Disentagleな表現学習であるβ-VAEとInfoGANの紹介を行った。
• β-VAEはVAEのKL divergence項を強めた学習
• InfoGANはGANに相互情報量を最大化する項を加えた学習
まとめ

20170624yamada

Recommended

Recommended

More Related Content

More from Ozawa Kensuke

More from Ozawa Kensuke (10)

20170624yamada