Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[DL輪読会]相互情報量最大化による表現学習

522 views

Published on

2019/09/13
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Published in: Technology
  • Be the first to comment

[DL輪読会]相互情報量最大化による表現学習

  1. 1. DEEP LEARNING JP [DL Papers] 相互情報量最大化による表現学習 Yusuke Iwasawa, Matsuo Lab http://deeplearning.jp/
  2. 2. 相互情報量関連論文(前々回の輪読で話したやつ) • “Learning deep representations by mutual information estimation and maximization” (ICLR2019) • “Mutual Information Neural Estimates” (ICML2018) • “Representation Learning with Contrastive Predictive Coding” (NIPS2018) • “On variational lower bounds of mutual information” (NIPS2018, workshop) • “Emergence of Invariance and Disentanglement in Deep Representations ” (JMLR) • “Deep Variational Information Bottleneck” (ICLR2017) • ” Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow” (ICLR2019, poster) • “Fixing a Broken ELBO” (ICML2018) • “MAE: Mutual Posterior-Divergence Regularization for Variational AutoEncoders” (ICLR2019, poster) • “EnGAN: Latent Space MCMC and Maximum Entropy Generators for Energy-based Models” (ICLR2019, reject) • “Deep Graph Info Max” (ICLR2019, poster) • “Formal Limitations on the Measurement of Mutual Information” (ICLR2019 Reject) 2 メインで話す 少しだけ触れる
  3. 3. 相互情報量最大化による表現学習系の最近の文献 • “Learning Representations by Maximizing Mutual Information”, NIPS2019 • “On Variational Bounds of Mutual Infromation”, ICML2019 • “Greedy InforMax for Biologically Plausible Self-Supervised Representation Learning”, NIPS2019 • “On Mutual Information Maximization for Representation Learning” • “Region Mutual Information Loss for Semantic Segmentation”, NIPS2019 • (あとで追加) 3
  4. 4. Outline • 背景:表現学習、相互情報量、対照推定 • 論文1:“Learning Representations by Maximizing Mutual Information”, NIPS2019 • 論文2:“Greedy InfoMax for Biologically Plausible Self- Supervised Representation Learning” (NIPS2019) • 論文3:“On Mutual Information Maximization for Representation Learning” 4
  5. 5. 表現学習(Representation Learning) 5 Bengio先生のスライドより抜粋
  6. 6. 教師なし表現学習 • 教師あり表現学習 – 興味のあるタスクラベルが事前にわかっている – 例:Image Netでは – こういう問題設定では、すでに人間を超える精度 • 教師なし表現学習 – 興味のあるタスクラベルは事前にわかっていない – 再利用可能な表現を観測からどう見つけるか 6
  7. 7. (深層)生成モデルによる教師なし表現学習 2013 ~ • 右のような生成過程を考える • log 𝑝 𝑥 = 𝑝 𝑥 𝑧 𝑑𝑧 • 良い生成を与えるような表現を学習する • VAE系やGAN系など多数 – [Kingma+ 14] VAE – [Donahue+ 17] bidirectional GAN – [Dumoulin+ 17] adversarial learned inference 7 𝑥 𝑧
  8. 8. Large Scale Adversarial Representation Learning, NIPS2019 8 Jeff Donahue, Karen Simonyan, DeepMind • 左上:提案手法 • 左下:Image Net、教師なしで SoTA • 右上:生成画像もきれい (Unconditional)
  9. 9. 相互情報量最大化による表現学習 • 相互情報量の定義 𝐼 𝑋, 𝑍 = 𝑥,𝑧∈𝒳,𝒵 𝑝 𝑥, 𝑧 log 𝑝(𝑥, 𝑧) 𝑝 𝑥 𝑝(𝑧) 𝑑𝑥 𝑑𝑧 • 解釈:確率変数XがYについての情報をどれくらい持つか • 性質 – (1) 𝐼 𝑋, 𝑍 ≥ 0 – (2) 𝐼 𝑋, 𝑍 = 𝐻 𝑍 − 𝐻 𝑍 𝑋 = 𝐻 𝑋 − 𝐻 𝑋 𝑍 = 𝐼(𝑍, 𝑋) – (3) 𝐼 𝑋, 𝑍 = 0 𝑖𝑓𝑓. 𝑋 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡 𝑡𝑜 𝑍 • 問題:どうやって計算するのか(Xは観測、Zは特徴量で高次限) 9
  10. 10. 相互情報量最大化と再構築誤差 𝐼 𝑋, 𝑍 = 𝔼 𝑝 𝑥,𝑧 log 𝑝 𝑥|𝑧 𝑝(𝑧) 𝑝 𝑥 𝑝 𝑧 = 𝔼 𝑝 𝑥,𝑧 log 𝑝 𝑥 𝑧 𝑞(𝑥|𝑧) 𝑝 𝑥 𝑞 𝑥|𝑧 = 𝔼 𝑝 𝑥,𝑧 log 𝑞(𝑥|𝑧) 𝑝 𝑥 + 𝐾𝐿(𝑝(𝑥|𝑧)||𝑞 𝑥 𝑧 ) ≥ 𝔼 𝑝 𝑥,𝑧 log 𝑞 𝑥 𝑧 + ℎ(𝑋) 10 負の再構築誤差 (Distortion) • 詳しくは[Poole+18] “On Variational Bounds of MI”, [Alemi+17] “Fixing Broken Elbo” • q(x|z)がtractableなら良い(が高次限の出力に難? • 例:動画の生成
  11. 11. q(x|z)によらない近似:p(z)を近似分布r(z)に置き換える 𝐼 𝑋, 𝑍 = 𝑥,𝑧∈𝒳,𝒵 𝑝 𝑥, 𝑧 log 𝑝(𝑥, 𝑧) 𝑝 𝑥 𝑝(𝑧) 𝑑𝑥 𝑑𝑧 = 𝑥,𝑧∈𝒳,𝒵 𝑝 𝑧|𝑥 𝑝(𝑥) log 𝑝 𝑧 𝑥 𝑝(𝑥) 𝑝 𝑥 𝑝(𝑧) 𝑑𝑥 𝑑𝑧 ≤ 𝑥,𝑧∈𝒳,𝒵 𝑝 𝑧|𝑥 𝑝(𝑥) log 𝑝 𝑧 𝑥 𝑟(𝑧) 𝑑𝑥 𝑑𝑧 • 利用例:Variational Information Bottoleneck(I(X,Z)を制限) • 問題:上界なので最大化しても意味がない(下界がほしい) 11
  12. 12. MIの下界を抑える研究郡 12 • [Poole+18] “On Variational Bounds of MI”より抜粋 • いろいろな推定方法とその問題点がまとまっている (どの下界が良いのかは今回は話しません)
  13. 13. MIを最大化する手法の基本的な考え方:対照推定 • 求めたいのは𝐼 𝑋, 𝑍 = 𝔼 𝑝 𝑥,𝑧 log 𝑝 𝑥|𝑧 𝑝(𝑧) 𝑝 𝑥 𝑝 𝑧 – 同時分布𝑝 𝑥, 𝑧 と、周辺分布の積𝑝 𝑥 𝑝 𝑧 が区別できれば良い • 同時分布から得られたペア{x,z}と適当なp(z)からサンプルしたz’と xのペア{x,z’}が区別できれば良い – p(x)p(z)とp(x,z)を対照推定 • 適当な𝑓𝜃(𝑥, 𝑧)を用意して、{x,z}と{x, z’}の差が大きくなるように 𝑓𝜃(𝑥, 𝑧)自身とエンコーダ: X->Zを学習 13
  14. 14. 具体例 (“On Variational Bounds of MI”より抜粋) 14 • ZではなくYで表されているが基本的には同じ • f(x, y)の置き方によっていろいろな亜種が導ける
  15. 15. 具体例:Contrastive Predictive Coding [Oord+18] 15 手法:時刻Tまでの系列の埋め込みcから、未来の 潜在表現zを予測(zとcの相互情報量を最大化) 系列は一貫した情報を表しているはずというpriorを 使っている テキスト 音声
  16. 16. 具体例:Contrastive Predictive Coding [Oord+18] 画像データの場合 16 手法:重なりありでパッチに切って系列っぽく扱う
  17. 17. 具体例:DeepInfoMax [Hjelm+19] 17 手法:画像全体の特徴量yとロー カルな特徴量を対照推定 (画像のローカルな特徴はグ ローバルな特徴と一致してほし いと言うpriorを使ってる)
  18. 18. 実験:CIFAR10、SVMで分類 18 バク上がり、他にもたくさん実験あるが割愛
  19. 19. ここまでまとめ • 教師なし表現学習は未解決問題 • デコーダを使わない手法として、対照推定に基づく手法が 近年登場 => 精度大幅な改善 • 具体例:対照推定のときに使っているpriorが異なる – CPC [Oord+18] – Deep InfoMax [Hjelm+19] – など 19
  20. 20. Outline • 背景:表現学習、相互情報量、対照推定 • 論文1:“Learning Representations by Maximizing Mutual Information”, NIPS2019 • 論文2:“Greedy InfoMax for Biologically Plausible Self- Supervised Representation Learning” (NIPS2019) • 論文3:“On Mutual Information Maximization for Representation Learning” 20
  21. 21. 書誌情報 21 • 基本的には巨大なDeep InfoMax + 細かい工夫 • Image Netで教師なし学習+線形分類で68.1% – Top1正解率のベースラインを7%改善 • 実装が公開されている( https://github.com/Philip-Bachman/amdim-public)
  22. 22. 工夫1:巨大なエンコーダ 22
  23. 23. 余談:Tesla V100×8は人権 “We train our models using 4-8 standard Tesla V100 GPUs per model. Other recent, strong self-supervised models are nonreproducible on standard hardware.” 23
  24. 24. 工夫2:DIM across Views 24 1. 異なるデータ拡張で画像Xから X1とX2を得る 2. X1からはSummary Vector cを得る 3. X2からはLocal Vector z_i,jを得る 4. 異なる画像X’と適当なデータ拡張で 得たz’_i,jと対照推定
  25. 25. 工夫3:Multiscale Mutual Information 25 固定化した層を使って予測するので はなく、複数の層間で予測 実験では {1, 5}{1, 7}{5, 5}間で予測 (数字は受容野の大きさ)
  26. 26. 工夫4:Mixture-Based Representations • 各層の特徴量𝑓𝑖を適当な関数𝑚 𝑘に通して混合特徴ベクトル 𝑓𝑖 1 , 𝑓𝑖 2 , … 𝑓𝑖 𝑘 = 𝑚 𝑘(𝑓𝑖)を得る • これを各層でやって、NCE誤差(MIの下界)を重み付けする (重みが下の式) • 気持ちとしては、NCEが大きい特徴を選択するようになる • (ただそれだとGreedyになるからとH(q)を足してたりよくわからない 26
  27. 27. 実験:ImageNet, Places205 27
  28. 28. 実験:CIFAR 28
  29. 29. まとめ • Local DIMを拡張 – 巨大なエンコーダ – Data Augmentation Prior – Multiscale Predictions – Mixture-based representations • Image Netで教師なしSoTA • (結局どれが効いているのかはよくわからない) 29
  30. 30. Outline • 背景:表現学習、相互情報量、対照推定 • 論文1:“Learning Representations by Maximizing Mutual Information”, NIPS2019 • 論文2:“Greedy InfoMax for Biologically Plausible Self- Supervised Representation Learning” (NIPS2019) • 論文3:“On Mutual Information Maximization for Representation Learning” 30
  31. 31. 書誌情報 31 • MI最大化に従って、各層を独立に訓練 • 独立に訓練することで、独立に学習可能、メモリ効率がよくなる、勾配消失が 原理的に起こらないなどの潜在的な利点がある
  32. 32. 提案手法:Greedy InfoMax 32 • 基本は各モジュールごとに勾配を止めるだけ • 各モジュールは接続された下位モジュールの出力でCPC
  33. 33. 実験結果(STL10) 33 CPCやSupervisedより高精度 ※ Greedy Supervisedの手続きがよくわからない(適宜固定?)
  34. 34. 実験結果(LibriSpeech) 34 CPCや教師ありよりはやや悪いがまぁまぁ良い
  35. 35. まとめ • 層ごとの学習にMIの最大化を利用するGreedy InfoMaxを提案 – CPCベース • 音声や画像タスクでCPCや全教師ありとComparable • 特にNCE系の損失はメモリ効率が悪いことが多いので、実用的に も使える場面はあるかもしれない (学習遅くなる気がするが) 35
  36. 36. Outline • 背景:表現学習、相互情報量、対照推定 • 論文1:“Learning Representations by Maximizing Mutual Information”, NIPS2019 • 論文2:“Greedy InfoMax for Biologically Plausible Self- Supervised Representation Learning” (NIPS2019) • 論文3:“On Mutual Information Maximization for Representation Learning” 36
  37. 37. 書誌情報 37 • 最近のMI系の手法が、本当にMIを最大化しているから良いのか?と 言うことに疑問を投げかける実験論文 • まだ採録されたわけではない(と思う)
  38. 38. 実験1:可逆なエンコーダを利用したMI最大化 • Flow Basedな手法(例えばRealNVP[Dinh+16])はInvertible(可逆) • 可逆変換fをかませたz = f(x)を考えると、MI(X;Z)は常に最大 • 可逆変換なfをMI最大化で学習させるとどうなるか? (MI最大化系の研究が本当に単にMIの最大化なら、精度は変わら ないはず 38
  39. 39. 実験1の結果 39 • (a)MIの推定はほぼコンスタント、(b)一方精度は改善 • 単にMIの最大化という観点だけでは説明できない?
  40. 40. 実験2:異なるf(x,y)の形による分類精度とMI 40 • (左)分類精度はBilinearかSeparableがよい • (右)MIの値はMLPが良い • MIが高い表現ほど悪い???
  41. 41. 実験3:ネットワーク構造の重要性 41 • (左)NCEを使った場合、(右)NWJを使った場合の精度比較 • どちらの損失を使うかより、ネットワーク構造の選び方が支配的
  42. 42. まとめ • 最近の精度向上が本当にMIの最大化と言う観点から説明できる のか?についての実験的な検証 • ネットワーク構造が支配的に重要というのは自分が実験したとき もそうだったので多分そう • MIを本当に最大化しているのかというより、MI最大化の上で良い Priorをどう入れるかが重要? 42
  43. 43. 全体まとめ • 相互情報量最大化による教師なし表現学習の最近の話題につい てまとめた – 2018年:MI(X,Z)の下界について – 2019年:どういうネットワーク構造を使うか、どう言うpriorを入れるか • ImageNet・教師なしで大きな進展 • 感想:MI最大化自体はきれいだが、それ自体というよりは 構造的なpriorをどう入れ込むかが重要 – Global特徴の選び方、対照方法など 43

×