Successfully reported this slideshow.
Your SlideShare is downloading. ×

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction

More Related Content

Slideshows for you

More from Deep Learning JP

Related Books

Free with a 30 day trial from Scribd

See all

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction

  1. 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ "Meta-Learning Probablistic Inference for Prediction" 副題: Amortized Variational Inferenceを用いたメタ学習手法の、統一的理解 Presentater: Kei Akuzawa, Matsuo Lab. M2
  2. 2. 書誌情報 • タイトル: META-LEARNING PROBABILISTIC INFERENCE FOR PREDICTION • 著者: Jonathan Gordon, John Bronskill, Matthias Bauer, Sebastian Nowozin, Richard E. Turner • ケンブリッジ大学が中心 • ICLR2019 under review (scores: 6, 7, 8) • https://openreview.net/forum?id=HkxStoC5F7 • TL;DR: 多くのメタ学習手法を包括するフレームワークの紹介と,それ を踏まえた新しいメタ学習手法の紹介 • (断りがない限り,本資料の図表は発表論文からの引用)
  3. 3. 目次 • メタ学習とは? • 論文の背景 • メタ学習の統一的なフレームワークML-PIP • 関連研究 • 提案手法 • 実験 • まとめ
  4. 4. メタ学習とは? • 複数あるメタ訓練データセットは,タ スクやドメインが異なって良い. • 一つのメタ訓練データセットは訓練/テ ストデータセットに分割される。 • それぞれの訓練データセットは非常に 少ないサンプルサイズ(1~100くらい) 本当に予測を行いたいデータセット。 テスト時に得られる少数の訓練サンプル からこのデータセットに適応したい メタ学習の問題設定(Ravi and Larochelle 2017) • 注1. タスク:出力データが従う確率空間, ドメイン:入力データが従う確率空間 [Pan and Yang 2010] • 注2. データセットごとにタスクが違う設定の研究が多いので,それぞれのデータセットを「タスク」 と呼ぶこともある メタ訓練データセット メタテストデータセット 図引用 Ravi and Larchelle 2017
  5. 5. メタ学習とは? • (http://ibisforest.org/index.php?メタ学習 より.2018/12/08) • (おそらく[Vilalta and Drissi 2002]の翻訳) ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  6. 6. メタ学習とは? • バイアス: • 帰納バイアス(Inductive Bias)のこと.ざっくり言うとハイパラ • e.g., どの分類器を使うか,DNNのモデル構造 • 二つの仮説空間𝐻𝐿 𝐴 , 𝐻𝐿 𝐵 が|𝐻𝐿 𝐴 | ≤ |𝐻𝐿 𝐵 |を満たすなら,|𝐻𝐿 𝐴 |の方がバイアスが 強い.なぜなら,「小さい仮説空間に真の仮説𝐹: 𝑋 → 𝑌が含まれている」と モデルの設計者が決めつけているから. ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  7. 7. メタ学習とは? • ベース学習器: • ベース学習器:学習アルゴリズムそのものか,学習アルゴリズムによって出 力された仮説のことを言ってるのだと思う • 学習アルゴリズム:訓練データ集合𝑇から仮説空間𝐻𝐿への写像𝐿のこと. • ここまでのまとめ: 普通の(メタでない)学習アルゴリズム𝐿はそれ に対応する仮説空間𝐻𝐿を持っている。学習アルゴリズムとそれに付 随する𝐻𝐿は普通設計者がヒュリスティックに決める ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  8. 8. メタ学習とは? • 学習対象のタスクやドメインに応じて: • タスク:出力データの確率空間,ドメイン:入力データの確率空間 • つまり,メタ学習では訓練データセットが複数個降ってきて,それぞ れのデータセットごとに入力や出力の空間が異なる状況を想定 ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  9. 9. メタ学習とは? • 学習器のバイアスを決定するためのメタ知識: • バイアスを選ぶ: ある訓練データセット𝐷 𝑚を入力としたときに,背後にある 真の関数𝐹 𝑚 : 𝑋 𝑚 → 𝑌 𝑚 を効率的に(=少ないサンプルで)近似することができ る仮説空間𝐻 𝐿 𝑚を選びたいということだと思う ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  10. 10. メタ学習とは? • つまり,メタ学習では: • 通常設計者がヒュリスティックスに決める仮説空間𝐻 𝐿 𝑚を • 複数の(タスクやドメインが異なる)データセットを活用して • データ・ドリブンに決める ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  11. 11. 論文の背景と貢献 • メタ学習の問題点: • 統一的なフレームワークがなく,様々ある既存手法の関係性の理解が難しい • この研究の貢献 • 既存のメタ学習手法を統一するようなフレームワークの紹介.例えば以下の 手法が含まれる. • MAML[Finn+ 2017] • Prototypical Nets[Snell+2017] • Conditional Neural Process[Garnelo+2018] • 既存のメタ学習手法との比較に基づいて、新しいメタ学習手法の提案 • 利点1. Rapid: 新しいタスクに対する適応が早い(DNNのForward1回 ) • 利点2. Flexible: タスクごとに,クラス数や訓練サンプル数が異なっていても良い
  12. 12. ML-PIP • Meta-Learning approximate Probabilistic Inference for Prediction(ML-PIP) • 著者らが提案するメタ学習の統一的なフレームワーク • 以降紹介する二つ要素を持つメタ学習手法はML-PIPに属する 1. グラフィカルモデルによる表現 2. 近似予測分布の作り方
  13. 13. グラフィカルモデルによる表現 t番目の訓練データセット t番目のテストデータセット t番目のデータセット(タスク) に対して固有のパラメータ 全てのデータセット(タスク) で共有されるパラメータ(メタ知識) ML-PIPでは,データ生成過程を以下のようにモデリングする
  14. 14. グラフィカルモデルによる表現 グラフィカルモデルを決めた-> 予測分布の形がわかる (𝜃を無視すれば) 𝜓 𝑡 は普通の分類器 データドリブンに学習された 𝜃(メタ知識)が𝜓 𝑡 の空間を規定  メタ知識による帰納バイアスっぽい
  15. 15. 近似予測分布の作り方 • データ生成過程と,予測分布の形はわかった. • 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 d𝜓 𝑡 • ただし𝑃(𝜓 𝑡 | 𝑥 𝑡, 𝐷 𝑡 , 𝜃)の計算はコストが高い(または解析的に求め られない)ので,近似分布を考えてあげる
  16. 16. 近似予測分布の作り方 • 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 d𝜓 𝑡 • 近似分布: 𝑞 𝜙 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 d𝜓 𝑡 • パラメータ𝜙を持つInference Networkを導入し 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 の計算を回避 • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 はVAEのエンコーダーのようなもの • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 は𝐷 𝑡 の条件付き分布=>Amotized Variational Inference(AVI) • 𝐷 𝑡 で条件づけないとVariational Inference(VI)になる. • VIでは𝜓 𝑡 の推定にBack-propが必要だが,AVIはForward一発で高速 • AVIとVIの違いはKim+2018等を参照 • Loss関数: 予測分布と近似分布のKLD最小化
  17. 17. 関連研究 • 多くのメタ学習手法がML-PIPのフレームワークに属する • ただし𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングが異なる • Gradient-based • Metric-based • Amortized MAP inference (今日は話さない) • Conditional models trained via maximum likelihood
  18. 18. Gradient-based Meta-Learning • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 該当する研究 • Semi Amortized VAE (Kim+ 2018) • MAML (Finn+ 2017) • LSTM-based meta-learning (Ravi and Larochelle+ 2017) • 欠点 • 誤差逆伝播の計算量が大きい • 𝑝 𝑦 𝑥, 𝜓, 𝜃 = 𝑝 𝑦 𝑥, 𝜓 のように予測分布を簡略化してしまうことが多い 図引用 Finn+2017 概要: 初期値𝜓0から,Gradient Descentで タスク固有のパラメータ𝜓(𝑡) を得る
  19. 19. Metric-based Few-shot learning • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 の設計: • 該当する研究 • Prototypical Nets [Snell+2017] • 欠点: • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が決定論的 • 𝑝 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 が「セントロイドとの距離を測る」という単純な近似をしてしまっている 図引用 Snell+2017 概要: 訓練データをエンコーダーℎ 𝜃で特徴空間に移したした後に クラスごとにセントロイドを作って,テストデータとセント ロイドの距離を特徴空間で測ることによるfew-shot学習.
  20. 20. Conditional models trained via maximum likelihood • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 決定論的な𝑞 𝜙 • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 を分布として考えるのではなく,データセットを入力にとって 特徴量𝜓 𝑡 (上の図の𝑟)を出力する決定論的なモデルアーキテクチャが存在して いる場合を指してるのだと思う • 該当する研究: • Conditional Neural Process [Garnelo+ 2018] 概要: 訓練データセットを入力として して出てきた特徴量をテスト データに対する予測に使う 図引用 Garnelo+ 2018
  21. 21. 提案手法: Versatile • 概要: • 分類版と回帰版がある • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が確率的(ガウス分布) • 任意の訓練データ数kを入力にとれる.また入力に対してpermutation-invariant • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 がBack-propを必要とせず高速 • タスクごとにshotが異なって良い • 分類版ではタスクごとにwayも異なっていて良い • way: クラス数, shot: 訓練データ数
  22. 22. 提案手法: Versatile 分類タスク • グローバルパラメータ𝜃が各訓練データ点をエンコード(ℎ 𝜃(𝑥)) • クラスkの全サンプルのℎ 𝜃(𝑥𝑖 𝑘 )をプーリングし,重みwを得る
  23. 23. 提案手法: Versatile 分類タスク • グローバルパラメータ𝜃が,テストデータ点をエンコード(ℎ 𝜃( 𝑥)) • ℎ 𝜃( 𝑥)を入力に、前スライドで得た重みを使って線型分類
  24. 24. 提案手法: Versatile 分類タスク • この𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 は何をしているのか • 𝑞 𝜙 𝜓 𝐷 𝑡 , 𝜃 = 𝑐=1 𝐶 𝑞 𝜙 𝜓𝑐 ℎ 𝜃 𝑥 𝑛 𝑐 𝑛=1 𝑘 𝑐 , 𝜃 のように,𝜓のクラスごとの独立 性を仮定している(クラスごとにPoolingをしてる点に注意) • 結局この𝑞 𝜙のどこが良いのか • クラス数がタスクごとに変わっても良い • 𝜓のクラスごとの独立性の仮定は理論が背景にあり,よい帰納バイアスに なっている(c.f. softmax, appendix B)
  25. 25. 提案手法: Versatile 回帰タスク • xは視点でyは画像を想定.設定はGQN[Eslami+ 2018]と似てる • グローバルパラメータ𝜃はGenerator • 訓練データセット 𝑥𝑖 𝑡 , 𝑦𝑖 𝑡 𝑖=1 𝑘 を入力に潜在変数𝜓(𝑡)が出てくるイメージ • 注:Neural Process[Garnelo +2018]に対する優位性がわからないが,versatileの方がarxivに上がった日付は早 かったので考慮できていないのか?
  26. 26. 実験 1. Toy data 2. Few-shot classification 1. overall results 2. versatility 3. comparision to standard and amortized VI(今日は話さない) 3. Shapenet view reconstruction
  27. 27. 実験1. 𝑞 𝜙(𝜓|𝐷)が𝑝 (𝜓|𝐷) を近似できるかToy dataで確認 • 訓練時に近づけるのは予測分布と近似分布であって,𝑞 𝜙(𝜓|𝐷)と 𝑝 (𝜓|𝐷) を明示的に近づけたわけではないが,実際は近づく => アルゴリズムが期待通りに動いていることのサポート • 観測点が増えるほど𝑞 𝜙(𝜓|𝐷)が真の分布を近似できている
  28. 28. • データセット: • omniglot • miniImageNet • SOTA • 注:近年few-shot界隈ではResNetを特徴 抽出に使うだけでSOTAな結果が得られ ることが[Chen+2018]等で指摘されてい るが,この論文ではそうした大きなモ デルは比較対象にしていない. 実験2-1. Overall results
  29. 29. 実験2-2. Versatility • データセット: omniglot • テスト時に(左)wayか(右)shotを変えてもそれなりに動く(versatility) • way: クラス数, shot: 訓練データ数 • ショット数を5から10に増やしても精度があがらないのは気になる • おそらく元から99%でサチってるので参考にならない • (Prototypical Netsとかでも同じことできる気がするが……?)
  30. 30. 実験3. Shapenet view reconstruction • GQNと同様,視点から画像の生成を行うタスク • ベースライン:CVAE • 訓練データをサンプルサイズ1にして, 𝑧~𝑞 𝜙 𝑧 𝑥 と視点ラベルから生成を行なっている? • 提案法はCVAEに比べて良い結果
  31. 31. まとめと感想 • まとめ • 近年のメタ学習手法の多くが同じデータ生成過程と予測分布を持つ • Amortization大事 • 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計が重要 • 提案法はタスクごとにway,shotが異なっても良い. • 発表者の感想 • MAMLが流行っている印象だったが,あの𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングがベ ストかはよく考えなければいけないなという気持ちになった • GQN[Eslami+2018]との関係は不明瞭(ML-PIPにはGQNにおけるposteriorが存在 しない)だが,GQNやNeural processもfew-shot(メタ)学習として解釈できる • GQNのように「実はメタ(few-shot)学習で記述できる重要な問題」が眠っ ているのではないか、アンテナを張ると良さそう
  32. 32. 参考文献 • Vilalta, Y. Drissi, A perspective view and survey of meta-learning, Artificial Intelligence Review, 18 (2) (2002), pp. 77-95 • Pan, S. J. and Yang, Q.: A Survey on Transfer Learning, IEEE Trans. on Knowl. and Data Eng., Vol. 22, No. 10, pp. 1345-1359 (2010) • S. Ravi and H. Larochelle. Optimization as a model for few-shot learning. ICLR2017. • C. Finn, P. Abbeel, and S. Levine. Model-agnostic meta-learning for fast adaptation of deep networks. ICML2017. • M. Garnelo, D. Rosenbaum, C. J. Maddison, T. Ramalho, D. Saxton, M. Shanahan, Y. W. Teh, D. J. Rezende, and S. Eslami. Conditional neural processes. ICML2018
  33. 33. • Y. Kim, S. Wiseman, A. C. Miller, D. Sontag, and A. M. Rush. Semi-amortized variational autoencoders. In Proceedings of the 35th International Conference on Machine Learning, 2018b. • J. Snell, K. Swersky, and R. Zemel. Prototypical networks for few-shot learning. In Advances in Neural Information Processing Systems, pages 4080–4090, 2017. • Eslami, S. A., Rezende, D. J., Besse, F., Viola, F., Morcos, A. S., Garnelo, M., Ruderman, A., Rusu, A. A., Dani- helka, I., Gregor, K., et al. Neural scene representation and rendering. Science, 360(6394):1204–1210, 2018. • M. Garnelo, J. Schwarz, D. Rosenbaum, F. Viola, D. J. Rezende, S. Eslami, and Y. W. Teh. Neural processes. ICML2018 workshop on Theoretical Foundations and Applications of Deep Generative Models. • Zitian Chen, Yanwei Fu, Yinda Zhang, Leonid Sigal, Multi-level Semantic Feature Augmentation for One-shot Learning, arxiv 2018, https://arxiv.org/abs/1804.05298

×