[DL輪読会]Meta-Learning Probabilistic Inference for Prediction

Deep Learning JP
Deep Learning JPDeep Learning JP
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
"Meta-Learning Probablistic Inference for Prediction"
副題: Amortized Variational Inferenceを用いたメタ学習手法の、統一的理解
Presentater: Kei Akuzawa, Matsuo Lab. M2
書誌情報
• タイトル: META-LEARNING PROBABILISTIC INFERENCE FOR PREDICTION
• 著者: Jonathan Gordon, John Bronskill, Matthias Bauer, Sebastian
Nowozin, Richard E. Turner
• ケンブリッジ大学が中心
• ICLR2019 under review (scores: 6, 7, 8)
• https://openreview.net/forum?id=HkxStoC5F7
• TL;DR: 多くのメタ学習手法を包括するフレームワークの紹介と,それ
を踏まえた新しいメタ学習手法の紹介
• (断りがない限り,本資料の図表は発表論文からの引用)
目次
• メタ学習とは?
• 論文の背景
• メタ学習の統一的なフレームワークML-PIP
• 関連研究
• 提案手法
• 実験
• まとめ
メタ学習とは?
• 複数あるメタ訓練データセットは,タ
スクやドメインが異なって良い.
• 一つのメタ訓練データセットは訓練/テ
ストデータセットに分割される。
• それぞれの訓練データセットは非常に
少ないサンプルサイズ(1~100くらい)
本当に予測を行いたいデータセット。
テスト時に得られる少数の訓練サンプル
からこのデータセットに適応したい
メタ学習の問題設定(Ravi and Larochelle 2017)
• 注1. タスク:出力データが従う確率空間, ドメイン:入力データが従う確率空間 [Pan and Yang 2010]
• 注2. データセットごとにタスクが違う設定の研究が多いので,それぞれのデータセットを「タスク」
と呼ぶこともある
メタ訓練データセット
メタテストデータセット
図引用 Ravi and Larchelle 2017
メタ学習とは?
• (http://ibisforest.org/index.php?メタ学習 より.2018/12/08)
• (おそらく[Vilalta and Drissi 2002]の翻訳)
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
メタ学習とは?
• バイアス:
• 帰納バイアス(Inductive Bias)のこと.ざっくり言うとハイパラ
• e.g., どの分類器を使うか,DNNのモデル構造
• 二つの仮説空間𝐻𝐿 𝐴
, 𝐻𝐿 𝐵
が|𝐻𝐿 𝐴
| ≤ |𝐻𝐿 𝐵
|を満たすなら,|𝐻𝐿 𝐴
|の方がバイアスが
強い.なぜなら,「小さい仮説空間に真の仮説𝐹: 𝑋 → 𝑌が含まれている」と
モデルの設計者が決めつけているから.
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
メタ学習とは?
• ベース学習器:
• ベース学習器:学習アルゴリズムそのものか,学習アルゴリズムによって出
力された仮説のことを言ってるのだと思う
• 学習アルゴリズム:訓練データ集合𝑇から仮説空間𝐻𝐿への写像𝐿のこと.
• ここまでのまとめ: 普通の(メタでない)学習アルゴリズム𝐿はそれ
に対応する仮説空間𝐻𝐿を持っている。学習アルゴリズムとそれに付
随する𝐻𝐿は普通設計者がヒュリスティックに決める
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
メタ学習とは?
• 学習対象のタスクやドメインに応じて:
• タスク:出力データの確率空間,ドメイン:入力データの確率空間
• つまり,メタ学習では訓練データセットが複数個降ってきて,それぞ
れのデータセットごとに入力や出力の空間が異なる状況を想定
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
メタ学習とは?
• 学習器のバイアスを決定するためのメタ知識:
• バイアスを選ぶ: ある訓練データセット𝐷 𝑚を入力としたときに,背後にある
真の関数𝐹 𝑚
: 𝑋 𝑚
→ 𝑌 𝑚
を効率的に(=少ないサンプルで)近似することができ
る仮説空間𝐻 𝐿 𝑚を選びたいということだと思う
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
メタ学習とは?
• つまり,メタ学習では:
• 通常設計者がヒュリスティックスに決める仮説空間𝐻 𝐿 𝑚を
• 複数の(タスクやドメインが異なる)データセットを活用して
• データ・ドリブンに決める
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
論文の背景と貢献
• メタ学習の問題点:
• 統一的なフレームワークがなく,様々ある既存手法の関係性の理解が難しい
• この研究の貢献
• 既存のメタ学習手法を統一するようなフレームワークの紹介.例えば以下の
手法が含まれる.
• MAML[Finn+ 2017]
• Prototypical Nets[Snell+2017]
• Conditional Neural Process[Garnelo+2018]
• 既存のメタ学習手法との比較に基づいて、新しいメタ学習手法の提案
• 利点1. Rapid: 新しいタスクに対する適応が早い(DNNのForward1回 )
• 利点2. Flexible: タスクごとに,クラス数や訓練サンプル数が異なっていても良い
ML-PIP
• Meta-Learning approximate Probabilistic Inference for Prediction(ML-PIP)
• 著者らが提案するメタ学習の統一的なフレームワーク
• 以降紹介する二つ要素を持つメタ学習手法はML-PIPに属する
1. グラフィカルモデルによる表現
2. 近似予測分布の作り方
グラフィカルモデルによる表現
t番目の訓練データセット t番目のテストデータセット
t番目のデータセット(タスク)
に対して固有のパラメータ
全てのデータセット(タスク)
で共有されるパラメータ(メタ知識)
ML-PIPでは,データ生成過程を以下のようにモデリングする
グラフィカルモデルによる表現
グラフィカルモデルを決めた-> 予測分布の形がわかる
(𝜃を無視すれば)
𝜓 𝑡
は普通の分類器
データドリブンに学習された
𝜃(メタ知識)が𝜓 𝑡
の空間を規定
 メタ知識による帰納バイアスっぽい
近似予測分布の作り方
• データ生成過程と,予測分布の形はわかった.
• 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 d𝜓 𝑡
• ただし𝑃(𝜓 𝑡 | 𝑥 𝑡, 𝐷 𝑡 , 𝜃)の計算はコストが高い(または解析的に求め
られない)ので,近似分布を考えてあげる
近似予測分布の作り方
• 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 d𝜓 𝑡
• 近似分布: 𝑞 𝜙 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 d𝜓 𝑡
• パラメータ𝜙を持つInference Networkを導入し 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 の計算を回避
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 はVAEのエンコーダーのようなもの
• 𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 は𝐷 𝑡
の条件付き分布=>Amotized Variational Inference(AVI)
• 𝐷 𝑡 で条件づけないとVariational Inference(VI)になる.
• VIでは𝜓 𝑡 の推定にBack-propが必要だが,AVIはForward一発で高速
• AVIとVIの違いはKim+2018等を参照
• Loss関数: 予測分布と近似分布のKLD最小化
関連研究
• 多くのメタ学習手法がML-PIPのフレームワークに属する
• ただし𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングが異なる
• Gradient-based
• Metric-based
• Amortized MAP inference (今日は話さない)
• Conditional models trained via maximum likelihood
Gradient-based Meta-Learning
• 𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 の設計:
• 該当する研究
• Semi Amortized VAE (Kim+ 2018)
• MAML (Finn+ 2017)
• LSTM-based meta-learning (Ravi and Larochelle+ 2017)
• 欠点
• 誤差逆伝播の計算量が大きい
• 𝑝 𝑦 𝑥, 𝜓, 𝜃 = 𝑝 𝑦 𝑥, 𝜓 のように予測分布を簡略化してしまうことが多い
図引用 Finn+2017
概要:
初期値𝜓0から,Gradient Descentで
タスク固有のパラメータ𝜓(𝑡)
を得る
Metric-based Few-shot learning
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計:
• 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 の設計:
• 該当する研究
• Prototypical Nets [Snell+2017]
• 欠点:
• 𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 が決定論的
• 𝑝 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 が「セントロイドとの距離を測る」という単純な近似をしてしまっている
図引用 Snell+2017
概要:
訓練データをエンコーダーℎ 𝜃で特徴空間に移したした後に
クラスごとにセントロイドを作って,テストデータとセント
ロイドの距離を特徴空間で測ることによるfew-shot学習.
Conditional models trained via maximum likelihood
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計:
• 決定論的な𝑞 𝜙
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 を分布として考えるのではなく,データセットを入力にとって
特徴量𝜓 𝑡 (上の図の𝑟)を出力する決定論的なモデルアーキテクチャが存在して
いる場合を指してるのだと思う
• 該当する研究:
• Conditional Neural Process [Garnelo+ 2018]
概要:
訓練データセットを入力として
して出てきた特徴量をテスト
データに対する予測に使う
図引用 Garnelo+ 2018
提案手法: Versatile
• 概要:
• 分類版と回帰版がある
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が確率的(ガウス分布)
• 任意の訓練データ数kを入力にとれる.また入力に対してpermutation-invariant
• 𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 がBack-propを必要とせず高速
• タスクごとにshotが異なって良い
• 分類版ではタスクごとにwayも異なっていて良い
• way: クラス数, shot: 訓練データ数
提案手法: Versatile 分類タスク
• グローバルパラメータ𝜃が各訓練データ点をエンコード(ℎ 𝜃(𝑥))
• クラスkの全サンプルのℎ 𝜃(𝑥𝑖
𝑘
)をプーリングし,重みwを得る
提案手法: Versatile 分類タスク
• グローバルパラメータ𝜃が,テストデータ点をエンコード(ℎ 𝜃( 𝑥))
• ℎ 𝜃( 𝑥)を入力に、前スライドで得た重みを使って線型分類
提案手法: Versatile 分類タスク
• この𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 は何をしているのか
• 𝑞 𝜙 𝜓 𝐷 𝑡 , 𝜃 = 𝑐=1
𝐶
𝑞 𝜙 𝜓𝑐 ℎ 𝜃 𝑥 𝑛
𝑐
𝑛=1
𝑘 𝑐
, 𝜃 のように,𝜓のクラスごとの独立
性を仮定している(クラスごとにPoolingをしてる点に注意)
• 結局この𝑞 𝜙のどこが良いのか
• クラス数がタスクごとに変わっても良い
• 𝜓のクラスごとの独立性の仮定は理論が背景にあり,よい帰納バイアスに
なっている(c.f. softmax, appendix B)
提案手法: Versatile 回帰タスク
• xは視点でyは画像を想定.設定はGQN[Eslami+ 2018]と似てる
• グローバルパラメータ𝜃はGenerator
• 訓練データセット 𝑥𝑖
𝑡
, 𝑦𝑖
𝑡
𝑖=1
𝑘
を入力に潜在変数𝜓(𝑡)が出てくるイメージ
• 注:Neural Process[Garnelo +2018]に対する優位性がわからないが,versatileの方がarxivに上がった日付は早
かったので考慮できていないのか?
実験
1. Toy data
2. Few-shot classification
1. overall results
2. versatility
3. comparision to standard and amortized VI(今日は話さない)
3. Shapenet view reconstruction
実験1. 𝑞 𝜙(𝜓|𝐷)が𝑝 (𝜓|𝐷) を近似できるかToy dataで確認
• 訓練時に近づけるのは予測分布と近似分布であって,𝑞 𝜙(𝜓|𝐷)と
𝑝 (𝜓|𝐷) を明示的に近づけたわけではないが,実際は近づく
=> アルゴリズムが期待通りに動いていることのサポート
• 観測点が増えるほど𝑞 𝜙(𝜓|𝐷)が真の分布を近似できている
• データセット:
• omniglot
• miniImageNet
• SOTA
• 注:近年few-shot界隈ではResNetを特徴
抽出に使うだけでSOTAな結果が得られ
ることが[Chen+2018]等で指摘されてい
るが,この論文ではそうした大きなモ
デルは比較対象にしていない.
実験2-1. Overall results
実験2-2. Versatility
• データセット: omniglot
• テスト時に(左)wayか(右)shotを変えてもそれなりに動く(versatility)
• way: クラス数, shot: 訓練データ数
• ショット数を5から10に増やしても精度があがらないのは気になる
• おそらく元から99%でサチってるので参考にならない
• (Prototypical Netsとかでも同じことできる気がするが……?)
実験3. Shapenet view reconstruction
• GQNと同様,視点から画像の生成を行うタスク
• ベースライン:CVAE
• 訓練データをサンプルサイズ1にして, 𝑧~𝑞 𝜙 𝑧 𝑥 と視点ラベルから生成を行なっている?
• 提案法はCVAEに比べて良い結果
まとめと感想
• まとめ
• 近年のメタ学習手法の多くが同じデータ生成過程と予測分布を持つ
• Amortization大事
• 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計が重要
• 提案法はタスクごとにway,shotが異なっても良い.
• 発表者の感想
• MAMLが流行っている印象だったが,あの𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングがベ
ストかはよく考えなければいけないなという気持ちになった
• GQN[Eslami+2018]との関係は不明瞭(ML-PIPにはGQNにおけるposteriorが存在
しない)だが,GQNやNeural processもfew-shot(メタ)学習として解釈できる
• GQNのように「実はメタ(few-shot)学習で記述できる重要な問題」が眠っ
ているのではないか、アンテナを張ると良さそう
参考文献
• Vilalta, Y. Drissi, A perspective view and survey of meta-learning, Artificial
Intelligence Review, 18 (2) (2002), pp. 77-95
• Pan, S. J. and Yang, Q.: A Survey on Transfer Learning, IEEE Trans. on Knowl.
and Data Eng., Vol. 22, No. 10, pp. 1345-1359 (2010)
• S. Ravi and H. Larochelle. Optimization as a model for few-shot learning.
ICLR2017.
• C. Finn, P. Abbeel, and S. Levine. Model-agnostic meta-learning for fast
adaptation of deep networks. ICML2017.
• M. Garnelo, D. Rosenbaum, C. J. Maddison, T. Ramalho, D. Saxton, M.
Shanahan, Y. W. Teh, D. J. Rezende, and S. Eslami. Conditional neural
processes. ICML2018
• Y. Kim, S. Wiseman, A. C. Miller, D. Sontag, and A. M. Rush. Semi-amortized
variational autoencoders. In Proceedings of the 35th International
Conference on Machine Learning, 2018b.
• J. Snell, K. Swersky, and R. Zemel. Prototypical networks for few-shot
learning. In Advances in Neural Information Processing Systems, pages
4080–4090, 2017.
• Eslami, S. A., Rezende, D. J., Besse, F., Viola, F., Morcos, A. S., Garnelo, M.,
Ruderman, A., Rusu, A. A., Dani- helka, I., Gregor, K., et al. Neural scene
representation and rendering. Science, 360(6394):1204–1210, 2018.
• M. Garnelo, J. Schwarz, D. Rosenbaum, F. Viola, D. J. Rezende, S. Eslami, and
Y. W. Teh. Neural processes. ICML2018 workshop on Theoretical Foundations
and Applications of Deep Generative Models.
• Zitian Chen, Yanwei Fu, Yinda Zhang, Leonid Sigal, Multi-level Semantic
Feature Augmentation for One-shot Learning, arxiv 2018,
https://arxiv.org/abs/1804.05298
1 of 33

More Related Content

What's hot(20)

深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki16.6K views
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya23K views
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP3.1K views

Similar to [DL輪読会]Meta-Learning Probabilistic Inference for Prediction(20)

NeurIPS2019参加報告NeurIPS2019参加報告
NeurIPS2019参加報告
Masanari Kimura465 views
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
Ohsawa Goodfellow26.8K views
DeepCasDeepCas
DeepCas
Koichiro tamura232 views
Non-autoregressive text generationNon-autoregressive text generation
Non-autoregressive text generation
nlab_utokyo1.5K views
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
JubatusOfficial2.3K views

More from Deep Learning JP(20)

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ "Meta-Learning Probablistic Inference for Prediction" 副題: Amortized Variational Inferenceを用いたメタ学習手法の、統一的理解 Presentater: Kei Akuzawa, Matsuo Lab. M2
  • 2. 書誌情報 • タイトル: META-LEARNING PROBABILISTIC INFERENCE FOR PREDICTION • 著者: Jonathan Gordon, John Bronskill, Matthias Bauer, Sebastian Nowozin, Richard E. Turner • ケンブリッジ大学が中心 • ICLR2019 under review (scores: 6, 7, 8) • https://openreview.net/forum?id=HkxStoC5F7 • TL;DR: 多くのメタ学習手法を包括するフレームワークの紹介と,それ を踏まえた新しいメタ学習手法の紹介 • (断りがない限り,本資料の図表は発表論文からの引用)
  • 3. 目次 • メタ学習とは? • 論文の背景 • メタ学習の統一的なフレームワークML-PIP • 関連研究 • 提案手法 • 実験 • まとめ
  • 4. メタ学習とは? • 複数あるメタ訓練データセットは,タ スクやドメインが異なって良い. • 一つのメタ訓練データセットは訓練/テ ストデータセットに分割される。 • それぞれの訓練データセットは非常に 少ないサンプルサイズ(1~100くらい) 本当に予測を行いたいデータセット。 テスト時に得られる少数の訓練サンプル からこのデータセットに適応したい メタ学習の問題設定(Ravi and Larochelle 2017) • 注1. タスク:出力データが従う確率空間, ドメイン:入力データが従う確率空間 [Pan and Yang 2010] • 注2. データセットごとにタスクが違う設定の研究が多いので,それぞれのデータセットを「タスク」 と呼ぶこともある メタ訓練データセット メタテストデータセット 図引用 Ravi and Larchelle 2017
  • 5. メタ学習とは? • (http://ibisforest.org/index.php?メタ学習 より.2018/12/08) • (おそらく[Vilalta and Drissi 2002]の翻訳) ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  • 6. メタ学習とは? • バイアス: • 帰納バイアス(Inductive Bias)のこと.ざっくり言うとハイパラ • e.g., どの分類器を使うか,DNNのモデル構造 • 二つの仮説空間𝐻𝐿 𝐴 , 𝐻𝐿 𝐵 が|𝐻𝐿 𝐴 | ≤ |𝐻𝐿 𝐵 |を満たすなら,|𝐻𝐿 𝐴 |の方がバイアスが 強い.なぜなら,「小さい仮説空間に真の仮説𝐹: 𝑋 → 𝑌が含まれている」と モデルの設計者が決めつけているから. ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  • 7. メタ学習とは? • ベース学習器: • ベース学習器:学習アルゴリズムそのものか,学習アルゴリズムによって出 力された仮説のことを言ってるのだと思う • 学習アルゴリズム:訓練データ集合𝑇から仮説空間𝐻𝐿への写像𝐿のこと. • ここまでのまとめ: 普通の(メタでない)学習アルゴリズム𝐿はそれ に対応する仮説空間𝐻𝐿を持っている。学習アルゴリズムとそれに付 随する𝐻𝐿は普通設計者がヒュリスティックに決める ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  • 8. メタ学習とは? • 学習対象のタスクやドメインに応じて: • タスク:出力データの確率空間,ドメイン:入力データの確率空間 • つまり,メタ学習では訓練データセットが複数個降ってきて,それぞ れのデータセットごとに入力や出力の空間が異なる状況を想定 ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  • 9. メタ学習とは? • 学習器のバイアスを決定するためのメタ知識: • バイアスを選ぶ: ある訓練データセット𝐷 𝑚を入力としたときに,背後にある 真の関数𝐹 𝑚 : 𝑋 𝑚 → 𝑌 𝑚 を効率的に(=少ないサンプルで)近似することができ る仮説空間𝐻 𝐿 𝑚を選びたいということだと思う ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  • 10. メタ学習とは? • つまり,メタ学習では: • 通常設計者がヒュリスティックスに決める仮説空間𝐻 𝐿 𝑚を • 複数の(タスクやドメインが異なる)データセットを活用して • データ・ドリブンに決める ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning).
  • 11. 論文の背景と貢献 • メタ学習の問題点: • 統一的なフレームワークがなく,様々ある既存手法の関係性の理解が難しい • この研究の貢献 • 既存のメタ学習手法を統一するようなフレームワークの紹介.例えば以下の 手法が含まれる. • MAML[Finn+ 2017] • Prototypical Nets[Snell+2017] • Conditional Neural Process[Garnelo+2018] • 既存のメタ学習手法との比較に基づいて、新しいメタ学習手法の提案 • 利点1. Rapid: 新しいタスクに対する適応が早い(DNNのForward1回 ) • 利点2. Flexible: タスクごとに,クラス数や訓練サンプル数が異なっていても良い
  • 12. ML-PIP • Meta-Learning approximate Probabilistic Inference for Prediction(ML-PIP) • 著者らが提案するメタ学習の統一的なフレームワーク • 以降紹介する二つ要素を持つメタ学習手法はML-PIPに属する 1. グラフィカルモデルによる表現 2. 近似予測分布の作り方
  • 15. 近似予測分布の作り方 • データ生成過程と,予測分布の形はわかった. • 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 d𝜓 𝑡 • ただし𝑃(𝜓 𝑡 | 𝑥 𝑡, 𝐷 𝑡 , 𝜃)の計算はコストが高い(または解析的に求め られない)ので,近似分布を考えてあげる
  • 16. 近似予測分布の作り方 • 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 d𝜓 𝑡 • 近似分布: 𝑞 𝜙 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 d𝜓 𝑡 • パラメータ𝜙を持つInference Networkを導入し 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 の計算を回避 • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 はVAEのエンコーダーのようなもの • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 は𝐷 𝑡 の条件付き分布=>Amotized Variational Inference(AVI) • 𝐷 𝑡 で条件づけないとVariational Inference(VI)になる. • VIでは𝜓 𝑡 の推定にBack-propが必要だが,AVIはForward一発で高速 • AVIとVIの違いはKim+2018等を参照 • Loss関数: 予測分布と近似分布のKLD最小化
  • 17. 関連研究 • 多くのメタ学習手法がML-PIPのフレームワークに属する • ただし𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングが異なる • Gradient-based • Metric-based • Amortized MAP inference (今日は話さない) • Conditional models trained via maximum likelihood
  • 18. Gradient-based Meta-Learning • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 該当する研究 • Semi Amortized VAE (Kim+ 2018) • MAML (Finn+ 2017) • LSTM-based meta-learning (Ravi and Larochelle+ 2017) • 欠点 • 誤差逆伝播の計算量が大きい • 𝑝 𝑦 𝑥, 𝜓, 𝜃 = 𝑝 𝑦 𝑥, 𝜓 のように予測分布を簡略化してしまうことが多い 図引用 Finn+2017 概要: 初期値𝜓0から,Gradient Descentで タスク固有のパラメータ𝜓(𝑡) を得る
  • 19. Metric-based Few-shot learning • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 の設計: • 該当する研究 • Prototypical Nets [Snell+2017] • 欠点: • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が決定論的 • 𝑝 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 が「セントロイドとの距離を測る」という単純な近似をしてしまっている 図引用 Snell+2017 概要: 訓練データをエンコーダーℎ 𝜃で特徴空間に移したした後に クラスごとにセントロイドを作って,テストデータとセント ロイドの距離を特徴空間で測ることによるfew-shot学習.
  • 20. Conditional models trained via maximum likelihood • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 決定論的な𝑞 𝜙 • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 を分布として考えるのではなく,データセットを入力にとって 特徴量𝜓 𝑡 (上の図の𝑟)を出力する決定論的なモデルアーキテクチャが存在して いる場合を指してるのだと思う • 該当する研究: • Conditional Neural Process [Garnelo+ 2018] 概要: 訓練データセットを入力として して出てきた特徴量をテスト データに対する予測に使う 図引用 Garnelo+ 2018
  • 21. 提案手法: Versatile • 概要: • 分類版と回帰版がある • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が確率的(ガウス分布) • 任意の訓練データ数kを入力にとれる.また入力に対してpermutation-invariant • 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 がBack-propを必要とせず高速 • タスクごとにshotが異なって良い • 分類版ではタスクごとにwayも異なっていて良い • way: クラス数, shot: 訓練データ数
  • 22. 提案手法: Versatile 分類タスク • グローバルパラメータ𝜃が各訓練データ点をエンコード(ℎ 𝜃(𝑥)) • クラスkの全サンプルのℎ 𝜃(𝑥𝑖 𝑘 )をプーリングし,重みwを得る
  • 23. 提案手法: Versatile 分類タスク • グローバルパラメータ𝜃が,テストデータ点をエンコード(ℎ 𝜃( 𝑥)) • ℎ 𝜃( 𝑥)を入力に、前スライドで得た重みを使って線型分類
  • 24. 提案手法: Versatile 分類タスク • この𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 は何をしているのか • 𝑞 𝜙 𝜓 𝐷 𝑡 , 𝜃 = 𝑐=1 𝐶 𝑞 𝜙 𝜓𝑐 ℎ 𝜃 𝑥 𝑛 𝑐 𝑛=1 𝑘 𝑐 , 𝜃 のように,𝜓のクラスごとの独立 性を仮定している(クラスごとにPoolingをしてる点に注意) • 結局この𝑞 𝜙のどこが良いのか • クラス数がタスクごとに変わっても良い • 𝜓のクラスごとの独立性の仮定は理論が背景にあり,よい帰納バイアスに なっている(c.f. softmax, appendix B)
  • 25. 提案手法: Versatile 回帰タスク • xは視点でyは画像を想定.設定はGQN[Eslami+ 2018]と似てる • グローバルパラメータ𝜃はGenerator • 訓練データセット 𝑥𝑖 𝑡 , 𝑦𝑖 𝑡 𝑖=1 𝑘 を入力に潜在変数𝜓(𝑡)が出てくるイメージ • 注:Neural Process[Garnelo +2018]に対する優位性がわからないが,versatileの方がarxivに上がった日付は早 かったので考慮できていないのか?
  • 26. 実験 1. Toy data 2. Few-shot classification 1. overall results 2. versatility 3. comparision to standard and amortized VI(今日は話さない) 3. Shapenet view reconstruction
  • 27. 実験1. 𝑞 𝜙(𝜓|𝐷)が𝑝 (𝜓|𝐷) を近似できるかToy dataで確認 • 訓練時に近づけるのは予測分布と近似分布であって,𝑞 𝜙(𝜓|𝐷)と 𝑝 (𝜓|𝐷) を明示的に近づけたわけではないが,実際は近づく => アルゴリズムが期待通りに動いていることのサポート • 観測点が増えるほど𝑞 𝜙(𝜓|𝐷)が真の分布を近似できている
  • 28. • データセット: • omniglot • miniImageNet • SOTA • 注:近年few-shot界隈ではResNetを特徴 抽出に使うだけでSOTAな結果が得られ ることが[Chen+2018]等で指摘されてい るが,この論文ではそうした大きなモ デルは比較対象にしていない. 実験2-1. Overall results
  • 29. 実験2-2. Versatility • データセット: omniglot • テスト時に(左)wayか(右)shotを変えてもそれなりに動く(versatility) • way: クラス数, shot: 訓練データ数 • ショット数を5から10に増やしても精度があがらないのは気になる • おそらく元から99%でサチってるので参考にならない • (Prototypical Netsとかでも同じことできる気がするが……?)
  • 30. 実験3. Shapenet view reconstruction • GQNと同様,視点から画像の生成を行うタスク • ベースライン:CVAE • 訓練データをサンプルサイズ1にして, 𝑧~𝑞 𝜙 𝑧 𝑥 と視点ラベルから生成を行なっている? • 提案法はCVAEに比べて良い結果
  • 31. まとめと感想 • まとめ • 近年のメタ学習手法の多くが同じデータ生成過程と予測分布を持つ • Amortization大事 • 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計が重要 • 提案法はタスクごとにway,shotが異なっても良い. • 発表者の感想 • MAMLが流行っている印象だったが,あの𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングがベ ストかはよく考えなければいけないなという気持ちになった • GQN[Eslami+2018]との関係は不明瞭(ML-PIPにはGQNにおけるposteriorが存在 しない)だが,GQNやNeural processもfew-shot(メタ)学習として解釈できる • GQNのように「実はメタ(few-shot)学習で記述できる重要な問題」が眠っ ているのではないか、アンテナを張ると良さそう
  • 32. 参考文献 • Vilalta, Y. Drissi, A perspective view and survey of meta-learning, Artificial Intelligence Review, 18 (2) (2002), pp. 77-95 • Pan, S. J. and Yang, Q.: A Survey on Transfer Learning, IEEE Trans. on Knowl. and Data Eng., Vol. 22, No. 10, pp. 1345-1359 (2010) • S. Ravi and H. Larochelle. Optimization as a model for few-shot learning. ICLR2017. • C. Finn, P. Abbeel, and S. Levine. Model-agnostic meta-learning for fast adaptation of deep networks. ICML2017. • M. Garnelo, D. Rosenbaum, C. J. Maddison, T. Ramalho, D. Saxton, M. Shanahan, Y. W. Teh, D. J. Rezende, and S. Eslami. Conditional neural processes. ICML2018
  • 33. • Y. Kim, S. Wiseman, A. C. Miller, D. Sontag, and A. M. Rush. Semi-amortized variational autoencoders. In Proceedings of the 35th International Conference on Machine Learning, 2018b. • J. Snell, K. Swersky, and R. Zemel. Prototypical networks for few-shot learning. In Advances in Neural Information Processing Systems, pages 4080–4090, 2017. • Eslami, S. A., Rezende, D. J., Besse, F., Viola, F., Morcos, A. S., Garnelo, M., Ruderman, A., Rusu, A. A., Dani- helka, I., Gregor, K., et al. Neural scene representation and rendering. Science, 360(6394):1204–1210, 2018. • M. Garnelo, J. Schwarz, D. Rosenbaum, F. Viola, D. J. Rezende, S. Eslami, and Y. W. Teh. Neural processes. ICML2018 workshop on Theoretical Foundations and Applications of Deep Generative Models. • Zitian Chen, Yanwei Fu, Yinda Zhang, Leonid Sigal, Multi-level Semantic Feature Augmentation for One-shot Learning, arxiv 2018, https://arxiv.org/abs/1804.05298