NeurIPS2021 から見る
メタ学習の研究動向
2021/03/07
東京大学大学院 情報理工学系研究科
近藤 佑亮 (Yusuke KONDO)
⾃⼰紹介
Ø名前: 近藤 佑亮 (Yusuke KONDO)
Ø所属
Ø東京⼤学⼤学院 情報理⼯学系研究科 電⼦情報学専攻 佐藤真⼀研究室 M1
Øコンピュータビジョン、⼤規模マルチメディア検索の研究
ØDeepEyeVision 株式会社
Ø眼科領域における画像診断⽀援ソフトウェアの研究開発
2
https://deepeyevision.com/news0208/
アジェンダ
Øメタ学習とは?
Øメタ学習の代表的な⼿法と課題
ØNeurIPS2021 でのメタ学習の研究動向
3
アジェンダ
Øメタ学習とは?
Øメタ学習の代表的な⼿法と課題
ØNeurIPS2021 でのメタ学習の研究動向
4
過去の経験が新たな学びを簡単にする
5
⌛⌛⌛
ゼロから学ぶには試⾏錯誤が必要…
過去の経験が新たな学びを簡単にする
6
⌛
⌛⌛⌛
ゼロから学ぶには試⾏錯誤が必要…
知識やコツの流⽤で効率よく学べる!
過去の経験が新たな学びを簡単にする
7
⌛
複数のタスクから学び⽅の学習をしている!
⌛⌛⌛
知識やコツの流⽤で効率よく学べる!
ゼロから学ぶには試⾏錯誤が必要…
メタ学習: 学び⽅の学習(Learning to learn)
Øメタ学習とは、複数の学習経験から学習⽅法⾃体を改善すること
Ø主な効⽤:少数のデータのみで新規タスクを学ぶことができる
8
⌛
知識やコツの流⽤で効率よく学べる!
メタ学習のベースライン: Fine-tuning
Ø⼊⼒
Øベースタスクで学習したモデルパラメータ 𝜃!
Øターゲットタスクの学習データ 𝒟" = {(𝒙#, 𝑦#)}
Ø出⼒
Øターゲットタスクのモデルパラメータ 𝜃′
Øターゲットタスクのみで学習するより⾼い性能を出すことを期待
9
メタ学習のベースライン: Fine-tuning
Ø⼊⼒
Øベースタスクで学習したモデルパラメータ 𝜃!
Øターゲットタスクの学習データ 𝒟" = {(𝒙#, 𝑦#)}
Ø出⼒
Øターゲットタスクのモデルパラメータ 𝜃′
Øターゲットタスクのみで学習するより⾼い性能を出すことを期待
ØFine-tuning の流れ
Øパラメータ初期化: 𝜃$ = 𝜃!
Øターゲットタスク 𝒟" を⼊⼒したときのモデル(パラメータ: 𝜃′)の
損失 ℒ(𝜃′|𝒟") とその勾配 ∇ℒ(𝜃′|𝒟") を計算
Ø勾配法によりパラメータを更新 𝜃$ ← 𝜃$ − 𝛼∇ℒ(𝜃′|𝒟")
10
学習エポック数だけ
繰り返す
メタ学習のベースライン: Fine-tuning
Ø⼯夫した Fine-tuning は少数データによる新規クラス学習に効果的
Ø例えば、ベースクラスで学習したモデルの最終層を外して、コサイン距離を
活⽤すると、少数の新規クラスを効率よく学習することができる (右下図)
11
Chen+ "A Closer Look at Few-shot Classification." ICLR. 2018.
Fine-tuning の限界
Øベースタスクの学習は、ターゲットタスクで学習結果を利⽤すること
を考慮していない
Øベースタスクで性能が向上したとしても、そのモデルパラメータを初期値と
したときにターゲットタスクでも学習性能が向上するとは限らない
Ø各クラスに1つずつしかサンプルが存在しないような場合(Few-
shot)に困る
Øtrain / val 分割ができない
Øハイパーパラメータの調整(エポック数、学習率などの設定)
Ø結果として、過学習、未学習になる
12
https://www.kecl.ntt.co.jp/as/members/iwata/ibisml2021.pdf
メタ学習のアプローチ
Øベースタスク(クラス)からサポート集合・クエリ集合と呼ばれる少
数のサンプルを何度もリサンプリングする
Ø新規(ターゲット)タスクでの学習が簡単になることを⽬的にする
13
https://www.sicara.ai/blog/2019-07-30-image-classification-few-shot-meta-learning
メタ学習 と Few-shot 学習
🤔 「メタ学習と Few-shot 学習の違いってなんだ…?」
ØFew-shot 学習を実現する⽅法の⼀つにメタ学習がある
Øメタ学習的アプローチ
Øベースタスク(クラス)からサポートセット・クエリセットと呼ばれる少数のサンプルを
何度もリサンプリングして、学習の仕⽅を学習する
ØFew-shot 学習以外を主眼においたメタ学習の研究も存在する
14
メタ学習 Few-shot 学習
メタ学習アプローチの
Few-shot 学習
メタ学習の分類学
Øメタ学習実現のためのアプローチ(Optimizer, Representation, Objective)
Ø⽬的(Application)
15
[Hospedales+] "Meta-Learning in Neural Networks: A Survey." IEEE TPAMI (2021).
メタ学習とは?のまとめ
Øメタ学習とは?
Ø複数の学習経験から学習⽅法⾃体を改善すること
ØFine-tuning: メタ学習のベースライン
Øベースタスクでの性能向上 ≠ ターゲットタスクの初期値としての性能向上
Øターゲットタスクのサンプル数が少ない(Few-shot)状況下に対応できない
Øメタ学習のアプローチ
Øベースタスク(クラス)からサポートセット・クエリセットと呼ばれる少数
のサンプルを何度もリサンプリングする
Ø新規(ターゲット)タスクでの学習が簡単になることを⽬的にする
16
アジェンダ
Øメタ学習とは?
Øメタ学習の代表的な⼿法と課題
ØNeurIPS2021 でのメタ学習の研究動向
17
代表的なメタ学習の⼿法
ØMAML [Finn+, ICML2017]
Ø勾配ベースの⼿法
ØFine-tuningした際にテスト性能が⾼くなるようなモデルパラメータを勾配法
ØNeural process [Gordon+, ICLR2019]
Øブラックボックス適応の⼿法
Ø各タスクへのfine-tuningをNNでモデル化して勾配計算を避ける
ØProtoNet [Snell+, NeurIPS2017]
Øモデルベースの⼿法
Øタスク特化モデル(Fine-tuning)に勾配計算が容易なモデルを利⽤
18
MAML [Finn+, NeurIPS2017]
Ø引⽤5000+
ØFine-tuning後の性能が⾼くなるように事前学習⽤モデルのパラメータ
を更新
Ø+: メモリ
19
Fine-tuning
←タスク共通パラメータ初期化
← サンプリング
←タスク共通パラメータ更新
MAML [Finn+, NeurIPS2017]
ØJ
Ø任意の微分可能なモデルをメタ学習できる
ØL
Øメモリ計算量が Fine-tuning の
ステップ数に⽐例して線形に増加する
ØFine-tuning のステップ数を⼤きくするのは
難しい
Ø初期値から数ステップ以内の
勾配降下で⽬的タスクに適合しなければ
いけない
Ø勾配の計算がとにかく⼤変
20
Fine-tuning
←タスク共通パラメータ初期化
← サンプリング
←タスク共通パラメータ更新
Neural process [Gordon+, ICLR2019]
Ø各タスクへのfine-tuningをNNでモデル化して勾配計算を避ける
Øラベル付きサポート集合 𝒟" = { 𝒙#, 𝑦# } から ニュラールネット: ℎ を⽤いて
特徴量 r% = ℎ(𝒙#, 𝑦#)を計算
Øサポート集合の平均 r = Σ
& 𝒙!,)!
|𝒟"|
Øタスク表現 r と特徴量 𝒙 から Fine-tuning されたニューラルネットに相当する𝑔
を⽤いて予測 6
𝑦 = 𝑔(𝒙, 𝒓) を得る
21
https://www.kecl.ntt.co.jp/as/members/iwata/ibisml2021.pdf
Neural process [Gordon+, ICLR2019]
ØJ
Ø勾配の勾配を計算しなくてよい
ØDNN で Fine-tuning をモデル化している
Ø勾配ベースの⼿法と⽐べて、数ステップの勾配降下で⽬的タスクにたどり着かなければい
けない、という制限はない
ØL
Øそもそも Fine-tuning のモデル化は単純な教師あり学習より複雑
Ø学習がうまく進まないことがある
Ø例えサポート集合(train)に含まれるサンプルでも正しく予測できない場合あり
22
ProtoNet [Snell+, NeurIPS’2017]
Øタスク特化モデルに勾配計算が容易なモデルを利⽤
23
タスク特化
モデル
タスク共通
モデル
Fine-tuning有
混合正規分布
Fine-tuning無
DNN
各クラスの平均値をサポート集合で計算
クエリ集合に対する損失を計算
ProtoNet [Snell+, NeurIPS2017]
ØJ
ØFine-tuning のために勾配計算を繰り返す必要なし
Ø微分の計算が軽い
Ø過学習しにくい
ØL
Ø表現⼒に劣る
Øタスク特化部分(⾮DNN)の
表現⼒に依存する
24
タスク特化
モデル
タスク共通
モデル
Fine-tuning有
混合正規分布
Fine-tuning無
DNN
メタ学習の代表的な⼿法と課題 のまとめ
ØMAML [Finn+, ICML2017]
Ø勾配ベースの⼿法
ØFine-tuningした際にテスト性能が⾼くなるようなモデルパラメータを勾配法
ØNeural process [Gordon+, ICLR2019]
Øブラックボックス適応の⼿法
Ø各タスクへのfine-tuningをNNでモデル化して勾配計算を避ける
ØProtoNet [Snell+, NeurIPS2017]
Øモデルベースの⼿法
Øタスク特化モデル(Fine-tuning)に勾配計算が容易なモデルを利⽤
25
アジェンダ
Øメタ学習とは?
Øメタ学習の代表的な⼿法と課題
ØNeurIPS2021 でのメタ学習の研究動向
26
NeurIPS2021 でもメタ学習は熱いトピック
Øタイトルかアブストラクトに “meta-learning” を含むもの: 61本
ØOral: 0本
ØSpotlight: 7本
ØPoster: 54本
Øワークショップも開催
27
メタ学習がメイントピックの Slotlight
Ø理論
ØGeneralization Bound for Meta-learning: An Information-Theoretic Analysis [Chen+]
ØBayesian decision-making under mis-specified priors with applications to meta-
learning [Simchowitz+]
Ø応⽤
ØLight Field Networks: Neural Scene Representations with Single-Evaluation Rendering
[Sitzmann+]
ØProperty-Aware Relation Networks for Few-Shot Molecular Property Prediction [Lee+]
ØNAS
ØHardware-adaptive Efficient Latency Prediction for NAS via Meta-Learning [Lee+]
ØTask-Adaptive Neural Network Search with Meta-Contrastive Learning [Jeong+]
理論だけでなく、実世界アプリケーションを⾒据えた研究が増加
28
個⼈的注⽬論⽂
ØTask-Adaptive Neural Network Search with Meta-Contrastive Learning
Øアーキテクチャに加えて最適なモデルパラメータも探索する
ØHardware-adaptive Efficient Latency Prediction for NAS via Meta-Learning
[Lee+]
Øハードウェア最適なニューラルアーキテクチャ探索をメタ学習として解く
ØTwo Sides of Meta-Learning Evaluation: In vs. Out of Distribution
Ø既存のメタ学習ベンチマークの偏りを指摘
29
Task-Adaptive Neural Network Search with
Meta-Contrastive Learning [Jeong+, NeurIPS’21]
Ø既存のNAS⼿法の問題点
Ø計算コストが膨⼤
Øネットワークアーキテクチャは最適化するが、パラメータは決定しない
ØNASでアーキテクチャを最適化した後、パラメータは別途学習により最適化する必要あり
Ø⽬的
Ø最適なネットワークアーキテクチャだけでなく、
メタ学習的に最適な初期重みも得られないだろうか?
30
Task-Adaptive Neural Network Search with
Meta-Contrastive Learning [Jeong+, NeurIPS’21]
Ø⽬的
Ø最適なネットワークアーキテクチャだけでなく、
メタ学習的に最適な初期重みも得られないだろうか?
31
Task-Adaptive Neural Network Search with
Meta-Contrastive Learning [Jeong+, NeurIPS’21]
Ø提案⼿法
Ø関係ないデータセットで学習したネットワークとの類似度を最⼩化しつつ、
⽬的ネットワークとデータセットの類似度を最⼤化するようメタ学習する
ØModel Zoo の構築と Retrieval の⼆段階
32
Task-Adaptive Neural Network Search with
Meta-Contrastive Learning [Jeong+, NeurIPS’21]
Øパラメータ効率、FLOPS効率が改善する
33
Hardware-adaptive Efficient Latency Prediction for
NAS via Meta-Learning [Lee+]
ØNASはハードウェアを拘束条件に含めるべき
Øメモリ量、遅延、電⼒消費など
Ø現実世界には数え切れないほどのデバイスがある
ØそれぞれにNASで最適化するのは計算量的に⼤変
Øメタ学習の問題として、未知のデバイスにアーキテクチャを最適化!
35
Hardware-adaptive Efficient Latency Prediction for
NAS via Meta-Learning [Lee+]
Ø提案⼿法: Hardware-adaptive Efficient Latency Predictor (HELP)
Ø少ないサンプル数からハードウェア固有の遅延を予測する問題に帰着
36
Hardware-adaptive Efficient Latency Prediction for
NAS via Meta-Learning [Lee+]
Ø少サンプルでも適切に遅延時間を予測することができる
37
Two Sides of Meta-Learning Evaluation:
In vs. Out of Distribution [Setlur+]
Øメタ学習⼿法の評価⽅法は2つに⼤分される
ØIn-distribution (ID): ターゲットタスクが同じタスク分布にある
ØOut-of-distribution (OOD): ターゲットタスクが異なるタスク分布にある
Ø既存のメタ学習⼿法、メタ学習評価⽅法の問題点
Ø⼤半のメタ学習評価⽅法は OOD
Øほとんどのメタ学習⼿法は OOD で性能向上する⼀⽅、ID だとむしろ下がる
38
Two Sides of Meta-Learning Evaluation:
In vs. Out of Distribution [Setlur+]
Øベンチマーク改善のための提案
Ø評価時により多くの新規クラスを利⽤すること
Øより多くのベースクラスで学習すること
39
NeurIPS2021 メタ学習のまとめ
Ø理論的な研究はもちろん、実⽤・応⽤を重視した研究が注⽬
Ø近い研究分野(NASなど)と絡めた研究が多数 spotlight に採択
Øメタ学習のベンチマーク、問題設定に問題提起をする論⽂も
Ø議論がかなり深まりつつある分野となっている
ØTask-Adaptive Neural Network Search with Meta-Contrastive Learning
Øアーキテクチャに加えて最適なモデルパラメータも探索する
ØHardware-adaptive Efficient Latency Prediction for NAS via Meta-Learning [Lee+]
Øハードウェア最適なニューラルアーキテクチャ探索をメタ学習として解く
ØTwo Sides of Meta-Learning Evaluation: In vs. Out of Distribution
Ø既存のメタ学習ベンチマークの偏りを指摘
40
付録
41
参考⽂献(Tutorials)
ØAAAI 2021 Meta-learning Tutorial
Øhttps://sites.google.com/mit.edu/aaai2021metalearningtutorial/home
ØICML 2019 Meta-learning Tutorial
Øhttps://sites.google.com/view/icml19metalearning
42
参考⽂献(その他)
ØLearning to learn: Berkeley のブログポスト
Øhttps://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/
Øメタ学習(meta-learning)の紹介 GMO次世代システム研究室
Øhttps://recruit.gmo.jp/engineer/jisedai/blog/meta-learning/
Ø⽇経:メタ学習:学習の仕⽅を学習する、MAMLやNeural Process
Øhttps://xtech.nikkei.com/atcl/nxt/mag/rob/18/00007/00009/#:~:text=%E8%A4%87%
E6%95%B0%E3%81%AE%E3%82%BF%E3%82%B9%E3%82%AF%E3%81%AE%E5%AD%
A6%E7%BF%92,%E6%89%8B%E6%B3%95%E3%82%92%E3%83%A1%E3%82%BF%E5%
AD%A6%E7%BF%92%E3%81%A8%E3%81%84%E3%81%86%E3%80%82
43
メタ学習に関連する研究領域
ØFew-shot 学習(Few-shot learning)
Øマルチタスク学習(Multi-task learning)
Ø転移学習(Transfer learning)
Ø継続学習(Continuous learning)
Ø構造⾃動探索(Neural Architecture Search: NAS)
44
Efficiently Identifying Task Groupings for
Multi-Task Learning [Fifty+, NeurIPS21]
ØMulti-task learning において、単⼀のモデルで考えうる全てのタスクを
学習すると性能が下がってしまう。故に、⼀緒に学習するのに適した
タスクを発⾒する必要がある。
Ø本論⽂の⼿法では、 Computer Visionの taskonomyのようなデータセッ
トに対して、どのタスクとどのタスクを共に学習するとよいか⼀度の
学習のみで選ぶ⽅法を提案する。実験により、性能が上がると⽰され
た。
45
MAML [Finn+, NeurIPS2017]
ØMAML を改良した勾配ベースの⼿法が数多く提案されている
Øモデルパラメータ更新の⽅法を変えている
46
https://sites.google.com/mit.edu/aaai2021metalearningtutorial/home

NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurIPS2021):世界最先端のAI研究開発動向が1日でわかる!」