NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会（NeurIPS2021）：世界最先端のAI研究開発動向が1日でわかる！」

NeurIPS2021 から見る
メタ学習の研究動向
2021/03/07
東京大学大学院情報理工学系研究科
近藤佑亮 (Yusuke KONDO)

⾃⼰紹介
Ø名前: 近藤佑亮（Yusuke KONDO）
Ø所属
Ø東京⼤学⼤学院情報理⼯学系研究科電⼦情報学専攻佐藤真⼀研究室 M1
Øコンピュータビジョン、⼤規模マルチメディア検索の研究
ØDeepEyeVision 株式会社
Ø眼科領域における画像診断⽀援ソフトウェアの研究開発
2
https://deepeyevision.com/news0208/

アジェンダ
Øメタ学習とは？
Øメタ学習の代表的な⼿法と課題
ØNeurIPS2021 でのメタ学習の研究動向
3

アジェンダ
4

過去の経験が新たな学びを簡単にする
5
⌛⌛⌛
ゼロから学ぶには試⾏錯誤が必要…

6
⌛
⌛⌛⌛
知識やコツの流⽤で効率よく学べる！

7
⌛
複数のタスクから学び⽅の学習をしている！
⌛⌛⌛

メタ学習: 学び⽅の学習（Learning to learn）
Øメタ学習とは、複数の学習経験から学習⽅法⾃体を改善すること
Ø主な効⽤：少数のデータのみで新規タスクを学ぶことができる
8
⌛

メタ学習のベースライン: Fine-tuning
Ø⼊⼒
Øベースタスクで学習したモデルパラメータ 𝜃!
Øターゲットタスクの学習データ 𝒟" = {(𝒙#, 𝑦#)}
Ø出⼒
Øターゲットタスクのモデルパラメータ 𝜃′
Øターゲットタスクのみで学習するより⾼い性能を出すことを期待
9

Ø⼊⼒
Øベースタスクで学習したモデルパラメータ 𝜃!
Øターゲットタスクの学習データ 𝒟" = {(𝒙#, 𝑦#)}
Ø出⼒
Øターゲットタスクのモデルパラメータ 𝜃′
Øターゲットタスクのみで学習するより⾼い性能を出すことを期待
ØFine-tuning の流れ
Øパラメータ初期化: 𝜃$ = 𝜃!
Øターゲットタスク 𝒟" を⼊⼒したときのモデル（パラメータ: 𝜃′）の
損失 ℒ(𝜃′|𝒟") とその勾配 ∇ℒ(𝜃′|𝒟") を計算
Ø勾配法によりパラメータを更新 𝜃$ ← 𝜃$ − 𝛼∇ℒ(𝜃′|𝒟")
10
学習エポック数だけ
繰り返す

Ø⼯夫した Fine-tuning は少数データによる新規クラス学習に効果的
Ø例えば、ベースクラスで学習したモデルの最終層を外して、コサイン距離を
活⽤すると、少数の新規クラスを効率よく学習することができる (右下図)
11
Chen+ "A Closer Look at Few-shot Classification." ICLR. 2018.

Fine-tuning の限界
Øベースタスクの学習は、ターゲットタスクで学習結果を利⽤すること
を考慮していない
Øベースタスクで性能が向上したとしても、そのモデルパラメータを初期値と
したときにターゲットタスクでも学習性能が向上するとは限らない
Ø各クラスに1つずつしかサンプルが存在しないような場合（Few-
shot）に困る
Øtrain / val 分割ができない
Øハイパーパラメータの調整（エポック数、学習率などの設定）
Ø結果として、過学習、未学習になる
12
https://www.kecl.ntt.co.jp/as/members/iwata/ibisml2021.pdf

メタ学習のアプローチ
Øベースタスク（クラス）からサポート集合・クエリ集合と呼ばれる少
数のサンプルを何度もリサンプリングする
Ø新規（ターゲット）タスクでの学習が簡単になることを⽬的にする
13
https://www.sicara.ai/blog/2019-07-30-image-classification-few-shot-meta-learning

メタ学習と Few-shot 学習
🤔 「メタ学習と Few-shot 学習の違いってなんだ…？」
ØFew-shot 学習を実現する⽅法の⼀つにメタ学習がある
Øメタ学習的アプローチ
Øベースタスク（クラス）からサポートセット・クエリセットと呼ばれる少数のサンプルを
何度もリサンプリングして、学習の仕⽅を学習する
ØFew-shot 学習以外を主眼においたメタ学習の研究も存在する
14
メタ学習 Few-shot 学習
メタ学習アプローチの
Few-shot 学習

メタ学習の分類学
Øメタ学習実現のためのアプローチ（Optimizer, Representation, Objective）
Ø⽬的（Application）
15
[Hospedales+] "Meta-Learning in Neural Networks: A Survey." IEEE TPAMI (2021).

メタ学習とは？のまとめ
Ø複数の学習経験から学習⽅法⾃体を改善すること
ØFine-tuning: メタ学習のベースライン
Øベースタスクでの性能向上 ≠ ターゲットタスクの初期値としての性能向上
Øターゲットタスクのサンプル数が少ない（Few-shot）状況下に対応できない
Øメタ学習のアプローチ
Øベースタスク（クラス）からサポートセット・クエリセットと呼ばれる少数
のサンプルを何度もリサンプリングする
Ø新規（ターゲット）タスクでの学習が簡単になることを⽬的にする
16

アジェンダ
17

代表的なメタ学習の⼿法
ØMAML [Finn+, ICML2017]
Ø勾配ベースの⼿法
ØFine-tuningした際にテスト性能が⾼くなるようなモデルパラメータを勾配法
ØNeural process [Gordon+, ICLR2019]
Øブラックボックス適応の⼿法
Ø各タスクへのfine-tuningをNNでモデル化して勾配計算を避ける
ØProtoNet [Snell+, NeurIPS2017]
Øモデルベースの⼿法
Øタスク特化モデル（Fine-tuning）に勾配計算が容易なモデルを利⽤
18

MAML [Finn+, NeurIPS2017]
Ø引⽤5000+
ØFine-tuning後の性能が⾼くなるように事前学習⽤モデルのパラメータ
を更新
Ø+: メモリ
19
Fine-tuning
←タスク共通パラメータ初期化
← サンプリング
←タスク共通パラメータ更新

ØJ
Ø任意の微分可能なモデルをメタ学習できる
ØL
Øメモリ計算量が Fine-tuning の
ステップ数に⽐例して線形に増加する
ØFine-tuning のステップ数を⼤きくするのは
難しい
Ø初期値から数ステップ以内の
勾配降下で⽬的タスクに適合しなければ
いけない
Ø勾配の計算がとにかく⼤変
20
Fine-tuning
←タスク共通パラメータ初期化
← サンプリング
←タスク共通パラメータ更新

Neural process [Gordon+, ICLR2019]
Øラベル付きサポート集合 𝒟" = { 𝒙#, 𝑦# } からニュラールネット: ℎ を⽤いて
特徴量 r% = ℎ(𝒙#, 𝑦#)を計算
Øサポート集合の平均 r = Σ
& 𝒙!,)!
|𝒟"|
Øタスク表現 r と特徴量 𝒙 から Fine-tuning されたニューラルネットに相当する𝑔
を⽤いて予測 6
𝑦 = 𝑔(𝒙, 𝒓) を得る
21
https://www.kecl.ntt.co.jp/as/members/iwata/ibisml2021.pdf

Neural process [Gordon+, ICLR2019]
ØJ
Ø勾配の勾配を計算しなくてよい
ØDNN で Fine-tuning をモデル化している
Ø勾配ベースの⼿法と⽐べて、数ステップの勾配降下で⽬的タスクにたどり着かなければい
けない、という制限はない
ØL
Øそもそも Fine-tuning のモデル化は単純な教師あり学習より複雑
Ø学習がうまく進まないことがある
Ø例えサポート集合（train）に含まれるサンプルでも正しく予測できない場合あり
22

ProtoNet [Snell+, NeurIPS’2017]
Øタスク特化モデルに勾配計算が容易なモデルを利⽤
23
タスク特化
モデル
タスク共通
モデル
Fine-tuning有
混合正規分布
Fine-tuning無
DNN
各クラスの平均値をサポート集合で計算
クエリ集合に対する損失を計算

ProtoNet [Snell+, NeurIPS2017]
ØJ
ØFine-tuning のために勾配計算を繰り返す必要なし
Ø微分の計算が軽い
Ø過学習しにくい
ØL
Ø表現⼒に劣る
Øタスク特化部分（⾮DNN）の
表現⼒に依存する
24
タスク特化
モデル
タスク共通
モデル
Fine-tuning有
混合正規分布
Fine-tuning無
DNN

メタ学習の代表的な⼿法と課題のまとめ
ØMAML [Finn+, ICML2017]
Ø勾配ベースの⼿法
ØFine-tuningした際にテスト性能が⾼くなるようなモデルパラメータを勾配法
ØNeural process [Gordon+, ICLR2019]
Øブラックボックス適応の⼿法
ØProtoNet [Snell+, NeurIPS2017]
Øモデルベースの⼿法
Øタスク特化モデル（Fine-tuning）に勾配計算が容易なモデルを利⽤
25

アジェンダ
26

NeurIPS2021 でもメタ学習は熱いトピック
Øタイトルかアブストラクトに “meta-learning” を含むもの: 61本
ØOral: 0本
ØSpotlight: 7本
ØPoster: 54本
Øワークショップも開催
27

メタ学習がメイントピックの Slotlight
Ø理論
ØGeneralization Bound for Meta-learning: An Information-Theoretic Analysis [Chen+]
ØBayesian decision-making under mis-specified priors with applications to meta-
learning [Simchowitz+]
Ø応⽤
ØLight Field Networks: Neural Scene Representations with Single-Evaluation Rendering
[Sitzmann+]
ØProperty-Aware Relation Networks for Few-Shot Molecular Property Prediction [Lee+]
ØNAS
ØHardware-adaptive Efficient Latency Prediction for NAS via Meta-Learning [Lee+]
ØTask-Adaptive Neural Network Search with Meta-Contrastive Learning [Jeong+]
理論だけでなく、実世界アプリケーションを⾒据えた研究が増加
28

個⼈的注⽬論⽂
ØTask-Adaptive Neural Network Search with Meta-Contrastive Learning
Øアーキテクチャに加えて最適なモデルパラメータも探索する
ØHardware-adaptive Efficient Latency Prediction for NAS via Meta-Learning
[Lee+]
Øハードウェア最適なニューラルアーキテクチャ探索をメタ学習として解く
ØTwo Sides of Meta-Learning Evaluation: In vs. Out of Distribution
Ø既存のメタ学習ベンチマークの偏りを指摘
29

Task-Adaptive Neural Network Search with
Meta-Contrastive Learning [Jeong+, NeurIPS’21]
Ø既存のNAS⼿法の問題点
Ø計算コストが膨⼤
Øネットワークアーキテクチャは最適化するが、パラメータは決定しない
ØNASでアーキテクチャを最適化した後、パラメータは別途学習により最適化する必要あり
Ø⽬的
Ø最適なネットワークアーキテクチャだけでなく、
メタ学習的に最適な初期重みも得られないだろうか？
30

Ø⽬的
Ø最適なネットワークアーキテクチャだけでなく、
メタ学習的に最適な初期重みも得られないだろうか？
31

Ø提案⼿法
Ø関係ないデータセットで学習したネットワークとの類似度を最⼩化しつつ、
⽬的ネットワークとデータセットの類似度を最⼤化するようメタ学習する
ØModel Zoo の構築と Retrieval の⼆段階
32

Øパラメータ効率、FLOPS効率が改善する
33

Hardware-adaptive Efficient Latency Prediction for
NAS via Meta-Learning [Lee+]
ØNASはハードウェアを拘束条件に含めるべき
Øメモリ量、遅延、電⼒消費など
Ø現実世界には数え切れないほどのデバイスがある
ØそれぞれにNASで最適化するのは計算量的に⼤変
Øメタ学習の問題として、未知のデバイスにアーキテクチャを最適化！
35

Ø提案⼿法: Hardware-adaptive Efficient Latency Predictor (HELP)
Ø少ないサンプル数からハードウェア固有の遅延を予測する問題に帰着
36

Ø少サンプルでも適切に遅延時間を予測することができる
37

Two Sides of Meta-Learning Evaluation:
In vs. Out of Distribution [Setlur+]
Øメタ学習⼿法の評価⽅法は2つに⼤分される
ØIn-distribution (ID): ターゲットタスクが同じタスク分布にある
ØOut-of-distribution (OOD): ターゲットタスクが異なるタスク分布にある
Ø既存のメタ学習⼿法、メタ学習評価⽅法の問題点
Ø⼤半のメタ学習評価⽅法は OOD
Øほとんどのメタ学習⼿法は OOD で性能向上する⼀⽅、ID だとむしろ下がる
38

Two Sides of Meta-Learning Evaluation:
In vs. Out of Distribution [Setlur+]
Øベンチマーク改善のための提案
Ø評価時により多くの新規クラスを利⽤すること
Øより多くのベースクラスで学習すること
39

NeurIPS2021 メタ学習のまとめ
Ø理論的な研究はもちろん、実⽤・応⽤を重視した研究が注⽬
Ø近い研究分野（NASなど）と絡めた研究が多数 spotlight に採択
Øメタ学習のベンチマーク、問題設定に問題提起をする論⽂も
Ø議論がかなり深まりつつある分野となっている
ØTask-Adaptive Neural Network Search with Meta-Contrastive Learning
Øアーキテクチャに加えて最適なモデルパラメータも探索する
ØHardware-adaptive Efficient Latency Prediction for NAS via Meta-Learning [Lee+]
Øハードウェア最適なニューラルアーキテクチャ探索をメタ学習として解く
ØTwo Sides of Meta-Learning Evaluation: In vs. Out of Distribution
Ø既存のメタ学習ベンチマークの偏りを指摘
40

参考⽂献（Tutorials）
ØAAAI 2021 Meta-learning Tutorial
Øhttps://sites.google.com/mit.edu/aaai2021metalearningtutorial/home
ØICML 2019 Meta-learning Tutorial
Øhttps://sites.google.com/view/icml19metalearning
42

参考⽂献（その他）
ØLearning to learn: Berkeley のブログポスト
Øhttps://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/
Øメタ学習（meta-learning）の紹介 GMO次世代システム研究室
Øhttps://recruit.gmo.jp/engineer/jisedai/blog/meta-learning/
Ø⽇経:メタ学習：学習の仕⽅を学習する、MAMLやNeural Process
Øhttps://xtech.nikkei.com/atcl/nxt/mag/rob/18/00007/00009/#:~:text=%E8%A4%87%
E6%95%B0%E3%81%AE%E3%82%BF%E3%82%B9%E3%82%AF%E3%81%AE%E5%AD%
A6%E7%BF%92,%E6%89%8B%E6%B3%95%E3%82%92%E3%83%A1%E3%82%BF%E5%
AD%A6%E7%BF%92%E3%81%A8%E3%81%84%E3%81%86%E3%80%82
43

メタ学習に関連する研究領域
ØFew-shot 学習（Few-shot learning）
Øマルチタスク学習（Multi-task learning）
Ø転移学習（Transfer learning）
Ø継続学習（Continuous learning）
Ø構造⾃動探索（Neural Architecture Search: NAS）
44

Efficiently Identifying Task Groupings for
Multi-Task Learning [Fifty+, NeurIPS21]
ØMulti-task learning において、単⼀のモデルで考えうる全てのタスクを
学習すると性能が下がってしまう。故に、⼀緒に学習するのに適した
タスクを発⾒する必要がある。
Ø本論⽂の⼿法では、 Computer Visionの taskonomyのようなデータセッ
トに対して、どのタスクとどのタスクを共に学習するとよいか⼀度の
学習のみで選ぶ⽅法を提案する。実験により、性能が上がると⽰され
た。
45

ØMAML を改良した勾配ベースの⼿法が数多く提案されている
Øモデルパラメータ更新の⽅法を変えている
46
https://sites.google.com/mit.edu/aaai2021metalearningtutorial/home

NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会（NeurIPS2021）：世界最先端のAI研究開発動向が1日でわかる！」

More Related Content

What's hot

Similar to NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会（NeurIPS2021）：世界最先端のAI研究開発動向が1日でわかる！」

NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会（NeurIPS2021）：世界最先端のAI研究開発動向が1日でわかる！」