SlideShare a Scribd company logo
1 of 16
Download to read offline
A Perspec)ve View and
Survey of Meta-Learning
R. Vilalta & Y. Drissi, Ar0ficial Intelligence Review, 2002.
紹介者:松井孝太(名古屋⼤)
matsui.k@med.nagoya-u.ac.jp
2020/11/21 昔の論⽂読み会
メタ学習
標語的な定義
機械学習モデルが
• 複数の学習エピソードに渡って経験を積み,
• その経験を将来の学習性能を向上させるために利⽤できるようにする
転移学習のフレームワーク
実際にやっていること
学習エピソードを訓練データとして学習アルゴリズム(= メタ知識)
⾃体を学習する
cf. 帰納バイアス学習 (inductive bias learning), 学習のための学習 (learning to learn)
メタ知識 / 帰納バイアス
• 機械学習を実⾏する際におく様々な仮定のこと
• どのような仮説集合を設定するか
• 線形モデルを使う → 線形回帰,線形判別
• deep neural networkを使う → 深層学習
• どの最適化アルゴリズムを使⽤するか
• SGD
• Adam
• …
• 学習アルゴリズム(上記の仮定群から構成される)に
よって問題に埋め込まれる
メタ知識 / 帰納バイアス
• 帰納バイアスは以下のような形で学習プロセスに影響を与え
る
1. 仮説集合の⼤きさ(e.g. |線形モデルの集合| ≦ |DNNの集合|)
→ 集合として⼩さい⽅がバイアスが⼤きい(仮定が強い)
2. 仮説の間のランキング(e.g. 損失関数の値をスコアにする)
→ スコアが良い仮説(仮定を満たす仮説)を選ぶ
• 選んだ仮説集合中に真のターゲット関数が含まれているとき,帰納バ
イアスはcorrectであるという(普通は incorrect)
• 伝統的なのMLの問題では帰納バイアスは事前に固定され,学習の間は
不変
素朴な「学習の観察」からの知⾒
• 全てのタスクの集合の中に「解けるタスク (Structured tasks)」と
「解けないタスク (Random tasks)」がある
• ある学習アルゴリズムが効率的に解けるのは,そのアルゴリズ
ムが埋め込むバイアスに適合する部分領域のタスクのみ
• バイアスが固定されている限り,領域外のタスクは解けない
全てのタスクの集合
Random tasks
Structured tasks
80 RICARDO VILALTA AND YOUSSEF DRISSI
Figure 1. Each learning algorithm covers a region of (structured) tasks favored by its bias.
Task T1 is best learned by algorithm LA, T2 is best learned by alogrithm LB, whereas T3 is
best learned by both LA and LB. Task T4 lies outside the scope of LA and LB.
be ascribed a low degree of (e.g. Kolmogorov) complexity (Li and Vitanyi
(1997)). The assumption is left unspecified; we simply want to distinguish
between two sets of tasks: structured and random.
メタ学習の⽬標
• 学習アルゴリズム がなぜ領域 で⽀配的に振る舞えるのかを
学習する(以下の2つのパートに分解できる)
1. 領域 に含まれるタスクの性質を調べる
→ 何がアルゴリズム に適応的なのか
2. 学習アルゴリズム の性質(構成要素,それらの相互作⽤)を調べる
→ 何が を⽀配的たらしめているのか
• メタ学習の「解」は
• 各タスクに適当なアルゴリズムを選ぶガイドラインを与える
• 学習アルゴリズムをタスクの特性に適合させる⽅法を⽰す
• ⼿持ちの学習アルゴリズムの対象外なタスクを解くことができる
e.g. メタ学習の解によって複数のbase-learnerの予測を組み合わせる
→ いわゆるドメイン汎化(domain generalizaEon)
Figure 1. Each learning algorithm covers a region of (structured) tasks favored by its bias.
Task T1 is best learned by algorithm LA, T2 is best learned by alogrithm LB, whereas T3 is
best learned by both LA and LB. Task T4 lies outside the scope of LA and LB.
be ascribed a low degree of (e.g. Kolmogorov) complexity (Li and Vitanyi
(1997)). The assumption is left unspecified; we simply want to distinguish
between two sets of tasks: structured and random.
3.1. Goals in Meta-Learning
One goal in meta-learning is to learn what causes L to dominate in region RL.
The problem can be decomposed in two parts: 1) determine the properties
of the tasks in RL that make L suitable for such region, and 2) determine
the properties of L (i.e. what are the components contained by algorithm L
and how they interact with each other) that contribute to dominate in RL.
A solution to the problem above would provide guidelines for choosing the
right learning algorithm on a particular task. As illustrated in Figure 1, each
task Ti may lie inside or outside the region that favors the bias embedded
by a learning algorithm L. In Figure 1, task T1 is best learned by algorithm
• 学習した仮説や学習アルゴリズムが採⽤した帰納バイアスの質
を評価する⽅法を定義する必要がある
• 「メタ特徴」を使ってドメイン*を特徴づけたい
82 RICARDO VILALTA AND YOUSSEF DRISSI
Figure 2. A flow diagram of a self-adaptive learner.
whereas the bias is now selected dynamically, the meta-learner is not self-
adaptive and employs a fixed form of bias. Clearly the meta-learner can be
seen as a learning algorithm too, but lacking the adaptability ascribed to the
base learner. Ideally we would like the meta-learner to be self-adaptive (i.e.
to improve through experience). One solution could be to continue with the
same logical fashion as in Figure 2, and define a meta-meta-learner helping
the meta-learner improve through experience. The problem, however, does
*ドメイン:サンプル空間とデータ⽣成分布の組
⾃⼰適応的学習 (Self-Adap+ve Learning)
[Vilalta, 2001]
• SALでは帰納バイアスは動的に選択されるが,meta-learnerはfix
された(⼀段階メタな)帰納バイアスを使って学習アルゴリズ
ムを導出する
→ 伝統的MLの学習アルゴリズム的な働き
• meta-meta-learnerを導⼊すればmeta-learnerの使う帰納バイアス
も動的に選択できる(がどこで⽌める?)
82 RICARDO VILALTA AND YOUSSEF DRISSI
Figure 2. A flow diagram of a self-adaptive learner.
whereas the bias is now selected dynamically, the meta-learner is not self-
adaptive and employs a fixed form of bias. Clearly the meta-learner can be
seen as a learning algorithm too, but lacking the adaptability ascribed to the
base learner. Ideally we would like the meta-learner to be self-adaptive (i.e.
to improve through experience). One solution could be to continue with the
same logical fashion as in Figure 2, and define a meta-meta-learner helping
the meta-learner improve through experience. The problem, however, does
⽣成されたドメインに
関するメタ特徴(ドメイン知識)
がメタ帰納バイアスになる
base-learning
全体としてbase-learningを⾏う際の
帰納バイアスは動的に選択される
⾃⼰適応的学習 (Self-Adap+ve Learning)
[Vilalta, 2001]
A Survey of Meta-Learning
• A meta-learner of base-learners
• stacked generalization(スタッキング)
• Dynamic selection of bias
• 複数の仮説集合を探索
• 特徴を追加・削減して仮説集合の⼤きさを変える
• メタルールによって直接仮説をフィルタリングする
• Meta-rules matching domains with algorithm performance
→ 学習アルゴリズムとそれを動かすドメインを関連付ける⽅法の探索
1. ドメインを特徴づけるメタ特徴とそのドメインにおけるある学習ア
ルゴリズムの性能 (予測精度, 計算複雑度, 表現能⼒…) の組からなるメ
タドメインを定義
2. メタドメインを学習データにして,ある学習アルゴリズムがあるド
メインで最優であるとき,その条件を発⾒するルールを学習
スタッキング
様々なアルゴリズムで仮説を
学習し, その出⼒を⼊⼒とする
上位の仮説 をさらに学習
•
•
•
A Survey of Meta-Learning
• Finding regions in the feature space and meta-feature space
→ ドメインではなくテスト事例毎に学習アルゴリズムを選ぶ
• Landmarking
• ドメインを特徴づける役割の学習アルゴリズム集合 (landmarkers) とタ
スクの仮説を学習する学習アルゴリズム集合 (pool) を⽤意
• 以下の⼿順でメタドメインを構成
1. 各ドメインの事例にlandmarkersによるerror rateを付与(メタ特徴)
2. 各メタ特徴にpool内のbest CV accuracyを達成するアルゴリズムをラベルとして
付与(メタラベル)
• meta-learnerはlandmarkersの得意なタスク領域をpoolの学習アルゴリズ
ムと相関させるように働く
• InducGve transfer and learning to learn
→ 前者は所謂「教師あり転移学習」後者は現在ではメタ学習を同義的に
使われている
Inductive Transfer (帰納的転移)
· · ·· · ·
例:深層ニューラルネットの学習技法
Feature Extrac+on Fine Tuning
今⾵に⾔うと教師あり転移学習
→ 元ドメイン,⽬標ドメインともにラベルデータがある場合の転移学習
メタ学習の現代⾵な定式化
[Hospedales+, arXiv:2004.05439]
• 「タスク」とは,データ集合と損失関数の組で与えられる :
• タスクは,ある確率分布(タスク分布)に従う確率変数 :
このとき,メタ学習は以下のような最適化問題として定義される
→ メタ学習 : メタ知識 (e.g. 仮説集合,学習アルゴリズム)の学習
• 具体的には,ωを最適化するメタ訓練と学習したωの性能を評価するメタテスト
の2フェイズで構成される
メタ学習の現代⾵な定式化
[Hospedales+, arXiv:2004.05439]
メタ学習 : メタ知識 の学習
メタ損失
個別タスクの損失
メタ訓練フェイズの2-level最適化問題としての定式化
⽬的関数:メタ知識の最適化
制約条件:個別タスクのパラメータ学習 (e.g. NNの訓練)
メタ学習 vs 転移学習 vs 継続学習
• 転移学習
• 元ドメインと⽬標ドメインが固定され(与えられ)ている
• 固定された⽬標ドメインのタスク性能が絶対的な評価指標
• メタ学習
• 元ドメインの集合のみが与えられていて⽬標ドメインは未知
• ただし,全てのドメインは独⽴同⼀のタスク分布に従うと仮定
• タスク分布からサンプリングしたテストドメインのタスク性能で学習したメ
タ知識の良さを評価
• 継続学習
• ドメインがストリームで与えられる
• 現在のドメインを⽬標,それ以前のドメインを元として転移学習
• 過去タスクの性能を悪化させないことが重要な評価指標(破滅的忘却)
まとめ
• メタ学習のコンセプト
• メタ知識/帰納バイアス
• 定式化と⽬標
• ⾃⼰適応的学習
• 仮説を学習する際の帰納バイアスを動的に選ぶ実際の⽅法の⼀つ
• ただし,上記のコンセプトと照らし合わせると完全なメタではない
• メタ学習のいろいろな問題設定の紹介
• (おまけ)メタ学習の現代⾵の定義とよく似た転移学習・継続
学習との違い

More Related Content

What's hot

[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
ICML 2021 Workshop 深層学習の不確実性について
ICML 2021 Workshop 深層学習の不確実性についてICML 2021 Workshop 深層学習の不確実性について
ICML 2021 Workshop 深層学習の不確実性についてtmtm otm
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたいTakuji Tahara
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Surveytmtm otm
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話Satoshi Hara
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-Joe Suzuki
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 

What's hot (20)

[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
ICML 2021 Workshop 深層学習の不確実性について
ICML 2021 Workshop 深層学習の不確実性についてICML 2021 Workshop 深層学習の不確実性について
ICML 2021 Workshop 深層学習の不確実性について
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
 
正準相関分析
正準相関分析正準相関分析
正準相関分析
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 

Similar to 論文紹介「A Perspective View and Survey of Meta-Learning」

[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement LearningDeep Learning JP
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫Masahiro Yasumoto
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用Eiji Uchibe
 
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介YukiK2
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
Adversarial Multi-task Learning for Text Classification
Adversarial Multi-task Learning for Text ClassificationAdversarial Multi-task Learning for Text Classification
Adversarial Multi-task Learning for Text ClassificationMakoto Takenaka
 
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項tomitomi3 tomitomi3
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践Preferred Networks
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 

Similar to 論文紹介「A Perspective View and Survey of Meta-Learning」 (11)

[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
Adversarial Multi-task Learning for Text Classification
Adversarial Multi-task Learning for Text ClassificationAdversarial Multi-task Learning for Text Classification
Adversarial Multi-task Learning for Text Classification
 
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 

論文紹介「A Perspective View and Survey of Meta-Learning」

  • 1. A Perspec)ve View and Survey of Meta-Learning R. Vilalta & Y. Drissi, Ar0ficial Intelligence Review, 2002. 紹介者:松井孝太(名古屋⼤) matsui.k@med.nagoya-u.ac.jp 2020/11/21 昔の論⽂読み会
  • 3. メタ知識 / 帰納バイアス • 機械学習を実⾏する際におく様々な仮定のこと • どのような仮説集合を設定するか • 線形モデルを使う → 線形回帰,線形判別 • deep neural networkを使う → 深層学習 • どの最適化アルゴリズムを使⽤するか • SGD • Adam • … • 学習アルゴリズム(上記の仮定群から構成される)に よって問題に埋め込まれる
  • 4. メタ知識 / 帰納バイアス • 帰納バイアスは以下のような形で学習プロセスに影響を与え る 1. 仮説集合の⼤きさ(e.g. |線形モデルの集合| ≦ |DNNの集合|) → 集合として⼩さい⽅がバイアスが⼤きい(仮定が強い) 2. 仮説の間のランキング(e.g. 損失関数の値をスコアにする) → スコアが良い仮説(仮定を満たす仮説)を選ぶ • 選んだ仮説集合中に真のターゲット関数が含まれているとき,帰納バ イアスはcorrectであるという(普通は incorrect) • 伝統的なのMLの問題では帰納バイアスは事前に固定され,学習の間は 不変
  • 5. 素朴な「学習の観察」からの知⾒ • 全てのタスクの集合の中に「解けるタスク (Structured tasks)」と 「解けないタスク (Random tasks)」がある • ある学習アルゴリズムが効率的に解けるのは,そのアルゴリズ ムが埋め込むバイアスに適合する部分領域のタスクのみ • バイアスが固定されている限り,領域外のタスクは解けない 全てのタスクの集合 Random tasks Structured tasks 80 RICARDO VILALTA AND YOUSSEF DRISSI Figure 1. Each learning algorithm covers a region of (structured) tasks favored by its bias. Task T1 is best learned by algorithm LA, T2 is best learned by alogrithm LB, whereas T3 is best learned by both LA and LB. Task T4 lies outside the scope of LA and LB. be ascribed a low degree of (e.g. Kolmogorov) complexity (Li and Vitanyi (1997)). The assumption is left unspecified; we simply want to distinguish between two sets of tasks: structured and random.
  • 6. メタ学習の⽬標 • 学習アルゴリズム がなぜ領域 で⽀配的に振る舞えるのかを 学習する(以下の2つのパートに分解できる) 1. 領域 に含まれるタスクの性質を調べる → 何がアルゴリズム に適応的なのか 2. 学習アルゴリズム の性質(構成要素,それらの相互作⽤)を調べる → 何が を⽀配的たらしめているのか • メタ学習の「解」は • 各タスクに適当なアルゴリズムを選ぶガイドラインを与える • 学習アルゴリズムをタスクの特性に適合させる⽅法を⽰す • ⼿持ちの学習アルゴリズムの対象外なタスクを解くことができる e.g. メタ学習の解によって複数のbase-learnerの予測を組み合わせる → いわゆるドメイン汎化(domain generalizaEon) Figure 1. Each learning algorithm covers a region of (structured) tasks favored by its bias. Task T1 is best learned by algorithm LA, T2 is best learned by alogrithm LB, whereas T3 is best learned by both LA and LB. Task T4 lies outside the scope of LA and LB. be ascribed a low degree of (e.g. Kolmogorov) complexity (Li and Vitanyi (1997)). The assumption is left unspecified; we simply want to distinguish between two sets of tasks: structured and random. 3.1. Goals in Meta-Learning One goal in meta-learning is to learn what causes L to dominate in region RL. The problem can be decomposed in two parts: 1) determine the properties of the tasks in RL that make L suitable for such region, and 2) determine the properties of L (i.e. what are the components contained by algorithm L and how they interact with each other) that contribute to dominate in RL. A solution to the problem above would provide guidelines for choosing the right learning algorithm on a particular task. As illustrated in Figure 1, each task Ti may lie inside or outside the region that favors the bias embedded by a learning algorithm L. In Figure 1, task T1 is best learned by algorithm
  • 7. • 学習した仮説や学習アルゴリズムが採⽤した帰納バイアスの質 を評価する⽅法を定義する必要がある • 「メタ特徴」を使ってドメイン*を特徴づけたい 82 RICARDO VILALTA AND YOUSSEF DRISSI Figure 2. A flow diagram of a self-adaptive learner. whereas the bias is now selected dynamically, the meta-learner is not self- adaptive and employs a fixed form of bias. Clearly the meta-learner can be seen as a learning algorithm too, but lacking the adaptability ascribed to the base learner. Ideally we would like the meta-learner to be self-adaptive (i.e. to improve through experience). One solution could be to continue with the same logical fashion as in Figure 2, and define a meta-meta-learner helping the meta-learner improve through experience. The problem, however, does *ドメイン:サンプル空間とデータ⽣成分布の組 ⾃⼰適応的学習 (Self-Adap+ve Learning) [Vilalta, 2001]
  • 8. • SALでは帰納バイアスは動的に選択されるが,meta-learnerはfix された(⼀段階メタな)帰納バイアスを使って学習アルゴリズ ムを導出する → 伝統的MLの学習アルゴリズム的な働き • meta-meta-learnerを導⼊すればmeta-learnerの使う帰納バイアス も動的に選択できる(がどこで⽌める?) 82 RICARDO VILALTA AND YOUSSEF DRISSI Figure 2. A flow diagram of a self-adaptive learner. whereas the bias is now selected dynamically, the meta-learner is not self- adaptive and employs a fixed form of bias. Clearly the meta-learner can be seen as a learning algorithm too, but lacking the adaptability ascribed to the base learner. Ideally we would like the meta-learner to be self-adaptive (i.e. to improve through experience). One solution could be to continue with the same logical fashion as in Figure 2, and define a meta-meta-learner helping the meta-learner improve through experience. The problem, however, does ⽣成されたドメインに 関するメタ特徴(ドメイン知識) がメタ帰納バイアスになる base-learning 全体としてbase-learningを⾏う際の 帰納バイアスは動的に選択される ⾃⼰適応的学習 (Self-Adap+ve Learning) [Vilalta, 2001]
  • 9. A Survey of Meta-Learning • A meta-learner of base-learners • stacked generalization(スタッキング) • Dynamic selection of bias • 複数の仮説集合を探索 • 特徴を追加・削減して仮説集合の⼤きさを変える • メタルールによって直接仮説をフィルタリングする • Meta-rules matching domains with algorithm performance → 学習アルゴリズムとそれを動かすドメインを関連付ける⽅法の探索 1. ドメインを特徴づけるメタ特徴とそのドメインにおけるある学習ア ルゴリズムの性能 (予測精度, 計算複雑度, 表現能⼒…) の組からなるメ タドメインを定義 2. メタドメインを学習データにして,ある学習アルゴリズムがあるド メインで最優であるとき,その条件を発⾒するルールを学習
  • 11. A Survey of Meta-Learning • Finding regions in the feature space and meta-feature space → ドメインではなくテスト事例毎に学習アルゴリズムを選ぶ • Landmarking • ドメインを特徴づける役割の学習アルゴリズム集合 (landmarkers) とタ スクの仮説を学習する学習アルゴリズム集合 (pool) を⽤意 • 以下の⼿順でメタドメインを構成 1. 各ドメインの事例にlandmarkersによるerror rateを付与(メタ特徴) 2. 各メタ特徴にpool内のbest CV accuracyを達成するアルゴリズムをラベルとして 付与(メタラベル) • meta-learnerはlandmarkersの得意なタスク領域をpoolの学習アルゴリズ ムと相関させるように働く • InducGve transfer and learning to learn → 前者は所謂「教師あり転移学習」後者は現在ではメタ学習を同義的に 使われている
  • 12. Inductive Transfer (帰納的転移) · · ·· · · 例:深層ニューラルネットの学習技法 Feature Extrac+on Fine Tuning 今⾵に⾔うと教師あり転移学習 → 元ドメイン,⽬標ドメインともにラベルデータがある場合の転移学習
  • 13. メタ学習の現代⾵な定式化 [Hospedales+, arXiv:2004.05439] • 「タスク」とは,データ集合と損失関数の組で与えられる : • タスクは,ある確率分布(タスク分布)に従う確率変数 : このとき,メタ学習は以下のような最適化問題として定義される → メタ学習 : メタ知識 (e.g. 仮説集合,学習アルゴリズム)の学習 • 具体的には,ωを最適化するメタ訓練と学習したωの性能を評価するメタテスト の2フェイズで構成される
  • 14. メタ学習の現代⾵な定式化 [Hospedales+, arXiv:2004.05439] メタ学習 : メタ知識 の学習 メタ損失 個別タスクの損失 メタ訓練フェイズの2-level最適化問題としての定式化 ⽬的関数:メタ知識の最適化 制約条件:個別タスクのパラメータ学習 (e.g. NNの訓練)
  • 15. メタ学習 vs 転移学習 vs 継続学習 • 転移学習 • 元ドメインと⽬標ドメインが固定され(与えられ)ている • 固定された⽬標ドメインのタスク性能が絶対的な評価指標 • メタ学習 • 元ドメインの集合のみが与えられていて⽬標ドメインは未知 • ただし,全てのドメインは独⽴同⼀のタスク分布に従うと仮定 • タスク分布からサンプリングしたテストドメインのタスク性能で学習したメ タ知識の良さを評価 • 継続学習 • ドメインがストリームで与えられる • 現在のドメインを⽬標,それ以前のドメインを元として転移学習 • 過去タスクの性能を悪化させないことが重要な評価指標(破滅的忘却)
  • 16. まとめ • メタ学習のコンセプト • メタ知識/帰納バイアス • 定式化と⽬標 • ⾃⼰適応的学習 • 仮説を学習する際の帰納バイアスを動的に選ぶ実際の⽅法の⼀つ • ただし,上記のコンセプトと照らし合わせると完全なメタではない • メタ学習のいろいろな問題設定の紹介 • (おまけ)メタ学習の現代⾵の定義とよく似た転移学習・継続 学習との違い