【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning

DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
”Towards Understanding Ensemble, Knowledge Distillation
and Self-Distillation in Deep Learning” ICRL2023
Kensuke Wakasugi, Panasonic Holdings Corporation.
1

書誌情報
2
 タイトル：
Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep
Learning
 著者：
• Zeyuan Allen-Zhu（Meta FAIR Labs）
• Yuanzhi Li（Mohamed bin Zayed University of AI）
 その他:
• ICLR 2023 notable top 5% OpenReview
 選書理由
• ICLR2023のNotable-top-5%から選出。
• アンサンブルや蒸留の動作原理について興味があったため
※特に記載しない限り、本資料の図表は上記論文からの引用です。

はじめに
3
■Contributions
• “multi-view”と呼ぶデータ構造を提案
• アンサンブルと蒸留の動作原理を、理論と実験で示した
■背景・課題
• 初期値のみ異なるネットワークの単純平均アンサンブルや蒸留によって予測性能が向上するが、
この現象がなぜ生じているのか理論的に説明できていない。

論文概要
4
NTKとDLでは、アンサンブルと蒸留の効果が異なることを理論と実験で示した
𝑓 𝑥
1
𝑁
𝑖
𝑓𝑖 𝑥
1
𝑁
𝑖
𝑓𝑖 𝑥
1
𝑁
𝑖
𝑓𝑖 𝑥 → 𝑔 𝑥
𝑓 𝑥 → 𝑔 𝑥
直接学習学習後に平均

背景
5
(1). Boosting: where the coeffcients associated with the combinations of the
single models are actually trained, instead of simply taking average;
(2). Bootstrapping/Bagging: the training data are different for each single model;
(3). Ensemble of models of different types and architectures;
(4). Ensemble of random features or decision trees.
■アンサンブルの理論解析
• いくつかの状況設定で理論解析はあるが、単純平均のアンサンブルにおける理論解析がない
単純平均のアンサンブル学習の理論解析に着目
■単純平均のアンサンブル学習の理論解析
• 初期化乱数のみ異なるモデル（学習データ、学習率、アーキテクチャ固定）における以下の現
象を
理論的に説明することを試みる
 Training average does not work: 学習前にモデルをアンサンブルしても効果
なし
 Knowledge distillation works:単一モデルに複数モデルから蒸留できる
 Self-distillation works:単一モデルから別の単一モデルへの蒸留でも性能が向上

Neural Tangent Kernel
6
１、NNパラメータの更新式
𝒘𝑡+1 = 𝒘𝑡 − 𝜂
𝜕𝑙𝑜𝑠𝑠
𝜕𝒘
２、微分方程式とみなすと
𝜕𝒘
𝜕𝑡
= −
𝜕𝑙𝑜𝑠𝑠
𝜕𝒘
＝ −
𝜕𝒚
𝜕𝒘
(𝒚 − 𝒚)
3、学習中の出力𝑦の変化
𝜕𝒚
𝜕𝑡
=
𝜕𝒚
𝜕𝒘
𝑇
𝜕𝒘
𝜕𝑡
＝ −
𝜕𝒚
𝜕𝒘
𝑇
𝜕𝒚
𝜕𝒘
(𝒚 − 𝒚)
4、Neural Tangent Kernel
𝝓 =
𝜕𝒚
𝜕𝒘
, 𝑲 =
𝜕𝒚
𝜕𝒘
𝑇
𝜕𝒚
𝜕𝒘
※ 𝒚は複数の学習データを
並べてベクトル化
※ 𝜙はカーネル法でいうところの
高次元特徴量空間への写像関数
5、width→∞でK→const
𝜕𝒚
𝜕𝑡
= −𝑲(𝒚 − 𝒚)
6、 𝒅 = 𝒚 − 𝒚について
𝜕𝒅
𝜕𝑡
= −𝑲𝒅
𝒅 𝑡 = 𝒅 0 𝑒−𝑲𝑡
※𝑲は正定値行列で，
固有値は収束の速さに対応
学習パラメータ
𝒘
出力
𝑦
目的関数
loss
学習データ
𝑥
正解ラベル
𝑦
関数
𝑓
学習中の出力𝑦の変化をNTKで線形近似。大域解に収束できる。
参考：Neural Tangent Kernel: Convergence and Generalization in Neural Networks (neurips.cc)
Understanding the Neural Tangent Kernel – Rajat's Blog – A blog about machine learning and math. (rajatvd.github.io)

NTKにおけるアンサンブル、平均モデル学習、蒸留の効果
7
■NTKによる出力の近似
• NTK 𝝓 の線形結合で表現
■アンサンブル
• 線形結合をとる𝝓が増える
→ 特徴選択によって性能向上
※NTKのアンサンブルでの性能向上は、variance
の軽減によるものと思うが、本文中では特徴選択
と記載
アンサンブル、平均モデル学習は機能し、蒸留は機能しない
■平均モデル学習
• 線形結合をとる𝝓が増える+Wも学習
→ 特徴選択によって性能向上
■蒸留
• 蒸留先に、選択された特徴がないの
で、
性能向上せず
×
NTKでは、特徴選択によって性能向上するが、
DLでは別の仕組みで性能向上しているのではないか（特徴
学習）

DLにおけるアンサンブルの効果
8
ガウス状の入力の場合、ラベルノイズ有り無しに関わらずアンサンブルの効果な
し
単にばらつきを抑えるだけでは、性能向上しない
（後述するが）10モデルのアンサンブルでは、テスト精度の分散以上に性能
向上する

問題設定
9
■NTK、DLに関する関連研究結果を踏まえ、以下の問題設定を考え
る
• ガウス分布よりも構造化された入力分布。ラベルノイズなし
• 訓練は完璧（誤差０）で、テスト精度にばらつきなし
• 初期化乱数のみ異なる複数のモデルを
• アーキテクチャや学習データ、学習アルゴの違いなし
• 学習の失敗は起こらない
上記を満たしたうえで、
アンサンブルによる性能向上を説明するアイディ
アとして、
multi-viewを提案
各種観察事実を説明する仮説としてmulti-viewを提案

multi-view
10
■multi-viewデータの例
• 車の構成要素（view）として、
window、headlight、wheelを想
定
• ただし、3つの内１つが欠けた車
もある
• 猫を示す特徴を含む場合がある
クラスラベルごとに複数viewを持ち、欠損や共存も想定

multi-view
11
seed違いで異なるviewを獲得。実データでも確認。
• 2クラス分類で、それぞれviewを2つ持つ
• ただし、他クラスの特徴を持つ場合、
single viewの場合がある
• 学習時、lossを減らすためは、viewのいずれかを
獲得すればよく、viewの未学習が生じる
• アンサンブルではそれをカバーするので、性能向
上する
• 蒸留では、ソフトラベルによって、0.1だけ含ま
れる特徴の学習が促される
NTKとの対比として
DLでは、必要なviewを学習できるが、
NTK（random feature）では学習できない
ため、
振る舞いの違いが生じる

理論解析：データ構造
12
P個のパッチにviewが埋め込まれているデータ構造を考える
• Vision Transformerのよう
な入力形式を想定
• multiとsingleの割合などはパラメータ
• 理論解析全体を通して、
各種パラメータをクラス数kで表現する
（※理由わからず）。

ネットワーク
13
※数式的には畳み込みは1層分？
2層のCNN+滑らかなReLUを利用

学習
14
一般的な学習方法

テスト時の精度
15
• 十分高い確率で完璧な学習ができ、
テスト時の不正解確率が0.49μ～0.51μ
に収まる
• μ：Single Viewの割合
• 1-μ：Multi-Viewの割合
テスト時の精度を解析的に提示

アンサンブル時の精度
16
アンサンブルモデルのテスト時の不正解
確率が<0.001μ
アンサンブルモデルの性能が向上

蒸留時の精度
17
蒸留モデルのテスト時の不正解確率が
<0.001μ
蒸留によって、アンサンブルモデルと同程度の精度を獲得

自己蒸留の精度
18
• 2モデルアンサンブル相当の性能のため
低めだが、単体モデルよりも性能向上
2モデルのアンサンブルと同等の精度を獲得

実データでの検証実験
19
NTKとDLにおけるアンサンブルの働きの違いを検証
• 冒頭の上図に対応する実験結果

multi-view仮説の検証
20
channelの切り捨てで性能低下しても、アンサンブルで復元
• channel毎にviewを獲得して
おり、
それらの組合せが重要である
ことを示唆

まとめ・所感
21
 まとめ
• Multi-view仮説を提案。
• NTKとDLにおけるアンサンブルの働きの違いを理論的に証明。
• ランダムクロップによるデータ拡張など、
Multi-view仮説に基づく特徴獲得手法への発展を期待
 所感
• データ構造まで取り扱っており面白い。
• アンサンブルと一言にいっても、機能の仕方が異なっており、その一部をうまく整理
している印象。dropoutなども同様に説明がつきそう。
• まとめにある通り、汎化性能向上策への展開が期待される

【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (9)

【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning