Lpicel paper lt_5

【画像処理&機械学習】論文LT会 #5
Distilling the Knowledge in a Neural Network
(https://arxiv.org/abs/1503.02531)
2019/07/22
@kaeru_nantoka

Self Introduction
・kaerururu (@kaeru_nantoka)
・機械学習エンジニア(NLP) @Stockmark.Inc
・Kaggle Master

・特に断りのない画像や図、数式については元の論文から引用してきています。
Caution

Motivation for choosing this paper
・業務で BERT を使う
・BERT の Fine-tune model は一つ
500MB と大容量
・重い。なんとかしたい。
（そのためのインプット）
・原著に近い（🐸調べ）
500 MB !

What is Distillation ?
・通常の softmax ではなく温度付き softmax を使う
どんなもの？どうやって有効だと検証した?
何が嬉しいの？
技術や手法のキモは？
次に読むべき論文は?
Do Deep Nets Really Need to be Deep?
[https://arxiv.org/abs/1312.6184]
・アンサンブルモデルの出力を学習に利用することで、モバイル
デバイスにデプロイできるような軽量なモデルの精度をそのまま
学習するのに比べて底上げできる。
・複数のモデルが学習した情報を単一のモデルに移せる。 MNIST、音声認識データセット、大規模データセット (Google
内部の JFT と呼ばれるデータセット) を利用。
・教師生徒の両モデルの温度付き softmax の KL divergence
loss が小さくなるように学習を進める

What is Distillation ?
data teacher model
student model
logit
logit
(ensembled)
yatta~

What is softmax with temperature？ (数式)
( 数式 )
( 実装 )

What is softmax with temperature？ (お気持ち)
・教師モデルが学習した情報 (どのクラスとどのクラスが間違いやすい
= softmax 値が近いなど) を活用したい。
・softmax 値を使うのでは target を使うのとあまり変わらない。
・重み ( = 温度 ) をつけて低い確率を強調し、
情報を活用しやすくする。
※ 画像は https://qiita.com/nkriskeeic/items/db3b4b5e835e63a7f243 より引用

どれくらい効果あるの？
・論文
・kaeru やってみた (kaggle freesound2019)

Conclusion
・ CV は下がる (正則化効果) が、LB は微増 (汎化性能向上) した。
・軽量なモデルの予測精度向上への寄与に成功した。
・一方で、教師モデルに近い表現力を持った生徒モデルを利用しないケ
ースでは精度は向上するものの効果は限定的であるという示唆が得られ
た。
🐸 「 BERT → 軽量モデルは難しそう・・？」

References
[1] https://arxiv.org/abs/1503.02531
[2] https://www.cs.cornell.edu/~caruana/compression.kdd06.pdf
[3] https://kaeru-nantoka.hatenablog.com (筆者 blog)

Lpicel paper lt_5

Recommended

Recommended

More Related Content

What's hot

What's hot (16)

Similar to Lpicel paper lt_5

Similar to Lpicel paper lt_5 (20)

Lpicel paper lt_5

Editor's Notes