1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“data2vec: A General Framework for
Self-supervised Learning in Speech,Vision and Language ”
Naoki Nonaka
2022/2/2
書誌情報
2022/2/2 2
• 会議:ICML?
• 著者:Meta AI
概要
2022/2/2 3
p モダリティ非依存の自己教師あり学習の手法を提案
p 新規性
n Masked predictionと潜在表現の学習を組み合わせる
n 複数層の出力の平均値を予測対象とする
p Vision, NLP, SpeechでSOTAまたはそれと同程度の性能
背景: モダリティ非依存の自己教師あり学習
2022/2/2 4
p 自己教師あり学習の手法の成功
p これまでの自己教師あり学習はモダリティ依存的
p モダリティ依存的である必然性はないはず
(人間の学習,Percieverの事例)
モダリティ非依存の自己教師あり学習手法の開発
提案手法:data2vec
2022/2/2 5
p Masked prediction + 潜在表現の学習
p TeacherとStudentの2つのモードを利用
n Teacher: 完全な入力データから表現を取得
n Student: マスクされた入力から完全なデータの表現を予測
p 先行研究との相違点:連続な潜在表現の学習 + 最終層以外の表現の利用
提案手法の概念図: data2vecは異なるモダリティのデータに対しても同一の学習過程で学習
提案手法: data2vec(学習手順)
2022/2/3 6
Embed
Embed
Transformer
Transformer
Transformer
Transformer
…
Transformer
Transformer
Transformer
Transformer
…
Exponential Moving Average (EMA)
!!: Top-K average
#!(%!)
p 元画像をTeacher modeで変換し,上位K層の出力の平均(!!)を予測対象
p Maskした入力のStudent modeでの出力を!!に近づける
p Teacher modeのweightはStudentの指数移動平均(EMA)
Teacher mode
Student mode
提案手法: data2vec(学習手順)
2022/2/2 7
損失関数:Smooth L1 loss
L1, L2損失とSmooth L1損失の形状比較([2]より)
実験概要
2022/2/2 8
各モダリティの代表的なデータセットで評価
p Vision: ImageNet
p Speech: Librispeech (LS-960)
p NLP: GLUE benchmark
実験:Vision
2022/2/2 9
Vision taskの学習条件
p 224 x 224 pixelを16 x 16のpatchに分割してEmbed
p 各patchを線形変換後,系列としてTransformerに入力
p MaskingはBEiTと同じ方法
p Random resize, horizontal flip, color jitteringを使用
p Adam optimizer + cosine scheduleで学習
実験:Vision
2022/2/2 10
ViT-B, ViT-Lのいずれにおいても,先行研究を上回る精度
ImageNetの分類結果の比較
実験:Speech & NLP
2022/2/2 11
Speech: Librispeechでの結果の比較
NLP: GLUE benchmarkでの結果の比較
両モダリティにおいても,先行研究を上回るor同程度の精度
実験:使用する層の数の影響
2022/2/2 12
最終層のみを予測(K=1)する場合より
複数層の平均値を予測する方が高い性能
予測対象に使用する層の数と各モダリティにおける性能
予測対象として何層分の出力を用いるべきか?
実験:予測対象とする表現の比較
2022/2/2 13
FFNを予測対象とする場合の精度が最もよい Transformer encoder
([1]より改変)
①
②
③
④
①
②
③
④
Transformer内の表現のうち,どの表現を予測対象とすべきか?
Transformer内の表現と
LibrispeechにおけるWERの関係
結論・まとめ
2022/2/2 14
p モダリティ非依存の自己教師あり学習の手法を提案
p Masked predictionと潜在表現の学習を組み合わせ,
Vision, Speech, NLPにおいてSOTAまたはそれと同程度を達成
p TransformerのFFNを予測対象として,複数層の出力の平均値を
予測対象とすることで高い性能を示した
Reference
2022/2/2 15
1. Attention Is All You Need
2. Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks

[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language