【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Scale Efficiently: Insights from Pre-training and Fine-
tuningTransformers” (ICLR2022)
Okimura Itsuki, Matsuo Lab, M1

アジェンダ
1. 書誌情報
2. 概要
3. 背景
4. 問題意識
5. 実験
6. 追加実験
2

１書誌情報
タイトル： Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers
出典： ICLR2022 https://openreview.net/pdf?id=f2OYVDyfIB
著者： Yi Tay, Mostafa Dehghani, Jinfeng Rao, William Fedus, Samira
Abnar, Hyung Won Chung, Sharan Narang, Dani Yogatama, Ashish
Vaswani, Donald Metzler (Google Research & Deepmind)
選んだ理由：べき乗則の再検討みたいなもので気になった
3

2 概要
• Transformer言語モデルでの上流で観察されるべき乗則が
下流のタスクにどのように影響するのかは不明であった．
• そこで多様な形状のT5ベースのモデルについて上流の言語モデリングと
下流でのタスクの性能を検証し，
上流タスクでの性能は下流タスクでの性能を保証しないことを示した．
• また，下流タスクの性能はモデルの形状に影響を受け，層が深く幅が狭い
DeepNarrowなモデルの学習効率が優れていることも示した．
• DeepNarrowなモデルの優位性は他のNLPタスクで学習した場合や
ViTでFew-shot学習を行った場合においても観察された．
4

3 背景
言語モデルにおけるべき乗則(Scaling law)
Transformer言語モデルにおいて，
言語モデルの損失とその他のパラメータの
関係を検証
言語モデルのクロスエントロピー損失Lと
計算能力C，データセットサイズD，
パラメータ数Nの間でべき乗則が観察された
*べき乗則…ある観測量が別の観測量の対数
に比例する
モデルの形状の影響は軽微
5
出典: https://arxiv.org/pdf/2001.08361.pdf

3 背景
より最適なべき乗則
一定の計算予算において言語モデリングを
学習するのに最適なモデルのパラメータを検証
前述のべき乗則ではモデルサイズに対し
データセットが不足しており，
モデルサイズと学習トークン数は等しい割合で
拡張されるべきと主張
提案したモデルChinchillaは既存のモデルより
少ないパラメータで多くのデータを学習する
ことで，性能が上回る
6
出典: https://arxiv.org/pdf/2203.15556.pdf

4 問題意識
7
べき乗則においていまだ不明な点は存在する
性能はモデルサイズによってスケールする
→固定された比率でスケールさせるべきなのか？
上流の性能がべき乗則に従う
→下流タスクでの性能は上流のべき乗則に従うのか？

5 実験
8
多様な形状のモデルについて、上流と下流でのタスクの性能を検証
T5ベースアーキテクチャの様々なモデルサイズで
層の深さなどモデルの形状を変化させたモデルでの
性能を検証する．
Ex. NL16-Base
上流
C4で学習した言語モデリングタスクでの損失
下流
GLUE / SuperGLUE / SQuADでの正解率

5 実験
上流タスクでの性能は下流タスクでの性能を保証しない
9
パラメータ数と上流，下流それぞれの
性能をプロットしたのが右図
上流での性能はモデルサイズと
強い相関があるのに対し、
SuperGLUEでの微調整後の下流の
性能では相関は消失する
形状設定が適切でない場合には，
下流のタスクでの性能が著しく
低下する場合も存在するため，
事前学習による損失は
誤解を招く可能性がある．

5 実験
モデルのアーキテクチャパラメータの与える下流タスクへの影響は異なる
10
モデルの次元(DM)，隠れ層の次元(FF)，
ヘッド数(NH)，レイヤー数(NL)を
それぞれ操作した際の
上流と下流での性能を調査．
上流と下流でスケーリングの効果が異なる
場合が存在する．(ex. FF2K, NH8)
レイヤー数(NL)は隠れ層の次元(FF)より
も性能に対して効率的に寄与する．
→DeepNarrow(深くて次元が狭い)な
モデルが(パレート)効率的？

5 実験
DeepNarrowモデルは効率的に同性能を達成できる
11
モデルの深さを優先的に増やした
DeepNarrowなモデルとそれより一段階
パラメータ数の大きいモデルの性能を評価．
モデルの深さを優先的に増やした
DeepNarrowなモデルは少ないパラメータ，
少ない計算量，早い速度でそうでないモデルと
同程度の性能を達成できる．
Ex. 標準的なXLモデルを，
36層のlargeモデルで62%のパラメータ節約し，
２倍に高速化し，低いFLOPsコストで
アウトパフォームすることができる．

5 実験
深さによる効率性の向上にも限界は存在する
12
深さを増やした場合のスモールモデル，
ベースモデル，ラージモデルの性能の
推移をプロットしたのが右図．
深さを増やしたモデルは
そうでないモデルよりもパレート効率的
であるが，徐々にその効果は先細り
していき，32~36層程度で収束する．
多層化による勾配消失は本実験では
見られなかったらしい

6 追加実験
他のNLPタスクでもDeepNarrowなモデルの優位性は観察できる
13
同様のことが他のデータセットでも生じるか
確認するため，
DeepNarrowなT5スモールモデルと
T5ベースモデルで12種類のNLPのタスクに
ファインチューニングを行った結果を示す．
DeepNarrowなT5スモールモデルは
T5ベースモデルと比較して14%少ないパラ
メータと10%少ないFLOPSを実現し，
12個のタスクのうち，11個のタスクでT5モ
デルを上回る，または同率のスコアを示す．

6 追加実験
ViTでもDeepNarrowなモデルの優位性は観察できる
14
同様のことが他のモダリティでも起こるかを
検証するため，ViTでの事前学習後の
Few-shot性能を比較．
DeepNarrowなViT-Sモデルは，
ViT-Bモデルと比較してより
良いパレート効率を示す．
特に、L = 24の場合，15%少ないパラメータ、
11%少ないFLOPsでより良いFew-shot精度
を達成した．

まとめ
15
• Transformer言語モデルでの上流で観察されるべき乗則が
下流のタスクにどのように影響するのかは不明であった．
• そこで多様な形状のT5ベースのモデルについて上流の言語モデリングと
下流でのタスクの性能を検証し，
上流タスクでの性能は下流タスクでの性能を保証しないことを示した
• また，下流タスクの性能はモデルの形状に影響を受け，層が深く幅が狭い
DeepNarrowなモデルの学習効率が優れていることも示した．
• DeepNarrowなモデルの優位性は他のNLPタスクで学習した場合や
ViTでFew-shot学習を行った場合においても観察された．

感想
16
確かにpplがそのまま下流タスクに反映されるとか，
モデル形状が下流に全く影響与えないとは考えにくい
評価の難しい対話モデルなどはpplを性能の指標とする場合もあったので，
良い言語モデルとはなんなのか考えさせられる
Decoderモデルだけでなく， Encoder-Decoderモデルでも上流ではべき乗則が見られたのは
少し面白い
上流と下流を対比したグラフとして、縦軸に性質の異なるメトリクスを使っているのは少しズルい？

DEEP LEARNING JP
[DL Papers]
“Grokking: Generalization Beyond Overfitting on Small
Algorithmic Datasets” (ICLR 2021 workshop)
Okimura Itsuki, Matsuo Lab, B4
http://deeplearning.jp/

【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers

More Related Content

What's hot

Similar to 【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers

More from Deep Learning JP

Recently uploaded

【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers