1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Scaling Laws for Neural Language Models” (2020)
Itsuki Okimura, PSI B3
アジェンダ
1. 書誌情報
2. Scaling Law
3. 概要
4. 設定
5. 結果
6. その他の結果
7. まとめ
8. その後
2
1 書誌情報
• 論文名: Scaling Laws for Neural Language Models
• 出典:arXiv https://arxiv.org/abs/2001.08361
• 著者: Jared Kaplan, Sam McCandlish, Tom Henighanら
OpenAIのチーム
• 選択理由:AGIの実現をミッションとするOpenAIがScaling Lawに初めて
言及したGPT-3, DALL・Eなどの大規模モデルを作る動機のような論文
Transformerアーキテクチャの他分野への一般化
3
2 Scaling Law
Scaling Law :べき乗則
𝑓 𝑥 = 𝑎𝑥𝑘
Ex.万有引力, クーロン力, ジップの法則, …
両辺で対数をとると
log 𝑓(𝑥) = klog 𝑥 + log(𝑎)
となり, 直線関係の式となる。
性質:スケール不変性
独立変数𝑥のスケールを変化させても, 関数のスケーリングの比例に帰結する
𝑓 𝑐𝑥 = 𝑎 𝑐𝑥 𝑘
= 𝑐𝑘
𝑓(𝑥) ∝ 𝑓(𝑥)
どのスケールでも同じような秩序が存在する
4
2 Scaling Law
ここ数年OpenAIはScaling Lawに関する論文と大規模モデルを
交互に発表している
5
GPT-2
(2019 Feb)
Scaling Laws
for Neural LM
(2020 Jan)
GPT-3
(2020 May)
Scaling Laws
for Autoregressive
GM (2020 Oct)
DALL·E
CLIP
(2021 Jan)
Scaling Laws
for Transfer
(2021 Feb)
???
https://deeplearning.hatenablog.com/entry/scaling_law参考に作成
2 Scaling Law
本発表ではGPT-2とGPT-3の間に発表された論文について紹介
6
GPT-2
(2019 Feb)
Scaling Laws
for Neural LM
(2020 Jan)
GPT-3
(2020 May)
Scaling Laws
for Autoregressive
GM (2020 Oct)
DALL・E
CLIP
(2021 Jan)
Scaling Laws
for Transfer
(2021 Feb)
???
3 概要
問題意識
自己回帰型言語モデル:それまでの単語から次の単語を予測する確率モデル
𝑃 𝑤𝑛+1 𝑤1, ⋯ , 𝑤𝑛
Ex. GPT, GPT-2
数ある語彙の中からある単語を選ぶタスクであるので,
クロスエントロピーが性能の指標となる。
→この性能はモデルアーキテクチャ, モデルのサイズ,
モデルを訓練するために使用される計算能力, および
この訓練プロセスで利用可能なデータに依存するのでは?
7
3 概要
• Transformer言語モデルにおける損失をモデルアーキテクチャ, モデルのサイズ,
モデルを訓練するための計算能力,およびこの訓練プロセスで利用可能なデータへの依存性を
様々な条件で変えて検証。
• 言語モデルの性能はスケールに大きく依存し, モデル形状に弱く依存する。
• 具体的には, 他の2つにボトルネックがない場合,学習のための計算能力C,
データセットのサイズD,モデルのパラメータ数N(embedding除く)と性能の間で
べき乗則が観測された。
8
3 概要
他にも
• オーバーフィッティングの普遍性:パラメータ数NとデータサイズDの内片方が固定されていると
片方を増加させても, パフォーマンスにペナルティを受ける。
このペナルティはN0.74/Dに依存する。
(パラメータ数を8倍にすると, データ数を5倍にする必要がある)
• 訓練の普遍性:訓練曲線は予測可能な力則に従うもので, そのパラメータはモデルサイズにほぼ依存しな
い。訓練曲線の初期部分を外挿することで, より長く訓練した場合に達成される損失をおおよそ予測するこ
とが可能。
• サンプル効率:大規模モデルは小規模モデルよりもサンプル効率が高く, より少ない最適化ステップとより
少ないデータ・ポイントで同じレベルの性能に到達する。
• 大規模モデルの効率性:計算リソースが固定されている場合, 非常に大規模なモデルを学習することで最
適な性能が達成できる。
• 最適バッチサイズ:これらのモデルを学習するための理想的なバッチサイズは損失の累乗で表され, 勾配
ノイズスケールを測定することで決定可能。
9
4 設定
L: テストデータにおける言語モデルのクロスエントロピー損失
N: 語彙とPositional Embeddingを除くパラメーター数
C ≈ 6NBS: embedding以外の計算能力の推定値(B: バッチサイズ, S: ステップ数)
単位PF-days(= 1015 × 24 × 3600 = 8.64 × 1019fpo)
D:トークン単位のデータセットサイズ
10
主要なパラメーター
4 設定
パラメーターの概算方法
Transformerにおいて𝑑𝑎𝑡𝑡𝑛 =
𝑑𝑓𝑓
4
= 𝑑𝑚𝑜𝑑𝑒𝑙より
N ≈ 12𝑛𝑙𝑎𝑦𝑒𝑟𝑑𝑚𝑜𝑑𝑒𝑙
2
またバックワードパスの計算量は一般にフォーワードパスの2倍となるため
C ≈ 6N
11
4 設定
学習手順
デコーダーのみのTransformerモデルで
1024トークンのコンテキストで平均化されたクロスエントロピー損失を
Adamオプティマイザを用いて最適化、
1024トークンの512シーケンスのバッチサイズで、2.5 × 105ステップでモデルを学習
実験設定
言語モデルのスケーリングを特徴づけるために
モデルサイズN(768 ~ 1.5 × 1019
),
データセットサイズD(22 × 106
~23 × 109
),
形状(深さ、幅、アテンションヘッド、フィードフォワード次元など)
を変化させ, 様々なモデルを訓練。
12
4 設定
データセット
Webtext2(Webから収集された96GBのテキストと1.62 × 1010語を含む
20.3Mのドキュメント)をトークナイズし、一部をテストデータとして確保。
Books Corpus, Common Crawl, 英語版Wikipedia, および一般に公開されている イン
ターネット書籍についてもテストを行う。
13
5 結果
性能はモデルサイズNに大きく依存する
14
Embeddingを含んだパラメーター数を軸にとると性能はレイヤー数に依存するように見えるが, Embeddingを除
いたパラメーター数を軸にとると2層以上のモデルは一つの直線に帰着する
5 結果
訓練セットと異なる分布のデータセットにおける性能
15
訓練データ以外のデータセットにおいてもパラメータ数の推移とともに滑らかな改善
5 結果
同様に計算リソースC, データセットサイズDにも性能は依存
16
5 結果
モデルの形状はそれほど性能に影響を与えない
17
Nを固定しフィードフォワード比(𝑑𝑓𝑓/𝑑𝑚𝑜𝑑𝑒𝑙), パラメータ アスペクト比(𝑑𝑚𝑜𝑑𝑒𝑙/𝑛𝑙𝑎𝑦𝑒𝑟)アテンションヘッド次元
(𝑑𝑚𝑜𝑑𝑒𝑙/𝑛ℎ𝑒𝑎𝑑 )を変えLossを比較したが, 性能はあまり変化しない
6 その他の結果
LSTMとの比較
18
LSTMはコンテキストの初期に位置するトークンに対してはTransformerと同様の性能を示すが,
それ以降のトークンに対してはTransformerの性能に及ばない
6 その他の結果
大規模モデルのサンプル効率
19
大規模モデルは目的とする性能に対して, より少ないサンプル数によって到達する
6 その他の結果
矛盾点
20
• そもそも, 自然言語のクロスエントロピーは0にはならない。
• データサイズDと計算リソースC間にはオーバーフィッティングを避けるための制約条件が存在し,
L(Cmin)で予測される性能は最終的にL(D)の力則で設定された下限値に達する。
7 まとめ
• 言語モデルの性能はスケールに大きく依存し, モデル形状に弱く依存する。
– 他の2つにボトルネックがない場合,学習のための計算量C, データセットのサイズD,
モデルのパラメータ数Nと性能Lの間でべき乗則が観測された。
• 言語モデルにおけるLossの下限値は存在するため, その点に到達する前までに
べき乗則は崩壊するはず。
– ただ, その計算量とモデルサイズまでは現時点では何桁も離れている。
21
8 その後
GPT-3のLoss
22
Scaling Lawをモチベーションとして
OpenAIはGPT-2の100倍以上の
パラメーターを持つGPT-3を発表。
GPT-3の論文内でも
Lossと計算リソースのべき乗則は
102のオーダーで続いていることが
示された。
一方で, もっとも大きいモデルを
示す黄色の曲線は少し外れる。
なんとも言えないらしい。。
8 その後
Scaling Laws for Autoregressive Generative Modeling
23
GPT-3の論文内で示唆された
マルチモーダルへの展開
言語モデルで見られた
計算リソース, モデルサイズに関するScaling
Lawを生成的画像・動画モデリング・マルチ
モーダル・数式といった
ドメインの自己回帰型生成モデルにまで拡
大
Text2Image→DALL·E
8 その後
Scaling Laws for Transfer
24
Zero-shot, Few-shotではなく
Fine-tuneに関する論文
Fine-tuneにおいて事前学習することで
同じ損失を達成するまでに
減らすことができるデータ量𝐷𝑇について, ファイン
チューニングで使用したデータ量𝐷𝐹,事前学習モ
デルのパラメータ数𝑁の間で
以下のべき乗則が観測された。
𝐷𝑇 ∝ 𝐷𝐹
𝛼
𝑁𝛽
下流のタスクにおいても
モデルサイズの重要性を示す
8 その後
???
25
• Bidirectional化???
– GPT-3論文内で示唆
• 強化学習でのFine-tuning???
– GPT-3論文内で示唆
– Fine-Tuning Language Models from Human Preferences(2019)
• 多言語化???
– T5→mT5的な
参考文献
Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling
laws for neural language models. arXiv preprint arXiv:2001.08361.
Henighan, T., Kaplan, J., Katz, M., Chen, M., Hesse, C., Jackson, J., ... & McCandlish, S. (2020). Scaling laws
for autoregressive generative modeling. arXiv preprint arXiv:2010.14701.
Hernandez, D., Kaplan, J., Henighan, T., & McCandlish, S. (2021). Scaling Laws for Transfer. arXiv preprint
arXiv:2102.01293.
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language
models are few-shot learners. arXiv preprint arXiv:2005.14165.
Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., ... & Irving, G. (2019). Fine-tuning
language models from human preferences. arXiv preprint arXiv:1909.08593.
Ryobot(2021) ” OpenAIが発見したScaling Lawの秘密”
https://deeplearning.hatenablog.com/entry/scaling_law
26
DEEP LEARNING JP
[DL Papers]
“Scaling Laws for Neural Language Models” (2020)
Itsuki Okimura, PSI B3
http://deeplearning.jp/

【DL輪読会】Scaling Laws for Neural Language Models