GPT-2.3_InstructGPT.pdf

GPT-2 & 3
& Instruct-GPT
~Chat-GPTの歴史を駆け抜けろ！~
1

⽬次
• 前回までのおさらい
• GPT-2
• モデル構造
• 汎用モデルとしての使い方
• GPT-3
• モデル構造
• Sparse Masked Multi-Head Attention
• In-Context Learning
• Instruct-GPT
• fine tune
2

Transformer
並列性の高い計算フローを持つ
Encoder-Decoder型DNN
本来は翻訳家
だが、意味解釈能力が超凄い
これ、何にでも応用できない？
4
Masked Multi-Head
Attention
Multi-Head
Attention
Layer Norm
Feed Forward
Layer Norm
Linear
softmax
Output Embedding
+
+
+
〜
Input Embedding
Multi-Head
Attention
Layer Norm
Feed Forward
Layer Norm
+
+
+
〜
Outputs
Inputs
Output Probabilities
+
Layer Norm
N x
x N

分類AI
GPT誕⽣の背景
Transformer凄い！
NLPは全部Deepで行ける？
LDLは学習コストが大きすぎる
• 大量の解答付き学習データ
• タスク毎に別々のモデルが必要
Ø全部できるやつ作れない？
ペットの話題
仕事の話題
類似判断AI
同じ主張
異なる主張
5

汎⽤モデルを作るためには︖
L真の意味での汎用モデルは困難
Øタスク毎に入出力の要求が異なるため
• 分類：文章 -> 確率分布
• Q&A: 質問文 -> 回答文
入力文の意味解釈は共通して必要なはず
1. 入力文から意味ベクトルを作るモデルを学習（Pre-train）
2. あとはタスク毎に微調整して！（Fine-tune）
何かしら自然言語AI作りたい人は2だけやればok!
6

Fine-tune
GPT
ほぼTransformerのdecode部()
Pre-train
• 前半の大部分のパラメタを学習、固定
Fine-tune
• 最終層を交換、タスクに応じ追加学習
7
Pre-train
Masked Multi-Head
Attention
Feed Forward
Layer Norm
Linear
Word Embedding
+
+
〜
Inputs
Outputs
+
Layer Norm
x12

GPTまとめ
多様な自然言語タスクを解ける汎用モデルの需要
Ø文章解釈力を持つ基盤モデルを作り、タスク毎に微調整しよう
Pre-train
• 次単語予測の大量学習でモデルに解釈力を！
Fine-tune
• モデルの最終層だけ取り替え、そこだけ追加学習
8

真の汎⽤モデルの誕⽣
9

朝ご飯を ?
やっぱり真の汎⽤モデル欲しい
GPTは理解力だけ鍛えた基盤モデル
L結局タスク毎のfine-tuneは必要
Øこれもだるい。真の汎用モデル欲しい
これを真剣にやってみたのがGPT-2
GPT
私は犬を ?
10
for taskC
for taskB
for taskA
GPT GPT GPT
Linear Linear Linear

GPT-2
“Language Models are Unsupervised Multitask Learners”
(Alec Radford et al. @Open AI)
巨大なGPTを大規模なデータセットで学習
Ø真の汎用モデルになれる可能性を示した
11

GPT GPT-2
モデル構造
ブロック構造ほぼ不変
層の数が4倍に
(最大モデルの場合)
1024トークン入力可能に
結局巨大な次単語予測器
12
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
x48
Linear
softmax
Masked Multi-Head
Attention
Layer Norm
Masked Multi-Head
Attention
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
x12
Linear
softmax

多様なタスクどう解く︖
実は次単語予測だけでいい！
• 要約タスク
Ø入力文の最後に「要は」を付けて後続文予測
• 翻訳
Ø「英文=仏文」のペアをいくつか並べ、最後に
「翻訳したい英文=」をつけて後続文予測
ü全部、後続文予測というタスクに落とせる
13
GPT-2
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
Linear
softmax
Masked Multi-Head
Attention
Layer Norm
x48

学習データセット
GPTと同様、次単語予測の学習をさせる
真の汎用モデルを作りたい
Ø一層広範な知識を与える必要性
WebText dataset
• Reddit（米のネット掲示板）の投稿を収集
• 3karma（いいね的な）以上ついたもののみ抜粋
• 40GBくらいの英語投稿（10MBくらい仏語）
14

実際、性能もすごかった
• 要約
Ø定量的評価ではイマイチ。人の目には凄くできてそう
• 翻訳
Ø当時の最強モデルには負けたけど、かなり優秀
• 長文についてのQ&A
Ø同上
• 一問一答
Ø正解率4.1%...だけど、最小モデルは1%（デカくしてけばもっと？）15

GPT-2の何が凄い︖
現状、各タスクの特化型モデルには勝ててなさそう？
GPT-2の凄いとこ
• 次単語予測しか勉強してない
• モデルサイズ増加による性能の伸びに限界が見えない
• 特に翻訳は、仏語はdatasetの0.02%だけなのに結構できてる
üモデルとdatasetデカくすれば無限に賢くなるのでは？
16

計算量でぶん殴れ︕︕
“Language Models are Few-Shot Learners”
(Alec Radford et al. @OpenAI)
GPT-2凄かったけど、まだ性能が物足りない!!
Øモデルとdata setのサイズぶち上げんぞ！
18

GPT-3の構造
ブロック数
Ø48 → 96
入力トークン数
Ø1024 → 2048
総パラメタ数
Ø15億 → 1750億
（4倍でないのはMHA内の次元数も変更の為）
19
GPT-3
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
Linear
softmax
Sparse Masked MHA
Layer Norm
x96

GPT-2
再掲）GPT-2の構造
20
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
x48
Linear
softmax
Masked Multi-Head
Attention
Layer Norm

Sparse Masked MHA
トークン数増加により、計算量が爆増
Øその節約のための機構がついたMMHA
21
GPT-3
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
Linear
softmax
Sparse Masked MHA
Layer Norm
x96

MMHA
ざっくりMasked MHA（通常）
sparseとの違いは、mask機構が主
Ø一旦MHAはblack boxと見てok
mask機構のお気持ち
…GPTは次単語予測器
Ø常に手前の文脈だけから解釈させたい
Ø各単語ベクトルの生成には、
手前の単語ベクトル全部を利用
L後方の単語のベクトル生成が重い
22
MMHA
I am a cat . I do not have a name .
Layers…
Layers…

ざっくり Sparse Masked MHA
途中のベクトルに手前の情報を集約
Øそこより前の単語は見ない
こういうbreak pointを各所に設置
層を経て、文末側にも文頭情報が伝播
J精度落とさずに計算量削減
23
MMHA
I am a cat . I do not have a name .
Layers…
Layers…
MMHA

いかに汎⽤モデルといえど
GPT-3は大量データで大規模学習してる
Ø広範なタスクを解く教養は既にあるはず
Lでも前情報全くなしは流石にきつい
振られてるタスクを解らせる必要あり
Ø但し、学習（パラメタ変更）はさせずに
使い方の工夫だけで実現しよう
25
A mouse is
an animal …
mouse
訳せって
ことだよ!!
えぇ...
user
user
GPT-3
GPT-3

In-Context Learning
Learningとは言いつつ学習ではない
GPTは文脈を読む達人
Ø何のタスクか解らせる為の助走があればok
指示と、答えの例を幾つか入力の頭につける
Øこれを丸ごと入力と見做させ、後続文を予測
ü空気を読ませる助走を入力文につけること！
26
ねずみ
和訳せよ
cat = 猫
dog = 犬
mouse =
user
GPT-3

In-Context Learning
In-Context Learningは大まかに3種類
• Few shot : 指示と10~20個の例を与える
• One shot : 指示と1個の例だけ
• Zero shot: 指示だけ
GPT-2の翻訳実験で似たことはやってた
このやり方で効率も変わる為、名前がついた
27
ねずみ
和訳せよ
cat = 猫
dog = 犬
mouse =
user
GPT-3

性能評価
• 一問一答
ØJ1shot GPT-3でSoTA記録更新（Few shotは更に高い）
• 翻訳
ØJFew shotが教師なし版SoTAに匹敵（教師あり版には敗北）
• NLI（後の文は前の文に反対？賛成？的なタスク）
ØLほぼrandom selectと同じ精度
• 算術（2桁の加減算）
ØJ正解率99%（乗算、括弧付き式などは20%くらい）
• ニュース記事生成
ØJ機械生成かどうかを人間に評価させたところ、正解率52%
28

不思議なところ
元論文では、様々なサイズのモデルで性能評価
特定の大きさのモデルから急に精度が出始めるタスクが多発
（算術系など）
Øモデルサイズを大きくすると、突発的に新能力が発現
29

GPT-3まとめ
GPT-2に対して以下の改善を施したモデル
• モデルサイズ増大
• 学習data set増大
• Sparse Masked Multi-Head Attentionで計算量削減
In-Context Learningで入力にタスクの文脈を入れて使おう！
30

GPT-3を微調整してbrush up!
GPT-3には、人が使う上での問題が幾つか残存
• 情報のでっち上げ
• 不適切な文章生成
• 簡単な質問でも長文で返す
Ø人間にとって好ましい文生成をするように微調整しよう
32

⼈の⼿による採点で強化学習
GPT-3に、2つのfine tuneを実施
1. 好ましい応答data set作ってfine tune
2. GPTの出力を評価する採点モデルを作成
Ø採点モデルの評価をもとに、GPT-3を強化学習
33

①好ましい応答data setでfine tune
GPT-3のAPIで使われた入力を収集
人の手で正解の応答を作成
これらでfine tune
34
日本について教えて
user
GPT-3
日本は東アジアに
位置する島国で…
日本について教えて
日本は東アジアに
位置する島国で…

②-1 採点モデルを学習
1. 各入力への応答をGPT-3が2個ずつ作成
2. 人の手でどちらが良い応答かlabeling
3. 入出力から良いor悪い(2値)を予測する
採点モデルを学習
35
頑張ろう！
就活だるい
user
GPT-3
草
頑張ろう！
草 bad...
good!
頑張ろう！
草
就活だるい
就活だるい

②-2 採点モデルでGPT-3を学習
GPT-3の出力を採点モデルがfeed back
Øgood評価を貰えるようGPT-3を強化学習
36
天気いいね
user
GPT-3
せやな
bad...

Instruct-GPTまとめ
GPT-3に対して以下の改善を施したモデル
• 人力で作った応答datasetでfine tune
• 応答の良し悪し採点モデル作って強化学習
37

GPT-2.3_InstructGPT.pdf

Recommended

Recommended

More Related Content

Similar to GPT-2.3_InstructGPT.pdf

Similar to GPT-2.3_InstructGPT.pdf (10)

Recently uploaded

Recently uploaded (7)

GPT-2.3_InstructGPT.pdf