SlideShare a Scribd company logo
1 of 37
Download to read offline
GPT-2 & 3
& Instruct-GPT
~Chat-GPTの歴史を駆け抜けろ!~
1
⽬次
• 前回までのおさらい
• GPT-2
• モデル構造
• 汎用モデルとしての使い方
• GPT-3
• モデル構造
• Sparse Masked Multi-Head Attention
• In-Context Learning
• Instruct-GPT
• fine tune
2
前回までのおさらい
3
Transformer
並列性の高い計算フローを持つ
Encoder-Decoder型DNN
本来は翻訳家
だが、意味解釈能力が超凄い
これ、何にでも応用できない?
4
Masked Multi-Head
Attention
Multi-Head
Attention
Layer Norm
Feed Forward
Layer Norm
Linear
softmax
Output Embedding
+
+
+
〜
Input Embedding
Multi-Head
Attention
Layer Norm
Feed Forward
Layer Norm
+
+
+
〜
Outputs
Inputs
Output Probabilities
+
Layer Norm
N x
x N
分類AI
GPT誕⽣の背景
Transformer凄い!
NLPは全部Deepで行ける?
LDLは学習コストが大きすぎる
• 大量の解答付き学習データ
• タスク毎に別々のモデルが必要
Ø全部できるやつ作れない?
ペットの話題
仕事の話題
類似判断AI
同じ主張
異なる主張
5
汎⽤モデルを作るためには︖
L真の意味での汎用モデルは困難
Øタスク毎に入出力の要求が異なるため
• 分類:文章 -> 確率分布
• Q&A: 質問文 -> 回答文
入力文の意味解釈は共通して必要なはず
1. 入力文から意味ベクトルを作るモデルを学習(Pre-train)
2. あとはタスク毎に微調整して!(Fine-tune)
何かしら自然言語AI作りたい人は2だけやればok!
6
Fine-tune
GPT
ほぼTransformerのdecode部()
Pre-train
• 前半の大部分のパラメタを学習、固定
Fine-tune
• 最終層を交換、タスクに応じ追加学習
7
Pre-train
Masked Multi-Head
Attention
Feed Forward
Layer Norm
Linear
Word Embedding
+
+
〜
Inputs
Outputs
+
Layer Norm
x12
GPTまとめ
多様な自然言語タスクを解ける汎用モデルの需要
Ø文章解釈力を持つ基盤モデルを作り、タスク毎に微調整しよう
Pre-train
• 次単語予測の大量学習でモデルに解釈力を!
Fine-tune
• モデルの最終層だけ取り替え、そこだけ追加学習
8
真の汎⽤モデルの誕⽣
9
朝 ご飯 を ?
やっぱり真の汎⽤モデル欲しい
GPTは理解力だけ鍛えた基盤モデル
L結局タスク毎のfine-tuneは必要
Øこれもだるい。真の汎用モデル欲しい
これを真剣にやってみたのがGPT-2
GPT
私 は 犬 を ?
10
for taskC
for taskB
for taskA
GPT GPT GPT
Linear Linear Linear
GPT-2
“Language Models are Unsupervised Multitask Learners”
(Alec Radford et al. @Open AI)
巨大なGPTを大規模なデータセットで学習
Ø真の汎用モデルになれる可能性を示した
11
GPT GPT-2
モデル構造
ブロック構造ほぼ不変
層の数が4倍に
(最大モデルの場合)
1024トークン入力可能に
結局巨大な次単語予測器
12
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
x48
Linear
softmax
Output Probabilities
Masked Multi-Head
Attention
Layer Norm
Masked Multi-Head
Attention
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
x12
Linear
softmax
Output Probabilities
多様なタスクどう解く︖
実は次単語予測だけでいい!
• 要約タスク
Ø入力文の最後に「要は」を付けて後続文予測
• 翻訳
Ø「英文=仏文」のペアをいくつか並べ、最後に
「翻訳したい英文=」をつけて後続文予測
ü全部、後続文予測というタスクに落とせる
13
GPT-2
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
Linear
softmax
Output Probabilities
Masked Multi-Head
Attention
Layer Norm
x48
学習データセット
GPTと同様、次単語予測の学習をさせる
真の汎用モデルを作りたい
Ø一層広範な知識を与える必要性
WebText dataset
• Reddit(米のネット掲示板)の投稿を収集
• 3karma(いいね的な)以上ついたもののみ抜粋
• 40GBくらいの英語投稿(10MBくらい仏語)
14
実際、性能もすごかった
• 要約
Ø定量的評価ではイマイチ。人の目には凄くできてそう
• 翻訳
Ø当時の最強モデルには負けたけど、かなり優秀
• 長文についてのQ&A
Ø同上
• 一問一答
Ø正解率4.1%...だけど、最小モデルは1%(デカくしてけばもっと?)15
GPT-2の何が凄い︖
現状、各タスクの特化型モデルには勝ててなさそう?
GPT-2の凄いとこ
• 次単語予測しか勉強してない
• モデルサイズ増加による性能の伸びに限界が見えない
• 特に翻訳は、仏語はdatasetの0.02%だけなのに結構できてる
üモデルとdatasetデカくすれば無限に賢くなるのでは?
16
GPT-3
17
計算量でぶん殴れ︕︕
“Language Models are Few-Shot Learners”
(Alec Radford et al. @OpenAI)
GPT-2凄かったけど、まだ性能が物足りない!!
Øモデルとdata setのサイズぶち上げんぞ!
18
GPT-3の構造
ブロック数
Ø48 → 96
入力トークン数
Ø1024 → 2048
総パラメタ数
Ø15億 → 1750億
(4倍でないのはMHA内の次元数も変更の為)
19
GPT-3
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
Linear
softmax
Output Probabilities
Sparse Masked MHA
Layer Norm
x96
GPT-2
再掲)GPT-2の構造
20
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
x48
Linear
softmax
Output Probabilities
Masked Multi-Head
Attention
Layer Norm
Sparse Masked MHA
トークン数増加により、計算量が爆増
Øその節約のための機構がついたMMHA
21
GPT-3
Feed Forward
Layer Norm
Word Embedding
+
+
〜
Inputs
+
Layer Norm
Linear
softmax
Output Probabilities
Sparse Masked MHA
Layer Norm
x96
MMHA
ざっくりMasked MHA(通常)
sparseとの違いは、mask機構が主
Ø一旦MHAはblack boxと見てok
mask機構のお気持ち
…GPTは次単語予測器
Ø常に手前の文脈だけから解釈させたい
Ø各単語ベクトルの生成には、
手前の単語ベクトル全部を利用
L後方の単語のベクトル生成が重い
22
MMHA
I am a cat . I do not have a name .
Layers…
Layers…
ざっくり Sparse Masked MHA
途中のベクトルに手前の情報を集約
Øそこより前の単語は見ない
こういうbreak pointを各所に設置
層を経て、文末側にも文頭情報が伝播
J精度落とさずに計算量削減
23
MMHA
I am a cat . I do not have a name .
Layers…
Layers…
MMHA
In-Context Learning
24
いかに汎⽤モデルといえど
GPT-3は大量データで大規模学習してる
Ø広範なタスクを解く教養は既にあるはず
Lでも前情報全くなしは流石にきつい
振られてるタスクを解らせる必要あり
Ø但し、学習(パラメタ変更)はさせずに
使い方の工夫だけで実現しよう
25
A mouse is
an animal …
mouse
訳せって
ことだよ!!
えぇ...
user
user
GPT-3
GPT-3
In-Context Learning
Learningとは言いつつ学習ではない
GPTは文脈を読む達人
Ø何のタスクか解らせる為の助走があればok
指示と、答えの例を幾つか入力の頭につける
Øこれを丸ごと入力と見做させ、後続文を予測
ü空気を読ませる助走を入力文につけること!
26
ねずみ
和訳せよ
cat = 猫
dog = 犬
mouse =
user
GPT-3
In-Context Learning
In-Context Learningは大まかに3種類
• Few shot : 指示と10~20個の例を与える
• One shot : 指示と1個の例だけ
• Zero shot: 指示だけ
GPT-2の翻訳実験で似たことはやってた
このやり方で効率も変わる為、名前がついた
27
ねずみ
和訳せよ
cat = 猫
dog = 犬
mouse =
user
GPT-3
性能評価
• 一問一答
ØJ1shot GPT-3でSoTA記録更新(Few shotは更に高い)
• 翻訳
ØJFew shotが教師なし版SoTAに匹敵(教師あり版には敗北)
• NLI(後の文は前の文に反対?賛成?的なタスク)
ØLほぼrandom selectと同じ精度
• 算術(2桁の加減算)
ØJ正解率99%(乗算、括弧付き式などは20%くらい)
• ニュース記事生成
ØJ機械生成かどうかを人間に評価させたところ、正解率52%
28
不思議なところ
元論文では、様々なサイズのモデルで性能評価
特定の大きさのモデルから急に精度が出始めるタスクが多発
(算術系など)
Øモデルサイズを大きくすると、突発的に新能力が発現
29
GPT-3まとめ
GPT-2に対して以下の改善を施したモデル
• モデルサイズ増大
• 学習data set増大
• Sparse Masked Multi-Head Attentionで計算量削減
In-Context Learningで入力にタスクの文脈を入れて使おう!
30
Instruct-GPT
31
GPT-3を微調整してbrush up!
GPT-3には、人が使う上での問題が幾つか残存
• 情報のでっち上げ
• 不適切な文章生成
• 簡単な質問でも長文で返す
Ø人間にとって好ましい文生成をするように微調整しよう
32
⼈の⼿による採点で強化学習
GPT-3に、2つのfine tuneを実施
1. 好ましい応答data set作ってfine tune
2. GPTの出力を評価する採点モデルを作成
Ø採点モデルの評価をもとに、GPT-3を強化学習
33
①好ましい応答data setでfine tune
GPT-3のAPIで使われた入力を収集
人の手で正解の応答を作成
これらでfine tune
34
日本について教えて
user
GPT-3
日本は東アジアに
位置する島国で…
日本について教えて
日本は東アジアに
位置する島国で…
②-1 採点モデルを学習
1. 各入力への応答をGPT-3が2個ずつ作成
2. 人の手でどちらが良い応答かlabeling
3. 入出力から良いor悪い(2値)を予測する
採点モデルを学習
35
頑張ろう!
就活だるい
user
GPT-3
草
頑張ろう!
草 bad...
good!
頑張ろう!
草
就活だるい
就活だるい
②-2 採点モデルでGPT-3を学習
GPT-3の出力を採点モデルがfeed back
Øgood評価を貰えるようGPT-3を強化学習
36
天気いいね
user
GPT-3
せやな
bad...
Instruct-GPTまとめ
GPT-3に対して以下の改善を施したモデル
• 人力で作った応答datasetでfine tune
• 応答の良し悪し採点モデル作って強化学習
37

More Related Content

Similar to GPT-2.3_InstructGPT.pdf

財布にやさしいRを使ったデータマイニング
財布にやさしいRを使ったデータマイニング財布にやさしいRを使ったデータマイニング
財布にやさしいRを使ったデータマイニング
Ryoji Yanashima
 

Similar to GPT-2.3_InstructGPT.pdf (10)

[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
 
Lagopus performance
Lagopus performanceLagopus performance
Lagopus performance
 
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
 
財布にやさしいRを使ったデータマイニング
財布にやさしいRを使ったデータマイニング財布にやさしいRを使ったデータマイニング
財布にやさしいRを使ったデータマイニング
 
カーネルモジュールでキーロガー
カーネルモジュールでキーロガーカーネルモジュールでキーロガー
カーネルモジュールでキーロガー
 
Runtime c++editing
Runtime c++editingRuntime c++editing
Runtime c++editing
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
 
Deep Learning Chap. 12: Applications
Deep Learning Chap. 12: ApplicationsDeep Learning Chap. 12: Applications
Deep Learning Chap. 12: Applications
 
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfmakoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
 

Recently uploaded

Recently uploaded (7)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

GPT-2.3_InstructGPT.pdf