10. 朝 ご飯 を ?
やっぱり真の汎⽤モデル欲しい
GPTは理解力だけ鍛えた基盤モデル
L結局タスク毎のfine-tuneは必要
Øこれもだるい。真の汎用モデル欲しい
これを真剣にやってみたのがGPT-2
GPT
私 は 犬 を ?
10
for taskC
for taskB
for taskA
GPT GPT GPT
Linear Linear Linear
11. GPT-2
“Language Models are Unsupervised Multitask Learners”
(Alec Radford et al. @Open AI)
巨大なGPTを大規模なデータセットで学習
Ø真の汎用モデルになれる可能性を示した
11
23. ざっくり Sparse Masked MHA
途中のベクトルに手前の情報を集約
Øそこより前の単語は見ない
こういうbreak pointを各所に設置
層を経て、文末側にも文頭情報が伝播
J精度落とさずに計算量削減
23
MMHA
I am a cat . I do not have a name .
Layers…
Layers…
MMHA