SlideShare a Scribd company logo
1 of 7
Download to read offline
Kyuri Kim @KerningCT Paper Study 23-06–2023
Series of GPT
OpenAI
LLM
BERT vs. GPT
Fine-tuning Approach | left-to-right Transformer Feature-based Approach | left-to-right & right-to-left LSTM
Fine-tuning Approach
Strategies for applying pre-trained language representations to down-stream tasks. Both approaches share the same objective
function during pre-training to learn general language representations:
(1) Feature-based
• Use task speci
fi
c architectures that include the pre-trained representations as additional features
• Ex. ELMo (Peters et al., 2018)
(2) Fine-tuning
• Minimal task-speci
fi
c parameters, trained in the downstream tasks by simply
fi
ne-tuning all pre-trained parameters
• Ex. BERT (bidirectional LM), OpenAI GPT-1(unidirectional LM)
GPT
Version Comparison
GPT-2 (2019)
• Fine-tuning 과정 생략: Zero-shot
• 학습 시 Input/Task를 입력으로 사용
• Transformer Structure
• Layer norm 위치 변경
• Residual Layer initialization 변경
• Context size 512 1024
• Bigger Model than previous
• GPT-1 모델의 약 12.8배 Parameter
• 약 800만개 문서/40GB Dataset 학습
→
GPT-1 (2018)
• Transformer Decoder (x12) Structure
• Masked self attention
• Pre-training Fine-tuning
• Input Transformation for Fine-
tuning process (Supervised)
→
GPT-3 (2020)
• Fine-tuning 과정 생략: Few-shot
• No Gradient updating
• Transformer Structure
• Sparse attention 사용
• Self-attention layer
• Bigger Model than previous
• GPT-2 모델의 약 12배 Parameter
• 570GB Dataset 학습
↑
• Unidirectional (단방향성) LM Bidirectional (양방향성) LM BERT 논문에서 GPT-1이 지닌 한계로 지적
• Auto-regressive Model GPT 모델의 한계점?
• Text Encoding: Prompt Tokenizer (Byte-pair-encoding, BPE)
←
←
→
GPT-1
Improving Language Understanding by Generative Pre-Training(2018)
Unsupervised pre-training model 개발 사전적으로 유용한 정보 획득, 모델의 변화없이 Fine-tuning한 하위 Task에서 향상된 성능 목표
• Task-speci
fi
c input transformations (for
fi
ne-tuning)
• (1) Unsupervised pretext training (2) Supervised
fi
ne-tuning
• Input transformations for
fi
ne-tuning on di
ff
erent tasks.
• Convert all structured inputs into token sequences
to be processed by pre-trained model.
• Analysis: Zero-shot Behaviors
• Transformer기반 pre-training LM의 효과 이해를 목적한 세부 실험
• (Hypothesis) LSTM과 비교하여 Transformer의 structured attentional
memory에서 transfer 방법이 도움이 될 것
• Zero-shot performance: LSTM Variance , Transfer 구조의
Inductive bias가 transfer에 assist (zero-shot의 가능성)
→
→
↑
Task classi
fi
cation 구조/Objective BERT 구조 동일
→
GPT-2
Language Models are Unsupervised Multitask Learners (2019)
Unsupervised pre-training model 개발 Fine-tuning 없이 zero-shot만으로 downstream task 수행을 목표
GPT-2 is su
ffi
cient to over- come the ine
ffi
ciencies of uni-directional representations demonstrated by BERT
• Fine-tuning 과정 생략: Zero-shot
• Zero-shot 실험 환경에서 8 task 중 7개에서 SOTA 달성 (Summarization, Q&A 저조)
• Byte 시퀀스에 BPE를 적용하기 때문에 자유롭게 기존의 데이터 셋에 적용이 가능
• p(output | input, task)
• 태스크를 명시적으로 알려주는 것이 아니라, 모델에게 원하는 출력 형식의 예시를 주는 방식
• Translation Train ex: (translate to french, english text, french text), "Translate the following English text to French: '{txt}'"
• Generalization vs Memorization
• Training set 과의 overlap 문제 발생 우려 성능 개선의 큰 요인이 아니며 모델이 아직 under-
fi
tting되어 개선의 여지가 있다고 판단
• 모델의 크기에 따른 성능 증가 결과 제시
→
→
GPT-3
Language Models are Few-Shot Learners (2020)
GPT2와 거의 비슷한 구조/목표를 유지. zero-, one-, few-shot 방법으로 다양하게 모델을 Setting, Benchmarking
• Meta-Learning
• Task-Agnostic (Task에 구애받지 않는)
• zero-, one-, and few-shot performance often grows with
model capacity, perhaps suggesting that larger models
are more pro
fi
cient meta-learners.
• Few-shot method Infer할 Input과 few-shot example이 함께
입력되는 형태 (기존에 알려진 Few-shot learning과는 다소 차이가 있음)
→
350M
760M
355M
355M
Transformer Layer 24
Hidden state 1024
SAHead 16
Tokenization
LLM Pre-Processing Step
• 트랜스포머는 자연어 문장을 분절한 토큰 시퀀스를 입력으로 받으므로 문장의 토큰화 수행이 필요
• Text Encoding: Prompt (문장) Tokenizer를 이용한 Tokenization (단어) 정수 인코딩 (숫자로 표현)
• GPT는 BPE (Byte-Pair-Encoding) 기법으로 토큰화 수행, BERT는 BPE와 유사한 워드피스 (Word-piece)를 토크나이저로 사용
• 토큰화의 방식: 단어 단위 / 문자 단위 / 서브워드 단위 토큰화
1. Lower Casting
2. Tokenization
• Tokenization = 문장을 토큰 시퀀스로 나누는 과정, Tokenizer = 토큰화를 수행하는 프로그램 (ex. Korean Tokenizer: mecab, kkma..)
• BPE: 단어를 최소 단위로 쪼개어 (byte 시퀀스) 빈도 수를 기반으로 자주 등장하는 byte 쌍을 병합, 해당 과정 반복 (단어의 변형에도 강점)
(Byte-level Version: dog, dog?, dog! 최적으로 사용하지 못함 / Word-level Version)
3. Handling Out-Of-Vocabulary (OOV)
• 단어 사전(단어-인덱스 목록)에 없는 상태의 용어
→ →
https://ratsgo.github.io/nlpbook/docs/preprocess/tokenization/

More Related Content

Similar to GPT-Series.pdf

Why Functional Programming Matters
Why Functional Programming MattersWhy Functional Programming Matters
Why Functional Programming MattersLee WonJae
 
네이버 NLP Challenge 후기
네이버 NLP Challenge 후기네이버 NLP Challenge 후기
네이버 NLP Challenge 후기Jangwon Park
 
Switch transformers paper review
Switch transformers paper reviewSwitch transformers paper review
Switch transformers paper reviewSeonghoon Jung
 
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기Hangil Kim
 
Mastering Gomoku - Recap
Mastering Gomoku - RecapMastering Gomoku - Recap
Mastering Gomoku - RecapKwanghee Choi
 
[NDC12] 변화량 분석을 중심으로 한 저비용 고효율의 지속가능한 코드퀄리티 관리법 - 송창규
[NDC12] 변화량 분석을 중심으로 한 저비용 고효율의 지속가능한 코드퀄리티 관리법 - 송창규[NDC12] 변화량 분석을 중심으로 한 저비용 고효율의 지속가능한 코드퀄리티 관리법 - 송창규
[NDC12] 변화량 분석을 중심으로 한 저비용 고효율의 지속가능한 코드퀄리티 관리법 - 송창규ChangKyu Song
 
MRC recent trend_ppt
MRC recent trend_pptMRC recent trend_ppt
MRC recent trend_pptseungwoo kim
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템NAVER D2
 
FP, lazy evaluation
FP, lazy evaluation FP, lazy evaluation
FP, lazy evaluation 성범 홍
 
프로젝트 관리 및 지켜야 할 사항들
프로젝트 관리 및 지켜야 할 사항들프로젝트 관리 및 지켜야 할 사항들
프로젝트 관리 및 지켜야 할 사항들Lee Geonhee
 
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용Susang Kim
 
검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPT검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPTTae Young Lee
 
생체 광학 데이터 분석 AI 경진대회 7위 수상작
생체 광학 데이터 분석 AI 경진대회 7위 수상작생체 광학 데이터 분석 AI 경진대회 7위 수상작
생체 광학 데이터 분석 AI 경진대회 7위 수상작DACON AI 데이콘
 
Spelling error correction with soft masked bert
Spelling error correction with soft masked bert Spelling error correction with soft masked bert
Spelling error correction with soft masked bert taeseon ryu
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지deepseaswjh
 
(Nlp)fine tuning 대회_참여기
(Nlp)fine tuning 대회_참여기(Nlp)fine tuning 대회_참여기
(Nlp)fine tuning 대회_참여기OverDeep
 

Similar to GPT-Series.pdf (20)

Why Functional Programming Matters
Why Functional Programming MattersWhy Functional Programming Matters
Why Functional Programming Matters
 
네이버 NLP Challenge 후기
네이버 NLP Challenge 후기네이버 NLP Challenge 후기
네이버 NLP Challenge 후기
 
Switch transformers paper review
Switch transformers paper reviewSwitch transformers paper review
Switch transformers paper review
 
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
 
Mastering Gomoku - Recap
Mastering Gomoku - RecapMastering Gomoku - Recap
Mastering Gomoku - Recap
 
[NDC12] 변화량 분석을 중심으로 한 저비용 고효율의 지속가능한 코드퀄리티 관리법 - 송창규
[NDC12] 변화량 분석을 중심으로 한 저비용 고효율의 지속가능한 코드퀄리티 관리법 - 송창규[NDC12] 변화량 분석을 중심으로 한 저비용 고효율의 지속가능한 코드퀄리티 관리법 - 송창규
[NDC12] 변화량 분석을 중심으로 한 저비용 고효율의 지속가능한 코드퀄리티 관리법 - 송창규
 
MRC recent trend_ppt
MRC recent trend_pptMRC recent trend_ppt
MRC recent trend_ppt
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템
 
GPT-X
GPT-XGPT-X
GPT-X
 
FP, lazy evaluation
FP, lazy evaluation FP, lazy evaluation
FP, lazy evaluation
 
프로젝트 관리 및 지켜야 할 사항들
프로젝트 관리 및 지켜야 할 사항들프로젝트 관리 및 지켜야 할 사항들
프로젝트 관리 및 지켜야 할 사항들
 
MT-DNN
MT-DNNMT-DNN
MT-DNN
 
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
 
검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPT검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPT
 
Albert
AlbertAlbert
Albert
 
TinyBERT
TinyBERTTinyBERT
TinyBERT
 
생체 광학 데이터 분석 AI 경진대회 7위 수상작
생체 광학 데이터 분석 AI 경진대회 7위 수상작생체 광학 데이터 분석 AI 경진대회 7위 수상작
생체 광학 데이터 분석 AI 경진대회 7위 수상작
 
Spelling error correction with soft masked bert
Spelling error correction with soft masked bert Spelling error correction with soft masked bert
Spelling error correction with soft masked bert
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
 
(Nlp)fine tuning 대회_참여기
(Nlp)fine tuning 대회_참여기(Nlp)fine tuning 대회_참여기
(Nlp)fine tuning 대회_참여기
 

More from Kyuri Kim

BERT- Pre-training of Deep Bidirectional Transformers for Language Understand...
BERT- Pre-training of Deep Bidirectional Transformers for Language Understand...BERT- Pre-training of Deep Bidirectional Transformers for Language Understand...
BERT- Pre-training of Deep Bidirectional Transformers for Language Understand...Kyuri Kim
 
Generative adversarial networks
Generative adversarial networksGenerative adversarial networks
Generative adversarial networksKyuri Kim
 
Future semantic segmentation with convolutional LSTM
Future semantic segmentation with convolutional LSTMFuture semantic segmentation with convolutional LSTM
Future semantic segmentation with convolutional LSTMKyuri Kim
 
Exploring uncertainty measures in deep networks for sclerosis
Exploring uncertainty measures in deep networks for sclerosisExploring uncertainty measures in deep networks for sclerosis
Exploring uncertainty measures in deep networks for sclerosisKyuri Kim
 
Convolutional neural network based metal artifact reduction in x ray computed...
Convolutional neural network based metal artifact reduction in x ray computed...Convolutional neural network based metal artifact reduction in x ray computed...
Convolutional neural network based metal artifact reduction in x ray computed...Kyuri Kim
 
Auto-encoding variational bayes
Auto-encoding variational bayesAuto-encoding variational bayes
Auto-encoding variational bayesKyuri Kim
 
Automated bone metastasis detection
Automated bone metastasis detection Automated bone metastasis detection
Automated bone metastasis detection Kyuri Kim
 

More from Kyuri Kim (7)

BERT- Pre-training of Deep Bidirectional Transformers for Language Understand...
BERT- Pre-training of Deep Bidirectional Transformers for Language Understand...BERT- Pre-training of Deep Bidirectional Transformers for Language Understand...
BERT- Pre-training of Deep Bidirectional Transformers for Language Understand...
 
Generative adversarial networks
Generative adversarial networksGenerative adversarial networks
Generative adversarial networks
 
Future semantic segmentation with convolutional LSTM
Future semantic segmentation with convolutional LSTMFuture semantic segmentation with convolutional LSTM
Future semantic segmentation with convolutional LSTM
 
Exploring uncertainty measures in deep networks for sclerosis
Exploring uncertainty measures in deep networks for sclerosisExploring uncertainty measures in deep networks for sclerosis
Exploring uncertainty measures in deep networks for sclerosis
 
Convolutional neural network based metal artifact reduction in x ray computed...
Convolutional neural network based metal artifact reduction in x ray computed...Convolutional neural network based metal artifact reduction in x ray computed...
Convolutional neural network based metal artifact reduction in x ray computed...
 
Auto-encoding variational bayes
Auto-encoding variational bayesAuto-encoding variational bayes
Auto-encoding variational bayes
 
Automated bone metastasis detection
Automated bone metastasis detection Automated bone metastasis detection
Automated bone metastasis detection
 

Recently uploaded

JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP Korea
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP Korea
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법JMP Korea
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP Korea
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP Korea
 
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?Jay Park
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화JMP Korea
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석JMP Korea
 

Recently uploaded (8)

JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
 
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
 

GPT-Series.pdf

  • 1. Kyuri Kim @KerningCT Paper Study 23-06–2023 Series of GPT OpenAI
  • 2. LLM BERT vs. GPT Fine-tuning Approach | left-to-right Transformer Feature-based Approach | left-to-right & right-to-left LSTM Fine-tuning Approach Strategies for applying pre-trained language representations to down-stream tasks. Both approaches share the same objective function during pre-training to learn general language representations: (1) Feature-based • Use task speci fi c architectures that include the pre-trained representations as additional features • Ex. ELMo (Peters et al., 2018) (2) Fine-tuning • Minimal task-speci fi c parameters, trained in the downstream tasks by simply fi ne-tuning all pre-trained parameters • Ex. BERT (bidirectional LM), OpenAI GPT-1(unidirectional LM)
  • 3. GPT Version Comparison GPT-2 (2019) • Fine-tuning 과정 생략: Zero-shot • 학습 시 Input/Task를 입력으로 사용 • Transformer Structure • Layer norm 위치 변경 • Residual Layer initialization 변경 • Context size 512 1024 • Bigger Model than previous • GPT-1 모델의 약 12.8배 Parameter • 약 800만개 문서/40GB Dataset 학습 → GPT-1 (2018) • Transformer Decoder (x12) Structure • Masked self attention • Pre-training Fine-tuning • Input Transformation for Fine- tuning process (Supervised) → GPT-3 (2020) • Fine-tuning 과정 생략: Few-shot • No Gradient updating • Transformer Structure • Sparse attention 사용 • Self-attention layer • Bigger Model than previous • GPT-2 모델의 약 12배 Parameter • 570GB Dataset 학습 ↑ • Unidirectional (단방향성) LM Bidirectional (양방향성) LM BERT 논문에서 GPT-1이 지닌 한계로 지적 • Auto-regressive Model GPT 모델의 한계점? • Text Encoding: Prompt Tokenizer (Byte-pair-encoding, BPE) ← ← →
  • 4. GPT-1 Improving Language Understanding by Generative Pre-Training(2018) Unsupervised pre-training model 개발 사전적으로 유용한 정보 획득, 모델의 변화없이 Fine-tuning한 하위 Task에서 향상된 성능 목표 • Task-speci fi c input transformations (for fi ne-tuning) • (1) Unsupervised pretext training (2) Supervised fi ne-tuning • Input transformations for fi ne-tuning on di ff erent tasks. • Convert all structured inputs into token sequences to be processed by pre-trained model. • Analysis: Zero-shot Behaviors • Transformer기반 pre-training LM의 효과 이해를 목적한 세부 실험 • (Hypothesis) LSTM과 비교하여 Transformer의 structured attentional memory에서 transfer 방법이 도움이 될 것 • Zero-shot performance: LSTM Variance , Transfer 구조의 Inductive bias가 transfer에 assist (zero-shot의 가능성) → → ↑ Task classi fi cation 구조/Objective BERT 구조 동일 →
  • 5. GPT-2 Language Models are Unsupervised Multitask Learners (2019) Unsupervised pre-training model 개발 Fine-tuning 없이 zero-shot만으로 downstream task 수행을 목표 GPT-2 is su ffi cient to over- come the ine ffi ciencies of uni-directional representations demonstrated by BERT • Fine-tuning 과정 생략: Zero-shot • Zero-shot 실험 환경에서 8 task 중 7개에서 SOTA 달성 (Summarization, Q&A 저조) • Byte 시퀀스에 BPE를 적용하기 때문에 자유롭게 기존의 데이터 셋에 적용이 가능 • p(output | input, task) • 태스크를 명시적으로 알려주는 것이 아니라, 모델에게 원하는 출력 형식의 예시를 주는 방식 • Translation Train ex: (translate to french, english text, french text), "Translate the following English text to French: '{txt}'" • Generalization vs Memorization • Training set 과의 overlap 문제 발생 우려 성능 개선의 큰 요인이 아니며 모델이 아직 under- fi tting되어 개선의 여지가 있다고 판단 • 모델의 크기에 따른 성능 증가 결과 제시 → →
  • 6. GPT-3 Language Models are Few-Shot Learners (2020) GPT2와 거의 비슷한 구조/목표를 유지. zero-, one-, few-shot 방법으로 다양하게 모델을 Setting, Benchmarking • Meta-Learning • Task-Agnostic (Task에 구애받지 않는) • zero-, one-, and few-shot performance often grows with model capacity, perhaps suggesting that larger models are more pro fi cient meta-learners. • Few-shot method Infer할 Input과 few-shot example이 함께 입력되는 형태 (기존에 알려진 Few-shot learning과는 다소 차이가 있음) → 350M 760M 355M 355M Transformer Layer 24 Hidden state 1024 SAHead 16
  • 7. Tokenization LLM Pre-Processing Step • 트랜스포머는 자연어 문장을 분절한 토큰 시퀀스를 입력으로 받으므로 문장의 토큰화 수행이 필요 • Text Encoding: Prompt (문장) Tokenizer를 이용한 Tokenization (단어) 정수 인코딩 (숫자로 표현) • GPT는 BPE (Byte-Pair-Encoding) 기법으로 토큰화 수행, BERT는 BPE와 유사한 워드피스 (Word-piece)를 토크나이저로 사용 • 토큰화의 방식: 단어 단위 / 문자 단위 / 서브워드 단위 토큰화 1. Lower Casting 2. Tokenization • Tokenization = 문장을 토큰 시퀀스로 나누는 과정, Tokenizer = 토큰화를 수행하는 프로그램 (ex. Korean Tokenizer: mecab, kkma..) • BPE: 단어를 최소 단위로 쪼개어 (byte 시퀀스) 빈도 수를 기반으로 자주 등장하는 byte 쌍을 병합, 해당 과정 반복 (단어의 변형에도 강점) (Byte-level Version: dog, dog?, dog! 최적으로 사용하지 못함 / Word-level Version) 3. Handling Out-Of-Vocabulary (OOV) • 단어 사전(단어-인덱스 목록)에 없는 상태의 용어 → → https://ratsgo.github.io/nlpbook/docs/preprocess/tokenization/