SlideShare a Scribd company logo
1 of 15
Download to read offline
Improving Language Understanding by Generative Pre-Training
NLP from Scratch 1기
2021.02.21
Why? GPT
• BERT의 많은 부분이 GPT에서 motivation을 얻었기 때문에 GPT를 정리할 필요가 있다
• BERT가 masked lm을 사용하고, GPT는 일반적인 lm을 사용한다는 점, 그리고 BERT는 transformer encoder
를 GPT는 transformer decoder를 사용한다는 점을 제외하면 정말 유사하다.
• 다만 LM pre-training 후 fine-tuning 방식이 어떻게 등장 하였는지에 대해 GPT에서 자세히 설명하고 있으
므로 꼭 읽어볼 만 하다.
(*)Language Model, 현재 알고 있는 단어를 기반으로 다음 단어를 예측하는데 많이 사용되는 모델
Abstract
• Natural Language Understanding 이라고 하는 것은 폭넓고, 다양한 Task에 대해서 잘 수행해야 하는데
labeled 되지 않은 text 들은 굉장히 많지만, 특정 task를 위한 labeled 학습용 데이터는 부족해서 학습을 잘
수행하기 어려운 상황
• 본 논문에서는 labeled 되지 않은 데이터에 대해 generative pre-training 을 진행하고, 그 다음 특정 task에
대해 discriminative fine-tuning을 함으로써 상당한 성능향상을 달성
- 이전의 접근법과는 달리 모델 구조는 최소한으로 변화시키면서 효과적인 전이(transfer)를 얻기 위한
fine-tuning 단계에서 과제에 맞는 입력 표현(input representations)을 사용함
• 이 논문에서 제시하는 과제에 대한 별다른 지식이 없는(task-agnostic) 모델이 특정 과제에 특화된 구조를
사용하는 모델의 성능을 뛰어넘는데 연구된 12개의 task 중 9개에서는 state-of-the-art를 달성
- commonsense reasoning 8.9% 향상
- question answering 및 textual entailment 1.5% 향상
1.Introduction(1/2)
• 연구의 배경과 필요성
자연어 처리에서 지도 학습 방법이 수동으로 라벨을 만들어서 학습을 시켜야 하니까,
시간과 학습 비용이 많이 소요되기 때문에 라벨 없는 데이터로 학습 시키는게 좋겠다.
• 기존 연구 동향과 문제점
하지만 라벨 없는 데이터를 활용하는 데 있어서 어려움이 있다. 쉽지 않다.
왜?
라벨 없는 텍스트 데이터로 부터 단어 레벨 이상의 정보를 활용하는 것은 두가지 이유의 불확실성이 있다.
첫번째, 어떤 유형의 최적화 목표들이 텍스트 표현들을 학습할 때 가장 효과적인지 명확한 게 없다.
두번째, 이런 학습된 표현들이 목표 task로 전이하기 위한 가장 효과적인 방법에 대한 consensus 가 없다.
1.Introduction(2/2)
• 논문에서의 연구 목표, 방법
- 연구 목표
여러 분야의 Task들로 정의 할 수 있는 보편적이고 범용적인 표현(universal representation) 학습하는 것
- 연구 방법
목표를 이루기 위해서 두 단계의 학습 절차가 있다.
1) unlabeled data로 모델의 초기 파라미터들을 학습 시키고,
2) 해당하는 지도 학습 목표를 사용해서 초기 파라미터들을 더 적응(adapt) 시킨다.
(그리고) 모델 아키텍처로 Transformer를 사용했고 Transformer에 장점 때문에 다양한 Task에서
단단한(Robust)한 전이 학습 성능을 냈고, 전이 학습 과정 동안에 Task-specific 한 input adaptations을
사용 하였다.
결국 이러한 adaptation은 사전 학습 모델의 구조를 최소한으로 변경하면서도 효과적으로 fine-tune을
할 수 있었다.
• 연구 평가 및 결과
4가지 유형에 대해서 성능평가를 했고, 그 결과로 12개 Task 중에서 9개에 있어서 SOTA를 달성함
Zero-shot behaviors에 대해서 관찰하고 분석을 진행함,
왜?
Pre-trained 을 사용해서 Language Understanding 을 향상 시킬 수 있음을 보여주었다.
2.Related Work(1/2)
• Semi-supervised learning for NLP
초기에는 단어 레벨이나 phrase 레벨의 통계를 계산하기 위해 unlabled data를 활용하였고,
이 값이 supervised model의 feature로 사용되었다. 지난 몇년간, unlabled corpora로 학습시킨 word
embedding을 활용하여, 다양한 task의 성능을 향상시켰다.
그러나 이러한 접근방식은 word level의 정보를 주로 전달하기에 좀 더 higher-level의 의미를 전달하는
것을 목표로 하게 되었다.
최근 방식은 phrase-level이나 sentence-level embedding을 적용하는 방식이 연구되어 왔다.
• Unsupervised pre-training
Unsupervised pre-training의 목적은 좋은 initialization point를 찾는 것이다.
최근 연구는 image classification, speech recognition, entity disambiguation, MT와 같은 다양한
Task에서 이 방식이 사용될 수 있음을 보여줬다.
GPT의 연구와 가장 유사한 라인의 연구는 ULMFit과 Semi-supervised sequence labeling이다.
그러나 LSTM model의 사용은 prediction능력을 short range로 제한한다.
반면에 transformer구조는 더 긴 길이의 언어적인 구조를 캡쳐할 수 있음을 실험을 통해 보였다.
또한 GPT는 transfer할 때 아주 작은 모델 구조 변화만을 필요로 한다.
(*)semi-supervised learning = supervised learning, unsupervised learning 둘다 사용하는 learning
2.Related Work(2/2)
• Auxiliary training objectives
보조적인 비지도 학습 목적함수를 추가하는 것 또한 준지도학습의 선택 가능한 형태 중 하나다.
저자도 또한 auxiliary objective를 사용하여 실험해 봤지만, unsupervised pre-training이 이미 Target
Task 에 연관 있는 언어적인 면을 상당히 학습했음을 보인다.
3.Framework(1/3)
학습은 두 단계로 진행된다.
1) 큰 말뭉치에서 대용량의 언어 모델을 학습한다.
2) 분류 데이터를 써서 특정 과제에 맞춰 모델을 미세조정한다
• Unsupervised pre-training
k(context window size) 만큼의 unsupervised corpus tokens을 이용해서 현재 token ui를 예측하는 것이다.
h0 -> 필요한 해당 token을 position embedding으로 순서 값을 정해주고,
hl -> 계속해서 transformer_block에 넣어줘서 학습을 진행한다.
결과(Pu)는 학습된 마지막 값을 행렬 곱하여 text dictionary만큼의 softmax로 다음 단어를 뽑아낸다.
3.Framework(2/3)
• Supervised fine-tuning
labeld dataset C를 가지는 trarget task에 대해 parameters를 조정한다.
softmax를 통해 input tokens x1,…,xm에 해당하는 label y를 예측한다.
목적함수는 주어져 있는 토근의 시퀀스에 따라서 정답이 무엇인지에 대한 확률 값을 최대화하는 것
추가로, supervised에 해당하는 목적 함수 뿐만 아니라, 우리가 현재 보유하고 있는 L1 즉 supervised
corpus에 대한 LM을 함께 학습한다면 두가지의 장점이 있다.( generalization 및 학습 속도 향상)
3.Framework(3/3)
• Task-specific input transformations
Transformer를 통해서 LM을 만드는 것은 모두 똑같은 과정인데, 그 이후에 특정한 Task가 무엇이냐에
따라서 실제 입력에 따른 구조가 달라지는 구조를 나타냄
4. Experiments(1/2)
• Pre-training (UnSupervised Datasets)
BookCorpus / 1 Billion Word Language Model Benchmark
• Tasks & (Supervised) Datasets
• Natural Language Inference
4. Experiments(2/2)
• Question & Answering
• Semantic Similarity & Classification
5. Analysis(1/2)
• Impact of number of layered transferred and Zero-shot behaviors
Decoder block Fine-tune parameter update
5. Analysis(2/2)
• Ablation studies
 Larger datasets benefit from the auxiliary objective but smaller dataset do not
 LSTM only outperforms the Transformer on one dataset
5. Conclusion
위 논문은 비슷한 시기에 나온 BERT보다 덜 유명하다.
BERT와 GPT모델은 서로 pre training 기법이 다른데 BERT가 다양한 task에 대해 더 뛰어난 결과를 낳았기 때
문이다.
하지만 GPT모델은 language model 기반이기에 BERT보다 언어 생성에 유리하고, 이는 최근에 나온 GPT3의
위력을 통해 확인 가능하였다.
해당 논문은 LSTM 대신 transformer 구조를 활용하고, pre training 기법으로 언어 모델링을 사용한 데에 의의
가 있다고 생각된다.

More Related Content

What's hot

Bert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP ChallengeBert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP ChallengeOverDeep
 
Reinforcement learning
Reinforcement learningReinforcement learning
Reinforcement learningTae Young Lee
 
Enliple korquad challenge
Enliple korquad challengeEnliple korquad challenge
Enliple korquad challengeSanghyun Cho
 
Pretrained summarization on distillation
Pretrained summarization on distillationPretrained summarization on distillation
Pretrained summarization on distillationgohyunwoong
 
Machine translation survey vol2
Machine translation survey   vol2Machine translation survey   vol2
Machine translation survey vol2gohyunwoong
 
Sequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural NetworksSequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural NetworksHoon Heo
 
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...gohyunwoong
 
GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역Byeong il Ko
 
Deview2013 naver labs_nsmt_외부공개버전_김준석
Deview2013 naver labs_nsmt_외부공개버전_김준석Deview2013 naver labs_nsmt_외부공개버전_김준석
Deview2013 naver labs_nsmt_외부공개버전_김준석NAVER D2
 
Character-Aware Neural Language Models
Character-Aware Neural Language ModelsCharacter-Aware Neural Language Models
Character-Aware Neural Language ModelsHoon Heo
 
CS294-112 Lecture 13
CS294-112 Lecture 13CS294-112 Lecture 13
CS294-112 Lecture 13Gyubin Son
 
Siamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedSiamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedtaeseon ryu
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지deepseaswjh
 

What's hot (20)

REALM
REALMREALM
REALM
 
Bert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP ChallengeBert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP Challenge
 
Ai nlp challenge
Ai nlp challengeAi nlp challenge
Ai nlp challenge
 
Reinforcement learning
Reinforcement learningReinforcement learning
Reinforcement learning
 
Enliple korquad challenge
Enliple korquad challengeEnliple korquad challenge
Enliple korquad challenge
 
Pretrained summarization on distillation
Pretrained summarization on distillationPretrained summarization on distillation
Pretrained summarization on distillation
 
Machine translation survey vol2
Machine translation survey   vol2Machine translation survey   vol2
Machine translation survey vol2
 
Sequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural NetworksSequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural Networks
 
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
 
GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역
 
Deview2013 naver labs_nsmt_외부공개버전_김준석
Deview2013 naver labs_nsmt_외부공개버전_김준석Deview2013 naver labs_nsmt_외부공개버전_김준석
Deview2013 naver labs_nsmt_외부공개버전_김준석
 
Character-Aware Neural Language Models
Character-Aware Neural Language ModelsCharacter-Aware Neural Language Models
Character-Aware Neural Language Models
 
파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝
 
메이크챗봇 자연어기초
메이크챗봇 자연어기초메이크챗봇 자연어기초
메이크챗봇 자연어기초
 
CS294-112 18
CS294-112 18CS294-112 18
CS294-112 18
 
CS294-112 Lecture 13
CS294-112 Lecture 13CS294-112 Lecture 13
CS294-112 Lecture 13
 
Siamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedSiamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explained
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
 
파이썬을 활용한 자연어 분석 - 2차
파이썬을 활용한 자연어 분석 - 2차파이썬을 활용한 자연어 분석 - 2차
파이썬을 활용한 자연어 분석 - 2차
 
파이썬을 활용한 자연어분석 기초
파이썬을 활용한 자연어분석 기초파이썬을 활용한 자연어분석 기초
파이썬을 활용한 자연어분석 기초
 

Similar to Improving Language Understanding by Generative Pre-Training

GPT-Series.pdf
GPT-Series.pdfGPT-Series.pdf
GPT-Series.pdfKyuri Kim
 
20231130 LLM이 걸어온 길과 앞으로의 활약 분야 - CoT기반 Autonomous Agents를 위한 한국어 Explanation...
20231130 LLM이 걸어온 길과 앞으로의 활약 분야 - CoT기반 Autonomous Agents를 위한 한국어 Explanation...20231130 LLM이 걸어온 길과 앞으로의 활약 분야 - CoT기반 Autonomous Agents를 위한 한국어 Explanation...
20231130 LLM이 걸어온 길과 앞으로의 활약 분야 - CoT기반 Autonomous Agents를 위한 한국어 Explanation...Ki Hyun Kim
 
Transfer learning usage
Transfer learning usageTransfer learning usage
Transfer learning usageTae Young Lee
 
C'est la vie (hello bert!)
C'est la vie (hello bert!)C'est la vie (hello bert!)
C'est la vie (hello bert!)Junho Lee
 
Layout lm paper review
Layout lm paper review Layout lm paper review
Layout lm paper review taeseon ryu
 
De text a deep text ranking framework with bert
De text  a deep text ranking framework with bertDe text  a deep text ranking framework with bert
De text a deep text ranking framework with berttaeseon ryu
 
[Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization? [Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization? Hangil Kim
 
검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPT검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPTTae Young Lee
 
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
 
LLM 모델 기반 서비스 실전 가이드
LLM 모델 기반 서비스 실전 가이드LLM 모델 기반 서비스 실전 가이드
LLM 모델 기반 서비스 실전 가이드Tae Young Lee
 
DeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled AttentionDeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled Attentiontaeseon ryu
 
Switch transformers paper review
Switch transformers paper reviewSwitch transformers paper review
Switch transformers paper reviewSeonghoon Jung
 
MRC recent trend_ppt
MRC recent trend_pptMRC recent trend_ppt
MRC recent trend_pptseungwoo kim
 
Infra as a model service
Infra as a model serviceInfra as a model service
Infra as a model serviceTae Young Lee
 
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안Clova Platform
 
Papago/N2MT 개발이야기
Papago/N2MT 개발이야기Papago/N2MT 개발이야기
Papago/N2MT 개발이야기NAVER D2
 

Similar to Improving Language Understanding by Generative Pre-Training (20)

GPT-Series.pdf
GPT-Series.pdfGPT-Series.pdf
GPT-Series.pdf
 
20231130 LLM이 걸어온 길과 앞으로의 활약 분야 - CoT기반 Autonomous Agents를 위한 한국어 Explanation...
20231130 LLM이 걸어온 길과 앞으로의 활약 분야 - CoT기반 Autonomous Agents를 위한 한국어 Explanation...20231130 LLM이 걸어온 길과 앞으로의 활약 분야 - CoT기반 Autonomous Agents를 위한 한국어 Explanation...
20231130 LLM이 걸어온 길과 앞으로의 활약 분야 - CoT기반 Autonomous Agents를 위한 한국어 Explanation...
 
Transfer learning usage
Transfer learning usageTransfer learning usage
Transfer learning usage
 
PaLM Paper Review
PaLM Paper ReviewPaLM Paper Review
PaLM Paper Review
 
C'est la vie (hello bert!)
C'est la vie (hello bert!)C'est la vie (hello bert!)
C'est la vie (hello bert!)
 
Layout lm paper review
Layout lm paper review Layout lm paper review
Layout lm paper review
 
De text a deep text ranking framework with bert
De text  a deep text ranking framework with bertDe text  a deep text ranking framework with bert
De text a deep text ranking framework with bert
 
[Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization? [Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization?
 
검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPT검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPT
 
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
 
221011_BERT
221011_BERT221011_BERT
221011_BERT
 
LLM 모델 기반 서비스 실전 가이드
LLM 모델 기반 서비스 실전 가이드LLM 모델 기반 서비스 실전 가이드
LLM 모델 기반 서비스 실전 가이드
 
DeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled AttentionDeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled Attention
 
Switch transformers paper review
Switch transformers paper reviewSwitch transformers paper review
Switch transformers paper review
 
자연어5 | 1차강의
자연어5 | 1차강의자연어5 | 1차강의
자연어5 | 1차강의
 
MRC recent trend_ppt
MRC recent trend_pptMRC recent trend_ppt
MRC recent trend_ppt
 
Infra as a model service
Infra as a model serviceInfra as a model service
Infra as a model service
 
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
 
MT-DNN
MT-DNNMT-DNN
MT-DNN
 
Papago/N2MT 개발이야기
Papago/N2MT 개발이야기Papago/N2MT 개발이야기
Papago/N2MT 개발이야기
 

More from pko89403

Airflow tutorials hands_on
Airflow tutorials hands_onAirflow tutorials hands_on
Airflow tutorials hands_onpko89403
 
Wide&Deep Recommendation Model
Wide&Deep Recommendation ModelWide&Deep Recommendation Model
Wide&Deep Recommendation Modelpko89403
 
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks pko89403
 
CNN Introduction
CNN IntroductionCNN Introduction
CNN Introductionpko89403
 
AutoEncoder&GAN Introduction
AutoEncoder&GAN IntroductionAutoEncoder&GAN Introduction
AutoEncoder&GAN Introductionpko89403
 
Accelerating the machine learning lifecycle with m lflow
Accelerating the machine learning lifecycle with m lflowAccelerating the machine learning lifecycle with m lflow
Accelerating the machine learning lifecycle with m lflowpko89403
 
Auto rec autoencoders meets collaborative filtering
Auto rec autoencoders meets collaborative filteringAuto rec autoencoders meets collaborative filtering
Auto rec autoencoders meets collaborative filteringpko89403
 
Graph convolutional matrix completion
Graph convolutional  matrix completionGraph convolutional  matrix completion
Graph convolutional matrix completionpko89403
 
Efficient thompson sampling for online matrix factorization recommendation
Efficient thompson sampling for online matrix factorization recommendationEfficient thompson sampling for online matrix factorization recommendation
Efficient thompson sampling for online matrix factorization recommendationpko89403
 
Session based rcommendations with recurrent neural networks
Session based rcommendations with recurrent neural networksSession based rcommendations with recurrent neural networks
Session based rcommendations with recurrent neural networkspko89403
 

More from pko89403 (11)

Airflow tutorials hands_on
Airflow tutorials hands_onAirflow tutorials hands_on
Airflow tutorials hands_on
 
Wide&Deep Recommendation Model
Wide&Deep Recommendation ModelWide&Deep Recommendation Model
Wide&Deep Recommendation Model
 
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
 
Item2Vec
Item2VecItem2Vec
Item2Vec
 
CNN Introduction
CNN IntroductionCNN Introduction
CNN Introduction
 
AutoEncoder&GAN Introduction
AutoEncoder&GAN IntroductionAutoEncoder&GAN Introduction
AutoEncoder&GAN Introduction
 
Accelerating the machine learning lifecycle with m lflow
Accelerating the machine learning lifecycle with m lflowAccelerating the machine learning lifecycle with m lflow
Accelerating the machine learning lifecycle with m lflow
 
Auto rec autoencoders meets collaborative filtering
Auto rec autoencoders meets collaborative filteringAuto rec autoencoders meets collaborative filtering
Auto rec autoencoders meets collaborative filtering
 
Graph convolutional matrix completion
Graph convolutional  matrix completionGraph convolutional  matrix completion
Graph convolutional matrix completion
 
Efficient thompson sampling for online matrix factorization recommendation
Efficient thompson sampling for online matrix factorization recommendationEfficient thompson sampling for online matrix factorization recommendation
Efficient thompson sampling for online matrix factorization recommendation
 
Session based rcommendations with recurrent neural networks
Session based rcommendations with recurrent neural networksSession based rcommendations with recurrent neural networks
Session based rcommendations with recurrent neural networks
 

Improving Language Understanding by Generative Pre-Training

  • 1. Improving Language Understanding by Generative Pre-Training NLP from Scratch 1기 2021.02.21
  • 2. Why? GPT • BERT의 많은 부분이 GPT에서 motivation을 얻었기 때문에 GPT를 정리할 필요가 있다 • BERT가 masked lm을 사용하고, GPT는 일반적인 lm을 사용한다는 점, 그리고 BERT는 transformer encoder 를 GPT는 transformer decoder를 사용한다는 점을 제외하면 정말 유사하다. • 다만 LM pre-training 후 fine-tuning 방식이 어떻게 등장 하였는지에 대해 GPT에서 자세히 설명하고 있으 므로 꼭 읽어볼 만 하다. (*)Language Model, 현재 알고 있는 단어를 기반으로 다음 단어를 예측하는데 많이 사용되는 모델
  • 3. Abstract • Natural Language Understanding 이라고 하는 것은 폭넓고, 다양한 Task에 대해서 잘 수행해야 하는데 labeled 되지 않은 text 들은 굉장히 많지만, 특정 task를 위한 labeled 학습용 데이터는 부족해서 학습을 잘 수행하기 어려운 상황 • 본 논문에서는 labeled 되지 않은 데이터에 대해 generative pre-training 을 진행하고, 그 다음 특정 task에 대해 discriminative fine-tuning을 함으로써 상당한 성능향상을 달성 - 이전의 접근법과는 달리 모델 구조는 최소한으로 변화시키면서 효과적인 전이(transfer)를 얻기 위한 fine-tuning 단계에서 과제에 맞는 입력 표현(input representations)을 사용함 • 이 논문에서 제시하는 과제에 대한 별다른 지식이 없는(task-agnostic) 모델이 특정 과제에 특화된 구조를 사용하는 모델의 성능을 뛰어넘는데 연구된 12개의 task 중 9개에서는 state-of-the-art를 달성 - commonsense reasoning 8.9% 향상 - question answering 및 textual entailment 1.5% 향상
  • 4. 1.Introduction(1/2) • 연구의 배경과 필요성 자연어 처리에서 지도 학습 방법이 수동으로 라벨을 만들어서 학습을 시켜야 하니까, 시간과 학습 비용이 많이 소요되기 때문에 라벨 없는 데이터로 학습 시키는게 좋겠다. • 기존 연구 동향과 문제점 하지만 라벨 없는 데이터를 활용하는 데 있어서 어려움이 있다. 쉽지 않다. 왜? 라벨 없는 텍스트 데이터로 부터 단어 레벨 이상의 정보를 활용하는 것은 두가지 이유의 불확실성이 있다. 첫번째, 어떤 유형의 최적화 목표들이 텍스트 표현들을 학습할 때 가장 효과적인지 명확한 게 없다. 두번째, 이런 학습된 표현들이 목표 task로 전이하기 위한 가장 효과적인 방법에 대한 consensus 가 없다.
  • 5. 1.Introduction(2/2) • 논문에서의 연구 목표, 방법 - 연구 목표 여러 분야의 Task들로 정의 할 수 있는 보편적이고 범용적인 표현(universal representation) 학습하는 것 - 연구 방법 목표를 이루기 위해서 두 단계의 학습 절차가 있다. 1) unlabeled data로 모델의 초기 파라미터들을 학습 시키고, 2) 해당하는 지도 학습 목표를 사용해서 초기 파라미터들을 더 적응(adapt) 시킨다. (그리고) 모델 아키텍처로 Transformer를 사용했고 Transformer에 장점 때문에 다양한 Task에서 단단한(Robust)한 전이 학습 성능을 냈고, 전이 학습 과정 동안에 Task-specific 한 input adaptations을 사용 하였다. 결국 이러한 adaptation은 사전 학습 모델의 구조를 최소한으로 변경하면서도 효과적으로 fine-tune을 할 수 있었다. • 연구 평가 및 결과 4가지 유형에 대해서 성능평가를 했고, 그 결과로 12개 Task 중에서 9개에 있어서 SOTA를 달성함 Zero-shot behaviors에 대해서 관찰하고 분석을 진행함, 왜? Pre-trained 을 사용해서 Language Understanding 을 향상 시킬 수 있음을 보여주었다.
  • 6. 2.Related Work(1/2) • Semi-supervised learning for NLP 초기에는 단어 레벨이나 phrase 레벨의 통계를 계산하기 위해 unlabled data를 활용하였고, 이 값이 supervised model의 feature로 사용되었다. 지난 몇년간, unlabled corpora로 학습시킨 word embedding을 활용하여, 다양한 task의 성능을 향상시켰다. 그러나 이러한 접근방식은 word level의 정보를 주로 전달하기에 좀 더 higher-level의 의미를 전달하는 것을 목표로 하게 되었다. 최근 방식은 phrase-level이나 sentence-level embedding을 적용하는 방식이 연구되어 왔다. • Unsupervised pre-training Unsupervised pre-training의 목적은 좋은 initialization point를 찾는 것이다. 최근 연구는 image classification, speech recognition, entity disambiguation, MT와 같은 다양한 Task에서 이 방식이 사용될 수 있음을 보여줬다. GPT의 연구와 가장 유사한 라인의 연구는 ULMFit과 Semi-supervised sequence labeling이다. 그러나 LSTM model의 사용은 prediction능력을 short range로 제한한다. 반면에 transformer구조는 더 긴 길이의 언어적인 구조를 캡쳐할 수 있음을 실험을 통해 보였다. 또한 GPT는 transfer할 때 아주 작은 모델 구조 변화만을 필요로 한다. (*)semi-supervised learning = supervised learning, unsupervised learning 둘다 사용하는 learning
  • 7. 2.Related Work(2/2) • Auxiliary training objectives 보조적인 비지도 학습 목적함수를 추가하는 것 또한 준지도학습의 선택 가능한 형태 중 하나다. 저자도 또한 auxiliary objective를 사용하여 실험해 봤지만, unsupervised pre-training이 이미 Target Task 에 연관 있는 언어적인 면을 상당히 학습했음을 보인다.
  • 8. 3.Framework(1/3) 학습은 두 단계로 진행된다. 1) 큰 말뭉치에서 대용량의 언어 모델을 학습한다. 2) 분류 데이터를 써서 특정 과제에 맞춰 모델을 미세조정한다 • Unsupervised pre-training k(context window size) 만큼의 unsupervised corpus tokens을 이용해서 현재 token ui를 예측하는 것이다. h0 -> 필요한 해당 token을 position embedding으로 순서 값을 정해주고, hl -> 계속해서 transformer_block에 넣어줘서 학습을 진행한다. 결과(Pu)는 학습된 마지막 값을 행렬 곱하여 text dictionary만큼의 softmax로 다음 단어를 뽑아낸다.
  • 9. 3.Framework(2/3) • Supervised fine-tuning labeld dataset C를 가지는 trarget task에 대해 parameters를 조정한다. softmax를 통해 input tokens x1,…,xm에 해당하는 label y를 예측한다. 목적함수는 주어져 있는 토근의 시퀀스에 따라서 정답이 무엇인지에 대한 확률 값을 최대화하는 것 추가로, supervised에 해당하는 목적 함수 뿐만 아니라, 우리가 현재 보유하고 있는 L1 즉 supervised corpus에 대한 LM을 함께 학습한다면 두가지의 장점이 있다.( generalization 및 학습 속도 향상)
  • 10. 3.Framework(3/3) • Task-specific input transformations Transformer를 통해서 LM을 만드는 것은 모두 똑같은 과정인데, 그 이후에 특정한 Task가 무엇이냐에 따라서 실제 입력에 따른 구조가 달라지는 구조를 나타냄
  • 11. 4. Experiments(1/2) • Pre-training (UnSupervised Datasets) BookCorpus / 1 Billion Word Language Model Benchmark • Tasks & (Supervised) Datasets • Natural Language Inference
  • 12. 4. Experiments(2/2) • Question & Answering • Semantic Similarity & Classification
  • 13. 5. Analysis(1/2) • Impact of number of layered transferred and Zero-shot behaviors Decoder block Fine-tune parameter update
  • 14. 5. Analysis(2/2) • Ablation studies  Larger datasets benefit from the auxiliary objective but smaller dataset do not  LSTM only outperforms the Transformer on one dataset
  • 15. 5. Conclusion 위 논문은 비슷한 시기에 나온 BERT보다 덜 유명하다. BERT와 GPT모델은 서로 pre training 기법이 다른데 BERT가 다양한 task에 대해 더 뛰어난 결과를 낳았기 때 문이다. 하지만 GPT모델은 language model 기반이기에 BERT보다 언어 생성에 유리하고, 이는 최근에 나온 GPT3의 위력을 통해 확인 가능하였다. 해당 논문은 LSTM 대신 transformer 구조를 활용하고, pre training 기법으로 언어 모델링을 사용한 데에 의의 가 있다고 생각된다.