2. Why? GPT
• BERT의 많은 부분이 GPT에서 motivation을 얻었기 때문에 GPT를 정리할 필요가 있다
• BERT가 masked lm을 사용하고, GPT는 일반적인 lm을 사용한다는 점, 그리고 BERT는 transformer encoder
를 GPT는 transformer decoder를 사용한다는 점을 제외하면 정말 유사하다.
• 다만 LM pre-training 후 fine-tuning 방식이 어떻게 등장 하였는지에 대해 GPT에서 자세히 설명하고 있으
므로 꼭 읽어볼 만 하다.
(*)Language Model, 현재 알고 있는 단어를 기반으로 다음 단어를 예측하는데 많이 사용되는 모델
3. Abstract
• Natural Language Understanding 이라고 하는 것은 폭넓고, 다양한 Task에 대해서 잘 수행해야 하는데
labeled 되지 않은 text 들은 굉장히 많지만, 특정 task를 위한 labeled 학습용 데이터는 부족해서 학습을 잘
수행하기 어려운 상황
• 본 논문에서는 labeled 되지 않은 데이터에 대해 generative pre-training 을 진행하고, 그 다음 특정 task에
대해 discriminative fine-tuning을 함으로써 상당한 성능향상을 달성
- 이전의 접근법과는 달리 모델 구조는 최소한으로 변화시키면서 효과적인 전이(transfer)를 얻기 위한
fine-tuning 단계에서 과제에 맞는 입력 표현(input representations)을 사용함
• 이 논문에서 제시하는 과제에 대한 별다른 지식이 없는(task-agnostic) 모델이 특정 과제에 특화된 구조를
사용하는 모델의 성능을 뛰어넘는데 연구된 12개의 task 중 9개에서는 state-of-the-art를 달성
- commonsense reasoning 8.9% 향상
- question answering 및 textual entailment 1.5% 향상
4. 1.Introduction(1/2)
• 연구의 배경과 필요성
자연어 처리에서 지도 학습 방법이 수동으로 라벨을 만들어서 학습을 시켜야 하니까,
시간과 학습 비용이 많이 소요되기 때문에 라벨 없는 데이터로 학습 시키는게 좋겠다.
• 기존 연구 동향과 문제점
하지만 라벨 없는 데이터를 활용하는 데 있어서 어려움이 있다. 쉽지 않다.
왜?
라벨 없는 텍스트 데이터로 부터 단어 레벨 이상의 정보를 활용하는 것은 두가지 이유의 불확실성이 있다.
첫번째, 어떤 유형의 최적화 목표들이 텍스트 표현들을 학습할 때 가장 효과적인지 명확한 게 없다.
두번째, 이런 학습된 표현들이 목표 task로 전이하기 위한 가장 효과적인 방법에 대한 consensus 가 없다.
5. 1.Introduction(2/2)
• 논문에서의 연구 목표, 방법
- 연구 목표
여러 분야의 Task들로 정의 할 수 있는 보편적이고 범용적인 표현(universal representation) 학습하는 것
- 연구 방법
목표를 이루기 위해서 두 단계의 학습 절차가 있다.
1) unlabeled data로 모델의 초기 파라미터들을 학습 시키고,
2) 해당하는 지도 학습 목표를 사용해서 초기 파라미터들을 더 적응(adapt) 시킨다.
(그리고) 모델 아키텍처로 Transformer를 사용했고 Transformer에 장점 때문에 다양한 Task에서
단단한(Robust)한 전이 학습 성능을 냈고, 전이 학습 과정 동안에 Task-specific 한 input adaptations을
사용 하였다.
결국 이러한 adaptation은 사전 학습 모델의 구조를 최소한으로 변경하면서도 효과적으로 fine-tune을
할 수 있었다.
• 연구 평가 및 결과
4가지 유형에 대해서 성능평가를 했고, 그 결과로 12개 Task 중에서 9개에 있어서 SOTA를 달성함
Zero-shot behaviors에 대해서 관찰하고 분석을 진행함,
왜?
Pre-trained 을 사용해서 Language Understanding 을 향상 시킬 수 있음을 보여주었다.
6. 2.Related Work(1/2)
• Semi-supervised learning for NLP
초기에는 단어 레벨이나 phrase 레벨의 통계를 계산하기 위해 unlabled data를 활용하였고,
이 값이 supervised model의 feature로 사용되었다. 지난 몇년간, unlabled corpora로 학습시킨 word
embedding을 활용하여, 다양한 task의 성능을 향상시켰다.
그러나 이러한 접근방식은 word level의 정보를 주로 전달하기에 좀 더 higher-level의 의미를 전달하는
것을 목표로 하게 되었다.
최근 방식은 phrase-level이나 sentence-level embedding을 적용하는 방식이 연구되어 왔다.
• Unsupervised pre-training
Unsupervised pre-training의 목적은 좋은 initialization point를 찾는 것이다.
최근 연구는 image classification, speech recognition, entity disambiguation, MT와 같은 다양한
Task에서 이 방식이 사용될 수 있음을 보여줬다.
GPT의 연구와 가장 유사한 라인의 연구는 ULMFit과 Semi-supervised sequence labeling이다.
그러나 LSTM model의 사용은 prediction능력을 short range로 제한한다.
반면에 transformer구조는 더 긴 길이의 언어적인 구조를 캡쳐할 수 있음을 실험을 통해 보였다.
또한 GPT는 transfer할 때 아주 작은 모델 구조 변화만을 필요로 한다.
(*)semi-supervised learning = supervised learning, unsupervised learning 둘다 사용하는 learning
7. 2.Related Work(2/2)
• Auxiliary training objectives
보조적인 비지도 학습 목적함수를 추가하는 것 또한 준지도학습의 선택 가능한 형태 중 하나다.
저자도 또한 auxiliary objective를 사용하여 실험해 봤지만, unsupervised pre-training이 이미 Target
Task 에 연관 있는 언어적인 면을 상당히 학습했음을 보인다.
8. 3.Framework(1/3)
학습은 두 단계로 진행된다.
1) 큰 말뭉치에서 대용량의 언어 모델을 학습한다.
2) 분류 데이터를 써서 특정 과제에 맞춰 모델을 미세조정한다
• Unsupervised pre-training
k(context window size) 만큼의 unsupervised corpus tokens을 이용해서 현재 token ui를 예측하는 것이다.
h0 -> 필요한 해당 token을 position embedding으로 순서 값을 정해주고,
hl -> 계속해서 transformer_block에 넣어줘서 학습을 진행한다.
결과(Pu)는 학습된 마지막 값을 행렬 곱하여 text dictionary만큼의 softmax로 다음 단어를 뽑아낸다.
9. 3.Framework(2/3)
• Supervised fine-tuning
labeld dataset C를 가지는 trarget task에 대해 parameters를 조정한다.
softmax를 통해 input tokens x1,…,xm에 해당하는 label y를 예측한다.
목적함수는 주어져 있는 토근의 시퀀스에 따라서 정답이 무엇인지에 대한 확률 값을 최대화하는 것
추가로, supervised에 해당하는 목적 함수 뿐만 아니라, 우리가 현재 보유하고 있는 L1 즉 supervised
corpus에 대한 LM을 함께 학습한다면 두가지의 장점이 있다.( generalization 및 학습 속도 향상)
13. 5. Analysis(1/2)
• Impact of number of layered transferred and Zero-shot behaviors
Decoder block Fine-tune parameter update
14. 5. Analysis(2/2)
• Ablation studies
Larger datasets benefit from the auxiliary objective but smaller dataset do not
LSTM only outperforms the Transformer on one dataset
15. 5. Conclusion
위 논문은 비슷한 시기에 나온 BERT보다 덜 유명하다.
BERT와 GPT모델은 서로 pre training 기법이 다른데 BERT가 다양한 task에 대해 더 뛰어난 결과를 낳았기 때
문이다.
하지만 GPT모델은 language model 기반이기에 BERT보다 언어 생성에 유리하고, 이는 최근에 나온 GPT3의
위력을 통해 확인 가능하였다.
해당 논문은 LSTM 대신 transformer 구조를 활용하고, pre training 기법으로 언어 모델링을 사용한 데에 의의
가 있다고 생각된다.