이 논문에서는 추상적 요약 모델의 훈련 방식에 대해 논의하고 있습니다. 일반적으로 이러한 모델은 최대 가능도 추정을 사용하여 훈련되는데, 이는 이상적인 모델이 모든 확률 질량을 참조 요약에 할당할 것이라고 가정하는 결정론적인 목표 분포를 가정합니다. 이런 가정은 추론 과정에서 성능 저하를 초래할 수 있는데, 모델이 참조 요약에서 벗어난 여러 후보 요약을 비교해야 하기 때문입니다. 이 문제를 해결하기 위해, 저자들은 서로 다른 후보 요약들이 그들의 품질에 따라 확률 질량을 할당받는 비결정론적 분포를 가정하는 새로운 훈련 패러다임을 제안합니다. 이 방법은 CNN/DailyMail (47.78 ROUGE-1) 및 XSum (49.07 ROUGE-1) 데이터셋에서 새로운 최고 성능을 달성했습니다.
4. Exposure bias
ROUGE
• N-gram을 기준으로 Recall, Precision, F1을 계산
Ex)
Reference Text : 딥러닝 논문 읽기 모임은 유익하다.
Inference Text : 논문 모임은 매우 유익하다.
• Recall : 0.6
• Precision : 0.75
• F1 : 0.67
• Train 과정에서는 Teacher forcing이 적용
• Inference 과정에서는 이전 스텝에서 예측한 토큰을 사용
7. • 추상 요약은 Maximum likelihood estimation으로 학습(deterministic – one point)
• Non-deterministic 분포를 가정하는 새로운 학습 paradigm을 제시
• 서로 다른 생성 요약 후보에 확률 질량을 부여(품질에 따라서)
9. • Autoregressive Manner → Exposure bias
• Metric(Rouge)와 실제 생성 요약의 확률 간의 불일치를 해결하는 것이 목적
Reference samples
• 딥러닝 논문 읽기 모임은 유익하다.
Generate samples
• 딥러닝 논문 읽기 모임은 유익하다. / P : 0.5
• 논문 모임은 매우 유익하다. / P : 0.7
10. • 모델에 두 개의 역할을 부여 → generation & Evaluation
• Generation Model : MLE Loss로 학습
• Evaluation Model : Contrastive Loss로 학습
• Main contribution : 모델이 학습할 타겟 분포를 deterministic
한 분포에서 non-deterministic 분포로 변경
30. • Metric에 따른 점수와 candidate outputs의 확률을 활용한 Contrastive한 학습 방법을 제시
• 추상 요약 뿐만 아니라 기계 번역 Task에도 확장 가능성
• 강화 학습에 적용 가능성이 존재
• Diverse beam search 외의 다른 생성 방법을 활용한 성능 개선 가능성