BRIO: Bringing Order to Abstractive Summarization

•

0 likes•49 views

이 논문에서는 추상적 요약 모델의 훈련 방식에 대해 논의하고 있습니다. 일반적으로 이러한 모델은 최대 가능도 추정을 사용하여 훈련되는데, 이는 이상적인 모델이 모든 확률 질량을 참조 요약에 할당할 것이라고 가정하는 결정론적인 목표 분포를 가정합니다. 이런 가정은 추론 과정에서 성능 저하를 초래할 수 있는데, 모델이 참조 요약에서 벗어난 여러 후보 요약을 비교해야 하기 때문입니다. 이 문제를 해결하기 위해, 저자들은 서로 다른 후보 요약들이 그들의 품질에 따라 확률 질량을 할당받는 비결정론적 분포를 가정하는 새로운 훈련 패러다임을 제안합니다. 이 방법은 CNN/DailyMail (47.78 ROUGE-1) 및 XSum (49.07 ROUGE-1) 데이터셋에서 새로운 최고 성능을 달성했습니다.

Data & Analytics

BRIO: Bringing Order to Abstractive Summarization
딥러닝 논문읽기 모임
자연어처리팀 : 조해창, 김유진, 변현정, 박산희, 이기성(발표자)

Content
1. Background
2. Abstract
3. Introduction
4. Neural Abstractive Summarization
5. Coordinating Abstractive Models
6. Experiments
7. Conclusion

Exposure bias
ROUGE
• N-gram을 기준으로 Recall, Precision, F1을 계산
Ex)
Reference Text : 딥러닝 논문 읽기 모임은 유익하다.
Inference Text : 논문 모임은 매우 유익하다.
• Recall : 0.6
• Precision : 0.75
• F1 : 0.67
• Train 과정에서는 Teacher forcing이 적용
• Inference 과정에서는 이전 스텝에서 예측한 토큰을 사용

Contrastive Learning
• 대상들의 차이를 명확하게 보여줄 수 있도록 학습하는 것
• Metric Learning의 일종

• 추상 요약은 Maximum likelihood estimation으로 학습(deterministic – one point)
• Non-deterministic 분포를 가정하는 새로운 학습 paradigm을 제시
• 서로 다른 생성 요약 후보에 확률 질량을 부여(품질에 따라서)

• Autoregressive Manner → Exposure bias
• Metric(Rouge)와 실제 생성 요약의 확률 간의 불일치를 해결하는 것이 목적
Reference samples
• 딥러닝 논문 읽기 모임은 유익하다.
Generate samples
• 딥러닝 논문 읽기 모임은 유익하다. / P : 0.5
• 논문 모임은 매우 유익하다. / P : 0.7

• 모델에 두 개의 역할을 부여 → generation & Evaluation
• Generation Model : MLE Loss로 학습
• Evaluation Model : Contrastive Loss로 학습
• Main contribution : 모델이 학습할 타겟 분포를 deterministic
한 분포에서 non-deterministic 분포로 변경

• D : Source document
• S : Reference summary / s : summary token
• g : Function
Training Objective

Generate samples
• 딥러닝 모임은 유익
• 논문 모임은 매우 유익하다.
• 딥러닝 논문 읽기 모임은 재미있다.
• 모임은 재미있다.
Reference samples
• 딥러닝 논문 읽기 모임은 유익하고 재미있다.
MLE Loss
Generate samples(Sorted by ROUGE)
1. 딥러닝 논문 읽기 모임은 재미있다.
2. 논문 모임은 매우 유익하다.
3. 딥러닝 모임은 유익
4. 모임은 재미있다.
Contrastive Loss

Experimental Settings / Implementation Details
• Datasets : CNNDM, Xsum, NYT
• Baselines : BART, PEGASUS, Gsum, SimCLS, GOLD, SeqCo, ConSum
• BRIO-Ctr : Contrastive loss only
• BRIO-Mul : CE loss + Contrastive loss

• Coefficients of the Multi-Task Loss
Analysis

• Generation-Finetuning as a Loop
Analysis

• Training with Different Evaluation Metrics
Analysis

• Metric에 따른 점수와 candidate outputs의 확률을 활용한 Contrastive한 학습 방법을 제시
• 추상 요약 뿐만 아니라 기계 번역 Task에도 확장 가능성
• 강화 학습에 적용 가능성이 존재
• Diverse beam search 외의 다른 생성 방법을 활용한 성능 개선 가능성

More from taeseon ryu

Dataset Distillation by Matching Training Trajectories taeseon ryu

RL_UpsideDowntaeseon ryu

Packed Levitated Marker for Entity and Relation Extractiontaeseon ryu

MOReL: Model-Based Offline Reinforcement Learningtaeseon ryu

Scaling Instruction-Finetuned Language Modelstaeseon ryu

Visual prompt tuningtaeseon ryu

mPLUGtaeseon ryu

variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdftaeseon ryu

Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdftaeseon ryu

The Forward-Forward Algorithmtaeseon ryu

Towards Robust and Reproducible Active Learning using Neural Networkstaeseon ryu

ProximalPolicyOptimizationtaeseon ryu

Dream2Control paper reviewtaeseon ryu

Online Continual Learning on Class Incremental Blurry Task Configuration with...taeseon ryu

[2023] Cut and Learn for Unsupervised Object Detection and Instance Segmentationtaeseon ryu

Unsupervised Neural Machine Translation for Low-Resource Domainstaeseon ryu

PaLM Scaling Language Modeling with Pathways - 230219 (1).pdftaeseon ryu

Distributional RL via Moment Matchingtaeseon ryu

Deep Reinforcement Learning from Human Preferencestaeseon ryu

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable C...taeseon ryu

More from taeseon ryu (20)

Dataset Distillation by Matching Training Trajectories

RL_UpsideDown

Packed Levitated Marker for Entity and Relation Extraction

MOReL: Model-Based Offline Reinforcement Learning

Scaling Instruction-Finetuned Language Models

Visual prompt tuning

mPLUG

variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf

Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf

The Forward-Forward Algorithm

Towards Robust and Reproducible Active Learning using Neural Networks

ProximalPolicyOptimization

Dream2Control paper review

Online Continual Learning on Class Incremental Blurry Task Configuration with...

[2023] Cut and Learn for Unsupervised Object Detection and Instance Segmentation

Unsupervised Neural Machine Translation for Low-Resource Domains

PaLM Scaling Language Modeling with Pathways - 230219 (1).pdf

Distributional RL via Moment Matching

Deep Reinforcement Learning from Human Preferences

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable C...

BRIO: Bringing Order to Abstractive Summarization

1. BRIO: Bringing Order to Abstractive Summarization 딥러닝 논문읽기 모임 자연어처리팀 : 조해창, 김유진, 변현정, 박산희, 이기성(발표자)

2. Content 1. Background 2. Abstract 3. Introduction 4. Neural Abstractive Summarization 5. Coordinating Abstractive Models 6. Experiments 7. Conclusion

3. 1. Background

4. Exposure bias ROUGE • N-gram을 기준으로 Recall, Precision, F1을 계산 Ex) Reference Text : 딥러닝 논문 읽기 모임은 유익하다. Inference Text : 논문 모임은 매우 유익하다. • Recall : 0.6 • Precision : 0.75 • F1 : 0.67 • Train 과정에서는 Teacher forcing이 적용 • Inference 과정에서는 이전 스텝에서 예측한 토큰을 사용

5. Contrastive Learning • 대상들의 차이를 명확하게 보여줄 수 있도록 학습하는 것 • Metric Learning의 일종

6. 2. Abstract

7. • 추상 요약은 Maximum likelihood estimation으로 학습(deterministic – one point) • Non-deterministic 분포를 가정하는 새로운 학습 paradigm을 제시 • 서로 다른 생성 요약 후보에 확률 질량을 부여(품질에 따라서)

8. 3. Introduction

9. • Autoregressive Manner → Exposure bias • Metric(Rouge)와 실제 생성 요약의 확률 간의 불일치를 해결하는 것이 목적 Reference samples • 딥러닝 논문 읽기 모임은 유익하다. Generate samples • 딥러닝 논문 읽기 모임은 유익하다. / P : 0.5 • 논문 모임은 매우 유익하다. / P : 0.7

10. • 모델에 두 개의 역할을 부여 → generation & Evaluation • Generation Model : MLE Loss로 학습 • Evaluation Model : Contrastive Loss로 학습 • Main contribution : 모델이 학습할 타겟 분포를 deterministic 한 분포에서 non-deterministic 분포로 변경

11. 4. Neural Abstractive Summarization

12. • D : Source document • S : Reference summary / s : summary token • g : Function Training Objective

13. Inference and Exposure Bias

14. 5. Coordination Abstractive Models

15. Contrastive Learning for Coordination

16. Generate samples • 딥러닝 모임은 유익 • 논문 모임은 매우 유익하다. • 딥러닝 논문 읽기 모임은 재미있다. • 모임은 재미있다. Reference samples • 딥러닝 논문 읽기 모임은 유익하고 재미있다. MLE Loss Generate samples(Sorted by ROUGE) 1. 딥러닝 논문 읽기 모임은 재미있다. 2. 논문 모임은 매우 유익하다. 3. 딥러닝 모임은 유익 4. 모임은 재미있다. Contrastive Loss

17. 6. Experiments

18. Experimental Settings / Implementation Details • Datasets : CNNDM, Xsum, NYT • Baselines : BART, PEGASUS, Gsum, SimCLS, GOLD, SeqCo, ConSum • BRIO-Ctr : Contrastive loss only • BRIO-Mul : CE loss + Contrastive loss

19. Results

20. • Coefficients of the Multi-Task Loss Analysis

21. • Generation-Finetuning as a Loop Analysis

22. • Increasing the Beam Width Analysis

23. • Training with Different Evaluation Metrics Analysis

24. • Novel n-grams Analysis

25. • Rank Correlation Analysis

26. Token-level Calibration

27. Few-shot Fine-tuning

28. Case Study on CNNDM

29. 6. Conclusion And Future Work

30. • Metric에 따른 점수와 candidate outputs의 확률을 활용한 Contrastive한 학습 방법을 제시 • 추상 요약 뿐만 아니라 기계 번역 Task에도 확장 가능성 • 강화 학습에 적용 가능성이 존재 • Diverse beam search 외의 다른 생성 방법을 활용한 성능 개선 가능성

BRIO: Bringing Order to Abstractive Summarization

Recommended

Recommended

More Related Content

More from taeseon ryu

More from taeseon ryu (20)

BRIO: Bringing Order to Abstractive Summarization