Distilling Knowledge Learned in BERT for Text Generation

Distilling Knowledge Learned in BERT
for Text Generation
著者︓Yen-Chun Chen, Zhe Gan, Yu Cheng, Jingzhou Liu, Jingjing Liu
所属︓Microsoft Dynamics 365 AI Research, Carnegie Mellon University

⾃⼰紹介
l 名前︓
• 吉⽥将⼤
• Twitter: @master_bomber
l 所属︓
• ソニー株式会社 R&Dセンター
l 現在の研究テーマ
• エンタメ向けの⽣成モデル
l その他の研究興味
• レシピの⾃動⽣成
l ⼀⾔
• ⾃然⾔語は今年始めたばかりなので、⾊々突っ込んでください︕

３⾏まとめ
l BERTを有効に応⽤して⽂書⽣成しようって⾔う論⽂
l 従来のSeq2Seqモデルでは、学習時にDecoderで予測対象よりも先の情報を使え
ないと⾔う⽋点がある
l そこで、学習時にBERTを応⽤するモデルを提案
具体的には︓
• Seq2Seqの学習時に、予測対象を事前学習されたBERTで予測
• BERTの予測結果をSoft Labelとして扱って、損失を計算してSeq2Seqを学習する

背景
l BERTがNLPのあらゆるタスクのSOTAを塗り替えた
• GLEU (複数の⾔語理解タスク)︓ALBERTの亜種がSOTA（2020/08/16現在）
• SQuAD (質疑応答タスク)︓ ALBERTの亜種がSOTA (2020/08/16現在)
• Swag (エンディング選択)︓BERTアーキテクチャを応⽤したモデルがSOTA (2020/08/16現在)
l BERTを応⽤した「⽂書⽣成」アプリケーションはまだ少ない
• そもそもBERTは⽂書⽣成⽤にデザインされてない
l 本論⽂では、⽂書⽣成においてBERTを有効に活⽤するモデルを提案
GLEUのリーダーボード SQuADのリーダーボード
https://rajpurkar.github.io/SQuAD-explorer/
https://gluebenchmark.com/

既存⼿法
l 多くの⽂章⽣成モデルはSeq2Seqの形を取る
l Seq2Seqの⽋点
• 学習時にDecoderは予測対象の単語より右にある単語の情報を活⽤出来ない
– 例︓ !"を予測するときは!#の情報を使えない
Encoder
$%
Decoder
!%
& !"
& !#
&
<eos>Attention
Seq2Seqの概念図
$" $# $' <bos> !% !" !#

BERT（復習）
l Masked Language Modeling (MLM)で学習
• 15%のマスクされた単語を、全てのマスクされてない単語を使って予測
! "#
$
, … , "'
$
, (#
$
, … , ()
$
| +,, -, （ +,, -, はマスクされてない単語の集合、 +$, -$ はマスクされた単語の集合）
l BERTの問題点
• Seq2Seqのように⾃⼰回帰モデルではないので、推論時にシーケンシャルに単語を⽣成できない
BERT (MLM)
"# ". <mask> "/ (# (0<sep><cls> <sep>(/<mask>
(.
1
"0
1
MLMの概念図

提案モデル︓Fine Tuning Step
l Conditional MLM
• ⽂書⽣成では、ソース(!)に対するターゲット(")の関係のみを学習できれば良い
→ターゲット(")のみマスクするように制約を与えて学習する
# $%
&
, … , $)
&
|!, "+
BERT (Conditional MLM)
,% ,- ,. ,/ $% $.<sep><cls> <sep>$/<mask>
$-
0
MLMの概念図

提案モデル︓Knowledge Distillation Step
l Fine TuneされたBERTの予測結果をSoft Labelとして扱う
• 例えば、Seq2Seqで!"を予測するには、BERTの!"の予測結果との差を損失とする
• Soft Labelの方がHard Labelよりも詳細な情報を持つと考えられる
• このステップではBERTのパラメータは更新しない
l 任意のSeq2Seqモデルが適用可能
• 実験ではTransformerを使っている
Figure 1: Illustration of distilling knowledge from BERT for text generation
Soft Label

損失関数
!" #$ :BERTの予測確率
!% #$ :Seq2Seqの予測確率
&: ターゲット'の単語数
(: 単語集合
): ハイパーパラメータ
Hard Labelの損失関数
234(6) = − :
$;<
=
log !% #$|#<:$B<, D
Soft Labelの損失関数
2HIJI(6) = − :
K∈M
!" #$ = N|'O, D P log !% #$ = N|#<:$B<, D
最終的な損失関数
2 6 = )2HIJI 6 + 1 − ) 234 6

実験環境
Tasks
l Machine Translation
• Metric: BLEU
• Datasets
– IWSLT15 English-Vietnamese (113k training sample)
– IWSLT15 English-German (160k training sample)
– WMT14 English-German (4.5M training)
l Abstractive Summarization
• Metric: ROUGE F1-score
• Datasets
– Gigaword Summarization Dataset (train/valid/test = 3.8M/190k/2k)
Model
l 本実験では、Seq2SeqモデルとしてTransformerを使⽤

結果︓Machine Translation
• いずれのタスクでもSOTAを達成
• BERTを適用することでTransformerの精度が改善

結果︓Abstractive Summarization
Table4：
筆者の独自のルールでTrain-Test-Splitして評価
Table5：
Gigawordの公式なテストセットで評価
筆者曰く、公式なテストセットは分布に偏りがある

結果︓Ablation Study
l 双⽅向に学習したことの影響を確認
• !"#$%&': 将来の情報をマスクして学習に使わないでFineTuneしたモデル
l パラメータ数が増えたことによる影響を確認
• !"#$(): BERTの層を減らしてFineTuneしたモデル

まとめ
l ⽂書⽣成ではSeq2Seq(Transformer含む)が使われることが多いが、デコーダ側
で予測対象よりも先の情報を学習に使えないと⾔う⽋点がある。
l そこで、Transformerの双⽅向エンコーダであるBERTを応⽤するモデルを提案
→具体的には、BERTの出⼒をsoft labelとして、Seq2Seqモデルを学習するモデ
ルを提案
l Machine Translation とAbstractive Summarizationのタスクにおいて、
Transformerや他のベンチマーク⼿法を差し置いてSOTAを達成

Distilling Knowledge Learned in BERT for Text Generation

Recommended

Recommended

More Related Content

Similar to Distilling Knowledge Learned in BERT for Text Generation

Similar to Distilling Knowledge Learned in BERT for Text Generation (20)

Recently uploaded

Recently uploaded (10)

Distilling Knowledge Learned in BERT for Text Generation