[Paper Reading] The price of debasing automatic metrics in natural language evaluation

PaperReading:2018/10/12
The price of debiasing
automatic metrics in natural
language evaluation
Read by Kazutoshi Shinoda

概要
◉ Arun Tejasvi Chaganty and Stephen
Mussmann and Percy Liang
◉ Computer Science Department, Stanford
University
◉ In Proceedings of ACL, 2018
2

簡潔に言うと
◉ 生成文の評価指標の話
◉ BLEUは楽に評価できるが人による評価と相関が薄
く、biasがかかると言う問題点がある
◉ 一方で人手評価はunbiasedだがコストが高い
◉ そこでcontrol variates（制御変量法）を使うこと
で両者を組み合わせた評価手法を提案した
3

背景
◉ 近年、文生成を必要とするタスクが増えてきた
○ abstractive summarization (Nallapati et al., 2016)
○ open-response question answering (Nguyen et al., 2016;
Koˇcisky et al.,2017)
○ image captioning (Lin et al., 2014)
○ open-domain dialogue(Lowe et al., 2017b)
○ etc.
◉ しかしこれらをどう評価するかは依然として問題
5

生成文の評価指標
◉ automatic metricsはいくつかある
○ BLEU (Papineni et al., 2002)
○ ROUGE (Lin and Rey, 2004)
○ METEOR (Lavie and Denkowski, 2009; Denkowski and
Lavie, 2014)
○ CiDER (Vedantam et al., 2015)
◉ しかしこれらはbiasがかかっており、人手評価と
の相関が低いことが分かった (Liu et al., 2016b;
Novikova et al., 2017)
6

◉ human evaluation
7
Averaging human judgments
= “unbiased”
= too expensive

8
Unbiased
metric
Saving
cost
Trade-Off

Contribution
◉ 人手評価と自動評価を組み合わせた評価手法を提
案
◉ 提案手法が最も正確な評価を行えることを示した
◉ 人手を減らしつつ正確さは保つことも可能
9

2. Bias in automatic
evaluation
10

自動評価と人手評価の相関が低い
◉ Novikova et al. 2017. Why We Need New Evaluation Metrics
for NLG. In EMNLP.
11

12
Word Based Metrics
(BLEU, ROUGE,
CiDER, METEOR, etc)
↓Grammar Based Metrics
(characters per utterance,
syllables per sentence, etc)Human Human
相関が0
に近い

著者らも独自に相関を分析
13
人手評価がGold standardだとすると、
ROUGE-Lでは悪い文は悪いと分かるが
良い文は良いかどうか分からない

つまり何が言いたいか
◉ instance-levelでHuman scoreが上がっていたとし
てもROUGEには反映されないかも＝良いシステム
を良いと判断できていないかも
◉ 自動評価は明らかに問題を抱えているが、コスト
を抑えられるのは魅力なのでなんとか自動評価を
利用したい
16

3. Statistical estimation
for unbiased evaluation
17

問題設定
18
推定したい値μ＝
全ての生成文の複数人による評価値の和／人数／|Z|
これをなるべく少ない人数orデータで推定したい

問題設定
◉ gをROUGEなどの自動評価として、g(z)∈R
19

3.1. Sample mean
標本平均：μˆ_mean = 1/n (Σy_i), y_i = Y(z_i), i=1~n
◉ のように単に特定の一人の評価を全サンプルで平
均して推定すると、Law of total varianceより、
20

3.2. Control variates estimater
◉ 自動評価gを使ってevaluatorの分散を下げたいが、
どうすれば良いか
◉ f - gを使う！
◉ 直感的な理解 →
◉ （fとgの相関が
高ければ）
21

3.2. Control variates estimator
◉ Control variatesとは（wikipediaより引用）
22

◉ 本論文の問題設定では、control variatesを導入すると
◉ ※gの平均は0、分散は1とする
23

◉ 結果、control variatesを導入した後の分散は以下のよう
◉ 実際どれだけ分散を減らせたかの指標:Data Efficiencyを定義
24
←DEは大きい程よい
最小値は1
←fとgの相関係数（-1 ~ 1）

Inverse DEは0（白）に近い程よい
25
γ=0…アノテータの分散が0
ρ=1…人手評価と自動評価の相関係数が1

実験
生成系タスク
◉ Abstractive summarization
◉ Open-response question
answering
自動評価
◉ BLEU, ROUGE, METEOR,
VecSim
28

実験〜人手評価〜
◉ 人にどうやって評価
させるか(=evaluation
prompts)が分散に大きな
影響がある
29

結果
◉ 80%信頼区間の幅で比較
→概してcontrol variates estimatorを使った方が幅は狭い
◉ DEによるとこの実験では7%~13%のコスト削減が可能
30

まとめ①
◉ Control variates estimatorで分散を抑えられるので、
人手評価と自動評価を組み合わせてより正確の評
価値が得られる。
◉ 逆に言えば、従来より分散を抑えられる分、{デー
タ/アノテータ}の数が少なくてもそれなりに評価値
の推定ができる。
◉ DEによると提案手法によって10%くらいコスト削
減できた。
31

まとめ②
◉ さらにコスト削減するためには、自動評価を人手
評価と（正負関係なく）相関のあるものにしない
といけない。自動評価自体の改善も必要。
◉ アノテーターの分散を抑えるためにどのアノテー
ターが評価しても似たような結果になるよう訓練
することも大事。
◉ アノテーターにどのような基準で評価させるか
(=evaluation prompt)を分散が小さくなるようなも
のにするのも大事。曖昧さを無くそう。
32

感想
◉ 統計は基礎統計以来5年ぶりで色々忘れてた（信頼
区間、標本平均、、、）
◉ 自動評価の改善がすごく大事そう
◉ アノテーションガイドラインも大事そう
◉ 論文の自動評価と人手評価を組み合わせればもっ
と査読が楽になる？
33

[Paper Reading] The price of debasing automatic metrics in natural language evaluation

Recommended

Recommended

More Related Content

Similar to [Paper Reading] The price of debasing automatic metrics in natural language evaluation

Similar to [Paper Reading] The price of debasing automatic metrics in natural language evaluation (14)

Recently uploaded

Recently uploaded (14)

[Paper Reading] The price of debasing automatic metrics in natural language evaluation