More Related Content Similar to [Paper Reading] The price of debasing automatic metrics in natural language evaluation Similar to [Paper Reading] The price of debasing automatic metrics in natural language evaluation (14) [Paper Reading] The price of debasing automatic metrics in natural language evaluation2. 概要
◉ Arun Tejasvi Chaganty and Stephen
Mussmann and Percy Liang
◉ Computer Science Department, Stanford
University
◉ In Proceedings of ACL, 2018
2
5. 背景
◉ 近年、文生成を必要とするタスクが増えてきた
○ abstractive summarization (Nallapati et al., 2016)
○ open-response question answering (Nguyen et al., 2016;
Koˇcisky et al.,2017)
○ image captioning (Lin et al., 2014)
○ open-domain dialogue(Lowe et al., 2017b)
○ etc.
◉ しかしこれらをどう評価するかは依然として問題
5
6. 生成文の評価指標
◉ automatic metricsはいくつかある
○ BLEU (Papineni et al., 2002)
○ ROUGE (Lin and Rey, 2004)
○ METEOR (Lavie and Denkowski, 2009; Denkowski and
Lavie, 2014)
○ CiDER (Vedantam et al., 2015)
◉ しかしこれらはbiasがかかっており、人手評価と
の相関が低いことが分かった (Liu et al., 2016b;
Novikova et al., 2017)
6
12. 12
Word Based Metrics
(BLEU, ROUGE,
CiDER, METEOR, etc)
↓Grammar Based Metrics
(characters per utterance,
syllables per sentence, etc)Human Human
相関が0
に近い
21. 3.2. Control variates estimater
◉ 自動評価gを使ってevaluatorの分散を下げたいが、
どうすれば良いか
◉ f - gを使う!
◉ 直感的な理解 →
◉ (fとgの相関が
高ければ)
21
24. 3.2. Control variates estimator
◉ 結果、control variatesを導入した後の分散は以下のよう
◉ 実際どれだけ分散を減らせたかの指標:Data Efficiencyを定義
24
←DEは大きい程よい
最小値は1
←fとgの相関係数(-1 ~ 1)
31. まとめ①
◉ Control variates estimatorで分散を抑えられるので、
人手評価と自動評価を組み合わせてより正確の評
価値が得られる。
◉ 逆に言えば、従来より分散を抑えられる分、{デー
タ/アノテータ}の数が少なくてもそれなりに評価値
の推定ができる。
◉ DEによると提案手法によって10%くらいコスト削
減できた。
31