SlideShare a Scribd company logo
1 of 33
PaperReading:2018/10/12
The price of debiasing
automatic metrics in natural
language evaluation
Read by Kazutoshi Shinoda
概要
◉ Arun Tejasvi Chaganty and Stephen
Mussmann and Percy Liang
◉ Computer Science Department, Stanford
University
◉ In Proceedings of ACL, 2018
2
簡潔に言うと
◉ 生成文の評価指標の話
◉ BLEUは楽に評価できるが人による評価と相関が薄
く、biasがかかると言う問題点がある
◉ 一方で人手評価はunbiasedだがコストが高い
◉ そこでcontrol variates(制御変量法)を使うこと
で両者を組み合わせた評価手法を提案した
3
1. Introduction
4
背景
◉ 近年、文生成を必要とするタスクが増えてきた
○ abstractive summarization (Nallapati et al., 2016)
○ open-response question answering (Nguyen et al., 2016;
Koˇcisky et al.,2017)
○ image captioning (Lin et al., 2014)
○ open-domain dialogue(Lowe et al., 2017b)
○ etc.
◉ しかしこれらをどう評価するかは依然として問題
5
生成文の評価指標
◉ automatic metricsはいくつかある
○ BLEU (Papineni et al., 2002)
○ ROUGE (Lin and Rey, 2004)
○ METEOR (Lavie and Denkowski, 2009; Denkowski and
Lavie, 2014)
○ CiDER (Vedantam et al., 2015)
◉ しかしこれらはbiasがかかっており、人手評価と
の相関が低いことが分かった (Liu et al., 2016b;
Novikova et al., 2017)
6
生成文の評価指標
◉ human evaluation
7
Averaging human judgments
= “unbiased”
= too expensive
生成文の評価指標
8
Unbiased
metric
Saving
cost
Trade-Off
Contribution
◉ 人手評価と自動評価を組み合わせた評価手法を提
案
◉ 提案手法が最も正確な評価を行えることを示した
◉ 人手を減らしつつ正確さは保つことも可能
9
2. Bias in automatic
evaluation
10
自動評価と人手評価の相関が低い
◉ Novikova et al. 2017. Why We Need New Evaluation Metrics
for NLG. In EMNLP.
11
12
Word Based Metrics
(BLEU, ROUGE,
CiDER, METEOR, etc)
↓Grammar Based Metrics
(characters per utterance,
syllables per sentence, etc)Human Human
相関が0
に近い
著者らも独自に相関を分析
13
人手評価がGold standardだとすると、
ROUGE-Lでは悪い文は悪いと分かるが
良い文は良いかどうか分からない
具体例
14
15
つまり何が言いたいか
◉ instance-levelでHuman scoreが上がっていたとし
てもROUGEには反映されないかも=良いシステム
を良いと判断できていないかも
◉ 自動評価は明らかに問題を抱えているが、コスト
を抑えられるのは魅力なのでなんとか自動評価を
利用したい
16
3. Statistical estimation
for unbiased evaluation
17
問題設定
18
推定したい値μ=
全ての生成文の複数人による評価値の和/人数/|Z|
これをなるべく少ない人数orデータで推定したい
問題設定
◉ gをROUGEなどの自動評価として、g(z)∈R
19
3.1. Sample mean
標本平均:μˆ_mean = 1/n (Σy_i), y_i = Y(z_i), i=1~n
◉ のように単に特定の一人の評価を全サンプルで平
均して推定すると、Law of total varianceより、
20
3.2. Control variates estimater
◉ 自動評価gを使ってevaluatorの分散を下げたいが、
どうすれば良いか
◉ f - gを使う!
◉ 直感的な理解 →
◉ (fとgの相関が
高ければ)
21
3.2. Control variates estimator
◉ Control variatesとは(wikipediaより引用)
22
3.2. Control variates estimator
◉ 本論文の問題設定では、control variatesを導入すると
◉ ※gの平均は0、分散は1とする
23
3.2. Control variates estimator
◉ 結果、control variatesを導入した後の分散は以下のよう
◉ 実際どれだけ分散を減らせたかの指標:Data Efficiencyを定義
24
←DEは大きい程よい
最小値は1
←fとgの相関係数(-1 ~ 1)
Inverse DEは0(白)に近い程よい
25
γ=0…アノテータの分散が0
ρ=1…人手評価と自動評価の相関係数が1
まとめると・・・
26
27
実験
生成系タスク
◉ Abstractive summarization
◉ Open-response question
answering
自動評価
◉ BLEU, ROUGE, METEOR,
VecSim
28
実験 〜人手評価〜
◉ 人にどうやって評価
させるか(=evaluation
prompts)が分散に大きな
影響がある
29
結果
◉ 80%信頼区間の幅で比較
→概してcontrol variates estimatorを使った方が幅は狭い
◉ DEによるとこの実験では7%~13%のコスト削減が可能
30
まとめ①
◉ Control variates estimatorで分散を抑えられるので、
人手評価と自動評価を組み合わせてより正確の評
価値が得られる。
◉ 逆に言えば、従来より分散を抑えられる分、{デー
タ/アノテータ}の数が少なくてもそれなりに評価値
の推定ができる。
◉ DEによると提案手法によって10%くらいコスト削
減できた。
31
まとめ②
◉ さらにコスト削減するためには、自動評価を人手
評価と(正負関係なく)相関のあるものにしない
といけない。自動評価自体の改善も必要。
◉ アノテーターの分散を抑えるためにどのアノテー
ターが評価しても似たような結果になるよう訓練
することも大事。
◉ アノテーターにどのような基準で評価させるか
(=evaluation prompt)を分散が小さくなるようなも
のにするのも大事。曖昧さを無くそう。
32
感想
◉ 統計は基礎統計以来5年ぶりで色々忘れてた(信頼
区間、標本平均、、、)
◉ 自動評価の改善がすごく大事そう
◉ アノテーションガイドラインも大事そう
◉ 論文の自動評価と人手評価を組み合わせればもっ
と査読が楽になる?
33

More Related Content

Similar to [Paper Reading] The price of debasing automatic metrics in natural language evaluation

Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency PathsClassifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths浩気 西山
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションantibayesian 俺がS式だ
 
Rm20150701 9key
Rm20150701 9keyRm20150701 9key
Rm20150701 9keyyouwatari
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門Yu Tamura
 
Rm20150415 1key
Rm20150415 1keyRm20150415 1key
Rm20150415 1keyyouwatari
 
Rm20130619 9key
Rm20130619 9keyRm20130619 9key
Rm20130619 9keyyouwatari
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
対話テキストの自動要約
対話テキストの自動要約対話テキストの自動要約
対話テキストの自動要約Masahiro Yamamoto
 
反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響
反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響
反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響Sachika Shibukawa
 
Centerlossを読んでみた_20170618@abeja
Centerlossを読んでみた_20170618@abejaCenterlossを読んでみた_20170618@abeja
Centerlossを読んでみた_20170618@abejaYumaMatsuoka
 
Rm20140730 15key
Rm20140730 15keyRm20140730 15key
Rm20140730 15keyyouwatari
 
テキストマイニング講義資料
テキストマイニング講義資料テキストマイニング講義資料
テキストマイニング講義資料Kosuke Sato
 

Similar to [Paper Reading] The price of debasing automatic metrics in natural language evaluation (14)

Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency PathsClassifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
Rm20150701 9key
Rm20150701 9keyRm20150701 9key
Rm20150701 9key
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
 
Rm20150415 1key
Rm20150415 1keyRm20150415 1key
Rm20150415 1key
 
Rm20130619 9key
Rm20130619 9keyRm20130619 9key
Rm20130619 9key
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
Deeplearning lt.pdf
Deeplearning lt.pdfDeeplearning lt.pdf
Deeplearning lt.pdf
 
対話テキストの自動要約
対話テキストの自動要約対話テキストの自動要約
対話テキストの自動要約
 
論文の書き方入門 2017
論文の書き方入門 2017論文の書き方入門 2017
論文の書き方入門 2017
 
反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響
反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響
反転授業におけるワークシートの利用が対面授業時のグループディスカッションの発話内容に与える影響
 
Centerlossを読んでみた_20170618@abeja
Centerlossを読んでみた_20170618@abejaCenterlossを読んでみた_20170618@abeja
Centerlossを読んでみた_20170618@abeja
 
Rm20140730 15key
Rm20140730 15keyRm20140730 15key
Rm20140730 15key
 
テキストマイニング講義資料
テキストマイニング講義資料テキストマイニング講義資料
テキストマイニング講義資料
 

Recently uploaded

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 

Recently uploaded (14)

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 

[Paper Reading] The price of debasing automatic metrics in natural language evaluation