ACL2020 best papers

2020.8.14
Kazuki Fujikawa
株式会社ディー・エヌ・エー＋株式会社 Mobility Technologies
ACL2020 参加報告
~ Best paper (+honorable mention) の紹介 ~

▪ ACL2020 概要
▪ ACL2020 Best Paper群の紹介
▪ Best Paper
▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
▪ Best Paper (Honorable mention)
▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation
Metrics [Mathur+]
▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
AGENDA

▪ 自然言語処理分野のトップカンファレンスの一つ
▪ 採択率: 22.7%（779 / 3429）
▪ バーチャル開催（7/5~11）
ACL2020 概要
自分のタイムゾーンに合わせた
スケジュールの表示
スライド・動画は特設サイトで
常設され、チャットで質問可能

ACL2020 概要: 分野毎の論文数（submission）
Information Extraction, Text Mining
Machine Learning
Machine Translation
Dialogue and Interactive Systems
Generation
Question Answering
Sentiment Analysis, Argument Mining
Word-level Semantics
Applications
Resources and Evaluation
Multidisciplinary, AC COI
Sentience-level Semantics
Tagging, Chunking, Syntax, Parsing
Social Media
Summarization
Document Analysis
Multilinguality
Textual Inference, Other Areas of Semantics
Discourse and Pragmatics
Phonology, Morphology, Word Segmentation
2019 2020
Machine Learning for NLP
Dialogue and Interactive Systems
Machine Translation
Information Extraction
NLP Application
Generation
Question Answering
Resources and Evaluation
Summarization
Computational Social Science and Social Media
Semantics: Sentence Level
Interpretability and Analysis of Models for NLP
Semantics: Lexical
Information Retrieval and Text Mining
Language Grounding to Vision, Robotics and Beyond
Theme
Cognitive Modeling and Psycholinguistics
Speech and Multimodality
Syntax: Tagging, Chunking and Parsing
Multidisciplinary and Area Chair COI
Discourse and Pragmatics
Phonology, Morphology and Word Segmentation
Ethics and NLP
Sentiment Analysis, Stylistic Analysis,
and Argument Mining
Semantics: Textual Inference and Other Areas
of Semantics
Theory and Formalism in NLP (Linguistic and
Mathematical)
Vision, Robotics,Multimodal Grounding,
Speech
Linguistic Theories, Cognitive,
Psycholinguistics
: New
: 200+ submissions

▪ NLPモデルの性能確認を行うためのCheckListを提案
▪ ソフトウェア工学におけるBehavioral Testingを参考にしている
▪ 大量かつ多様なテストケース生成ツールも同梱したOSSを公開
▪ ユーザ調査で有効性を検証
▪ ex1. 商用の感情分析モデルのバグ発見
▪ ex2. CheckList利用有無で3倍のバグを発見
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
[Ribeiro+]

▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認
を行うことを提案
[Ribeiro+]
MFT
(Minimum Functionality test)
INV
(Invariance test)
DIR
(Directional Expectation test)
Vocabulary + POS
Taxonomy
Robustness
NER
Fairness
Temporal understanding
Negation
Coreference
Semantic Role Labeling
Logic
Test types
Capabilities

[Ribeiro+]
MFT
INV
(Invariance test)
DIR
Vocabulary + POS
Taxonomy
Robustness
NER
Fairness
Negation
Coreference
Logic
Test types
Capabilities
MFT (Minimum Functionality test):
● ソフトウェア工学におけるユニットテストにヒントを得ている
● 目的タスクに関する動作確認用のテストケースの集合体
● 例: 感情分析
(Vocabulary + POS) I despised that aircraft. → negative
(Negation) The food is not poor. → positive or neutral

[Ribeiro+]
MFT
INV
(Invariance test)
DIR
Vocabulary + POS
Taxonomy
Robustness
NER
Fairness
Negation
Coreference
Logic
Test types
Capabilities
INV (Invariance test):
● ソフトウェア工学におけるメタモルフィックテストから
ヒントを得ている
● ラベルに影響の無い摂動に対する出力不変性をテスト
(Robust) @SouthwestAir no thanksthakns → INV
(NER) I miss the #nerdbird in San JoseDenver → INV

[Ribeiro+]
MFT
INV
(Invariance test)
DIR
Vocabulary + POS
Taxonomy
Robustness
NER
Fairness
Negation
Coreference
Logic
Test types
Capabilities
DIR (Directional Expectation test):
● ラベルに影響を与える変更が期待通り影響しているか
どうかを確認するテスト
(Vocabulary+POS) Your service sucks. +You are lame.
→ negative++
(Vocabulary+POS) Great trip on 2672 yesterday... +You
are extraordinary. → positive++

▪ テストケースをスケールするための手法
▪ テンプレートによる多様な入力セットに対する動作確認
▪ ex. “I {NEGATION} {POS_VERB} the {THING}.”
▪ {NEGATION} = {didn't, can't say I, ...}
▪ {POS_VERB} = {love, like, ...}
▪ {THING} = {food, ﬂight, service, ...}
[Ribeiro+]

▪ テストケースをスケールするための手法
▪ テンプレート展開の自動化（レコメンド）
▪ RoBERTaなどのMaskedLMを使い、テンプレートの穴埋めを提案
[Ribeiro+]

▪ 商用サービス / SoTAモデルに対するテストの実施（感情分析）
[Ribeiro+]
　以下のサービス / モデルに対するテスト結果で比較
▪ 商用サービス: Microsoft, Google, Amazonが提供する感情分析API
▪ SoTAモデル: BERT, RoBERTa のFine-tune

[Ribeiro+]
● 明らかにNeutralなデータに対するエラー
○ Google: 7.6%, Amazon: 4.8%のエラー率
● 非Neutralの簡単な事例でもエラーが発生
○ ex. I like this seat → positive

[Ribeiro+]
短縮URLやアカウント名などを追加するだけ
で、予測が変化してしまう事例も多数存在

▪ NLP専門家に対するユーザ調査（実験設定）
▪ QQP（質問文同定タスク）を学習したBERTモデルを提供し、
Jupyter上・2h以内でモデルのテストをしてもらう
▪ 不具合の発見に対してCheckListやテストケース生成ツールが有用である
のかを検証
▪ 被験者: 学術 / 産業界のNLP専門家18名を以下のグループに分割
▪ Unaided: 特に指示を与えない
▪ Cap.only: 前項で示したCapabilitiesのリストを共有
▪ Cap.+tmpl.: Capabilitiesのリストに加え、template+穴埋めツールを提供
[Ribeiro+]

▪ NLP専門家に対するユーザ調査（実験結果）
[Ribeiro+]
CheckList利用者 vs 非利用者:
● Capabilityの観点で、多様な観点で試験を実施
● 結果として約3倍のBug（template利用者）
を発見
→ CheckList利用の有用性を示唆

▪ NLP専門家に対するユーザ調査（実験結果）
[Ribeiro+]
template利用者 vs 非利用者:
● Capabilityの観点では同等の試験を実施
● テスト数はtemplate利用者が大きく上回り、
結果としてより多くのバグを発見
→ CheckList利用の有用性を示唆

▪ ACL2020 概要
▪ ACL2020 Best Paper群の紹介
▪ Best Paper
▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
▪ Best Paper (Honorable mention)
▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation
Evaluation Metrics [Mathur+]
▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
AGENDA

▪ 機械翻訳（MT）における既存の評価指標の問題点を指摘
▪ 現在のメトリクスの評価手法が、外れ値に弱いことを指摘
▪ 事実上の標準メトリックであるBLEUが必ずしも人間の評価と相関して
いるわけではないことを指摘
▪ MTのパフォーマンスが向上したと言える、メトリクス向上の閾値
の決め方にも言及
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [Mathur+]

▪ 従来のMT品質の評価方法自体の評価方法
▪ DA (Direct Assessment) と評価法（e.g. BLEU）とのPearson Rで評価
▪ DA: WMT2019で構築されたMTシステムの出力に対して、アノテータが
100段階の評価を付けた上で、アノテータ毎に標準化して平均を取る
▪ どの言語の翻訳タスクに対しても、BLEUは高い相関を持つという結果
▪ 現在も事実上標準の評価指標として用いられている
I have a pen. ペンを持つ。
ペンを持っています。
原文 MT
Human annotation
DA (Direct Assessment)
50
0 100
BLEU: 28

▪ Pearson R
▪ 基本的には誤差が少ない場合に高い値を示す
▪ 外れ値が存在する場合に高い値を示してしまうことも知られている
▪ 外れ値（少数の品質の悪いMTシステムに対するデータ）を除外すると、
相関係数が大きく変わるものも存在
▪ → メトリック評価時は外れ値を除外しましょう
外れ値除外無し
外れ値除外有り

▪ 2つのMTシステムペアに対するスコア差を比較
▪ BLEU: 3~5 point 差がある事例の1/4は、DAでは優位な差が無い
▪ 近年のMT研究のBLEU差の多くは 1-2 point 程度の差であり、真の品質
を評価できていない可能性がある
▪ 下図のような各メトリクスとDAの関係性を考慮した上でMTパフォーマンス
向上有無を評価する必要がある
▪ BLEU, TER と比較して、CHRF, YISI-1, ESIM のエラーは少ない傾向
▪ 現時点ではBLEU, TERではなくCHRF, YISI-1, ESIMなどのメトリックを
使うことをオススメする

▪ 広範で膨大なリソースで事前学習されたモデルを、対象タスクの
ドメインに合わせて再学習することの有用性を調査
▪ ドメイン間の距離が大きいほどパフォーマンス改善することを確認
（DAPT）
▪ 大規模な計算資源が利用できない環境でも、単純なデータ選択戦略
によるデータ拡張でパフォーマンス向上可能であることを確認
（TAPT, knn-TAPT）
Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
[Gururangan+]

▪ Domain-Adaptive Pretraining (DAPT)
▪ RoBERTaをターゲットドメインのデータを使ってMLMを再Pretrainする
▪ 4ドメイン x 2タスクに対するFinetuneの性能を、Pretrain種別に比較
▪ RoBERTaのドメインから離れているタスクほど性能改善があることを確認
▪ ドメイン間の距離 (下図2): 各データ上位の語彙上位1万件の重複割合で比較
▪ 無関係のドメインでの再Pretrain（¬DAPT）よりも一貫して良い結果
[Gururangan+]

▪ Task-Adaptive Pretraining (TAPT)
▪ RoBERTaをターゲットタスクのデータを使ってMLMを再Pretrainする
▪ 4ドメイン x 2タスクに対するFinetuneの性能を、Pretrain種別に比較
▪ DAPTと比べて小規模データであるものの、匹敵する性能であることを確認
▪ DAPT→TAPT→Finetuneの順で訓練したものがベストであった
▪ 同ドメイン別タスクによるTransfer-TAPTはTAPTと比べて性能劣化
→ TAPTの有効性を確認
[Gururangan+]

▪ TAPT + Data Augmentation (kNN-TAPT)
▪ TAPTで使用したターゲットタスクの各サンプルに対し、DAPTで使用
したドメインデータからk件の類似データをMLMの訓練データに追加
▪ TAPTとDAPTの中間的な位置づけ、小規模な計算資源で実施可能
▪ DAPT, TAPT, kNN-TAPT, RAND-TAPTで比較
▪ TAPT < kNN-TAPT < DAPTという結果、kを増加するほどDAPTに近づく
▪ 計算資源が限られた環境下での有用性を示唆
[Gururangan+]

ACL2020 best papers

Recommended

Recommended

More Related Content

Similar to ACL2020 best papers

Similar to ACL2020 best papers (20)

More from Kazuki Fujikawa

More from Kazuki Fujikawa (15)

ACL2020 best papers