【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

MAUVE: Measuring the Gap
Between Neural Text and Human
Text using Divergence Frontiers
Customer Analytics Division
奥井恒
2022/03/10

目次
©2022 ARISE analytics Reserved. 1
1. 導入
2. MAUVE
3. 実験
4. まとめ

背景・目的
最近の大規模テキスト生成モデルは、顕著な品質と一貫性を持つ人間のようなテキストを
生成する能力を示している。
AIが高度な日本語文章を自動で生成りんなのrinna社、日本語GPT-2/BERTの事前学習モデルを開発 GitHub等で公開 - ロボスタ
(robotstart.info)
機械が生成したテキストは、人間が生成したテキストにどのくらい近いのか？
自然言語処理モデル「GPT-3」の紹介 | NTTデータ先端技術株式会社 (intellilink.co.jp)

未解決問題
機械が生成したテキストが人間が生成したテキストに対して、どれだけ近いかを測定する方
法は確立していない。
機械生成テキストの評価を定量化することは困難
（テキスト分布は高次元で離散的で、サンプルや効果のモデル評価を通してのみアクセスできるため）
To-Be
現在のゴールドスタンダードは
人間による評価
自動・定量的に評価できる
指標が欲しい。。。
As-Is

1. 導入
2. MAUVE
3. 実験
4. まとめ

MAUVE：概要
※ 個人の所感。
MAUVEは人間が生成したテキストと機械が生成したテキストの分布を比較することで、客
観的な言語生成モデルの性能を評価する。
人間が生成したテキストと機械が生成したテキスト
の分布を比較情報量曲線下の分布をMAUVEとする。
（PR曲線のAUCを出すのと同じノリ ※）
Track: Oral Session
1: Deep Learning
(neurips.cc)より引用
論文より引用

2種類のエラー
人間が生成したテキストの分布をP、機械が生成したテキストの分布をQとするとき、2種類
のエラーがある。
Type I error :
Q（機械）では確率が高いが、P（人間）では確率が低い場合のエラー
Type II error :
P（人間）では確率が高いが、Q（機械）では確率が低い場合のエラー
論文より引用

MAUVE
情報量曲線の c (c>0) は、スケーリングのためのハイパーパラメータ
KL情報量によってエラーを表現し、情報量曲線下の面積をMAUVEとする。
Track: Oral Session 1: Deep Learning
(neurips.cc) より引用
MAUVE：曲線下の面積（０～１の値）を算出
𝑅𝜆 = 𝜆 𝑃 + 1 − 𝜆 𝑄, 𝜆 ∈ (0,1)
KL(Q|P), KL(P|Q)とすると、∞になる可
能性があるため、混合Rを定義
Type I error :
Q（機械）では確率が高いが、P（人間）では確率が低い場合のエラー
Type II error :
P（人間）では確率が高いが、Q（機械）では確率が低い場合のえラー
𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆))
情報量曲線

1. 導入
2. MAUVE
3. 実験
4. まとめ

実験：
3つの実験を通して、MAUVEの性能が検証できた。
データセット
タスク文脈xが与えられたとき、後続のテキストを生成
正解：真の確率分布Pからのサンプル
競合：機械による生成分布Qからのサンプル
実験実験①：生成する文章の長さ、デコードアルゴリズム、モデルサイズの違いを見る
実験②：埋め込みモデルM(x)と量子化アルゴリズムの違いを見る
実験③：人間の評価との相関を見る
論文より引用

実験① ~生成する文章の長さ~
※ 既知の性質：生成するテキストが長くなると、支離滅裂になる。
生成の長さによる品質の違いを定量化した。MAUVEは既知の性質※を示す挙動をした。
他の指標は好ましくない傾向を示している。
フレシェ距離世代パープレキシティスパースマックススコア

実験① ~デコードアルゴリズム、モデルサイズの違い~
デコードアルゴリズムの品質、モデルサイズによる品質においても望ましい傾向を示している。
Greedy < Ancestral < Nucleusと
なるのが理想らしい。
モデルサイズが大きくなるにつれて
良くなるのが理想。
デコードアルゴリズムによる品質の違いモデルサイズによる品質の違い
論文より引用論文より引用

実験②
量子化についても、k-means, DRMM (Deep Residual Mixture Models), 格子量子化の三つの量子
化を試してみたが、結果は大きく変わらなかったらしい。
埋め込みモデル、定数を変えてみても、性質に大きな違いは見られなかった。
埋め込みモデルによる品質の違い
RoBERTaとGPT2は似た傾向を示す。 cの選択は曲線の相対的な順序に影響しない。
定数ｃによる違い
𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆))

実験③
MAUVEは人間の評価とよく相関している。
様々な類似性尺度が利用可能な場合の人間の判断との相関
MAUVEは良い性質を持ちつつ、人間に近い評価ができていることがわかった。
論文より引用

利用方法
人間が生成したテキストと機械が生成したテキストを入れると、MAUVE（0~1の値）が
算出される。
Github
krishnap25/mauve: Package to compute Mauve, a similarity score between neural text and human text. Install with `pip install mauve-text`. (github.com)
and krishnap25/mauve-experiments (github.com)
Input
Output
（0～1の値）
Track: Oral Session 1: Deep Learning
(neurips.cc)

1. 導入
2. MAUVE
3. 実験
4. まとめ

まとめ
論文サマリーの内容
• テキスト生成において、人間が作成したテキストと機械が作成したテキストがどれだけ近いのかを評価するための定量的
な指標を提案している。
• 人間の判断と相関もあり、先行研究による指標では捉えにくい、生成長・デコードアルゴリズム・モデルサイズによる品質
の違いも特定できた。
• 今後は、MAUVEを要約や翻訳などの特定タスクでの評価に使用できるか検討していきたいらしい。

Best Partner for innovation, Best Creator for the future.

References
• Paper
MAUVE: Measuring the Gap Between Neural Text and
Human Text using Divergence Frontiers | OpenReview
• Video in NeurIPS2021
Track: Oral Session 1: Deep Learning (neurips.cc)
• Github
• krishnap25/mauve: Package to compute Mauve, a
similarity score between neural text and human text.
Install with `pip install mauve-text`. (github.com)
• krishnap25/mauve-experiments (github.com)

おまけ
(機械が生成する確率が低いテキストの)例で出ていた内容について調べてみた。
ウトキアグヴィク - Wikipedia
春の訪れを祝うお祭りらしい。
Nuchalawoyya - YouTube

【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

Similar to 【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers (20)

More from ARISE analytics

More from ARISE analytics (20)

【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers