SlideShare a Scribd company logo
MAUVE: Measuring the Gap
Between Neural Text and Human
Text using Divergence Frontiers
Customer Analytics Division
奥井 恒
2022/03/10
目次
©2022 ARISE analytics Reserved. 1
1. 導入
2. MAUVE
3. 実験
4. まとめ
背景・目的
©2022 ARISE analytics Reserved. 2
最近の大規模テキスト生成モデルは、顕著な品質と一貫性を持つ人間のようなテキストを
生成する能力を示している。
AIが高度な日本語文章を自動で生成 りんなのrinna社、日本語GPT-2/BERTの事前学習モデルを開発 GitHub等で公開 - ロボスタ
(robotstart.info)
機械が生成したテキストは、人間が生成したテキストにどのくらい近いのか?
自然言語処理モデル「GPT-3」の紹介 | NTTデータ先端技術株式会社 (intellilink.co.jp)
未解決問題
©2022 ARISE analytics Reserved. 3
機械が生成したテキストが人間が生成したテキストに対して、どれだけ近いかを測定する方
法は確立していない。
機械生成テキストの評価を定量化することは困難
(テキスト分布は高次元で離散的で、サンプルや効果のモデル評価を通してのみアクセスできるため)
To-Be
現在のゴールドスタンダードは
人間による評価
自動・定量的に評価できる
指標が欲しい。。。
As-Is
©2022 ARISE analytics Reserved. 4
1. 導入
2. MAUVE
3. 実験
4. まとめ
MAUVE:概要
©2022 ARISE analytics Reserved. 5
※ 個人の所感。
MAUVEは人間が生成したテキストと機械が生成したテキストの分布を比較することで、客
観的な言語生成モデルの性能を評価する。
人間が生成したテキストと機械が生成したテキスト
の分布を比較 情報量曲線下の分布をMAUVEとする。
(PR曲線のAUCを出すのと同じノリ ※)
Track: Oral Session
1: Deep Learning
(neurips.cc)より引用
論文より引用
2種類のエラー
©2022 ARISE analytics Reserved. 6
人間が生成したテキストの分布をP、機械が生成したテキストの分布をQとするとき、2種類
のエラーがある。
Type I error :
Q(機械)では確率が高いが、P(人間)では確率が低い場合のエラー
Type II error :
P(人間)では確率が高いが、Q(機械)では確率が低い場合のエラー
論文より引用
MAUVE
©2022 ARISE analytics Reserved. 7
情報量曲線の c (c>0) は、スケーリングのためのハイパーパラメータ
KL情報量によってエラーを表現し、情報量曲線下の面積をMAUVEとする。
Track: Oral Session 1: Deep Learning
(neurips.cc) より引用
MAUVE:曲線下の面積(0~1の値)を算出
𝑅𝜆 = 𝜆 𝑃 + 1 − 𝜆 𝑄, 𝜆 ∈ (0,1)
KL(Q|P), KL(P|Q)とすると、∞になる可
能性があるため、混合Rを定義
Type I error :
Q(機械)では確率が高いが、P(人間)では確率が低い場合のエラー
Type II error :
P(人間)では確率が高いが、Q(機械)では確率が低い場合のえラー
𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆))
情報量曲線
©2022 ARISE analytics Reserved. 8
1. 導入
2. MAUVE
3. 実験
4. まとめ
実験:
©2022 ARISE analytics Reserved. 9
3つの実験を通して、MAUVEの性能が検証できた。
データセット
タスク 文脈xが与えられたとき、後続のテキストを生成
正解:真の確率分布Pからのサンプル
競合:機械による生成分布Qからのサンプル
実験 実験①:生成する文章の長さ、デコードアルゴリズム、モデルサイズの違いを見る
実験②:埋め込みモデルM(x)と量子化アルゴリズムの違いを見る
実験③:人間の評価との相関を見る
論文より引用
実験① ~生成する文章の長さ~
©2022 ARISE analytics Reserved. 10
※ 既知の性質:生成するテキストが長くなると、支離滅裂になる。
生成の長さによる品質の違いを定量化した。MAUVEは既知の性質※を示す挙動をした。
他の指標は好ましくない傾向を示している。
フレシェ距離 世代パープレキシティ スパースマックススコア
実験① ~デコードアルゴリズム、モデルサイズの違い~
©2022 ARISE analytics Reserved. 11
デコードアルゴリズムの品質、モデルサイズによる品質においても望ましい傾向を示している。
Greedy < Ancestral < Nucleusと
なるのが理想らしい。
モデルサイズが大きくなるにつれて
良くなるのが理想。
デコードアルゴリズムによる品質の違い モデルサイズによる品質の違い
論文より引用 論文より引用
実験②
©2022 ARISE analytics Reserved. 12
量子化についても、k-means, DRMM (Deep Residual Mixture Models), 格子量子化の三つの量子
化を試してみたが、結果は大きく変わらなかったらしい。
埋め込みモデル、定数を変えてみても、性質に大きな違いは見られなかった。
埋め込みモデルによる品質の違い
RoBERTaとGPT2は似た傾向を示す。 cの選択は曲線の相対的な順序に影響しない。
定数cによる違い
𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆))
実験③
©2022 ARISE analytics Reserved. 13
MAUVEは人間の評価とよく相関している。
様々な類似性尺度が利用可能な場合の人間の判断との相関
MAUVEは良い性質を持ちつつ、人間に近い評価ができていることがわかった。
論文より引用
利用方法
©2022 ARISE analytics Reserved. 14
人間が生成したテキストと機械が生成したテキストを入れると、MAUVE(0~1の値)が
算出される。
Github
krishnap25/mauve: Package to compute Mauve, a similarity score between neural text and human text. Install with `pip install mauve-text`. (github.com)
and krishnap25/mauve-experiments (github.com)
Input
Output
(0~1の値)
Track: Oral Session 1: Deep Learning
(neurips.cc)
©2022 ARISE analytics Reserved. 15
1. 導入
2. MAUVE
3. 実験
4. まとめ
まとめ
©2022 ARISE analytics Reserved. 16
論文サマリーの内容
• テキスト生成において、人間が作成したテキストと機械が作成したテキストがどれだけ近いのかを評価するための定量的
な指標を提案している。
• 人間の判断と相関もあり、先行研究による指標では捉えにくい、生成長・デコードアルゴリズム・モデルサイズによる品質
の違いも特定できた。
• 今後は、MAUVEを要約や翻訳などの特定タスクでの評価に使用できるか検討していきたいらしい。
Best Partner for innovation, Best Creator for the future.
References
©2022 ARISE analytics Reserved. 18
• Paper
MAUVE: Measuring the Gap Between Neural Text and
Human Text using Divergence Frontiers | OpenReview
• Video in NeurIPS2021
Track: Oral Session 1: Deep Learning (neurips.cc)
• Github
• krishnap25/mauve: Package to compute Mauve, a
similarity score between neural text and human text.
Install with `pip install mauve-text`. (github.com)
• krishnap25/mauve-experiments (github.com)
おまけ
©2022 ARISE analytics Reserved. 19
(機械が生成する確率が低いテキストの)例で出ていた内容について調べてみた。
ウトキアグヴィク - Wikipedia
春の訪れを祝うお祭りらしい。
Nuchalawoyya - YouTube

More Related Content

What's hot

不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
 

What's hot (20)

[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
 
学位論文の書き方メモ (Tips for writing thesis)
学位論文の書き方メモ (Tips for writing thesis)学位論文の書き方メモ (Tips for writing thesis)
学位論文の書き方メモ (Tips for writing thesis)
 
Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
CVPR2022 paper reading - Balanced multimodal learning - All Japan Computer Vi...
CVPR2022 paper reading - Balanced multimodal learning - All Japan Computer Vi...CVPR2022 paper reading - Balanced multimodal learning - All Japan Computer Vi...
CVPR2022 paper reading - Balanced multimodal learning - All Japan Computer Vi...
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
 
テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
AdaFace(CVPR2022)
AdaFace(CVPR2022)AdaFace(CVPR2022)
AdaFace(CVPR2022)
 
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 

Similar to 【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
Preferred Networks
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
 
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
Hironori Washizaki
 

Similar to 【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers (20)

深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
 
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
 
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
 
オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)
オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)
オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)
 
機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法について
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
 
EMNLP 2011 reading
EMNLP 2011 readingEMNLP 2011 reading
EMNLP 2011 reading
 
Interop2017
Interop2017Interop2017
Interop2017
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
 

More from ARISE analytics

More from ARISE analytics (20)

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 

【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

  • 1. MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers Customer Analytics Division 奥井 恒 2022/03/10
  • 2. 目次 ©2022 ARISE analytics Reserved. 1 1. 導入 2. MAUVE 3. 実験 4. まとめ
  • 3. 背景・目的 ©2022 ARISE analytics Reserved. 2 最近の大規模テキスト生成モデルは、顕著な品質と一貫性を持つ人間のようなテキストを 生成する能力を示している。 AIが高度な日本語文章を自動で生成 りんなのrinna社、日本語GPT-2/BERTの事前学習モデルを開発 GitHub等で公開 - ロボスタ (robotstart.info) 機械が生成したテキストは、人間が生成したテキストにどのくらい近いのか? 自然言語処理モデル「GPT-3」の紹介 | NTTデータ先端技術株式会社 (intellilink.co.jp)
  • 4. 未解決問題 ©2022 ARISE analytics Reserved. 3 機械が生成したテキストが人間が生成したテキストに対して、どれだけ近いかを測定する方 法は確立していない。 機械生成テキストの評価を定量化することは困難 (テキスト分布は高次元で離散的で、サンプルや効果のモデル評価を通してのみアクセスできるため) To-Be 現在のゴールドスタンダードは 人間による評価 自動・定量的に評価できる 指標が欲しい。。。 As-Is
  • 5. ©2022 ARISE analytics Reserved. 4 1. 導入 2. MAUVE 3. 実験 4. まとめ
  • 6. MAUVE:概要 ©2022 ARISE analytics Reserved. 5 ※ 個人の所感。 MAUVEは人間が生成したテキストと機械が生成したテキストの分布を比較することで、客 観的な言語生成モデルの性能を評価する。 人間が生成したテキストと機械が生成したテキスト の分布を比較 情報量曲線下の分布をMAUVEとする。 (PR曲線のAUCを出すのと同じノリ ※) Track: Oral Session 1: Deep Learning (neurips.cc)より引用 論文より引用
  • 7. 2種類のエラー ©2022 ARISE analytics Reserved. 6 人間が生成したテキストの分布をP、機械が生成したテキストの分布をQとするとき、2種類 のエラーがある。 Type I error : Q(機械)では確率が高いが、P(人間)では確率が低い場合のエラー Type II error : P(人間)では確率が高いが、Q(機械)では確率が低い場合のエラー 論文より引用
  • 8. MAUVE ©2022 ARISE analytics Reserved. 7 情報量曲線の c (c>0) は、スケーリングのためのハイパーパラメータ KL情報量によってエラーを表現し、情報量曲線下の面積をMAUVEとする。 Track: Oral Session 1: Deep Learning (neurips.cc) より引用 MAUVE:曲線下の面積(0~1の値)を算出 𝑅𝜆 = 𝜆 𝑃 + 1 − 𝜆 𝑄, 𝜆 ∈ (0,1) KL(Q|P), KL(P|Q)とすると、∞になる可 能性があるため、混合Rを定義 Type I error : Q(機械)では確率が高いが、P(人間)では確率が低い場合のエラー Type II error : P(人間)では確率が高いが、Q(機械)では確率が低い場合のえラー 𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆)) 情報量曲線
  • 9. ©2022 ARISE analytics Reserved. 8 1. 導入 2. MAUVE 3. 実験 4. まとめ
  • 10. 実験: ©2022 ARISE analytics Reserved. 9 3つの実験を通して、MAUVEの性能が検証できた。 データセット タスク 文脈xが与えられたとき、後続のテキストを生成 正解:真の確率分布Pからのサンプル 競合:機械による生成分布Qからのサンプル 実験 実験①:生成する文章の長さ、デコードアルゴリズム、モデルサイズの違いを見る 実験②:埋め込みモデルM(x)と量子化アルゴリズムの違いを見る 実験③:人間の評価との相関を見る 論文より引用
  • 11. 実験① ~生成する文章の長さ~ ©2022 ARISE analytics Reserved. 10 ※ 既知の性質:生成するテキストが長くなると、支離滅裂になる。 生成の長さによる品質の違いを定量化した。MAUVEは既知の性質※を示す挙動をした。 他の指標は好ましくない傾向を示している。 フレシェ距離 世代パープレキシティ スパースマックススコア
  • 12. 実験① ~デコードアルゴリズム、モデルサイズの違い~ ©2022 ARISE analytics Reserved. 11 デコードアルゴリズムの品質、モデルサイズによる品質においても望ましい傾向を示している。 Greedy < Ancestral < Nucleusと なるのが理想らしい。 モデルサイズが大きくなるにつれて 良くなるのが理想。 デコードアルゴリズムによる品質の違い モデルサイズによる品質の違い 論文より引用 論文より引用
  • 13. 実験② ©2022 ARISE analytics Reserved. 12 量子化についても、k-means, DRMM (Deep Residual Mixture Models), 格子量子化の三つの量子 化を試してみたが、結果は大きく変わらなかったらしい。 埋め込みモデル、定数を変えてみても、性質に大きな違いは見られなかった。 埋め込みモデルによる品質の違い RoBERTaとGPT2は似た傾向を示す。 cの選択は曲線の相対的な順序に影響しない。 定数cによる違い 𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆))
  • 14. 実験③ ©2022 ARISE analytics Reserved. 13 MAUVEは人間の評価とよく相関している。 様々な類似性尺度が利用可能な場合の人間の判断との相関 MAUVEは良い性質を持ちつつ、人間に近い評価ができていることがわかった。 論文より引用
  • 15. 利用方法 ©2022 ARISE analytics Reserved. 14 人間が生成したテキストと機械が生成したテキストを入れると、MAUVE(0~1の値)が 算出される。 Github krishnap25/mauve: Package to compute Mauve, a similarity score between neural text and human text. Install with `pip install mauve-text`. (github.com) and krishnap25/mauve-experiments (github.com) Input Output (0~1の値) Track: Oral Session 1: Deep Learning (neurips.cc)
  • 16. ©2022 ARISE analytics Reserved. 15 1. 導入 2. MAUVE 3. 実験 4. まとめ
  • 17. まとめ ©2022 ARISE analytics Reserved. 16 論文サマリーの内容 • テキスト生成において、人間が作成したテキストと機械が作成したテキストがどれだけ近いのかを評価するための定量的 な指標を提案している。 • 人間の判断と相関もあり、先行研究による指標では捉えにくい、生成長・デコードアルゴリズム・モデルサイズによる品質 の違いも特定できた。 • 今後は、MAUVEを要約や翻訳などの特定タスクでの評価に使用できるか検討していきたいらしい。
  • 18. Best Partner for innovation, Best Creator for the future.
  • 19. References ©2022 ARISE analytics Reserved. 18 • Paper MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers | OpenReview • Video in NeurIPS2021 Track: Oral Session 1: Deep Learning (neurips.cc) • Github • krishnap25/mauve: Package to compute Mauve, a similarity score between neural text and human text. Install with `pip install mauve-text`. (github.com) • krishnap25/mauve-experiments (github.com)
  • 20. おまけ ©2022 ARISE analytics Reserved. 19 (機械が生成する確率が低いテキストの)例で出ていた内容について調べてみた。 ウトキアグヴィク - Wikipedia 春の訪れを祝うお祭りらしい。 Nuchalawoyya - YouTube