SlideShare a Scribd company logo
1 of 20
MAUVE: Measuring the Gap
Between Neural Text and Human
Text using Divergence Frontiers
Customer Analytics Division
奥井 恒
2022/03/10
目次
©2022 ARISE analytics Reserved. 1
1. 導入
2. MAUVE
3. 実験
4. まとめ
背景・目的
©2022 ARISE analytics Reserved. 2
最近の大規模テキスト生成モデルは、顕著な品質と一貫性を持つ人間のようなテキストを
生成する能力を示している。
AIが高度な日本語文章を自動で生成 りんなのrinna社、日本語GPT-2/BERTの事前学習モデルを開発 GitHub等で公開 - ロボスタ
(robotstart.info)
機械が生成したテキストは、人間が生成したテキストにどのくらい近いのか?
自然言語処理モデル「GPT-3」の紹介 | NTTデータ先端技術株式会社 (intellilink.co.jp)
未解決問題
©2022 ARISE analytics Reserved. 3
機械が生成したテキストが人間が生成したテキストに対して、どれだけ近いかを測定する方
法は確立していない。
機械生成テキストの評価を定量化することは困難
(テキスト分布は高次元で離散的で、サンプルや効果のモデル評価を通してのみアクセスできるため)
To-Be
現在のゴールドスタンダードは
人間による評価
自動・定量的に評価できる
指標が欲しい。。。
As-Is
©2022 ARISE analytics Reserved. 4
1. 導入
2. MAUVE
3. 実験
4. まとめ
MAUVE:概要
©2022 ARISE analytics Reserved. 5
※ 個人の所感。
MAUVEは人間が生成したテキストと機械が生成したテキストの分布を比較することで、客
観的な言語生成モデルの性能を評価する。
人間が生成したテキストと機械が生成したテキスト
の分布を比較 情報量曲線下の分布をMAUVEとする。
(PR曲線のAUCを出すのと同じノリ ※)
Track: Oral Session
1: Deep Learning
(neurips.cc)より引用
論文より引用
2種類のエラー
©2022 ARISE analytics Reserved. 6
人間が生成したテキストの分布をP、機械が生成したテキストの分布をQとするとき、2種類
のエラーがある。
Type I error :
Q(機械)では確率が高いが、P(人間)では確率が低い場合のエラー
Type II error :
P(人間)では確率が高いが、Q(機械)では確率が低い場合のエラー
論文より引用
MAUVE
©2022 ARISE analytics Reserved. 7
情報量曲線の c (c>0) は、スケーリングのためのハイパーパラメータ
KL情報量によってエラーを表現し、情報量曲線下の面積をMAUVEとする。
Track: Oral Session 1: Deep Learning
(neurips.cc) より引用
MAUVE:曲線下の面積(0~1の値)を算出
𝑅𝜆 = 𝜆 𝑃 + 1 − 𝜆 𝑄, 𝜆 ∈ (0,1)
KL(Q|P), KL(P|Q)とすると、∞になる可
能性があるため、混合Rを定義
Type I error :
Q(機械)では確率が高いが、P(人間)では確率が低い場合のエラー
Type II error :
P(人間)では確率が高いが、Q(機械)では確率が低い場合のえラー
𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆))
情報量曲線
©2022 ARISE analytics Reserved. 8
1. 導入
2. MAUVE
3. 実験
4. まとめ
実験:
©2022 ARISE analytics Reserved. 9
3つの実験を通して、MAUVEの性能が検証できた。
データセット
タスク 文脈xが与えられたとき、後続のテキストを生成
正解:真の確率分布Pからのサンプル
競合:機械による生成分布Qからのサンプル
実験 実験①:生成する文章の長さ、デコードアルゴリズム、モデルサイズの違いを見る
実験②:埋め込みモデルM(x)と量子化アルゴリズムの違いを見る
実験③:人間の評価との相関を見る
論文より引用
実験① ~生成する文章の長さ~
©2022 ARISE analytics Reserved. 10
※ 既知の性質:生成するテキストが長くなると、支離滅裂になる。
生成の長さによる品質の違いを定量化した。MAUVEは既知の性質※を示す挙動をした。
他の指標は好ましくない傾向を示している。
フレシェ距離 世代パープレキシティ スパースマックススコア
実験① ~デコードアルゴリズム、モデルサイズの違い~
©2022 ARISE analytics Reserved. 11
デコードアルゴリズムの品質、モデルサイズによる品質においても望ましい傾向を示している。
Greedy < Ancestral < Nucleusと
なるのが理想らしい。
モデルサイズが大きくなるにつれて
良くなるのが理想。
デコードアルゴリズムによる品質の違い モデルサイズによる品質の違い
論文より引用 論文より引用
実験②
©2022 ARISE analytics Reserved. 12
量子化についても、k-means, DRMM (Deep Residual Mixture Models), 格子量子化の三つの量子
化を試してみたが、結果は大きく変わらなかったらしい。
埋め込みモデル、定数を変えてみても、性質に大きな違いは見られなかった。
埋め込みモデルによる品質の違い
RoBERTaとGPT2は似た傾向を示す。 cの選択は曲線の相対的な順序に影響しない。
定数cによる違い
𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆))
実験③
©2022 ARISE analytics Reserved. 13
MAUVEは人間の評価とよく相関している。
様々な類似性尺度が利用可能な場合の人間の判断との相関
MAUVEは良い性質を持ちつつ、人間に近い評価ができていることがわかった。
論文より引用
利用方法
©2022 ARISE analytics Reserved. 14
人間が生成したテキストと機械が生成したテキストを入れると、MAUVE(0~1の値)が
算出される。
Github
krishnap25/mauve: Package to compute Mauve, a similarity score between neural text and human text. Install with `pip install mauve-text`. (github.com)
and krishnap25/mauve-experiments (github.com)
Input
Output
(0~1の値)
Track: Oral Session 1: Deep Learning
(neurips.cc)
©2022 ARISE analytics Reserved. 15
1. 導入
2. MAUVE
3. 実験
4. まとめ
まとめ
©2022 ARISE analytics Reserved. 16
論文サマリーの内容
• テキスト生成において、人間が作成したテキストと機械が作成したテキストがどれだけ近いのかを評価するための定量的
な指標を提案している。
• 人間の判断と相関もあり、先行研究による指標では捉えにくい、生成長・デコードアルゴリズム・モデルサイズによる品質
の違いも特定できた。
• 今後は、MAUVEを要約や翻訳などの特定タスクでの評価に使用できるか検討していきたいらしい。
Best Partner for innovation, Best Creator for the future.
References
©2022 ARISE analytics Reserved. 18
• Paper
MAUVE: Measuring the Gap Between Neural Text and
Human Text using Divergence Frontiers | OpenReview
• Video in NeurIPS2021
Track: Oral Session 1: Deep Learning (neurips.cc)
• Github
• krishnap25/mauve: Package to compute Mauve, a
similarity score between neural text and human text.
Install with `pip install mauve-text`. (github.com)
• krishnap25/mauve-experiments (github.com)
おまけ
©2022 ARISE analytics Reserved. 19
(機械が生成する確率が低いテキストの)例で出ていた内容について調べてみた。
ウトキアグヴィク - Wikipedia
春の訪れを祝うお祭りらしい。
Nuchalawoyya - YouTube

More Related Content

What's hot

トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptxARISE analytics
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classificationDeep Learning JP
 
【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES
【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES
【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIESDeep Learning JP
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative ModelingDeep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
【DL輪読会】HyperTree Proof Search for Neural Theorem ProvingDeep Learning JP
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language ModelsDeep Learning JP
 

What's hot (20)

トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES
【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES
【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
 

Similar to 【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームPreferred Networks
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
 
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発慎一 古賀
 
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...Deep Learning JP
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Preferred Networks
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)MasanoriSuganuma
 
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...y-uti
 
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-Hironori Washizaki
 
オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)
オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)
オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)CLOUDIAN KK
 
機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップDaiyu Hatakeyama
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法についてMasanoriSuganuma
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phraseTatsuya Shirakawa
 
Interop2017
Interop2017Interop2017
Interop2017tak9029
 
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針yamahige
 

Similar to 【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers (20)

深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
 
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
 
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
 
オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)
オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)
オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)
 
機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法について
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
 
EMNLP 2011 reading
EMNLP 2011 readingEMNLP 2011 reading
EMNLP 2011 reading
 
Interop2017
Interop2017Interop2017
Interop2017
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
 

More from ARISE analytics

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptxARISE analytics
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptxARISE analytics
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方ARISE analytics
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​ARISE analytics
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ARISE analytics
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...ARISE analytics
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...ARISE analytics
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討ARISE analytics
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...ARISE analytics
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...ARISE analytics
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptxARISE analytics
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptxARISE analytics
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical PrecipiceARISE analytics
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)ARISE analytics
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov RewardARISE analytics
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on ManifoldsARISE analytics
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイARISE analytics
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial NetworksARISE analytics
 
【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text ClassificationARISE analytics
 

More from ARISE analytics (20)

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 
【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification
 

【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

  • 1. MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers Customer Analytics Division 奥井 恒 2022/03/10
  • 2. 目次 ©2022 ARISE analytics Reserved. 1 1. 導入 2. MAUVE 3. 実験 4. まとめ
  • 3. 背景・目的 ©2022 ARISE analytics Reserved. 2 最近の大規模テキスト生成モデルは、顕著な品質と一貫性を持つ人間のようなテキストを 生成する能力を示している。 AIが高度な日本語文章を自動で生成 りんなのrinna社、日本語GPT-2/BERTの事前学習モデルを開発 GitHub等で公開 - ロボスタ (robotstart.info) 機械が生成したテキストは、人間が生成したテキストにどのくらい近いのか? 自然言語処理モデル「GPT-3」の紹介 | NTTデータ先端技術株式会社 (intellilink.co.jp)
  • 4. 未解決問題 ©2022 ARISE analytics Reserved. 3 機械が生成したテキストが人間が生成したテキストに対して、どれだけ近いかを測定する方 法は確立していない。 機械生成テキストの評価を定量化することは困難 (テキスト分布は高次元で離散的で、サンプルや効果のモデル評価を通してのみアクセスできるため) To-Be 現在のゴールドスタンダードは 人間による評価 自動・定量的に評価できる 指標が欲しい。。。 As-Is
  • 5. ©2022 ARISE analytics Reserved. 4 1. 導入 2. MAUVE 3. 実験 4. まとめ
  • 6. MAUVE:概要 ©2022 ARISE analytics Reserved. 5 ※ 個人の所感。 MAUVEは人間が生成したテキストと機械が生成したテキストの分布を比較することで、客 観的な言語生成モデルの性能を評価する。 人間が生成したテキストと機械が生成したテキスト の分布を比較 情報量曲線下の分布をMAUVEとする。 (PR曲線のAUCを出すのと同じノリ ※) Track: Oral Session 1: Deep Learning (neurips.cc)より引用 論文より引用
  • 7. 2種類のエラー ©2022 ARISE analytics Reserved. 6 人間が生成したテキストの分布をP、機械が生成したテキストの分布をQとするとき、2種類 のエラーがある。 Type I error : Q(機械)では確率が高いが、P(人間)では確率が低い場合のエラー Type II error : P(人間)では確率が高いが、Q(機械)では確率が低い場合のエラー 論文より引用
  • 8. MAUVE ©2022 ARISE analytics Reserved. 7 情報量曲線の c (c>0) は、スケーリングのためのハイパーパラメータ KL情報量によってエラーを表現し、情報量曲線下の面積をMAUVEとする。 Track: Oral Session 1: Deep Learning (neurips.cc) より引用 MAUVE:曲線下の面積(0~1の値)を算出 𝑅𝜆 = 𝜆 𝑃 + 1 − 𝜆 𝑄, 𝜆 ∈ (0,1) KL(Q|P), KL(P|Q)とすると、∞になる可 能性があるため、混合Rを定義 Type I error : Q(機械)では確率が高いが、P(人間)では確率が低い場合のエラー Type II error : P(人間)では確率が高いが、Q(機械)では確率が低い場合のえラー 𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆)) 情報量曲線
  • 9. ©2022 ARISE analytics Reserved. 8 1. 導入 2. MAUVE 3. 実験 4. まとめ
  • 10. 実験: ©2022 ARISE analytics Reserved. 9 3つの実験を通して、MAUVEの性能が検証できた。 データセット タスク 文脈xが与えられたとき、後続のテキストを生成 正解:真の確率分布Pからのサンプル 競合:機械による生成分布Qからのサンプル 実験 実験①:生成する文章の長さ、デコードアルゴリズム、モデルサイズの違いを見る 実験②:埋め込みモデルM(x)と量子化アルゴリズムの違いを見る 実験③:人間の評価との相関を見る 論文より引用
  • 11. 実験① ~生成する文章の長さ~ ©2022 ARISE analytics Reserved. 10 ※ 既知の性質:生成するテキストが長くなると、支離滅裂になる。 生成の長さによる品質の違いを定量化した。MAUVEは既知の性質※を示す挙動をした。 他の指標は好ましくない傾向を示している。 フレシェ距離 世代パープレキシティ スパースマックススコア
  • 12. 実験① ~デコードアルゴリズム、モデルサイズの違い~ ©2022 ARISE analytics Reserved. 11 デコードアルゴリズムの品質、モデルサイズによる品質においても望ましい傾向を示している。 Greedy < Ancestral < Nucleusと なるのが理想らしい。 モデルサイズが大きくなるにつれて 良くなるのが理想。 デコードアルゴリズムによる品質の違い モデルサイズによる品質の違い 論文より引用 論文より引用
  • 13. 実験② ©2022 ARISE analytics Reserved. 12 量子化についても、k-means, DRMM (Deep Residual Mixture Models), 格子量子化の三つの量子 化を試してみたが、結果は大きく変わらなかったらしい。 埋め込みモデル、定数を変えてみても、性質に大きな違いは見られなかった。 埋め込みモデルによる品質の違い RoBERTaとGPT2は似た傾向を示す。 cの選択は曲線の相対的な順序に影響しない。 定数cによる違い 𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆))
  • 14. 実験③ ©2022 ARISE analytics Reserved. 13 MAUVEは人間の評価とよく相関している。 様々な類似性尺度が利用可能な場合の人間の判断との相関 MAUVEは良い性質を持ちつつ、人間に近い評価ができていることがわかった。 論文より引用
  • 15. 利用方法 ©2022 ARISE analytics Reserved. 14 人間が生成したテキストと機械が生成したテキストを入れると、MAUVE(0~1の値)が 算出される。 Github krishnap25/mauve: Package to compute Mauve, a similarity score between neural text and human text. Install with `pip install mauve-text`. (github.com) and krishnap25/mauve-experiments (github.com) Input Output (0~1の値) Track: Oral Session 1: Deep Learning (neurips.cc)
  • 16. ©2022 ARISE analytics Reserved. 15 1. 導入 2. MAUVE 3. 実験 4. まとめ
  • 17. まとめ ©2022 ARISE analytics Reserved. 16 論文サマリーの内容 • テキスト生成において、人間が作成したテキストと機械が作成したテキストがどれだけ近いのかを評価するための定量的 な指標を提案している。 • 人間の判断と相関もあり、先行研究による指標では捉えにくい、生成長・デコードアルゴリズム・モデルサイズによる品質 の違いも特定できた。 • 今後は、MAUVEを要約や翻訳などの特定タスクでの評価に使用できるか検討していきたいらしい。
  • 18. Best Partner for innovation, Best Creator for the future.
  • 19. References ©2022 ARISE analytics Reserved. 18 • Paper MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers | OpenReview • Video in NeurIPS2021 Track: Oral Session 1: Deep Learning (neurips.cc) • Github • krishnap25/mauve: Package to compute Mauve, a similarity score between neural text and human text. Install with `pip install mauve-text`. (github.com) • krishnap25/mauve-experiments (github.com)
  • 20. おまけ ©2022 ARISE analytics Reserved. 19 (機械が生成する確率が低いテキストの)例で出ていた内容について調べてみた。 ウトキアグヴィク - Wikipedia 春の訪れを祝うお祭りらしい。 Nuchalawoyya - YouTube