Dataset Cartography:
Mapping and Diagnosing Datasets
with Training Dynamics
2020/10/19
1
背景・目的
関連研究
Information
Dataset Cartography: Mapping and Diagnosing
Datasets with Training Dynamics
Swayamdipta, S.1, Schwartz, R. 2, Lourie, N. 1,
Wang, Y. 3, Hajishirzi, H. 3, Smith, N. A. 3, & Choi, Y. 3
1: Allen Institute for Artificial Intelligence, Seattle
2: The Hebrew University of Jerusalem, Israel
3: Paul G. Allen School of Computer Science & Engineering, University of Washington, Seattle
https://arxiv.org/pdf/2009.10795.pdf
https://github.com/allenai/cartography
2
Allen AI は OSS の活動で有名
背景・目的
関連研究
【背景・目的】
• 大規模なデータセットの利用が盛んとなる
一方,データの質の保持は困難に・・・
• データセットの性格や質を簡単に分析したい
3
【概要】
epoch 毎の予測の変化を見ることで各 instance に対する
confidence, variability を定義し,可視化・分析
【感想】
手法は誰でも一度は思いつくレベルだが
直感的に自明であることをどう分析するか
は参考になる
【分析項目】
◆ 3 regions への大まかな分類
easy-to-learn, ambiguous, hard-to-learn
◆ Data selection
◆ Easy-to-Learn instance の影響
◆ Mislabeled example の検知
◆ Uncertainty との関係性
✓ Confidence: epoch を跨いだ予測確率
✓ Variability: epoch を跨いだ予測のばらつき
背景・目的
関連研究
提案手法の目的
4
何を知りたいか
In- and Out-Of-Distribution (OOD) の関係や影響
◆サンプルは学習・予測に対して均一に貢献しない[1]
◆Pre-trained model は IOD, OOD の GAP を緩和[2]
Pre-trained model を用いたモデルベースの分析により
自動的に(容易に)モデル・データセットの両性質を把握
➢ 今回は NLP なので,ROBERTa を使用
BERT の Next Sentence Prediction なし
➢ Out-of-Distribution がかなり少ない
supervised な学習を挟んでおらずとも
関連した情報は含まれているはず
提案手法
実験
関連研究
提案手法: 概要(分析含む)
5
1. Training Dynamics
Epoch 毎の学習精度から2軸を抽出,可視化
2. 重要なのは可視化の後,何を見るか
3 regions への大まかな分類
◆easy-to-learn
◆ambiguous
◆hard-to-learn
あくまで人による分析
⇒ +𝛼 で何がわかるか
背景・目的
関連研究
何を見るか
◆Data selection
3 regions のうち,1つの region だけ集めると?
◆Easy-to-Learn instance の影響
Easy-to-Learn はどの程度必要か
◆Mislabeled example の検知
怪しいラベル,間違ったラベルを検知できるか
◆Uncertainty との関係性
confidence, variability はどのように関係するか
6
クラスタリングや異常検知に近い点が多い
⇒ そもそも議論対象が難しく,主観的になりやすい
提案手法
実験
関連研究
提案手法: Training Dynamics
✓ Confidence: epoch を跨いだ予測確率
ො
𝜇𝑖 =
1
𝐸
σ𝑒=1
𝐸
𝑝𝜽 𝑒 (𝑦𝑖
∗
|𝒙𝑖)
✓ Variability: epoch を跨いだ予測のばらつき
ො
𝜎𝑖 =
σ𝑒=1
𝐸 𝑝𝜽 𝑒 𝑦𝑖
∗
𝒙𝑖 −ෞ
𝜇𝑖
2
𝐸
𝑁: training dataset size, 𝒟 = 𝒙, 𝑦∗
𝑖 𝑖=1
𝑁
,
𝑥𝑖: 𝑖 番目の instance, 𝑦𝑖
∗
: 𝑖 番目の true label
𝐸: 𝑒𝑝𝑜𝑐ℎ ※ step への置き換えや early stopping も化
7
sampling ⇒ 予測確率(softmax 値)
提案手法
実験
関連研究
提案手法: Data Maps
あくまで相対的に見て
Easy-, Hard-to-Learn を定義
⇒ 結局,正解がわからん
8
※論文中では,appendix を含めて4つ
SNLI[3] の Data Map
残念な点:特にグループ化(閾値)の議論がない
2つのデータセット(※)について可視化し分析
Confidence, variability に加え
学習過程での正解率を
plot することでグループを確認
実験
まとめ
提案手法
実験設定
モデル
◆Bag-of-Words, eSim
◆LSTM, BERT, RoBERTa[3]
9
データセット In-, Out- の区切りも気になる所
提案手法
実験
関連研究
Data Maps
2つのデータセット(※)について可視化し分析
10
※論文中では,appendix を含めて4つ
SNLI[4] の Data Map WinoGrande[5] の Data Map
データセットの比較: Hrad-to-Learn の密度が異なる
提案手法
実験
関連研究
Data Maps
2つのデータセット(※)について可視化し分析
11
※論文中では,appendix を含めて4つ
SNLI における RoBERTa SNLI における LSTM
モデルの比較: モデルサイズで variability が変化?
背景・目的
関連研究
具体例を見ると
WinoGrade の場合
12
橙: global standard
正解ラベル
青: correct+
ラベルエラー?
緑: equaly plausible
文章的にはどちらでも良い
文章中の情報から
導けない答えが存在
実験
まとめ
提案手法
Data Selection using Data Maps
データセットの33%使って学習し,test を予測
⇒ 精度の向上に必要な instance を取得可能か
13
Ambiguous から
収集するのがベスト
⇒ ambiguous だけでよい?
100%学習したものが
最高精度ではない
⇒ 他のデータでも同様
実験
まとめ
提案手法
Role of Easy-to-Learn
Easy-to-Learn の効果を確かめるために3つ実験
(左,中)ambiguous の割合を調整して学習
(右)ambiguous に対して Easy-to-Learn の割合を増加
14
Ambiguous だけでも学習できるが
学習量が少ないと精度は低下
Easy-to-Learn の割合次第で
Top(best score) を上回る
実験
まとめ
提案手法
Detecting Mislabeled Examples
クラウドソースによるデータセットはミスラベルを含有
⇒ 誤ったラベルの学習は汎化性能を低下[]
15
実際に,1%のノイズを含めることで,学習が不安定に
安定していた instance の
評価も大きく変化
Confidence を特徴量としてミスラベルを検知(2値分類)
ノイズ率(1%, 4,039/49,399) ⇒ 13個をノイズと判定
ノイズ率(33%, 50/155) ⇒ 67%をノイズと判定
あまり意味のない実験に思うが
実験
まとめ
提案手法
Training Dynamics as Uncertainty Measures
Uncertainty について検証
➢Intrinsic uncertainty: instance に由来
➢Model uncertainty: model に由来 ⇒ variability
16
Human agreement:
Annotator 内での一致度
⇒ confidence と強い関連
Intrinsic uncertainty に該当?
論文では触れられていないが
variability が高いと human
agreement の推定も困難に?
関連研究
提案手法
背景・目的
関連研究1
◆ Xing ら[7]
➢ 着目点: SGD による最適化の loss の軌跡
➢ 分析項目: バッチサイズに起因するノイズ
◆ Toneva ら[8]: forgetting
➢ 着目点: 数 epoch 後に忘れられる ‘forgotten’ instance
➢ 分析項目: training set に含む instance の影響
◆ LeBras ら[9]: AFLite
➢ 着目点: 単純な分類器の ensemble による予測可能性
➢ 分析項目: dataset がもつ bias によるモデルの過大評価
17
LeBras らやその他の研究ではEasy-to-Learn は除くべきと主張
WinoGrande[5] で始めて提案
関連研究
提案手法
背景・目的
関連研究2
◆ Joshi ら[10]: AL-uncertainty
➢ 着目点: SVM (margin based model) における不確かさ
➢ 分析項目: active learning での効用
◆ Sener and Savarese ら[11]: AL-greedyK
➢ 着目点: データ集合の中における k 個の center (≈cluster)
と各 center のデータ集合全体への影響度
➢ 分析項目: active learning に効果的な部分集合
18
同様の視点から adversarial (データに誤りのある)シナリオでの
学習安定化・精度向上とも関連があるそう
参考文献
まとめ
参考文献1
[1] Kailas Vodrahalli, Ke Li, and Jitendra Malik. 2018. Are all training
examples created equal? an empirical study. ArXiv:1811.12569.
[2] Dan Hendrycks, Xiaoyuan Liu, Eric Wallace, Adam Dziedzic, Rishabh
Krishnan, and Dawn Song. 2020. Pretrained transformers improve out-of-
distribution robustness. ArXiv preprint arXiv:2004.06100.
[3] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar S. Joshi, Danqi
Chen, Omer Levy, Mike Lewis, Luke S. Zettlemoyer, and Veselin Stoyanov.
2019. RoBERTa: A robustly optimized BERT pretraining approach.
ArXiv:1907.11692.
[4] Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D.
Manning. 2015. A large annotated corpus for learning natural language
inference. In Proceedings of the 2015 Conference on Empirical Methods in
Natural Language Processing, pages 632–642, Lisbon, Portugal.
Association for Computational Linguistics.
[5] Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi.
2020. Winogrande: An adversarial winograd schema challenge at scale. In
AAAI.
19
参考文献
まとめ
参考文献2
[6] Wei Hu, Zhiyuan Li, and Dingli Yu. 2020. Simple and effective
regularization methods for training on noisily labeled data with
generalization guarantee. In ICLR. OpenReview.net.
[7] Chen Xing, Devansh Arpit, Christos Tsirigotis, and Yoshua Bengio. 2018.
A walk with SGD.
[8] Mariya Toneva, Alessandro Sordoni, Remi Tachet des Combes, Adam
Trischler, Yoshua Bengio, and Geoffrey J Gordon. 2018. An empirical study
of example forgetting during deep neural network learning. In ICLR.
[9] Ronan LeBras, Swabha Swayamdipta, Chandra Bhagavatula, Rowan
Zellers, Matthew E. Peters, Ashish Sabharwal, and Yejin Choi. 2020.
Adversarial filters of dataset biases. In ICML.
[10] Ajay J Joshi, Fatih Porikli, and Nikolaos Papanikolopoulos. 2009. Multi-
class active learning for image classification. In CVPR, pages 2372– 2379.
IEEE.
[11] Ozan Sener and Silvio Savarese. 2018. Active learning for
convolutional neural networks: A core-set approach. In ICLR.
20

Dataset cartography mapping and diagnosing datasets with training dynamics

  • 1.
    Dataset Cartography: Mapping andDiagnosing Datasets with Training Dynamics 2020/10/19 1
  • 2.
    背景・目的 関連研究 Information Dataset Cartography: Mappingand Diagnosing Datasets with Training Dynamics Swayamdipta, S.1, Schwartz, R. 2, Lourie, N. 1, Wang, Y. 3, Hajishirzi, H. 3, Smith, N. A. 3, & Choi, Y. 3 1: Allen Institute for Artificial Intelligence, Seattle 2: The Hebrew University of Jerusalem, Israel 3: Paul G. Allen School of Computer Science & Engineering, University of Washington, Seattle https://arxiv.org/pdf/2009.10795.pdf https://github.com/allenai/cartography 2 Allen AI は OSS の活動で有名
  • 3.
    背景・目的 関連研究 【背景・目的】 • 大規模なデータセットの利用が盛んとなる 一方,データの質の保持は困難に・・・ • データセットの性格や質を簡単に分析したい 3 【概要】 epoch毎の予測の変化を見ることで各 instance に対する confidence, variability を定義し,可視化・分析 【感想】 手法は誰でも一度は思いつくレベルだが 直感的に自明であることをどう分析するか は参考になる 【分析項目】 ◆ 3 regions への大まかな分類 easy-to-learn, ambiguous, hard-to-learn ◆ Data selection ◆ Easy-to-Learn instance の影響 ◆ Mislabeled example の検知 ◆ Uncertainty との関係性 ✓ Confidence: epoch を跨いだ予測確率 ✓ Variability: epoch を跨いだ予測のばらつき
  • 4.
    背景・目的 関連研究 提案手法の目的 4 何を知りたいか In- and Out-Of-Distribution(OOD) の関係や影響 ◆サンプルは学習・予測に対して均一に貢献しない[1] ◆Pre-trained model は IOD, OOD の GAP を緩和[2] Pre-trained model を用いたモデルベースの分析により 自動的に(容易に)モデル・データセットの両性質を把握 ➢ 今回は NLP なので,ROBERTa を使用 BERT の Next Sentence Prediction なし ➢ Out-of-Distribution がかなり少ない supervised な学習を挟んでおらずとも 関連した情報は含まれているはず
  • 5.
    提案手法 実験 関連研究 提案手法: 概要(分析含む) 5 1. TrainingDynamics Epoch 毎の学習精度から2軸を抽出,可視化 2. 重要なのは可視化の後,何を見るか 3 regions への大まかな分類 ◆easy-to-learn ◆ambiguous ◆hard-to-learn あくまで人による分析 ⇒ +𝛼 で何がわかるか
  • 6.
    背景・目的 関連研究 何を見るか ◆Data selection 3 regionsのうち,1つの region だけ集めると? ◆Easy-to-Learn instance の影響 Easy-to-Learn はどの程度必要か ◆Mislabeled example の検知 怪しいラベル,間違ったラベルを検知できるか ◆Uncertainty との関係性 confidence, variability はどのように関係するか 6 クラスタリングや異常検知に近い点が多い ⇒ そもそも議論対象が難しく,主観的になりやすい
  • 7.
    提案手法 実験 関連研究 提案手法: Training Dynamics ✓Confidence: epoch を跨いだ予測確率 ො 𝜇𝑖 = 1 𝐸 σ𝑒=1 𝐸 𝑝𝜽 𝑒 (𝑦𝑖 ∗ |𝒙𝑖) ✓ Variability: epoch を跨いだ予測のばらつき ො 𝜎𝑖 = σ𝑒=1 𝐸 𝑝𝜽 𝑒 𝑦𝑖 ∗ 𝒙𝑖 −ෞ 𝜇𝑖 2 𝐸 𝑁: training dataset size, 𝒟 = 𝒙, 𝑦∗ 𝑖 𝑖=1 𝑁 , 𝑥𝑖: 𝑖 番目の instance, 𝑦𝑖 ∗ : 𝑖 番目の true label 𝐸: 𝑒𝑝𝑜𝑐ℎ ※ step への置き換えや early stopping も化 7 sampling ⇒ 予測確率(softmax 値)
  • 8.
    提案手法 実験 関連研究 提案手法: Data Maps あくまで相対的に見て Easy-,Hard-to-Learn を定義 ⇒ 結局,正解がわからん 8 ※論文中では,appendix を含めて4つ SNLI[3] の Data Map 残念な点:特にグループ化(閾値)の議論がない 2つのデータセット(※)について可視化し分析 Confidence, variability に加え 学習過程での正解率を plot することでグループを確認
  • 9.
    実験 まとめ 提案手法 実験設定 モデル ◆Bag-of-Words, eSim ◆LSTM, BERT,RoBERTa[3] 9 データセット In-, Out- の区切りも気になる所
  • 10.
  • 11.
    提案手法 実験 関連研究 Data Maps 2つのデータセット(※)について可視化し分析 11 ※論文中では,appendix を含めて4つ SNLIにおける RoBERTa SNLI における LSTM モデルの比較: モデルサイズで variability が変化?
  • 12.
    背景・目的 関連研究 具体例を見ると WinoGrade の場合 12 橙: globalstandard 正解ラベル 青: correct+ ラベルエラー? 緑: equaly plausible 文章的にはどちらでも良い 文章中の情報から 導けない答えが存在
  • 13.
    実験 まとめ 提案手法 Data Selection usingData Maps データセットの33%使って学習し,test を予測 ⇒ 精度の向上に必要な instance を取得可能か 13 Ambiguous から 収集するのがベスト ⇒ ambiguous だけでよい? 100%学習したものが 最高精度ではない ⇒ 他のデータでも同様
  • 14.
    実験 まとめ 提案手法 Role of Easy-to-Learn Easy-to-Learnの効果を確かめるために3つ実験 (左,中)ambiguous の割合を調整して学習 (右)ambiguous に対して Easy-to-Learn の割合を増加 14 Ambiguous だけでも学習できるが 学習量が少ないと精度は低下 Easy-to-Learn の割合次第で Top(best score) を上回る
  • 15.
    実験 まとめ 提案手法 Detecting Mislabeled Examples クラウドソースによるデータセットはミスラベルを含有 ⇒誤ったラベルの学習は汎化性能を低下[] 15 実際に,1%のノイズを含めることで,学習が不安定に 安定していた instance の 評価も大きく変化 Confidence を特徴量としてミスラベルを検知(2値分類) ノイズ率(1%, 4,039/49,399) ⇒ 13個をノイズと判定 ノイズ率(33%, 50/155) ⇒ 67%をノイズと判定 あまり意味のない実験に思うが
  • 16.
    実験 まとめ 提案手法 Training Dynamics asUncertainty Measures Uncertainty について検証 ➢Intrinsic uncertainty: instance に由来 ➢Model uncertainty: model に由来 ⇒ variability 16 Human agreement: Annotator 内での一致度 ⇒ confidence と強い関連 Intrinsic uncertainty に該当? 論文では触れられていないが variability が高いと human agreement の推定も困難に?
  • 17.
    関連研究 提案手法 背景・目的 関連研究1 ◆ Xing ら[7] ➢着目点: SGD による最適化の loss の軌跡 ➢ 分析項目: バッチサイズに起因するノイズ ◆ Toneva ら[8]: forgetting ➢ 着目点: 数 epoch 後に忘れられる ‘forgotten’ instance ➢ 分析項目: training set に含む instance の影響 ◆ LeBras ら[9]: AFLite ➢ 着目点: 単純な分類器の ensemble による予測可能性 ➢ 分析項目: dataset がもつ bias によるモデルの過大評価 17 LeBras らやその他の研究ではEasy-to-Learn は除くべきと主張 WinoGrande[5] で始めて提案
  • 18.
    関連研究 提案手法 背景・目的 関連研究2 ◆ Joshi ら[10]:AL-uncertainty ➢ 着目点: SVM (margin based model) における不確かさ ➢ 分析項目: active learning での効用 ◆ Sener and Savarese ら[11]: AL-greedyK ➢ 着目点: データ集合の中における k 個の center (≈cluster) と各 center のデータ集合全体への影響度 ➢ 分析項目: active learning に効果的な部分集合 18 同様の視点から adversarial (データに誤りのある)シナリオでの 学習安定化・精度向上とも関連があるそう
  • 19.
    参考文献 まとめ 参考文献1 [1] Kailas Vodrahalli,Ke Li, and Jitendra Malik. 2018. Are all training examples created equal? an empirical study. ArXiv:1811.12569. [2] Dan Hendrycks, Xiaoyuan Liu, Eric Wallace, Adam Dziedzic, Rishabh Krishnan, and Dawn Song. 2020. Pretrained transformers improve out-of- distribution robustness. ArXiv preprint arXiv:2004.06100. [3] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar S. Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke S. Zettlemoyer, and Veselin Stoyanov. 2019. RoBERTa: A robustly optimized BERT pretraining approach. ArXiv:1907.11692. [4] Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D. Manning. 2015. A large annotated corpus for learning natural language inference. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 632–642, Lisbon, Portugal. Association for Computational Linguistics. [5] Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. 2020. Winogrande: An adversarial winograd schema challenge at scale. In AAAI. 19
  • 20.
    参考文献 まとめ 参考文献2 [6] Wei Hu,Zhiyuan Li, and Dingli Yu. 2020. Simple and effective regularization methods for training on noisily labeled data with generalization guarantee. In ICLR. OpenReview.net. [7] Chen Xing, Devansh Arpit, Christos Tsirigotis, and Yoshua Bengio. 2018. A walk with SGD. [8] Mariya Toneva, Alessandro Sordoni, Remi Tachet des Combes, Adam Trischler, Yoshua Bengio, and Geoffrey J Gordon. 2018. An empirical study of example forgetting during deep neural network learning. In ICLR. [9] Ronan LeBras, Swabha Swayamdipta, Chandra Bhagavatula, Rowan Zellers, Matthew E. Peters, Ashish Sabharwal, and Yejin Choi. 2020. Adversarial filters of dataset biases. In ICML. [10] Ajay J Joshi, Fatih Porikli, and Nikolaos Papanikolopoulos. 2009. Multi- class active learning for image classification. In CVPR, pages 2372– 2379. IEEE. [11] Ozan Sener and Silvio Savarese. 2018. Active learning for convolutional neural networks: A core-set approach. In ICLR. 20