【DL輪読会】Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks

DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Pervasive Label Errors in Test Sets Destabilize
Machine Learning Benchmarks
Takumi Ohkuma
1

書誌情報
• 題名：Pervasive Label Errors in Test Sets Destabilize Machine Learning
Benchmarks
• 出典：NeurIPS 2021
• 著者：Curtis G. Northcutt, Anish Athalye, Jonas Mueller
• URL：https://arxiv.org/abs/2103.14749
※本資料における出典の記載の無い図表は全て上記論文より引用
2

概要
• 分類タスクにおけるテストデータのラベルミスに着目し、ラベルミスが多い場合に
精度の高いモデル選択を誤る可能性を示唆した研究。
• 10種類のデータのテストデータにおけるラベルミス率に関する調査、
ImageNet, CIFAR10のテストデータのラベルの誤り訂正の実施。
• ラベルが誤っていたデータの、修正前後それぞれのラベルに対する正答率等の指標
を様々なモデルで測定し、キャパシティの大きいモデルが訓練・テストデータに共
通するラベルミスの傾向まで学習している可能性を指摘。
• テストデータからは上記ミスを検知できず、逆にプラス評価してしまう問題点を指
摘し、テストデータのラベルの正確性の重要性を主張。
3

目次
1. イントロ
2. テストラベルのラベルミス率推定
3. テストラベルミスによる影響に関する実験
4. まとめ
4

目次
1. イントロ
4. まとめ
5

研究の背景
• 近年では大規模データを手に入れるために自動的なプロセスによるラベル付けやク
ラウドソーシングが用いられるが、同時にミスも生じる。
• ノイズのあるラベルを持つ訓練データ用いた学習テクニック等も研究される等、ラ
ベルミスはこれまでも研究の対象となってきた。
• しかしながらテストデータのラベルミスは殆ど着目されて来なかった。
• テストデータのラベルミスは、モデルの優劣判断を誤る原因となるので、ラベルミ
スの影響を把握しておくことは重要である。
6

目次
1. イントロダクション
4. まとめ
7

データセット
• 本研究では初めに、広く使われている10種類のデータに対して、どの程度テスト
データにラベルミスがあるかを推定した。
• 10種類のデータは画像データ6種類 (MNIST [1], CIFAR10 [2], CIFAR100 [2] , Caltech-
256 [3], ImageNet [4], QuickDraw [5])、テキストデータ3種類 (20news [6], IMDB [7],
Amazon Review [8])、音声データ1種類 (AudioSet [9])。
• このうちCIFAR10とImageNetに関してはラベルミスの訂正も行う。
8

ラベルミスの検出方法
• 全てのテストデータのラベルミスを手動で検出するのは非常に手間がかかるので、
以下の方法を用いて効率的に修正を行う
1. 訓練データを用いてモデルを学習する（もしくは学習済みモデルを使う）
2. Confident Learning (CL) を用いてミスがありそうなラベルを絞り込む
• 詳細は本資料では割愛（[10]を参照）
• ミスの有無だけでなく、修正先の候補ラベルも出力される
3. 絞り込んだラベルを全て、もしくはランダムで一定数選択し、それらが実際に
誤っているかどうかMechanical Turkによるクラウドソーシングで判断
4. 3で検出されたミス率を基に全体のミス数、ミス率を推定
9

クラウドソーシングに用いるUI
中央のテスト画像が
1. 左のクラス (flog)
2. 右のクラス (cat)
3. 両方のクラスの要素を持つ
4. どちらのクラスにも該当しない
のどれに該当するかを選択する
• 左右のクラスは、片方が元々のラベル、
他方がCLが出力した修正先候補ラベル
• 各画像に対して独立に5人が判定を行う
10

ミス率推定結果
• 以下の表の ’% error’ に各テストデータセットのミス率を示す
(5人中3人以上がエラーと判断したものをエラーとみなす)
• CLアルゴリズムで絞り込まれた ’CL guessed’ ラベルから ’Mturk checked’ だけランダムサン
プリングし、クラウドソーシングでエラー率の推定を行った
• 結果として、有名データセットでも平均3.6%のラベルミスがあると推定
11

ラベルミスの種類
ラベルミスは以下の4種類に分けられる
correctable: 明らかに相応しくないラ
ベルが付いている（訂正可能）
multi-label: 両方のラベルに該当する
要素が含まれている（訂正不可能）
neither: どちらラベルも相応しくない
（訂正不可能）
Non-agreement: エラーではあるもの
の、人によってエラーの種類が割れた
（訂正不可能）
12

種類別のラベルミス率
• エラー候補のうちエラーではなかったもの ‘non-error’ と前スライドで説明した4種
類のエラーの数を以下の表に示す
• non-agreementを除くと、単純なラベルミスであるcorrectableが多い
• 複雑な写真を多く含むImageNetではmulti-labelも多い
13

目次
4. まとめ
14

テストラベルミスによる影響
• テストデータはどの機械学習モデルが優れているか等、モデルの優劣を決め
る役割を果たしている。
• テストデータのラベルミス率が多くなると、テストデータに対する精度の序
列と実際の序列にずれが生じ、モデル選択を誤る可能性がある。
• 本実験ではテストラベルミス率が高くなった場合に、どの程度上記の危険性
が生じるかを検証する。
15

分析の為の準備
• 今回はCIFAR10とImageNetを用いてミスによる影響を分析する。
• 分析の為に正解ラベルが必要となる為、ラベルミス候補全てをクラウドソーシング
にて分析し、 correctableに対し修正された正解ラベルを付与。
• correctable以外のミスは、そもそも画像が曖昧、もしくは複数の要素を持っており、
データとして相応しくないとし削除。
16

テストセットに関する定義
実験に用いるテストセットに関して以下の様に定義する。
𝐷: テストセット全体
𝐵: テストセットのうち、ラベル間違いが検出されなかったデータ集合 (𝐵 ⊂ 𝐷 )
𝐶: correctable error（訂正可能な間違い）と判断されたデータ集合
𝑈: correctable error 以外の（訂正不可能な）間違いと判断されたデータ集合
• ここで、 𝐷 = 𝐵 ∪ 𝐶 ∪ 𝑈 が成り立つ
• また、𝑈はデータそのものが相応しくないので削除し、有効なデータセット 𝑃 = 𝐵 ∪ 𝐶
を定義する。
17

実験
• まず、訓練データを用いて複数種類のモデルを訓練する。
その上でテストラベルミスの影響を調べる為の以下の実験を行う。
1. 有効なデータセット 𝑃 (= 𝐵 ∪ 𝐶) の誤り訂正前のラベル対する正解率と、データ
セット𝑃から correctable error ラベルを持つデータセット 𝐶を除いた、データセット
𝐵 に対する正解率の比較
2. correctable error ラベルを持つデータセット 𝐶 に対する、「誤り訂正前のラベル」に
対する正解率と「誤り訂正後のラベル」に対する正解率の比較
3. 𝑃 から、正しいラベルを持つデータ集合𝐵 に属するデータを段階的に除去すること
でテストエラー率を増加させつつ、2と同様の関係の比較
• また、これら実験で使われる複数種類のモデルの正解率の序列にも着目する。
18

実験1
• 左図は有効データセット全体 𝑃（誤り訂正前ラベル）
への正解率（横軸）と、誤りデータを省いたデータ
セット𝐵への正解率（縦軸）の関係性を示す。
• 34の画像認識モデルについて実験を行った結果、縦軸
と横軸でモデルの優劣（序列）に変化はない
• テストラベルミスの有無によって序列に変化が無く、
ミスが原因で精度の高いモデル選択を誤ることはない
• 一見するとテストラベルミスの影響は小さいように思
われる（が、実験2以降の分析を見て頂きたい）
19
☝一見テストラベルミスの影響は
取るに足らないように思われる
𝑷
𝑩

実験2
• 左図では、誤りラベルを持つデータセット𝐶の「訂
正前ラベル」に対する正解率（横軸）と「訂正後
ラベル」に対する正解率（縦軸）を比較する。
• 訂正後ラベルに対する正解率が高い方が望ましい
が、ベンチマークにおける正解は訂正前のラベル.。
• ベンチマーク（データセット全体 𝑃 ）の精度が最
も高かったのはNasnet [11]だが、訂正後ラベルに
対する正解率は低く、訂正後ラベルに対して高い。
• CIFAR10でも、似たような現象がみられる。
20

実験2 (考察)
ベンチマークの結果が良いNasnetが誤った訂正前ラベルに対して正解率が高く、正しい訂正
後ラベルに対して正解率が低めであるということは、
• 訂正前ラベルへの精度が高いのでベンチマークの結果が良い？
⇒✖ 実験1で誤りを除外した場合でも精度が良い
• Nasnetはテストデータと訓練データに共通するラベルミスのパターンの一部まで学習して
しまっている可能性がある？
⇒〇モデルキャパシティが大きいモデルはその傾向がある。
• とはいえ、ベンチマークでの序列が変わらないので無問題では？
⇒ ✖ ImageNetで序列が変化しないのはラベルミス率が約3%と比較的小さいためである。
よりミス率の大きいデータセットでは序列が変わってしまう可能性がある。
実験３でテストラベルミス率の大きい場合に起こる影響について検証
21

実験3
• テストデータのラベルミス率がより大きかった場合の影響をあるかを分析する。
• 𝑃 = 𝐵 ∪ 𝐶 であるので、 𝑃の要素のうちラベルミスのない𝐵の要素を段階的にランダ
ムに除去することでラベルミス率を増やした場合の正解率を調べる。
• 訂正前ラベル・訂正後ラベルそれぞれに対して正解率を調べる。
• 訓練データのラベルミス率はそのままで、テストラベルミス率だけ増やすのはアン
バランスにも思われるが（個人の感想です）、訓練データに対するラベル訂正は
行っていないので、本実験では考慮していない。
22

実験3（ImageNet）
• 左図はテストラベルミス率（横軸）と
正解率（縦軸）の関係性
• 上が修正前ラベル、下が修正後ラベル
• ミス率が高くなると、修正後のラベル
への正答率の序列が変化する。
（修正前はあまり変化しない）
• ベンチマークでの精度が高いモデル
（上図）と、実際に精度が高いモデル
（下図）に差が出てしまう。
23
ベンチマーク（上図）で最も評価の高いモデルnasnetだが、
ミス率が高い場合実際の精度では他のモデルに負けうる（下図）

実験3（CIFAR10）
• 左図はCIFAR10に対するグラフである。
• CIFAR10でも序列の逆転が起き
ベンチマークではVGG19 > VGG11だが、
ミス率が6%を超える場合、
修正後のラベルではVGG19 < VGG11
• ラベルミスが多い環境ではVGG19 [12]
よりVGG11の方が実質的な精度が高い。
• しかしながら、地道にラベルミスを直
さない限り、この逆転を見抜けない。
24

実験3（考察）
• ミスを含むベンチマーク（修正前ラベル）で正解率の高いモデルと、実際に性能の高い
（修正後ラベル）モデルが必ずしも一致しないので、テストラベルミスは最適モデル選択
のミスに繋がりうる。
• 上記の原因の一つは、モデルが訓練データとテストデータに共通するミスの傾向まで学習
する事であると考えられ（ベンチマークへの過適合）、ベンチマークのミス率が高い場合、
一般的に高精度と言われるモデルが実環境下では数値上の優位性を示せない場合もある。
• 本来は修正後のラベルは手に入らない為、上記の悪影響の検知も出来ない。
• 上記問題を緩和する為にはデータのラベリング精度を上げるしかなく、
従来思われていたよりも、ラベルの正確さの重要性は高い。
25

目次
4. まとめ
26

まとめ
• 今まであまり着目されてこなかったテストデータのラベルミス率に関する研究
• 広く使われるデータセットでも、平均数%のテストラベルミスがあると推定
• ImageNetやCIFAR10のラベルミス率では影響が少ないが、ミス率が大きくなるとモデルが
ベンチマークに過適合することで、ベンチマークで高評価なモデルが実際に精度が高いと
は限らなくなり、最適モデルの選択ミスに繋がる
• 今後更に増えるであろう超大規模データセットでは、ラベルミスを減らすのがより困難に
なるので、上記問題の重要性が増していくと考えられる
• テストラベルミスを正すことでしか上記問題は解決されないので、テストラベルの正確性
の重要さは想像以上に高い
27

感想
 「テストラベルミス率が大きくなるとモデルの選択を誤りうる」という問題提起はベンチ
マーク至上主義に待ったをかけ、非常に意味のある研究だと感じた。
 ただ、論理展開が少々わかりにくいと感じた。
全データ𝑃 の修正前ラベルに対する正解率と 𝐶 の修正後ラベルに対する正解率の散布図等
があると、もう少しわかりやすかった気する。
 今回はテストラベルミス率だけを増やしたが、実際には訓練ラベルミス率も大きくなりう
るので、共通するミスの傾向が学習されてしまう影響はより大きくなると思う。
• 訓練データまでラベルをチェックするリソースを確保するのは難しいかもしれないが、訓練デー
タのラベルミスも増やした場合、割と半端でない影響が出る気がするので今後の研究に期待。
28

引用
1. Yann Lecun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient-based learning applied to document recognition. In
Proceedings of the IEEE, pages 2278–2324, 1998.
2. Alex Krizhevsky. Learning multiple layers of features from tiny images. Technical report, University of Toronto, 2009.
3. G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology,
2007.
4. J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In Conference on
Computer Vision and Pattern Recognition (CVPR), 2009.
5. David Ha and Douglas Eck. A neural representation of sketch drawings. arXiv preprint arXiv:1704.03477, 2017.
6. Tom Mitchell. Twenty newsgroups dataset, 1999.
7. Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. Learning word vectors for
sentiment analysis. In Annual Conference of the Association for Computational Linguistics (ACL), pages 142–150, Portland, Oregon,
USA, June 2011.
8. Julian McAuley, Christopher Targett, Qinfeng Shi, and Anton van den Hengel. Image-based recommendations on styles and
substitutes. In Special Interest Group on Information Retrieval (SIGIR), pages 43–52, New York, NY, USA, 2015.
29

引用
9. Jort F. Gemmeke, Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal, and Marvin
Ritter. Audio set: An ontology and human-labeled dataset for audio events. In IEEE International Conference on Acoustics, Speech,
and Signal Processing (ICASSP), New Orleans, LA, 2017.
10. Curtis G. Northcutt, Lu Jiang, and Isaac L. Chuang. Confident learning: Estimating uncertainty in dataset labels. Journal of Artificial
Intelligence Research (JAIR), 2021.
11. Barret Zoph, Vijay Vasudevan, Jonathon Shlens, and Quoc V Le. Learning transferable architectures for scalable image recognition.
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8697–8710, 2018.
12. Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint
arXiv:1409.1556, 2014.
30

【DL輪読会】Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【DL輪読会】Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks

Similar to 【DL輪読会】Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (20)

【DL輪読会】Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks