MixMatch: A Holistic Approach to Semi- Supervised Learning

MixMatch: A Holistic Approach to Semi-
Supervised Learning
05/20
神戸瑞樹
Nicholas Carlini
Google Research
ncarlini@google.com
Ian Goodfellow
Work done at Google
ian-academic@mailfence.com
Avital Oliver
Google Research
avitalo@google.com
Nicolas Papernot
Google Research
papernot@google.com
Colin Raffel
Google Research
craffel@google.com
David Berthelot
Google Research
dberth@google.com
https://arxiv.org/pdf/1905.02249.pdf

概要
• 半教師あり学習の手法であるMixMatchを提案
• これまでの半教師あり学習のアプローチをひとまと
めにした
• CIFAR-10(250label)のエラー率を38％から11％
に
2

半教師あり学習
• ラベル付きの画像を大量に用意することは困難
• 画像だけなら比較的容易
• 少量のラベル付き画像と大量のラベルなし画像
から学習する
• 半教師あり学習のロス
• Entropy loss
• Consistency loss
• Regularization loss
3

Consistency loss
• 同じ画像に違うノイズを加えてその差をなくす
• VAT
• Adversarial exampleで使うノイズを加える
• Mean teacher
• ノイズは同じだけどモデルの片方の重みを移動指数
を用いたものにする
4

Entropy loss
• モデルの出力をラベルなし画像のラベルとする
• Pseudo-Label
• VAT
5
Regularization loss
• 普通の正則化
• L2 loss
• Mix up

Mix up
6
• 2つのデータに対して、ラベルとデータの双方
を線形補間してデータを増やす
• 半教師あり学習で画像のみ増やすのに使う場合
もある
http://wazalabo.com/mixup_1.html より
https://arxiv.org/pdf/1903.03825.pdf より

MixMatch
• ラベルなしにK通りのaugmentationを行って平
均を取った後sharpenしたものを擬似ラベルに
• ラベルと疑似ラベルを混ぜてMixup
7

Sharpen
• ラベルの分布のエントロピーを小さくする
• 温度T→0でワンホットに近づく
8

Mix up
• 一回は必ず近い方になるようにmax()
9

Loss function
• L:class数
11

ハイパーパラメータ
• ハイパーパラメータが多く存在
• T(sharpenの温度),
• K（ラベルなしのaugmentation数）
• α（Mixupにおけるベータ分布のパラメータ）
• λU （半教師の重み）
• それでも、殆どが固定値で良い精度になる
• T = 0.5 , K = 2で固定
• α=0.75, λU =100から探索
12

実験
• Wide Resnet-28を使用
• 2^16のサンプルごとにモデル保存
• 最後の20個のモデルにおける精度の平均をレ
ポート
• バリデーションで最も低いエラー率のものを使
用するなどでもっと良い精度になるかも
13

Cifar-10への適用
• α=0.75, λU=75
• ラベル数を250から
4000まで変化
• 250labelでエラー率が
11.08%まで改善（次
点でVATの36.03％）
• 250labelで他の手法の
4000labelと同程度
14

SVHNへの適用
• α=0.75, λU=250
• ラベル数を250から
4000まで変化
• 250labelでエラー率
3.78％
15

STL-10への適用
• 10class
• 96*96のカラー画像
• 各クラス訓練500、テスト800
• 100000のラベルなし画像
• 画像はimagenetから
• α=0.75, λU=50
16

Ablation Study
• 各要素を足したり消したりしてその影響を調査
• Cifar-10 の250label、4000labelで調査
17

まとめ
• 半教師あり学習の手法であるMixMatchを提案
• これまでの半教師あり学習のアプローチをひとまと
めにした
• CIFAR-10(250label)のエラー率を11％に
• 半教師あり学習は画像でばかり評価されている
ので、他のドメインでも試したい
18

MixMatch: A Holistic Approach to Semi- Supervised Learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (15)

MixMatch: A Holistic Approach to Semi- Supervised Learning