Mean Teacher

Mean teachers are better role models:
Weight-averaged consistency targets improve
semi-supervised deep learning results
Antti Tarvainen
The Curious AI Company
and Aalto University
Harri Valpola
The Curious AI Company
https://arxiv.org/abs/1703.01780
11/16
神戸瑞樹

概要
• 半教師あり学習の手法を提案
• CIFAR-10(4000label)、Imagenet2012(10% of
the label)でSoTA(2017)
2

半教師あり学習
• ラベル付きの画像を大量に用意することは困難
• 画像だけなら比較的容易
• 少量のラベル付き画像と大量のラベルなし画像
から学習する
• ラベルなしではコストが定義できない
3

Γモデル
• ノイズ付きとノイズなしの画像間の
consistency costを使う
• モデルに教師と生徒を仮定
• 教師がターゲットを作成し、生徒がそれを学習
• モデルがターゲットを作成するので、間違って
いる可能性もある
• 重みがでかいとうまく学習できない
• ターゲットのクオリティを上げる必要がある
• 加えるノイズを工夫する（VATなど）か、教師モデ
ルを工夫する（この論文）
• 2つは共存できる
4

Πモデル
• トレーニングデータ外のものに対して常に正確
な予測は出来ない
• 推論時にモデルにノイズを加えると部分的に緩
和でき、より正確なターゲットを得られる
5

Temporal Ensembling
• 各訓練事例の指数移動平均（EMA)予測を維持
する
• 各例のEMA予測（ターゲット）は現在のモデ
ルと同じ例を評価した以前のバージョンのアン
サンブルで形成
• 各ターゲットはエポックごとに1回しか更新さ
れないので、学習が遅くなる
• データセットが大きくなると使いにくい
6

Mean teacher
• 教師モデルは連続した生徒モデルの平均
• 生徒モデルのEMA weightを使う
• ステップごとに情報が更新される
• 大きいデータセットでも機能
• 最終層だけでなく全層が更新
• より良い中間表現が得られる
7

Consistency cost
• 教師モデルと生徒モデルの出力の距離
• MSE、KL-divergenceなど
• weight θ, noise η
8

SVHNへの適用
• 13-layer CNN(ConvNet)を使用
• 最初はラベル付きのみで学習し、ラベルなしの
コストを上げていく
10

Cifar-10への適用
• 13-layer CNN(ConvNet)を使用
• 最初はラベル付きのみで学習し、ラベルなしの
コストを上げていく
11

Cifar10, imagenetへの適用
• 26-layer ResNet(cifar10)
• 152-layer ResNeXt(imagent)
12

まとめ
• 半教師あり学習の手法を提案
• ImageNet2012の10%labelでSoTA
• 本手法は教師モデルの作成を工夫したもので、
ノイズの作成方法の工夫と合わせることでもっ
と良い手法になり得る
13

Mean Teacher

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (7)

Mean Teacher