Self training with noisy student

Self-training with Noisy Student improves
ImageNet classification
2019/11/22
神戸瑞樹
Qizhe Xie1, Eduard Hovy2, Minh-Thang Luong1, Quoc V. Le1
1Google Research, Brain Team, 2Carnegie Mellon University
{qizhex, thangluong, qvl}@google.com, hovy@cmu.edu
https://arxiv.org/abs/1911.04252

概要
• ImageNetで学習させたモデルで大量のラベル無
し画像にラベルを付与
• 上記の疑似ラベルを元にノイズを加えて再度学習
• これらを繰り返す
• ImageNetのSOTAを1.0%更新
• ロバスト性の向上
2

Introduction
• SOTAのvision modelは大量のラベル付き画像を
必要としている
• 35億のインスタの弱ラベル付き画像
• ラベルなし画像が使われていない
• ラベル無し画像を用いて学習を行う
3

Self-training
• ラベルあり学習でモデルを学習し、そのモデル
を用いてラベル無しデータにラベルを付与し、
それを学習する
• ラベルを付与するモデルを教師モデル
• 疑似ラベルを学習するモデルを生徒モデル
4

Self-training with noisy student
1. 教師モデルをラベル付きの画像で学習
2. 教師モデルを使ってラベルなし画像の疑似ラベ
ルを生成
3. 生徒モデルをラベル付き画像と擬似ラベル付き
画像を用いて学習
4. 3で学習した生徒モデルを教師モデルとして2,3を
数回繰り返す
• 疑似ラベルの生成時にはノイズを加えず、生徒モ
デルの学習時にはノイズを加えると良い
• dropout, augmentation, stochastic depth
5

ノイズの効果
• data augmentation
• いじった画像でも同じ出力をしなければいけないので、
モデルの自由度が減る
• dropout, stochastic depth
• 教師モデルはアンサンブルのように動き、生徒モデルは
単一モデルのように動く
• 生徒モデルはより強力なアンサンブルモデルを模倣する
ことを余儀なくされる
6

Data balancing
• imagenetでは各クラスのデータ数が一緒なの
で、疑似ラベルでもバランスを取る必要がある
• 十分な画像がないクラスでは画像を複製する
• 画像が多すぎるクラスでは、信頼度が高い順に
取ってくる
7

疑似ラベル
• 従来の半教師ありと違ってドメイン外の画像も使用
• confidenceが低いやつはドメイン外の可能性が高い
8
• Soft(連続分布)でもhard(ワンホッ
ト)でも良い
• 教師モデルの精度が低いとsoftの方が
良い
• 今回は特に指定がない限りsoftを
使用

アーキテクチャ
• 教師モデルと生徒モデルのアーキテクチャは同
じでも違っても良い
• 生徒モデルは十分にでかい必要がある
• ラベルと疑似ラベルを十分に表現できるように
• アーキテクチャはEfficientNetを使用
• resnetよりでかい
• 生徒がよりよいモデルになるように生徒モデルを教
師モデルよりでかくする
• 教師-生徒のフレームワークではモデル圧縮が主目
的となっており、関連研究との大きな違い
9

EfficientNet
• NASによって生成したモデルのスケールアップ
• モデルの「深さ」「広さ」「解像度」の3つをバラ
ンスよく調整
10参考：https://qiita.com/omiita/items/83643f78baabfa210ab1
α,β,γはグリッドサーチ
Φは直感で決めるらしい

MBConv
• Mobile inverted bottleneckにSEモジュールを追加
11
Original residual block（広い→狭い→広い）
3*3convの計算量が多いのでチャネル減らす
MBConv
SEモジュール追加
Inverted residual block（狭い→広い→狭い）
3*3 depthwise conv を1*1convで挟む
小さな1*1convを2つ使い1つの大きな1*1conv
の近似
参考：https://qiita.com/yu4u/items/dc26d220e85279e76157

EfficientNet
幅深さ解像度
EfficientNet-B0 1.0 1.0 224
EfficientNet-L0 2.8 3.7 380
12
計算上比率を丸めていると思われる
参考：https://hampen2929.hatenablog.com/entry/2019/07/06/024347
この論文で追加

アーキテクチャ
• EfficientNet-B7をスケールアップしてL0,L1,L2
を作成
• EfficientNet-L0
• EfficientNet-B7を広く深くしたが、解像度は下げた
• 似た訓練時間だけど、パラメータ数が多く表現力が
高い
• EfficinetNet-L1
• EfficinetNet-L0を広く
• EfficientNet-L2
• EfficientNet-L0のすべての次元を上げた
• EfficientNet-B7の5倍の訓練時間
13

Unlabeld data set
• JFT datasetを使用
• 3億枚
• ラベルが付いているが、無視してラベル無しとして扱う
• imagenetのvalidation setに入っているやつは抜かす
• imagenetで学習したEfficientNet-B0でラベルの予測
• 0.3以上の出力を得られた画像のみ残す
• 出力の高い順に130Kの画像
• 130Kないクラスはランダムな画像を複製
• 全部で1.3億枚の画像を使用
• ユニークな画像は8100万枚
14

Training details
• バッチサイズ
• 2048をデフォルト、メモリにのらなかったら下げる
• 512,1024,2048のいずれでも同じ精度
• 学習率、エポック数
• 初期学習率はバッチサイズ2048で0.128
• モデルがEfficientNet-B4より大きければ（L0,L1,L2を含む）
350epochで2.4エポックごとに学習率*0.97
• 小さければ700エポックで4.8エポックごとに学習率*0.97
• ラベルなしのバッチサイズ
• 大きければラベルありの3倍
• 小さければラベルありと同じ
• ロスはラベルありとなしの平均クロスエントロピー
• trainとtestの解像度の不一致の解消
• 小さい解像度で学習したあと大きい解像度でファインチュー
ニング
• EfficientNet-L2では3.5日で学習
• cloud TPU v3 Pod, 2048cores 15

ノイズ
• stochastic depth
• 最終層の生存確率は0.8にして他は線形減衰規則に従う
• dropout
• 0.5で最後の分類レイヤーに適用
• RandAugment
• augmentation policyの自動探索
• auto augmentの発展型
• 以前の探索手法では探索空間が膨大だったのでそれを
減らした
• 各augmentの適用確率は1/kで一定にするなど
• subsetを作らずにいけるらしい 16
PLはハイパーパラメータ
Lは層数

Iterative training
• 生徒モデルを新しい教師として使う
• 生徒モデルをどんどん大きくしていった
17
教師生徒
1 EfficientNet-B7 EfficientNet-B7
2 EfficientNet-B7 EfficientNet-L0
3 EfficientNet-L0 EfficientNet-L1
4 EfficientNet-L1 EfficientNet-L2

Imagenet Result
• 87.4％の精度
• 以前報告されたEfficientNetの精度は85.0%
• モデルのスケールアップ（+0.5%）
• noisy student(+1.9%)
• 以前のSOTAは86.4%
• 35億枚のインスタのタグ付けされた画像使用
• 3億のラベルなし画像の方が集めやすい
• パラメータ数が約半分
18

Model size study
• EfficientNet B0-B7でも実験
• 計算コストがかかるので繰り返しはしない
• 教師と生徒を同じアーキテクチャに
• 各モデルにRandAugmentを適用したものをbaseline
• 全てのモデルで0.8％ほど上昇
• 繰り返さなくても上がる
20

ロバスト性
• ImageNet-A,C,Pで測る
• C,Pはリリースされている224*224と299*299で
評価し、リサイズしたものでトレーニング
21

ImageNet-A(adversarial)
• 特に画像をいじってないけど滅茶苦茶に間違え
てる画像群
22
提案論文

ImageNet-C(corruption)
• 一般的な破壊を加える（5段階）
• CE:アレックスネットのエラー率に対する比率
23
提案論文

ImageNet-P(perturbation)
• 一般的な摂動を何度も加える
• FP:摂動を加えた時に予測が変化する確率
• FR:FPのアレックスネットに対する比率
24
提案論文

Qualitative Analysis
• Noisy studentの導入によって良くなった例
• 赤字が間違えてる方
25

Adversarial Robustness
• FGSM attack
• 何もしてなくてもε=16で10％向上
26
• PGD attack
• 解像度が違うから単純に比較で
きない
• ε=16でEfficientNet-L2は提案論
文より1.1%劣る性能
• Noisy studentで1.6％改善
PGD attack参考
https://towardsdatascience.com/know-
your-enemy-7f7c5038bdf3

Ablation study
• ノイズの有無での差を確認
• ノイズを入れることで精度上昇
• ノイズ無しでベースラインよりあがっているの
はSGDのせいだと仮定している
• 試行によるぶれ
27

Unlabeld data size
• ラベルなしデータのサイズを減らしていく
• EfficientNet-B4を使用
• 1/16で810万枚でも同じくらいの精度
• ラベルなしデータから恩恵を受けられるかどう
かはモデルの表現力に依存
28

Teacher Model’s Capacity
• より大きな教師モデルを使うことによる影響
• モデルサイズに制約がある場合
• EfficientNet-L2を教師モデル
• 生徒モデルはEfficientNet B0-B7
• 大きい教師モデルで精度上昇
29

まとめ
• Self-trainingはラベルなし画像を扱う上でシンプ
ルかつ強力なアルゴリズム
• 精度とロバスト性を上昇
• これまでの研究では精度を上げるために何十億の画像
を使った弱教師あり学習が必要
• 意図的にデータを増やすことなくロバスト性が上昇
30

Self training with noisy student

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (9)

Self training with noisy student