MIXUPは最終層でやった⽅
がいいんじゃないか説
2019/9/19 藤井亮宏
⾃⼰紹介
2
• 名前︓
Ø 藤井 亮宏(アキヒロ)
• 所属︓
Ø 株式会社 エクサウィザーズ@京都オフィス
• GAN is “ギャン” or “ガン” ?
Ø “ガン”
@akihiro_akichan
論⽂の⼀⾔紹介とかしてます。
今⽇話すこと
´ ⼊⼒・出⼒データ共に混合してデータ拡張を⾏うMIXUPと、それを発展さ
せて中間層で混合を⾏うManifold MIXUPを紹介
´ 混合させる候補の中間層の多数あれど、別の研究で最終層でクラス間のも
つれが低くなることが⽰唆され、最終層で混合するのが良いと予測。
´ 実験的にも最終層で混合したものが⼀番良い結果になっている。
summary
3
⽣成モデルの勉強会を⽉1くらいで開催しています︕
´ 次の開催は10/17(⽊) 19:30~
´ 「⽣成モデル勉強会 京都」でググると出てくるはず
ちょっと宣伝
4
↓イベントURL
URL内に前回のリンクが
あり、そこから資料を⾒
れます。
Kaggleでもよく使われるデータ拡張⼿法
´ Beta分布からサンプリングした混合⽐率をもとに、⼊⼒・出⼒ともに混合
させてデータ拡張を⾏う⼿法
´ Kaggleの上位ランカーが良く使っている(らしい)
´ GANの安定化にも使える
MIXUPとは
5
(論⽂URL︓ https://arxiv.org/pdf/1710.09412.pdf )
データの内挿により、決定境界をより滑らかにする働きがある
MIXUPは何をしているか︖
6
⽩⿊の2値ラベルデータに少しMIXUP
拡張データを作成した図
⽩⿊の2値ラベルデータに多数の
MIXUP拡張データを作成した図
label 1
label 0
label 1
label 0
label 0.3
label 0.5
label 0.8
⽩ラベルである確率
︖
決定境界の状態
は未知数
⽩ラベルである確率
内挿データにより、
決定境界が滑らか
になる
label 0.5
label 0.3
label 0.8
https://www.inference.vc/mixup-data-dependent-data-augmentation/
内挿データが適切とは限らない
MIXUPの問題点
7
1
2
3
• ①と②の混合データは適切。
• ①と③の中央をとると、内挿データの
ラベルは⻘になるが、実際の内挿点は
⾚のエリアに存在する不適切データに
なる。
• 個⼈的にはαの値は⼩さい⽅が精度が出せる印
象がある。
• alphaが⼩さいと、各ラベルに近い場所に内装
する確率が⾼く、上記のように中央をとる確率
が低い。逆にα<1だと中央を取る確率が⾼く
なる。
beta分布
http://www.ntrand.com/jp/beta-distribution/
Verma et al(2018)
Manifold MIXUPではデータがより整頓されている中間層でMIXUPを実施する
´ MIXUPを中間層で⾏う⼿法が提案された。多様体学習によって中間層だと
特徴量が整理されており、そこでMIXUPをすれば不適切な拡張データ⽣成
が防げると主張
新しいMIXUPの提案
8
⼊⼒層におけるMIXUP 中間層におけるMIXUP
Verma et al(2018)
どこの層でMIXUPをする
のが最適︖
新しいMIXUPの提案
9
ResNetは最終層でクラス分類に必要な特徴を学習。そこでMIXUPするのが良いのでは︖
´ この研究によると、ResNet最終Blockの最終層ではクラス間のもつれ(soft
nearest neighbor loss)が⼩さいが、⼊⼒層に近いほど学習が進んでももつれ
は⼤きいまま。
ResNetにおける挙動
10
最終層のもつれは⼩さい
(クラス毎の特徴を学習)
ResNet最終Block各層のもつれ
⼊⼒層のもつれは学習が
進んでも⼤きいまま
(ドメインの特徴を学習)
Soft Nearest Neighbor loss
値が⾼いと様々なクラ
スのデータが混ざって
いる
値が低いと各クラ
スのデータが分離
されている
最終Blockの最終層
でMIXUPすれば、綺
麗に決定境界が引け
そう︕
Frosst et al(2019)
実際に最終層でMIXUPしたものが最良の結果となっている
´ 深い層でMIXUPするほどロスが⼩さくなっている。
最終層でMIXUP
11
Verma et al(2018)
※この図はAppendixに掲載。強く⾔及されてないので、筆者はあまりこの結果を重視していない︖
まとめ
´ ⼊⼒・出⼒データ共に混合してデータ拡張を⾏うMIXUPと、それを発展さ
せて中間層で混合を⾏うManifold MIXUPを紹介
´ 混合させる候補の中間層の多数あれど、別の研究で最終層でクラス間のも
つれが低くなることが⽰唆され、最終層で混合するのが良いと予測。
´ 実験的にも最終層で混合したものが⼀番良い結果になっている。
summary
12

MIXUPは最終層でやった方がいいんじゃないか説