220707_ishizone_class_imbalance_SSL.pdf

口研・中村研
合同勉強会
Self-supervised Learning is More Robust
to Dataset Imbalance
発表者：石曽根毅（明治大学中村研究室）

• ICLR 2022 採択論文「Self-supervised Learning is More Robust to Dataset Imbalance」
• 著者情報
Hong Liu (Stanford U), Je
ff
Z. HaoChen (Stanford U), Adrien Gaidon (Toyota), Tengyu Ma (Stanford U)
• 論文の概要
OOD 評価において SSL が SL を凌駕
SL はラベルに関係のある情報しか捉えられないが，SSL はラベルに無関係な情報も捉えられることを，
 
半合成実験を用いて実証
SSL 表現を向上させる再重み付き正則化手法を提案
• 断りない限り，図は論文内から引用
書誌情報 2

• 教師あり学習（SL; supervised learning）
説明変数から被説明変数を説明できるような写像を学習する問題
Ex.) 分類問題，回帰問題
• 半教師あり学習（SSL; self-supervised learning）
高次元な説明変数から有益な低次元特徴を抽出できる写像を学習する問題
実用上は，学習した特徴量を様々な下流のタスクに活用する
- Ex) 画像データの特徴量を学び，分類や物体検出，異常検知へ応用
対照学習（CL; contrastive learning）や変分自己符号化器（VAE; variational auto-encoder）が代表的
x ∈
𝒳
y ∈
𝒴
fϕ :
𝒳
→
𝒴
x ∈
𝒳
fϕ :
𝒳
→
𝒵
半教師あり学習 3

• 似ているデータは，潜在空間でも似た表現を
 
獲得することを期待し，正例ペアを近づけ，
 
負例ペアを遠ざけるように学習
正例ペア：original image とデータ拡張した image
負例ペア：original image とそれ以外の image
• 損失関数
NCE 損失が基本系で，派生系が多数提案
 
 
: query (original image),
 
: positive key (augmented positive image),
 
: negative key (negative image)
• 詳しく知りたい人は omiita さんの Qitta 記事が分かりやすい
𝒵
LNCE = − log
exp(sim(q, k+)/τ)
exp(sim(q, k+)/τ) + exp(sim(q, k−)/τ)
q
k+
k−
対照学習 4
[A. Jaiswal+, 20]

対照学習 5
構造
手法
SimCLR
[T. Chen+, ICML 20]
PIRL
[I. Misra+, CVPR 20]
MoCo
[K. He+, CVPR 20]
SwAV
[M. Caron+, NeurIPS 20]
特徴
End2End で学習する
シンプルな構造
key に関しては MB を
活用してメモリ節約
指数移動平均で
MB を更新
クラスタリングによって
近いサンプルも positive に

• 分布内 vs 分布外
分布内領域（ID; in distribution）：事前学習用データセットの分布と目標データセットの領域
が同じ
分布外領域（OOD; out of distribution）：事前学習用データセットの領域と目標データセットの領
域が異なる
• 実験1：class imbalance の影響度合いの評価
実験条件
- class imbalanced なデータセットを用いて事前学習を行い，class balanced な目標データセットで
fi
ne-tune
-
class imbalance ratio を変えて実験
- class imbalance な分布として long-tailed な exponential and Pareto 分布を使用
- linear probing（潜在空間における線形分類）の top-1 accuracy で評価
𝒟
pre
⊂
𝒳
×
𝒴
𝒟
target
⊂
𝒳
×
𝒴
𝒟
pre
⊂
𝒳
×
𝒴
𝒟
target
⊂
𝒳
×
𝒴
r =
minj∈[C] P(y = j)
maxj∈[C] P(y = j)
≤ 1
分布内領域 vs 分布外領域 6

実験1：class imbalance の影響度 7
結果
‣ID は SL が優位
‣ID でも small data では
 
SSL が優位
‣OOD では SSL が優位
‣SSL は ratio r に頑健
その他条件
‣SL として，ResNet を使用
‣SSL として，
 
CIFAR-10 では SimSiam,
 
ImageNet では MoCo v2
 
を使用
‣OOD 評価のデータとして
 
CIFAR-10 では STL-10,
 
ImageNet では CUB-200,
 
Stanfords Cars,
 
Oxford Pets, Aircrafts
 
を使用

• 一般にデータには，label-relevant な特徴と label-irrelevant-but-transferable な特徴が存在する
SL は，frequent class から label-relevant な特徴を学習しようとする
SSL は，frequent class から label-relevant だけでなく label-irrelevant-but-transferable な特徴も学習しようと
する
• Toy setting（右図）
SL では frequent な class 1, 2 が分類
 
できればいいので，だけ学習する
SSL では frequent な class 1, 2 の
 
方向への広がりも捉えるため，
 
class 3 を識別するのに必要なも学習する
論文では，toy setting において理論的にも
 
SSL の方がの情報を学習できることを示している
e1
e2
e2
e2
SSL が OOD に強い理由 8

• CIFAR-10 のデータを5つの frequent class, 5つの rare class (ratio 0.002) に分割し，事前学習
• Rare class 5つのデータセットで
fi
ne-tune し，linear probing で評価
• SL として ResNet-50，SSL として SimCLR を使用
実験2：class-irrelevant-but-transferable 特徴 9
GradCAM で可視化 SSL (SimCLR) が高精度

• 局所最適解には，良い解と悪い解があり，一般に周りが平坦なほど良い解とされている
• SAM では，損失が最小かつその周りも平坦な解を探索する
• 最適化問題
周囲近傍の中での最大値を損失関数に取る
 
周囲近傍を用いた min-max 最適問題となる
 
• @omiita さんの Qiita 記事による日本語解説あり
ρ
LSAM
𝒮
(w) ≜ max
∥ϵ∥p≤ρ
L
𝒮
(w + ϵ)
ρ
min
w
[ max
∥ϵ∥p≤ρ
L
𝒮
(w + ϵ) − L
𝒮
(w)] + L
𝒮
(w) + λ∥w∥2
2
SAM (Sharpness-Aware Minimization) [P. Foret+, ICLR 21] 10
Sharp な悪い局所最適解
Flat な良い局所最適解

• SSL の汎化ギャップは，frequent class の方が rare class より小さい
汎化ギャップ (generalization gap)：
 
期待損失経験損失
アイディア：Rare class のサンプルにより強い正則化をかけることで，rare class に対する汎化性能を向上させる
• Reweighted SAM (rwSAM)
近傍探索用の損失関数に sample ごとに重みを与えて SAM による最適化を行う
 
重みは特徴空間においてカーネル密度比推定（KDE; kernel density estimation）することによって与える
 
RBF kernel の bandwidth parameter とはハイパラであり，CV で決定
 
𝔼
(x,y)∼Pall[l(x, y)] −
𝔼
(x,y)∼Pdata[l(x, y)]
i wi
min
ϕ
L(ϕ + ϵw(ϕ)), where ϵw(ϕ) = arg max
∥ϵ∥<ρ
ϵT
∇ϕLw(ϕ), Lw(ϕ) =
1
|B| ∑
j∈B
wjl(xj, ϕ)
wi
wi =
(
1
n
K(fϕ(xi) − fϕ(xj), h)
)
−α
h α > 0
再重み付き正則化手法 rwSAM の提案 11

実験3：rwSAM の有効性 12
balanced dataset で学習
提案手法が balanced
 
と同程度 / 凌駕

• 古典的手法
Resampling：希少なクラスを多くリサンプリングしておく
Re-weighting：希少なクラスの学習重みを大きく設定する
• 最近の手法
Re-weighting regularization [K. Cao+, NeurIPS 19]：希少なクラスの正則化重みを大きく設定
Heteroskedastic adaptive regularization [K. Cao+, ICLR 21]：不均衡でノイズが多い場合に損失の局所的な曲率
を正則化
Focal loss [T. Lin+, ICCV 17]：学習が難しいサンプルの学習を促進
[B. Knag+, ICLR 20] & [T. Wang+, ECCV 20]：SL の表現は分類器よりもクラス不均衡に対して頑健であることを
証明
[Y. Yang & Z. Xu, NeurIPS 20]：クラス不均衡な SL に対して SSL の事前学習を活用
先行研究（クラス不均衡に対処する SL） 13

• 著者らの展望
現在，事前学習には SL がデファクトであるが，SSL がデファクトになる日も近いだろう
ドメインシフトや教師なし学習（UL; unsupervised learning）への展開も期待される
• 感想
SSL が SL より頑健というのは，よく聞く話であり，それを実証した論文の1つ
SAM と re-weighting regularization を組み合わせただけで，良くなることには驚き
SSL，とりわけ CL（対照学習）は画像分野では盛り上がっているが，言語や音声など他分野で盛り上がっていく
にはデータ拡張が課題と思われる
- 画像では，色彩変換や回転などデータ拡張が行いやすい
- 時系列だと，window cropping や AAFT などが考えられそうだけど，task dependent
UL への応用は SwAV の発展版からたくさん出てそう
コードが公開されているのは良心的
展望・感想 14

• [H. Liu+, ICLR’22] Hong Liu, Jeff Z HaoChen, Adrien Gaidon, Tengyu Ma. Self-supervised Learning is More
Robust to Dataset Imbalance. In International Conference on Learning Representations, 2022.

• [A. Jsaiswal+, 20] Ashish Jaiswal, Ashwin Ramesh Babu, Mohammad Zaki Zadeh, Debapriya Banerjee, Fillia
Makedon. A survey on contrastive self-supervised learning. Technologies, MDPI, 2020.

• [T. Chen+, ICML’20] Ting Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton. A Simple Framework
for Contrastive Learning of Visual Representations. In International Conference on Machine Learning, 2020.

• [I. Misra+, CVPR’20] Ishan Misra, Laurens van der Maaten. Self-Supervised Learning of Pretext-Invariant
Representations. In Computer Vision and Pattern Recognition Conference, 2020.

• [K. He+, CVPR’20] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, Ross Girshick. Momentum Contrast for
Unsupervised Visual Representation Learning. In Computer Vision and Pattern Recognition Conference, 2020.

• [M. Caron+, NeurIPS’20] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, Armand
Joulin. Unsupervised Learning of Visual Features by Contrasting Cluster Assignments. In Neural Information
Processing Systems, 2020.

• [P. Foret+, ICLR’21] Pierre Foret, Ariel Kleiner, Hossein Mobahi, Behnam Neyshabur. Sharpness-Aware
Minimization for Efficiently Improving Generalization. In International Conference on Learning Representations,
2021.
参考文献 15

• [K. Cao+, NeurIPS’19] Kaidi Cao, Colin Wei, Adrien Gaidon, Nikos Arechiga, and Tengyu Ma. Learning
imbalanced datasets with label-distribution-aware margin loss. In Neural Information Processing Systems, volume
32, pages 1565–1576. Curran Associates, Inc., June 2019.

• [K. Cao+, ICLR’21] Kaidi Cao, Yining Chen, Junwei Lu, Nikos Arechiga, Adrien Gaidon, and Tengyu Ma.
Heteroskedastic and imbalanced deep learning with adaptive regularization. In International Conference on
Learning Representations, 2021.

• [T. Lin+, ICCV’17] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dolla ́r. Focal loss for dense
object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988, 2017.

• [B. Knag+, ICLR’20] Bingyi Kang, Saining Xie, Marcus Rohrbach, Zhicheng Yan, Albert Gordo, Jiashi Feng, and
Yannis Kalantidis. Decoupling representation and classifier for long-tailed recognition. In International Conference
on Learning Representations, 2020.

• [T. Wang+, ECCV’20] Tao Wang, Yu Li, Bingyi Kang, Junnan Li, Junhao Liew, Sheng Tang, Steven Hoi, and
Jiashi Feng. The devil is in classification: A simple framework for long-tail instance segmentation. In European
Conference on computer vision, pages 728–744. Springer, 2020.

• [Y. Yang & Z. Xu, NeurIPS’20] Yuzhe Yang and Zhi Xu. Rethinking the value of labels for improving class-
imbalanced learning. In Advances in Neural Information Processing Systems, volume 33, pages 19290–19301.
Curran Associates, Inc., 2020.
参考文献 16

220707_ishizone_class_imbalance_SSL.pdf

Recommended

Recommended

More Related Content

Featured

Featured (20)

220707_ishizone_class_imbalance_SSL.pdf