口研・中村研
合同勉強会
Self-supervised Learning is More Robust
to Dataset Imbalance
発表者:石曽根毅(明治大学中村研究室)
• ICLR 2022 採択論文「Self-supervised Learning is More Robust to Dataset Imbalance」
• 著者情報
Hong Liu (Stanford U), Je
ff
Z. HaoChen (Stanford U), Adrien Gaidon (Toyota), Tengyu Ma (Stanford U)
• 論文の概要
OOD 評価において SSL が SL を凌駕
SL はラベルに関係のある情報しか捉えられないが,SSL はラベルに無関係な情報も捉えられることを,


半合成実験を用いて実証
SSL 表現を向上させる再重み付き正則化手法を提案
• 断りない限り,図は論文内から引用
書誌情報 2
• 教師あり学習(SL; supervised learning)
説明変数 から被説明変数 を説明できるような写像 を学習する問題
Ex.) 分類問題,回帰問題
• 半教師あり学習(SSL; self-supervised learning)
高次元な説明変数 から有益な低次元特徴を抽出できる写像 を学習する問題
実用上は,学習した特徴量を様々な下流のタスクに活用する
- Ex) 画像データの特徴量を学び,分類や物体検出,異常検知へ応用
対照学習(CL; contrastive learning)や変分自己符号化器(VAE; variational auto-encoder)が代表的
x ∈
𝒳
y ∈
𝒴
fϕ :
𝒳
→
𝒴
x ∈
𝒳
fϕ :
𝒳
→
𝒵
半教師あり学習 3
• 似ているデータは,潜在空間 でも似た表現を


獲得することを期待し,正例ペアを近づけ,


負例ペアを遠ざけるように学習
正例ペア:original image とデータ拡張した image
負例ペア:original image とそれ以外の image
• 損失関数
NCE 損失が基本系で,派生系が多数提案




: query (original image),


: positive key (augmented positive image),


: negative key (negative image)
• 詳しく知りたい人は omiita さんの Qitta 記事が分かりやすい
𝒵
LNCE = − log
exp(sim(q, k+)/τ)
exp(sim(q, k+)/τ) + exp(sim(q, k−)/τ)
q
k+
k−
対照学習 4
[A. Jaiswal+, 20]
対照学習 5
構造
手法
SimCLR
[T. Chen+, ICML 20]
PIRL
[I. Misra+, CVPR 20]
MoCo
[K. He+, CVPR 20]
SwAV
[M. Caron+, NeurIPS 20]
特徴
End2End で学習する
シンプルな構造
key に関しては MB を
活用してメモリ節約
指数移動平均で
MB を更新
クラスタリングによって
近いサンプルも positive に
• 分布内 vs 分布外
分布内領域(ID; in distribution):事前学習用データセットの分布 と目標データセットの領域
が同じ
分布外領域(OOD; out of distribution):事前学習用データセットの領域 と目標データセットの領
域 が異なる
• 実験1:class imbalance の影響度合いの評価
実験条件
- class imbalanced なデータセットを用いて事前学習を行い,class balanced な目標データセットで
fi
ne-tune
-
class imbalance ratio を変えて実験
- class imbalance な分布として long-tailed な exponential and Pareto 分布を使用
- linear probing(潜在空間における線形分類)の top-1 accuracy で評価
𝒟
pre
⊂
𝒳
×
𝒴
𝒟
target
⊂
𝒳
×
𝒴
𝒟
pre
⊂
𝒳
×
𝒴
𝒟
target
⊂
𝒳
×
𝒴
r =
minj∈[C] P(y = j)
maxj∈[C] P(y = j)
≤ 1
分布内領域 vs 分布外領域 6
実験1:class imbalance の影響度 7
結果
‣ID は SL が優位
‣ID でも small data では


SSL が優位
‣OOD では SSL が優位
‣SSL は ratio r に頑健
その他条件
‣SL として,ResNet を使用
‣SSL として,


CIFAR-10 では SimSiam,


ImageNet では MoCo v2


を使用
‣OOD 評価のデータとして


CIFAR-10 では STL-10,


ImageNet では CUB-200,


Stanfords Cars,


Oxford Pets, Aircrafts


を使用
• 一般にデータには,label-relevant な特徴と label-irrelevant-but-transferable な特徴が存在する
SL は,frequent class から label-relevant な特徴を学習しようとする
SSL は,frequent class から label-relevant だけでなく label-irrelevant-but-transferable な特徴も学習しようと
する
• Toy setting(右図)
SL では frequent な class 1, 2 が分類


できればいいので, だけ学習する
SSL では frequent な class 1, 2 の


方向への広がりも捉えるため,


class 3 を識別するのに必要な も学習する
論文では,toy setting において理論的にも


SSL の方が の情報を学習できることを示している
e1
e2
e2
e2
SSL が OOD に強い理由 8
• CIFAR-10 のデータを5つの frequent class, 5つの rare class (ratio 0.002) に分割し,事前学習
• Rare class 5つのデータセットで
fi
ne-tune し,linear probing で評価
• SL として ResNet-50,SSL として SimCLR を使用
実験2:class-irrelevant-but-transferable 特徴 9
GradCAM で可視化 SSL (SimCLR) が高精度
• 局所最適解には,良い解と悪い解があり,一般に周りが平坦なほど良い解とされている
• SAM では,損失が最小かつその周りも平坦な解を探索する
• 最適化問題
周囲 近傍の中での最大値を損失関数に取る


周囲 近傍を用いた min-max 最適問題となる


• @omiita さんの Qiita 記事による日本語解説あり
ρ
LSAM
𝒮
(w) ≜ max
∥ϵ∥p≤ρ
L
𝒮
(w + ϵ)
ρ
min
w
[ max
∥ϵ∥p≤ρ
L
𝒮
(w + ϵ) − L
𝒮
(w)] + L
𝒮
(w) + λ∥w∥2
2
SAM (Sharpness-Aware Minimization) [P. Foret+, ICLR 21] 10
Sharp な悪い局所最適解
Flat な良い局所最適解
• SSL の汎化ギャップは,frequent class の方が rare class より小さい
汎化ギャップ (generalization gap):


                  期待損失 経験損失
アイディア:Rare class のサンプルにより強い正則化をかけることで,rare class に対する汎化性能を向上させる
• Reweighted SAM (rwSAM)
近傍探索用の損失関数に sample ごとに重み を与えて SAM による最適化を行う


重み は特徴空間においてカーネル密度比推定(KDE; kernel density estimation)することによって与える


RBF kernel の bandwidth parameter と はハイパラであり,CV で決定


𝔼
(x,y)∼Pall[l(x, y)] −
𝔼
(x,y)∼Pdata[l(x, y)]
i wi
min
ϕ
L(ϕ + ϵw(ϕ)), where ϵw(ϕ) = arg max
∥ϵ∥<ρ
ϵT
∇ϕLw(ϕ), Lw(ϕ) =
1
|B| ∑
j∈B
wjl(xj, ϕ)
wi
wi =
(
1
n
K(fϕ(xi) − fϕ(xj), h)
)
−α
h α > 0
再重み付き正則化手法 rwSAM の提案 11
実験3:rwSAM の有効性 12
balanced dataset で学習
提案手法が balanced


と同程度 / 凌駕
• 古典的手法
Resampling:希少なクラスを多くリサンプリングしておく
Re-weighting:希少なクラスの学習重みを大きく設定する
• 最近の手法
Re-weighting regularization [K. Cao+, NeurIPS 19]:希少なクラスの正則化重みを大きく設定
Heteroskedastic adaptive regularization [K. Cao+, ICLR 21]:不均衡でノイズが多い場合に損失の局所的な曲率
を正則化
Focal loss [T. Lin+, ICCV 17]:学習が難しいサンプルの学習を促進
[B. Knag+, ICLR 20] & [T. Wang+, ECCV 20]:SL の表現は分類器よりもクラス不均衡に対して頑健であることを
証明
[Y. Yang & Z. Xu, NeurIPS 20]:クラス不均衡な SL に対して SSL の事前学習を活用
先行研究(クラス不均衡に対処する SL) 13
• 著者らの展望
現在,事前学習には SL がデファクトであるが,SSL がデファクトになる日も近いだろう
ドメインシフトや教師なし学習(UL; unsupervised learning)への展開も期待される
• 感想
SSL が SL より頑健というのは,よく聞く話であり,それを実証した論文の1つ
SAM と re-weighting regularization を組み合わせただけで,良くなることには驚き
SSL,とりわけ CL(対照学習)は画像分野では盛り上がっているが,言語や音声など他分野で盛り上がっていく
にはデータ拡張が課題と思われる
- 画像では,色彩変換や回転などデータ拡張が行いやすい
- 時系列だと,window cropping や AAFT などが考えられそうだけど,task dependent
UL への応用は SwAV の発展版からたくさん出てそう
コードが公開されているのは良心的
展望・感想 14
• [H. Liu+, ICLR’22] Hong Liu, Jeff Z HaoChen, Adrien Gaidon, Tengyu Ma. Self-supervised Learning is More
Robust to Dataset Imbalance. In International Conference on Learning Representations, 2022.


• [A. Jsaiswal+, 20] Ashish Jaiswal, Ashwin Ramesh Babu, Mohammad Zaki Zadeh, Debapriya Banerjee, Fillia
Makedon. A survey on contrastive self-supervised learning. Technologies, MDPI, 2020.


• [T. Chen+, ICML’20] Ting Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton. A Simple Framework
for Contrastive Learning of Visual Representations. In International Conference on Machine Learning, 2020.


• [I. Misra+, CVPR’20] Ishan Misra, Laurens van der Maaten. Self-Supervised Learning of Pretext-Invariant
Representations. In Computer Vision and Pattern Recognition Conference, 2020.


• [K. He+, CVPR’20] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, Ross Girshick. Momentum Contrast for
Unsupervised Visual Representation Learning. In Computer Vision and Pattern Recognition Conference, 2020.


• [M. Caron+, NeurIPS’20] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, Armand
Joulin. Unsupervised Learning of Visual Features by Contrasting Cluster Assignments. In Neural Information
Processing Systems, 2020.


• [P. Foret+, ICLR’21] Pierre Foret, Ariel Kleiner, Hossein Mobahi, Behnam Neyshabur. Sharpness-Aware
Minimization for Efficiently Improving Generalization. In International Conference on Learning Representations,
2021.
参考文献 15
• [K. Cao+, NeurIPS’19] Kaidi Cao, Colin Wei, Adrien Gaidon, Nikos Arechiga, and Tengyu Ma. Learning
imbalanced datasets with label-distribution-aware margin loss. In Neural Information Processing Systems, volume
32, pages 1565–1576. Curran Associates, Inc., June 2019.


• [K. Cao+, ICLR’21] Kaidi Cao, Yining Chen, Junwei Lu, Nikos Arechiga, Adrien Gaidon, and Tengyu Ma.
Heteroskedastic and imbalanced deep learning with adaptive regularization. In International Conference on
Learning Representations, 2021.


• [T. Lin+, ICCV’17] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dolla ́r. Focal loss for dense
object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988, 2017.


• [B. Knag+, ICLR’20] Bingyi Kang, Saining Xie, Marcus Rohrbach, Zhicheng Yan, Albert Gordo, Jiashi Feng, and
Yannis Kalantidis. Decoupling representation and classifier for long-tailed recognition. In International Conference
on Learning Representations, 2020.


• [T. Wang+, ECCV’20] Tao Wang, Yu Li, Bingyi Kang, Junnan Li, Junhao Liew, Sheng Tang, Steven Hoi, and
Jiashi Feng. The devil is in classification: A simple framework for long-tail instance segmentation. In European
Conference on computer vision, pages 728–744. Springer, 2020.


• [Y. Yang & Z. Xu, NeurIPS’20] Yuzhe Yang and Zhi Xu. Rethinking the value of labels for improving class-
imbalanced learning. In Advances in Neural Information Processing Systems, volume 33, pages 19290–19301.
Curran Associates, Inc., 2020.
参考文献 16

220707_ishizone_class_imbalance_SSL.pdf

  • 1.
    口研・中村研 合同勉強会 Self-supervised Learning isMore Robust to Dataset Imbalance 発表者:石曽根毅(明治大学中村研究室)
  • 2.
    • ICLR 2022採択論文「Self-supervised Learning is More Robust to Dataset Imbalance」 • 著者情報 Hong Liu (Stanford U), Je ff Z. HaoChen (Stanford U), Adrien Gaidon (Toyota), Tengyu Ma (Stanford U) • 論文の概要 OOD 評価において SSL が SL を凌駕 SL はラベルに関係のある情報しか捉えられないが,SSL はラベルに無関係な情報も捉えられることを, 
 半合成実験を用いて実証 SSL 表現を向上させる再重み付き正則化手法を提案 • 断りない限り,図は論文内から引用 書誌情報 2
  • 3.
    • 教師あり学習(SL; supervisedlearning) 説明変数 から被説明変数 を説明できるような写像 を学習する問題 Ex.) 分類問題,回帰問題 • 半教師あり学習(SSL; self-supervised learning) 高次元な説明変数 から有益な低次元特徴を抽出できる写像 を学習する問題 実用上は,学習した特徴量を様々な下流のタスクに活用する - Ex) 画像データの特徴量を学び,分類や物体検出,異常検知へ応用 対照学習(CL; contrastive learning)や変分自己符号化器(VAE; variational auto-encoder)が代表的 x ∈ 𝒳 y ∈ 𝒴 fϕ : 𝒳 → 𝒴 x ∈ 𝒳 fϕ : 𝒳 → 𝒵 半教師あり学習 3
  • 4.
    • 似ているデータは,潜在空間 でも似た表現を 
 獲得することを期待し,正例ペアを近づけ, 
 負例ペアを遠ざけるように学習 正例ペア:originalimage とデータ拡張した image 負例ペア:original image とそれ以外の image • 損失関数 NCE 損失が基本系で,派生系が多数提案 
 
 : query (original image), 
 : positive key (augmented positive image), 
 : negative key (negative image) • 詳しく知りたい人は omiita さんの Qitta 記事が分かりやすい 𝒵 LNCE = − log exp(sim(q, k+)/τ) exp(sim(q, k+)/τ) + exp(sim(q, k−)/τ) q k+ k− 対照学習 4 [A. Jaiswal+, 20]
  • 5.
    対照学習 5 構造 手法 SimCLR [T. Chen+,ICML 20] PIRL [I. Misra+, CVPR 20] MoCo [K. He+, CVPR 20] SwAV [M. Caron+, NeurIPS 20] 特徴 End2End で学習する シンプルな構造 key に関しては MB を 活用してメモリ節約 指数移動平均で MB を更新 クラスタリングによって 近いサンプルも positive に
  • 6.
    • 分布内 vs分布外 分布内領域(ID; in distribution):事前学習用データセットの分布 と目標データセットの領域 が同じ 分布外領域(OOD; out of distribution):事前学習用データセットの領域 と目標データセットの領 域 が異なる • 実験1:class imbalance の影響度合いの評価 実験条件 - class imbalanced なデータセットを用いて事前学習を行い,class balanced な目標データセットで fi ne-tune - class imbalance ratio を変えて実験 - class imbalance な分布として long-tailed な exponential and Pareto 分布を使用 - linear probing(潜在空間における線形分類)の top-1 accuracy で評価 𝒟 pre ⊂ 𝒳 × 𝒴 𝒟 target ⊂ 𝒳 × 𝒴 𝒟 pre ⊂ 𝒳 × 𝒴 𝒟 target ⊂ 𝒳 × 𝒴 r = minj∈[C] P(y = j) maxj∈[C] P(y = j) ≤ 1 分布内領域 vs 分布外領域 6
  • 7.
    実験1:class imbalance の影響度7 結果 ‣ID は SL が優位 ‣ID でも small data では 
 SSL が優位 ‣OOD では SSL が優位 ‣SSL は ratio r に頑健 その他条件 ‣SL として,ResNet を使用 ‣SSL として, 
 CIFAR-10 では SimSiam, 
 ImageNet では MoCo v2 
 を使用 ‣OOD 評価のデータとして 
 CIFAR-10 では STL-10, 
 ImageNet では CUB-200, 
 Stanfords Cars, 
 Oxford Pets, Aircrafts 
 を使用
  • 8.
    • 一般にデータには,label-relevant な特徴とlabel-irrelevant-but-transferable な特徴が存在する SL は,frequent class から label-relevant な特徴を学習しようとする SSL は,frequent class から label-relevant だけでなく label-irrelevant-but-transferable な特徴も学習しようと する • Toy setting(右図) SL では frequent な class 1, 2 が分類 
 できればいいので, だけ学習する SSL では frequent な class 1, 2 の 
 方向への広がりも捉えるため, 
 class 3 を識別するのに必要な も学習する 論文では,toy setting において理論的にも 
 SSL の方が の情報を学習できることを示している e1 e2 e2 e2 SSL が OOD に強い理由 8
  • 9.
    • CIFAR-10 のデータを5つのfrequent class, 5つの rare class (ratio 0.002) に分割し,事前学習 • Rare class 5つのデータセットで fi ne-tune し,linear probing で評価 • SL として ResNet-50,SSL として SimCLR を使用 実験2:class-irrelevant-but-transferable 特徴 9 GradCAM で可視化 SSL (SimCLR) が高精度
  • 10.
    • 局所最適解には,良い解と悪い解があり,一般に周りが平坦なほど良い解とされている • SAMでは,損失が最小かつその周りも平坦な解を探索する • 最適化問題 周囲 近傍の中での最大値を損失関数に取る 
 周囲 近傍を用いた min-max 最適問題となる 
 • @omiita さんの Qiita 記事による日本語解説あり ρ LSAM 𝒮 (w) ≜ max ∥ϵ∥p≤ρ L 𝒮 (w + ϵ) ρ min w [ max ∥ϵ∥p≤ρ L 𝒮 (w + ϵ) − L 𝒮 (w)] + L 𝒮 (w) + λ∥w∥2 2 SAM (Sharpness-Aware Minimization) [P. Foret+, ICLR 21] 10 Sharp な悪い局所最適解 Flat な良い局所最適解
  • 11.
    • SSL の汎化ギャップは,frequentclass の方が rare class より小さい 汎化ギャップ (generalization gap): 
                   期待損失 経験損失 アイディア:Rare class のサンプルにより強い正則化をかけることで,rare class に対する汎化性能を向上させる • Reweighted SAM (rwSAM) 近傍探索用の損失関数に sample ごとに重み を与えて SAM による最適化を行う 
 重み は特徴空間においてカーネル密度比推定(KDE; kernel density estimation)することによって与える 
 RBF kernel の bandwidth parameter と はハイパラであり,CV で決定 
 𝔼 (x,y)∼Pall[l(x, y)] − 𝔼 (x,y)∼Pdata[l(x, y)] i wi min ϕ L(ϕ + ϵw(ϕ)), where ϵw(ϕ) = arg max ∥ϵ∥<ρ ϵT ∇ϕLw(ϕ), Lw(ϕ) = 1 |B| ∑ j∈B wjl(xj, ϕ) wi wi = ( 1 n K(fϕ(xi) − fϕ(xj), h) ) −α h α > 0 再重み付き正則化手法 rwSAM の提案 11
  • 12.
    実験3:rwSAM の有効性 12 balanceddataset で学習 提案手法が balanced 
 と同程度 / 凌駕
  • 13.
    • 古典的手法 Resampling:希少なクラスを多くリサンプリングしておく Re-weighting:希少なクラスの学習重みを大きく設定する • 最近の手法 Re-weightingregularization [K. Cao+, NeurIPS 19]:希少なクラスの正則化重みを大きく設定 Heteroskedastic adaptive regularization [K. Cao+, ICLR 21]:不均衡でノイズが多い場合に損失の局所的な曲率 を正則化 Focal loss [T. Lin+, ICCV 17]:学習が難しいサンプルの学習を促進 [B. Knag+, ICLR 20] & [T. Wang+, ECCV 20]:SL の表現は分類器よりもクラス不均衡に対して頑健であることを 証明 [Y. Yang & Z. Xu, NeurIPS 20]:クラス不均衡な SL に対して SSL の事前学習を活用 先行研究(クラス不均衡に対処する SL) 13
  • 14.
    • 著者らの展望 現在,事前学習には SLがデファクトであるが,SSL がデファクトになる日も近いだろう ドメインシフトや教師なし学習(UL; unsupervised learning)への展開も期待される • 感想 SSL が SL より頑健というのは,よく聞く話であり,それを実証した論文の1つ SAM と re-weighting regularization を組み合わせただけで,良くなることには驚き SSL,とりわけ CL(対照学習)は画像分野では盛り上がっているが,言語や音声など他分野で盛り上がっていく にはデータ拡張が課題と思われる - 画像では,色彩変換や回転などデータ拡張が行いやすい - 時系列だと,window cropping や AAFT などが考えられそうだけど,task dependent UL への応用は SwAV の発展版からたくさん出てそう コードが公開されているのは良心的 展望・感想 14
  • 15.
    • [H. Liu+,ICLR’22] Hong Liu, Jeff Z HaoChen, Adrien Gaidon, Tengyu Ma. Self-supervised Learning is More Robust to Dataset Imbalance. In International Conference on Learning Representations, 2022. • [A. Jsaiswal+, 20] Ashish Jaiswal, Ashwin Ramesh Babu, Mohammad Zaki Zadeh, Debapriya Banerjee, Fillia Makedon. A survey on contrastive self-supervised learning. Technologies, MDPI, 2020. • [T. Chen+, ICML’20] Ting Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton. A Simple Framework for Contrastive Learning of Visual Representations. In International Conference on Machine Learning, 2020. • [I. Misra+, CVPR’20] Ishan Misra, Laurens van der Maaten. Self-Supervised Learning of Pretext-Invariant Representations. In Computer Vision and Pattern Recognition Conference, 2020. • [K. He+, CVPR’20] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, Ross Girshick. Momentum Contrast for Unsupervised Visual Representation Learning. In Computer Vision and Pattern Recognition Conference, 2020. • [M. Caron+, NeurIPS’20] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, Armand Joulin. Unsupervised Learning of Visual Features by Contrasting Cluster Assignments. In Neural Information Processing Systems, 2020. • [P. Foret+, ICLR’21] Pierre Foret, Ariel Kleiner, Hossein Mobahi, Behnam Neyshabur. Sharpness-Aware Minimization for Efficiently Improving Generalization. In International Conference on Learning Representations, 2021. 参考文献 15
  • 16.
    • [K. Cao+,NeurIPS’19] Kaidi Cao, Colin Wei, Adrien Gaidon, Nikos Arechiga, and Tengyu Ma. Learning imbalanced datasets with label-distribution-aware margin loss. In Neural Information Processing Systems, volume 32, pages 1565–1576. Curran Associates, Inc., June 2019. • [K. Cao+, ICLR’21] Kaidi Cao, Yining Chen, Junwei Lu, Nikos Arechiga, Adrien Gaidon, and Tengyu Ma. Heteroskedastic and imbalanced deep learning with adaptive regularization. In International Conference on Learning Representations, 2021. • [T. Lin+, ICCV’17] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dolla ́r. Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988, 2017. • [B. Knag+, ICLR’20] Bingyi Kang, Saining Xie, Marcus Rohrbach, Zhicheng Yan, Albert Gordo, Jiashi Feng, and Yannis Kalantidis. Decoupling representation and classifier for long-tailed recognition. In International Conference on Learning Representations, 2020. • [T. Wang+, ECCV’20] Tao Wang, Yu Li, Bingyi Kang, Junnan Li, Junhao Liew, Sheng Tang, Steven Hoi, and Jiashi Feng. The devil is in classification: A simple framework for long-tail instance segmentation. In European Conference on computer vision, pages 728–744. Springer, 2020. • [Y. Yang & Z. Xu, NeurIPS’20] Yuzhe Yang and Zhi Xu. Rethinking the value of labels for improving class- imbalanced learning. In Advances in Neural Information Processing Systems, volume 33, pages 19290–19301. Curran Associates, Inc., 2020. 参考文献 16