[読会]Long tail learning via logit adjustment

論文紹介
Long-Tail Learning via Logit Adjustment
Aditya Krishna Menon et al., ICLR 2021

Agenda
概要
モチベーション
貢献
アルゴリズム
実験

概要 - モチベーション
現実世界では不均衡またはロングテールのラベル分布が一般的
不均衡データでは学習が支配的なラベルに偏ってしまう
機械学習における汎化の課題
それ、ロジット調整(logit adjustment)で解決できるのでは？
ロジット調整は学習済みモデルに事後的に適用するか学習中の損失に適用
少数ラベルと支配的なラベルのロジットの間に大きな相対的マージンを確保
することを促す

概要 - 貢献
従来手法の制限を克服（table 1参照）
平衡誤差(Balanced Error)を最小化することでFisher Consistentがあることを証
明（式(2)参照）
実世界のデータで提案手法の有効性を確認した
pairwise label marginを使ったsoftmax cross-entropyを紹介（提案？）（式(11)）

アルゴリズム - Notations
sample size:
#labels:
labels:
instance (features):
sample:
unknown distribution over ×
model:
misclassification error:
surrogate loss (such as the softmax cross-entropy):
:
ℓ(y, f(x)) = log[ e ] −
y ∈[L]
′
∑ f
(x)
y′
f
(x) =
y log[1 + e ] (1)
y =y
′
∑ f
(x)−f
(x)
y′ y
N
L
Y = [L] = 1, 2, ..., L
X
S = (x
, y
) ∼
n n n=1
N
PN
P X Y
f : X → RL
P
(y ∈
x,y / argmax
f
(x))
y ∈Y
′ y′
ℓ Y × R →
L
R

アルゴリズム - Balanced Error
これを最小化する
BER = P
(y ∈
L
1
y∈[L]
∑ x∣y / argmax f
(x))
y ∈Y
′ y′

アルゴリズム -　従来手法
現行の対処方法は以下の3つに分類できる
1. モデルへの入力に対してなんやかんやするやつ（e.g. over- or under-sampling)
Kubat and Matwin, 1997, Chawla et al., 2002, Wallace et al., 2011, Mikolov et
al., 2013, Mahajan et al., 2018, Yin et al., 2018
2. モデルの出力をなんやかんやするやつ (e.g. post-hoc correction of the decision
threshold)
Fawcett and Provost, 1996, Collell et al., 2016] or weights [Kim and Kim, 2019,
Kang et al., 2020
3. モデルの中でなんやかんやするやつ (e.g. modifying the loss function)
Xie and Manski, 1989, Morik et al., 1999, Cui et al., 2019, Zhang et al., 2017,
Cao et al., 2019, Tan et al., 2020
今回扱うのは2.と3.

アルゴリズム - 出力で調整する手法達
Post-hoc weight normalization
argmax
w
Φ(x)/ν =
y∈[L] y
T
y
τ
argmax
f
(x)/ν (3)
y∈[L] y y
τ
クラスを計算する際（argmaxする際）にで除算して補正
重みの正規化によって少数ラベルの貢献度を上げる
in Kim and Kim, 2019、 Ye et al., 2020
in Kang et al., 2020
とが相関する傾向にあることを利用している
τ 0
νy
ν =
y P(y)
ν =
y ∣∣w
∣∣
y 2
∣∣w
∣∣
y 2 P(y)

アルゴリズム - モデルの中で調整する手法達
Loss modification (Xie and Manski, 1989、 Morik et al., 1999の提案手法)
ℓ(y, f(x)) = log[1 +
P(y)
1
e ] (4)
y =y
′
∑ f
(x)−f
(x)
y′ y
損失計算の際に調整（式(4)ではで調整）
バランシングは分離可能な設定では最小限の効果しかない
訓練損失をゼロにする手法は重み付けをしても必然的に最適な状態が保たれる
(Byrd and Lipton, 2019)（らしい）
直感的に分離境界を支配的なクラスに近づけることが望ましい
P(y)

アルゴリズム - モデルの中で調整する手法達
式(4)以外の例2選
hinge lossにクラスごとのマージンを加える(Cao et al., 2019)
少数の正例と任意の負例との間にマージンが作れる
ℓ(y, f(x)) = [1 + e e ] (5)
y =y
′
∑ δ
y f
(x)−f
(x)
y′ y
クラスごとのマージンをソフトマックスクロスエントロピーに追加 (Tan et al.,
2020)
勾配を調整するのが目的
はを単調増加変換したもの
ℓ(y, f(x)) = [1 + e e ] (6)
y =y
′
∑ δ
y′ f
(x)−f (x)
y′ y
y y =
′
 y
δ ∝
y P(y)−1/4
δ ≤
y 0 P(y)

アルゴリズム - 現行モデルの問題点
現行モデルには以下の2つの大罪がある
weight正規化の罪（限界）
損失修正の罪（限界）

weight正規化の限界
出力で調整する手法の話
Kang et al., 2020 によるでの事後的な重み正規化は重みノルム
がと相関する傾向があるという仮定に基づいている
しかしこれはオプティマイザーに大きく依存
SGDだととに相関があるが、ADAMだと無い（図1参照）
オプティマイザーの暗黙のバイアスに関する研究(Soudry et al.2018)で説明が
付きそう
ではを単純に使うのはどうか？
これも限界がある（4.2節参照）
ν =
y ∣∣w
∣∣
y 2
∣∣w
∣∣
y 2 P(y)
∣∣w
∣∣
y 2 P(y)
ν
=
y P(y)

損失修正の限界
ラベルごとのマージンを強制する場合の話
平衡誤差の結果として得られる損失のFisher Consistent(Lin, 2004)を担保する必要
あり
期待損失の最小化は最小の平衡誤差をもたらすはず
しかし式(5)(6)は2値分類問題であってもそうならない（詳細は5.2節、6.1節を参
照）

アルゴリズム - 提案手法
平衡誤差を最小化することでベイズ最適解を得たい
になるようにしたい
バランス調整された推定量を推定するモデルを訓練すればよい（式(7)）
平衡誤差を最小化することにおいてFisher Consistentがある
ロジット調整(logit adjustment)は明確な統計的根拠を持っている（Appendix参
照）
argmax
f
(x) =
y∈[L] y
∗
argmax
P (y∣x) =
y∈[L]
bal
argmax
P(x∣y) (7)
y∈[L]
そして推定量の対数を式(8)のように修正
式(8)は以下を仮定
class-probabilitiesを
where
bal ∗ ∗
f ∈
∗ argmin
BER(f)
f:X→RL
P (y∣x)
bal
P (y∣x) ∝
bal
P(y∣x)/P(y)
P(y∣x) ∝ exp(s
(x))
y
∗
s :
∗
X → RL

アルゴリズム - Post-hoc logit adjustment
出力で調整する手法のロジット調整版
ほぼ式(8)そのまま
argmax
exp(w
Φ(x))/π =
y∈[L] y
T
y
τ
argmax
f
(x) −
y∈[L] y τ ⋅ logπ
(9)
y
ここででありはclass prior の推定量（訓練データの出現割合でよい
っぽい）
はスケール係数（定数）
π ∈ Δ
Y π P(y)
τ 0

アルゴリズム - logit adjusted softmax cross-entropy
softmax cross-entropyにロジット調整適用したやつ
pairwise margin lossを提案
ℓ(y, f(x)) = α ⋅
y log[1 + e ⋅
y =y
′
∑ Δ
yy′
e ] (11)
(f
(x)−f
(x))
y′ y
ここでlabel weights であり
α 0 Δ
=
yy′ log
π
y
π
y′

実験
単純な二値分類問題
既存の重み正規化や損失修正手法では最適解に収束しない可能性があるデー
タ
実世界のデータセット
をデータによって微調整したのも比較対象に入ってる
Δ
yy′

実験 - 単純な二値分類問題
Logit adjustment loss (τ = 1)の性能高い
で良いのは簡単でよい
τ = 1

実験 - 単純な二値分類問題

実験 - 実世界のデータセット

Logit adjustment loss ( )
τ = 1 ではΔ =
yy′ log +
π
y
π
y′

π
y
1/4
1

[読会]Long tail learning via logit adjustment

More Related Content

What's hot

Similar to [読会]Long tail learning via logit adjustment

More from shima o

[読会]Long tail learning via logit adjustment