tvmf-similarity

• 表題 : t-vMF Similarity for Regularizing Intra-Class Feature Distribution
• 著者 : 小林匠さん（AIST）
• 採択学会 : CVPR2021
• 被引用数 : 1
• 発見場所 : Twitter
0
人物識別に適用できそうな日本人論文！!
t-vMF類似度

どんなもの？
先行研究と比べてどこがすごい？
技術や手法のキモはどこ？
どうやって有効だと検証した？
議論や考察はある？
次に読むべき論文は？
Cos類似度の山頂の広さと裾野の広さを可変に
→ 勾配消失を防ぎながらクラス内分散をより小さくする
（von Mises-Fisher分布 + t-SNEアプローチ）
フォンミーゼス・フィッシャー
健全データセットでは広い山頂が有効
→ クラス内分散を小さくするよりも
クラス間の識別性を高める方が重要
1. Benchmarking
Data-Efficient Image Classification
2. Harmonic Networks
Kobayashi, Takumi. “t-vMF Similarity for Regularizing Intra-Class Feature Distribution.”
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. 被引用数１
Cos類似度の山容を制御することで、劣悪データに対する分類問題で高性能
t-vMF類似度
Cos類似度を超えた新しい類似度
→ 劣悪データセットに対しても
高い汎化性能を示す
不均衡データ小規模ノイジー
1
• 既存vMFモデル : 新たにLossを定式化
• 本論文 : SoftmaxCElossの過程でvMFを考慮
→ 類似度を変更するだけで実装が簡単

A) 深層距離学習は初めましての方
→ 一言文の言いたいことをイメージできれば🙆
B) 深層距離学習の熟練さん
→ 一言文に加えて手法のモチベーションも理解できれば🙆
C) 数学も扱い慣れている方
→ ぜひご自身で導出プロセスを
踏んでみてください💪
2
これだけは理解してほしい🥺
t-vMF類似度 > Take-Home Message
【数学】スライドを読んでみてね😉

3
入力画像から特徴量を抽出し所属クラスを予測する。
t-vMF類似度
> 背景 : 深層距離学習とは > 深層学習におけるクラス分類問題
https://tech-blog.optim.co.jp/entry/2021/10/01/100000
四足歩行
毛がふさふさ
目が大きい
耳が三角形

4
抽出された特徴ベクトルは特徴空間上で分離可能。
t-vMF類似度
> 背景 : 深層距離学習とは > 特徴ベクトルの埋め込み
四足歩行
毛がふさふさ
目が大きい
耳が三角形
分離可能な特徴量
猫
犬

5
異なるクラスなのに類似度が高くなってしまうことがある。
t-vMF類似度
> 背景 : 深層距離学習とは > 深層学習モデルの難点
猫
犬
距
離
が
遠
い
→
類
似
度
が
低
い
距離が近い→類似度が高い
犬
分離可能な特徴量

6
同じクラス同士は近くなるように、別のクラス同士は遠くなるように学習する。
t-vMF類似度
> 背景 : 深層距離学習とは > 深層距離学習モデルのモチベーション
猫
犬
犬
距
離
が
遠
い
→
類
似
度
が
低
い
距離が近い→類似度が高い
犬
距
離
が
遠
い
→
類
似
度
が
低
い
犬
猫
距離が近い
→類似度が高い
分離可能な特徴量識別的な特徴量
「クラス内分散」は小さく
→ 犬同士は集まる
「クラス間分散」は大きく
→ 犬と猫は離れる

7
未知なクラスでも類似度を比較することで識別できる。
t-vMF類似度
> 背景 : 深層距離学習とは > 深層距離学習モデルの利点
猫
犬
猫
犬
類似度小
犬
犬？猫？
犬
類似度小
知らない
動物！
分離可能な特徴量識別的な特徴量

8
特徴量抽出器の識別力の高いため、顔認証システム等に活用される。
t-vMF類似度
> 背景 : 深層距離学習とは > 深層距離学習モデルの応用先

どんなもの？
1. Benchmarking
t-vMF類似度
9

犬
ユークリッド距離（直線距離）
ユークリッド空間上に特徴抽出（例Triplet※1）
𝒅が小さい→類似度が高い
Cos類似度
単位超球面上に特徴抽出（例 ArcFace※2）
𝐜𝐨𝐬 𝜽が大きい→類似度が高い
t-vMF類似度はCos類似度を超えた新しい類似度である。
t-vMF類似度
> どんなもの？ > 深層距離学習で用いられる類似度
10
𝒅𝟏
𝒅𝟐
𝜃#
𝜃$
0
0
←ココ!!
猫
犬
猫
犬
犬
※1 : Wang, Jiang, et al. “Learning fine-grained image similarity with deep ranking.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2014. 被引用数1137
※2 : Deng, Jiankang, et al. “Arcface: Additive angular margin loss for deep face recognition.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. 被引用数2013

11
損失関数の導出過程で登場する内積を変更するだけ
【数学】t-vMF類似度
> どんなもの？ > 深層距離学習で用いられる類似度 > なぜCos類似度？
Margin Loss
• SphereFace※3 :
𝜓 𝜃 = −1 %
cos 𝑚𝜃 − 2𝑘, 𝜃 ∈
%&
'
,
%(# &
'
• CosFace※4 : 𝜓 𝜃 = cos(𝜃 − 𝑚)
• ArcFace : 𝜓 𝜃 = cos(𝜃 + 𝑚)
※3 : Liu, Weiyang, et al. “Sphereface: Deep hypersphere embedding for face recognition.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. 被引用数1685
※4 : Wang, Hao, et al. “Cosface: Large margin cosine loss for deep face recognition.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 被引用数1105
角度θにmargin（余白）を加える
Softmax cross-entropy loss
分類器の重み𝑾と
入力画像の特徴𝒙の内積
↓
𝐜𝐨𝐬𝜽で書き換え可能
↓
↓

12
t-vMF類似度は劣悪データセットでの精度向上に取り組む。
t-vMF類似度
> どんなもの？ > 学習データセットの理想と現実
※5: Deng, Jia, et al. “Imagenet: A large-scale hierarchical image database.” 2009 IEEE conference on computer vision and pattern recognition. Ieee, 2009. 被引用数 32404
大量 & バランスのとれたクラス分布 & ラベル付が綺麗
（例 ImageNet※5）
現実 : 劣悪データセット
小規模 & アンバランスなクラス分布
& ノイズ入りラベル
理想 : 健全データセット
犬1000枚
猫1000枚
犬100枚
猫1枚

どんなもの？
1. Benchmarking
t-vMF類似度
13

Cos類似度 t-vMF類似度
山頂を狭くすることでクラス内分散をより小さくする
t-vMF類似度
> 手法の肝は？ : イメージ
14
犬
猫
犬
犬
猫
犬

Cos
類似度
vMF
類似度
t-vMF
類似度
q-vMF
類似度
15
t-vMF類似度
> 手法の肝は？
𝜙! cos 𝜃; 𝜅 = 2
exp 𝜅 𝑐𝑜𝑠𝜃 − 𝑒𝑥𝑝 −𝜅
𝑒𝑥𝑝(𝜅) − 𝑒𝑥𝑝 −𝜅
−1
𝜙" cos 𝜃; 𝜅 =
1 + 𝑐𝑜𝑠 𝜃
1 + 𝜅 1 − 𝑐𝑜𝑠 𝜃
−1
𝜙# cos 𝜃 = cos 𝜃
デメリット
山頂（許容範囲）が広すぎて、
クラス内分散が大きくなる。
→ 汎化性能が下がる。
正規分布をstudent-t分布に置換（t-SNE※7アプローチと同様）し、裾野を広げる
単位超球面上の正規分布モデル von Mises-Fisher分布※6を適用し、山頂の広さを𝜅で制御可能に
デメリット
𝜅が大きくなると、指数関数のため
裾野が狭くなりすぎる。
→ 勾配消失が生じて学習が停滞する。
※6 : Mardia, Kanti V., and Peter E. Jupp. Directional statistics. Vol. 494. John Wiley & Sons, 2009. 被引用数4689
※7 : Van der Maaten, Laurens, and Geoffrey Hinton. “Visualizing data using t-SNE.” Journal of machine learning research 9.11 (2008). 被引用数22452
𝜙$ cos 𝜃; 𝜅 = 2
[&' &'$ ( &')*+ ,)
)
)*+' &'. &'$ (
)
)*+
&' &'. &'$ (
)
)*+
− 1
vMF類似度とt-vMF類似度を一般化し、裾野の広さも𝑞で制御可能に

Cos
類似度
vMF
類似度
t-vMF
類似度
q-vMF
類似度
16
t-vMF類似度
−1
1 + 𝜅 1 − 𝑐𝑜𝑠 𝜃
−1
デメリット
デメリット
[&' &'$ ( &')*+ ,)
)
)*+' &'. &'$ (
)
)*+
&' &'. &'$ (
)
)*+
− 1

von Mises-Fisher分布（ベクトルの「向き」に確率をのせた単位超球面上の正規分布）
𝒑 5
𝒙; 5
𝒘, 𝜿 ≔ 𝑪𝜿 𝐞𝐱𝐩 𝜿5
𝒘𝑻5
𝒙 = 𝐶. exp 𝜅 cos 𝜃
= 𝐶. exp 𝜅 5
𝑤/
D
𝑥 −
#
$
D
𝑥
$
−
#
$
5
𝑤
$
+ 1 ∵ D
𝑥 = 5
𝑤 = 1
= 𝐶.𝑒.
exp −
#
$
𝜅 D
𝑥 − 5
𝑤
$
= 𝐶.
0
𝑓1 D
𝑥 − 5
𝑤 ∵ 𝑓1 𝑑; 𝜅 ≔ exp −
#
$
𝜅𝑑$
vMF類似度
𝝓𝒆 𝐜𝐨𝐬 𝜽; 𝜿 ≔ 2
3! 4
56 7
8 ;. 63! $;.
3! :;. 63! $;.
− 1 ∵ *
𝑥 − -
𝑤 ∈ 0,2 かつ𝑓"はその範囲で単調減少より 𝜙" ∈ −1,1 となるようにスケーリング
= 𝟐
𝐞𝐱𝐩 𝜿 𝒄𝒐𝒔𝜽 6𝒆𝒙𝒑 6𝜿
𝐞𝐱𝐩 𝜿 6𝒆𝒙𝒑 6𝜿
−𝟏
ただし、𝜅 ∈ −∞, 0 ∪ 0, +∞
• 𝜅 > 0 : 𝜃 = 0 付近の類似性を敏感に測定
• 𝜅 → 0 : Cos類似度
• 𝜅 < 0 : 山頂（許容範囲）がCos類似度よりも広くなる
17
vMF類似度は𝜿 > 𝟎にすることで山頂を狭くし、クラス内分散を小さくできる。
【数学】 t-vMF類似度
> 手法の肝は？ > vMF類似度の導出
←標準正規分布𝑓 𝑥 =
#
$&
exp −
5#
$
に基づいたプロファイル関数
*
𝑥 ∶ d次元の単位ベクトル
-
𝑤 ∶ 分布の中心を向く単位ベクトル
𝜅 ∶ -
𝑤への分布の集中度を制御するパラメータ
𝐶$ ∶ 正規化定数
exp(𝜅 cos 𝜃) ∝ 𝑓1 D
𝑥 − 5
𝑤 より、
Cos類似度を𝑓1 D
𝑥 − 5
𝑤 で特徴付けられる。

Cos
類似度
vMF
類似度
t-vMF
類似度
q-vMF
類似度
18
t-vMF類似度
−1
1 + 𝜅 1 − 𝑐𝑜𝑠 𝜃
−1
デメリット
デメリット
[&' &'$ ( &')*+ ,)
)
)*+' &'. &'$ (
)
)*+
&' &'. &'$ (
)
)*+
− 1

von Mises-Fisher分布（ベクトルの「向き」に確率をのせた単位超球面上の正規分布 student-t分布）
𝑝 D
𝑥; 5
𝑤, 𝜅 ≔ 𝐶. exp 𝜅5
𝑤/
D
𝑥 = 𝐶. exp 𝜅 cos 𝜃
= 𝐶.𝑒.
exp −
#
$
𝜅 D
𝑥 − 5
𝑤
$
= 𝐶.
0
𝑓1 D
𝑥 − 5
𝑤 ∵ 𝑓1 𝑑; 𝜅 ≔ exp −
#
$
𝜅𝑑$
= 𝑪𝜿
0
𝒇𝒕 5
𝒙 − 5
𝒘
t-vMF類似度
𝝓𝒕 𝐜𝐨𝐬 𝜽; 𝜿 ≔ 2
3% 4
56 7
8 ;. 63% $;.
3% :;. 63% $;.
− 1 ∵ *
𝑥 − -
𝑤 ∈ 0,2 かつ𝑓&はその範囲で単調減少より 𝜙& ∈ −1,1 となるようにスケーリング
= 2
'
'() '*+,- .
6
'
'(#)
#6
'
'(#)
−1 ∵ cos 𝜃 = 1 −
#
$
D
𝑥 − 5
𝑤
$
=
𝟏(𝒄𝒐𝒔 𝜽
𝟏(𝜿 𝟏6𝒄𝒐𝒔 𝜽
−𝟏
ただし、𝜅 ∈ −
#
$
, +∞
∵ *
𝑥 − -
𝑤 ∈ 0,2 かつ𝑓& > 0より 0 < 1 +
/
0
𝜅 *
𝑥 − -
𝑤
0
≤ 1 + 2𝜅
19
t-vMF類似度は𝜿を大きくしても勾配消失しにくい。
> 手法の肝は？ > t-vMF類似度の導出
（→ cos 𝜃 = 1 −
#
$
D
𝑥 − 5
𝑤
$
）
自由度１のStudent-t分布𝑓 𝑡 =
#
&(#(F#)
に基づいた
プロファイル関数 𝑓F 𝑑; 𝜅 ≔
#
#(
'
#
.H#
に置き換える。
→ 山頂の狭さは保ちつつ裾野が広くなる。

Cos
類似度
vMF
類似度
t-vMF
類似度
q-vMF
類似度
20
t-vMF類似度
−1
1 + 𝜅 1 − 𝑐𝑜𝑠 𝜃
−1
デメリット
デメリット
[&' &'$ ( &')*+ ,)
)
)*+' &'. &'$ (
)
)*+
&' &'. &'$ (
)
)*+
− 1

von Mises-Fisher分布
𝑝 D
𝑥; 5
𝑤, 𝜅 ≔ 𝐶. exp 𝜅5
𝑤/
D
𝑥 = 𝐶. exp 𝜅 cos 𝜃
= 𝐶.𝑒.
exp −
#
$
𝜅 D
𝑥 − 5
𝑤
$
= 𝐶.
0
𝑓1 D
𝑥 − 5
𝑤 ∵ 𝑓1 𝑑; 𝜅 ≔ exp −
#
$
𝜅𝑑$
= 𝑪𝜿
0
𝒇𝒒 5
𝒙 − 5
𝒘
q-vMF類似度
𝝓𝒒 𝐜𝐨𝐬 𝜽; 𝜿 ≔ 2
31 4
56 7
8 ;. 631 $;.
31 :;. 631 $;.
− 1 ∵ *
𝑥 − -
𝑤 ∈ 0,2 かつ𝑓2はその範囲で単調減少より 𝜙2 ∈ −1,1 となるようにスケーリング
= 𝟐
[𝟏= 𝟏=𝒒 𝜿 𝟏=𝒄𝒐𝒔 𝜽)
𝟏
𝟏"𝒒= 𝟏=𝟐 𝟏=𝒒 𝜿
𝟏
𝟏"𝒒
𝟏= 𝟏=𝟐 𝟏=𝒒 𝜿
𝟏
𝟏"𝒒
− 𝟏
ただし、𝜅 ∈ −
#
$ J6#
, +∞
21
q-vMF類似度は 𝜿で山頂の広さを、𝒒で裾野の広さを制御可能
> 手法の肝は？ > q-vMF類似度の導出
標準正規分布とstudent-t分布の確率密度関数を
一般化したq-指数関数※8
𝑓J 𝑑; 𝜅 ≔ 1 − 1 − 𝑞
#
$
𝜅𝑑$
'
'*1
に置き換える。
• 𝑞 → 1 : 指数関数 𝑓J→# ≡ 𝑓1
• 𝑞 = 2 : student-t関数 𝑓JL$ ≡ 𝑓F
• 𝑞 → 1 : vMF類似度 𝜙J→# ≡ 𝜙1
• 𝑞 = 2 : t-vMF類似度 𝜙JL$ ≡ 𝜙F
→ 𝑞 を大きくすると裾野が広くなる。
※8 : Constantino Tsallis. What are the numbers that experiments provide? Quimica Nova, 17(468), 1994

どんなもの？
1. Benchmarking
t-vMF類似度
22

たった１行加えるだけ
t-vMF類似度
> 先行研究と比べてどこがすごい？
23
※
1 + 𝜅 1 − 𝑐𝑜𝑠 𝜃
−1
Cos類
似
度
t-vMF類似度
SoftmaxCEloss

どんなもの？
1. Benchmarking
t-vMF類似度
24

25
t-vMF類似度はvMFやq-vMFと比べて高い分類精度を発揮した。
t-vMF類似度
> どうやって有効だと検証した？ > Ablation Study
ImageNet-LTデータセット（不均衡データセット）にResNet10を学習させた。
(1) κを適度に大きくすることで
Cos類似度より性能向上
(2) vMF類似度は
κ ≧ 16では性能が低下
(3) q-vMF類似度は
t-vMF類似度に比べて劣る
→t-vMF類似度は大きなκでも
安定して性能を発揮
山頂が狭い
エラー率が低い（精度が高い）

26
t-vMF類似度は劣悪データセットに対して優れた分類精度を発揮した。
t-vMF類似度
> どうやって有効だと検証した？ > 既存手法との比較
深層距離学習手法
正則化損失の追加
その他手法
データ拡張と
組み合わせることで
より高い精度が
期待できる。
不均衡データセット小規模データセットラベルノイズ入りデータセット
ラベルを
ランダムに
間違ったものに
切り替えた。
↑
適度な𝜿 > 𝟎 で高い性能を発揮
c
エラー率が低い
（精度が高い）

27
t-vMF類似度で学習した特徴は、クラス内分散が小さい。
t-vMF類似度
> どうやって有効だと検証した？ > 特徴量評価
クラス𝑐ごとの平均角度𝜃C
ImageNet-LTデータセット（不均衡データセット）に
ResNet10を学習させた。
クラス内分散クラスごとのサンプル数
c
クラスごとのクラス内分散

どんなもの？
1. Benchmarking
t-vMF類似度
28

29
健全なデータセットには𝜿 < 𝟎の方が精度が高い
t-vMF類似度
> 議論や考察はある？ > 健全データセット
ImageNetデータセットで学習
𝜅を小さくすることで、多数のサンプル間のクラス間識別力を高めることができる。

どんなもの？
1. Benchmarking
t-vMF類似度
30

• 表題 : Tune It or Don't Use It: Benchmarking Data-Efficient Image Classification
• 著者 : Brigato, Lorenzo, et al.
• 採択学会 : ICCV2021
• 発見理由 : t-vMF類似度の論文を引用していたから
31
小規模な画像分類ベンチマークを設計し、既存の最先端モデルを再評価
t-vMF類似度
> 次に読むべき論文は？（１/2）

32
Baselineを凌駕しているのはHarmonic Networksのみ！？
t-vMF類似度
> 次に読むべき論文は？（１/2） > 小規模データセットでの分類精度評価

• 表題 : Harmonic Networks for Image Classification
• 著者 : M Ulicny, et al.
• 採択学会 : BMVC2019
• 被引用数 : 10
• 表題 : Harmonic Networks with Limited Training Samples
• 著者 : M Ulicny, et al.
• 採択学会 : EUSIPCO2019
33
画像圧縮に広く用いられる離散コサイン変換フィルタを利用するっぽい
t-vMF類似度
> 次に読むべき論文は？（2/2） : Harmonic Networks

どんなもの？
1. Benchmarking
t-vMF類似度
34

Cos類似度 t-vMF類似度
犬
猫
犬
犬
猫
犬
ここさえ理解してもらえたら🤗
最後に
35
所感
ゴリゴリ数学な論文でいつもと毛色が違った。けど「コンパクト」が数学用語と紛らわしかった。
MagFaceと組合わせたらどうなるか気になる。どちらも実装簡単だし研究でやってみよう。

tvmf-similarity

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to tvmf-similarity

Similar to tvmf-similarity (20)

Recently uploaded

Recently uploaded (20)

tvmf-similarity