Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
DLゼミ
ArcFace: Additive Angular Margin
Loss for Deep Face Recognition
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
D1 森 雄斗
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報
• タイトル
– ArcFace: Additive Angular Margin Loss for Deep Face
Recognition
• 著者
– Jiankang Deng*1, Jia Guo* 2, Niannan Xue 1, Stefanos
Zafeiriou 1
• 1 Imperial College London
• 2 InsightFace
• * equal contribution
• 発表
– IEEE/CVF conference on computer vision and pattern
recognition 2019
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要
• メトリックラーニングを用いた顔認識モデルモ
デルの一つ
– Sofmax-loss の拡張
• Additive Angular Margin Loss (ArcFace)を提案
– 正解クラスの場合、角度空間にマージンを追加
• 先行研究に比べて高精度を記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
DCNNを用いた顔認識
• クラス内距離が小さく、クラス間距離が大き
い特徴量にマッピングする
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
DCNNの顔認識の関連技術
• Softmax-loss[1] • Triplet-loss[2]
[1] Liu, Weiyang, et al. "Large-margin softmax loss for convolutional neural networks." arXiv preprint arXiv:1612.02295 (2016).
[2] Wang, Jiang, et al. "Learning fine-grained image similarity with deep ranking." Proceedings of the IEEE conference on
computer vision and pattern recognition. 2014.
𝐿𝑠𝑜𝑓𝑡𝑚𝑎𝑥 = −
1
𝑁
𝑖=1
𝑁
log
𝑒
𝑊𝑦𝑖𝑥𝑖+𝑏𝑦𝑖
𝑇
𝑗=1
𝑛
𝑒𝑊𝑗
𝑇𝑥𝑖+𝑏𝑗
学習
positive
positive
negative
negative
anchor
anchor
margin
margin
margin
margin
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
顔認識技術の問題点
• Softmax-loss
– 線形変換行列のサイズは識別ラベル数に対して線形
に増加
– 学習した特徴は閉集合分類問題では分離可能だが、
開集合顔認識問題では識別率が十分でない
= 学習した人(特徴)以外の識別性の低下
• Triplet-loss
– 大規模データセットでは組み合わせが爆発的に増加
– Semi-hard sample miningは学習にとって困難な問題
となる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
顔認識技術の問題点
• Softmax-loss
– 線形変換行列のサイズは識別ラベル数に対して線形
に増加
– 学習した特徴は閉集合分類問題では分離可能だが、
開集合顔認識問題では識別率が十分でない
= 学習した人(特徴)以外の識別性の低下
• Triplet-loss
– 大規模データセットでは組み合わせが爆発的に増加
– Semi-hard sample miningは学習にとって困難な問題
となる
[3] Kaya, Mahmut, and Hasan Şakir Bilge. "Deep metric learning: A survey." Symmetry 11.9 (2019): 1066.
[3] より引用
判別が困難なサンプル組
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
各特徴ベクトルとそのクラス中心との
ユークリッド距離であるcenter loss[4]
クラス内のコンパクト性を得た
しかし、顔クラス数の飛躍的な増加したため
学習が困難に
8
Softmax-lossの発展
Softmax-loss
Center Loss
Sphereface
CosFace
2016
2017
2018
2016
[4] Wen, Yandong, et al. "A discriminative feature learning approach for deep face recognition." European conference on computer vision.
Springer, Cham, 2016.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• DCNNの最終層の全結合層の重みが各顔ラベルの中心
と概念的に類似していることを利用
• クラス内のコンパクト性とクラス間不一致性を同時に
強化する乗法的角度余裕ペナルティを提案と角度マー
ジン (SphereFace[5] )の提案
しかし、損失関数の計算に一連の近似が必要であり、
結果として、ネットワークの学習が不安定となった
9
Softmax-lossの発展
Softmax-loss
Center Loss
Sphereface
CosFace
2016
2017
2018
2016
[5] Liu, Weiyang, et al. "Sphereface: Deep hypersphere embedding for face recognition." Proceedings of the IEEE conference on computer
vision and pattern recognition. 2017.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Softmax-lossを含むハイブリッドな損失関数を提案
= CosFace[6]
直接コサインマージンペナルティを加えることで
SphereFaceより高性能を得た
10
Softmax-lossの発展
Softmax-loss
Center Loss
Sphereface
CosFace
2016
2017
2018
2016
[6] Wang, Hao, et al. "Cosface: Large margin cosine loss for deep face recognition." Proceedings of the IEEE conference on computer vision
and pattern recognition. 2018.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
提案手法
𝐿1 = −
1
𝑁
𝑖=1
𝑁
log
𝑒
𝑊𝑦𝑖𝑥𝑖+𝑏𝑦𝑖
𝑇
𝑗=1
𝑛
𝑒𝑊𝑗
𝑇𝑥𝑖+𝑏𝑗
𝑑 : 埋め込み特徴量の次元数
𝑥𝑖 ∈ ℝ𝑑 : 𝑖番目サンプルの特徴量
𝑦𝑖 : 𝑖番目サンプルのクラス
𝑁 : バッチサイズ
𝑛 : クラス数
𝑊
𝑗 ∈ ℝ𝑑
: 𝑗番目の重み 𝑊 ∈ ℝ𝑑×𝑛
𝑏𝑗 ∈ ℝ𝑑
: バイアス項
一般的なSoftmax-loss
1. 簡略化のため、𝑏𝑗 = 0 とする
2. 𝑊
𝑗
𝑇
𝑥𝑖 = 𝑊
𝑗 𝑥𝑖 𝑐𝑜𝑠𝜃𝑗 (𝜃𝑗 は 𝑊
𝑗 と 𝑥𝑖 の間の角度)
3. 𝑙2正規化より、 𝑊
𝑗 = 1
4. 𝑙2正規化とre-scaleを行い、埋め込み特徴量 𝑥𝑖 = 𝑠
→ 埋め込み特徴量が半径𝑠 の超球面に分布
SphereFaceと同じ処理
𝐿2 = −
1
𝑁
𝑖=1
𝑁
log
𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖
𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 + 𝑗=1,𝑗≠𝑦𝑖
𝑛
𝑒𝑠 𝑐𝑜𝑠𝜃𝑗
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
提案手法
𝐿1 = −
1
𝑁
𝑖=1
𝑁
log
𝑒
𝑊𝑦𝑖𝑥𝑖+𝑏𝑦𝑖
𝑇
𝑗=1
𝑛
𝑒𝑊𝑗
𝑇𝑥𝑖+𝑏𝑗
𝑥𝑖 ∈ ℝ𝑑
: 𝑖番目サンプルの特徴量
𝑦𝑖 : 𝑖番目サンプルのクラス
𝑑 : 埋め込み特徴量の次元数
𝑁 : バッチサイズ
𝑛 : クラス数
𝑊
𝑗 ∈ ℝ𝑑
: 𝑗番目の重み 𝑊 ∈ ℝ𝑑×𝑛
𝑏𝑗 ∈ ℝ𝑑
: バイアス項
一般的なSoftmax-loss
1. 簡略化のため、𝑏𝑗 = 0 とする
2. 𝑊
𝑗
𝑇
𝑥𝑖 = 𝑊
𝑗 𝑥𝑖 𝑐𝑜𝑠𝜃𝑗 (𝜃𝑗 は 𝑊
𝑗 と 𝑥𝑖 の間の角度)
3. 𝑙2正規化より、 𝑊
𝑗 = 1
4. 𝑙2正規化とre-scaleを行い、埋め込み特徴量 𝑥𝑖 = 𝑠
→ 埋め込み特徴量が半径𝑠 の超球面に分布
SphereFaceと同じ処理
𝐿2 = −
1
𝑁
𝑖=1
𝑁
log
𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖
𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 + 𝑗=1,𝑗≠𝑦𝑖
𝑛
𝑒𝑠 𝑐𝑜𝑠𝜃𝑗
SphereFaceの途中式
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
提案手法
𝐿2 = −
1
𝑁
𝑖=1
𝑁
log
𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖
𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 + 𝑗=1,𝑗≠𝑦𝑖
𝑛
𝑒𝑠 𝑐𝑜𝑠𝜃𝑗
𝑦𝑖 : 𝑖番目サンプルのクラス
𝑁 : バッチサイズ
𝑛 : クラス数
𝑠 : 埋め込み特徴量
𝜃𝑗 : 𝑗番目の重みと特徴量間の角度
𝑥𝑖 と 𝑊
𝑦𝑖
の間に Additive angular margin penalty 𝒎 を加える
→ クラス内のコンパクト性とクラス間の不一致を同時に強める
(クラス内の特徴量の分散を小さく、クラス間の特徴量の分散を大きく)
𝐿3 = −
1
𝑁
𝑖=1
𝑁
log
𝑒𝑠 (𝑐𝑜𝑠(𝜃𝑦𝑖
+𝒎))
𝑒𝑠 (𝑐𝑜𝑠(𝜃𝑦𝑖
+𝒎))
+ 𝑗=1,𝑗≠𝑦𝑖
𝑛
𝑒𝑠 𝑐𝑜𝑠𝜃𝑗
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
提案手法
1クラス約1500枚を含む8クラスの顔画像を
2次元特徴埋め込みネットワークで学習
クラス内のコンパクト性とクラス間の不一致を実現
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
SphereFaceとCosFaceとの比較
• 先行研究にはない幾何学的属性を持つ
• 全区間を通して一定の線形角度の余裕を持つ
2値分類の判定境界の比較
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
実験設定
• データセット
– 顔認識関係
• 埋め込みネットワーク
– ResNet50、ResNet100
– 最終層の次元数 𝑑 は514
• ハイパーパラメータ
– 特徴量スケール 𝑠 : 64 (CosFaceと同じ数値)
– 角度マージン 𝑚 : 0.5 (3.2. Ablation Study on Lossesで決定)
– バッチサイズ: 512
• 環境
– NVIDIA Tesla P40 (24GB) × 4台
データセット一覧
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
LFW, YTF, CALFW, CPLFWの結果
• 一般的なデータセットで学習
– LFW: 13000枚, 5700ラベル(人)
• 類似研究より優れた性能を持つ
類似研究との性能評価 (%)
LFW
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
MegaFaceの結果
• 大規模のデータセット
– 690Kのユニークユーザ、1Mの画像
– 検証はFaceScrubを使用
Id : rank-1の正答率
Ver: False Accept Rate が10−6に
おけるTrue Accept Rate
R : prob set と 1M distractorを使う
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
まとめ
• メトリックラーニングを用いた顔認識モデルモ
デルの一つ
– Sofmax-loss の拡張
• Additive Angular Margin Loss (ArcFace)を提案
– 正解クラスの場合、角度空間にマージンを追加
• 先行研究に比べて高精度を記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
論文発表後の発展 (コンペ)
• Kaggle Happywhale – Whale and Dolphin
Identification (2022年 2-4月)
– クジラやイルカの写真を用いた個体識別のコンペ
– Preferred Networks のチームが優勝[7]
• ArcFaceの拡張である dynamic margin ArcFace で1st
• 上位解法のほとんどがArcFaceを使用
[7] Kaggle Happywhale – Whale and Dolphin Identificationで優勝&10位でソロ金メダルを獲得しました,
https://tech.preferred.jp/ja/blog/kaggle-happywhale-1st-10th-solution/
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
論文発表後の発展 (論文)
• Sub-center ArcFace[8]
– ノイズの多いデータへの対策
• dynamic margin ArcFace[9]
– Google Landmark Recognition 2020 Competitionで
3位の解法
– クラスのサンプル数の偏りを考慮
[8] Deng, Jiankang, et al. "Sub-center arcface: Boosting face recognition by large-scale noisy web faces." European Conference
on Computer Vision. Springer, Cham, 2020.
[9] Ha, Qishen et al. “Google Landmark Recognition 2020 Competition Third Place Solution.” ArXiv abs/2010.05350, 2020.

ArcFace: Additive Angular Margin Loss for Deep Face Recognition

  • 1.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. DLゼミ ArcFace: Additive Angular Margin Loss for Deep Face Recognition 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 D1 森 雄斗
  • 2.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 • タイトル – ArcFace: Additive Angular Margin Loss for Deep Face Recognition • 著者 – Jiankang Deng*1, Jia Guo* 2, Niannan Xue 1, Stefanos Zafeiriou 1 • 1 Imperial College London • 2 InsightFace • * equal contribution • 発表 – IEEE/CVF conference on computer vision and pattern recognition 2019
  • 3.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 概要 • メトリックラーニングを用いた顔認識モデルモ デルの一つ – Sofmax-loss の拡張 • Additive Angular Margin Loss (ArcFace)を提案 – 正解クラスの場合、角度空間にマージンを追加 • 先行研究に比べて高精度を記録
  • 4.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 DCNNを用いた顔認識 • クラス内距離が小さく、クラス間距離が大き い特徴量にマッピングする
  • 5.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 DCNNの顔認識の関連技術 • Softmax-loss[1] • Triplet-loss[2] [1] Liu, Weiyang, et al. "Large-margin softmax loss for convolutional neural networks." arXiv preprint arXiv:1612.02295 (2016). [2] Wang, Jiang, et al. "Learning fine-grained image similarity with deep ranking." Proceedings of the IEEE conference on computer vision and pattern recognition. 2014. 𝐿𝑠𝑜𝑓𝑡𝑚𝑎𝑥 = − 1 𝑁 𝑖=1 𝑁 log 𝑒 𝑊𝑦𝑖𝑥𝑖+𝑏𝑦𝑖 𝑇 𝑗=1 𝑛 𝑒𝑊𝑗 𝑇𝑥𝑖+𝑏𝑗 学習 positive positive negative negative anchor anchor margin margin margin margin
  • 6.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 顔認識技術の問題点 • Softmax-loss – 線形変換行列のサイズは識別ラベル数に対して線形 に増加 – 学習した特徴は閉集合分類問題では分離可能だが、 開集合顔認識問題では識別率が十分でない = 学習した人(特徴)以外の識別性の低下 • Triplet-loss – 大規模データセットでは組み合わせが爆発的に増加 – Semi-hard sample miningは学習にとって困難な問題 となる
  • 7.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 顔認識技術の問題点 • Softmax-loss – 線形変換行列のサイズは識別ラベル数に対して線形 に増加 – 学習した特徴は閉集合分類問題では分離可能だが、 開集合顔認識問題では識別率が十分でない = 学習した人(特徴)以外の識別性の低下 • Triplet-loss – 大規模データセットでは組み合わせが爆発的に増加 – Semi-hard sample miningは学習にとって困難な問題 となる [3] Kaya, Mahmut, and Hasan Şakir Bilge. "Deep metric learning: A survey." Symmetry 11.9 (2019): 1066. [3] より引用 判別が困難なサンプル組
  • 8.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 各特徴ベクトルとそのクラス中心との ユークリッド距離であるcenter loss[4] クラス内のコンパクト性を得た しかし、顔クラス数の飛躍的な増加したため 学習が困難に 8 Softmax-lossの発展 Softmax-loss Center Loss Sphereface CosFace 2016 2017 2018 2016 [4] Wen, Yandong, et al. "A discriminative feature learning approach for deep face recognition." European conference on computer vision. Springer, Cham, 2016.
  • 9.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • DCNNの最終層の全結合層の重みが各顔ラベルの中心 と概念的に類似していることを利用 • クラス内のコンパクト性とクラス間不一致性を同時に 強化する乗法的角度余裕ペナルティを提案と角度マー ジン (SphereFace[5] )の提案 しかし、損失関数の計算に一連の近似が必要であり、 結果として、ネットワークの学習が不安定となった 9 Softmax-lossの発展 Softmax-loss Center Loss Sphereface CosFace 2016 2017 2018 2016 [5] Liu, Weiyang, et al. "Sphereface: Deep hypersphere embedding for face recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
  • 10.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Softmax-lossを含むハイブリッドな損失関数を提案 = CosFace[6] 直接コサインマージンペナルティを加えることで SphereFaceより高性能を得た 10 Softmax-lossの発展 Softmax-loss Center Loss Sphereface CosFace 2016 2017 2018 2016 [6] Wang, Hao, et al. "Cosface: Large margin cosine loss for deep face recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
  • 11.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 提案手法 𝐿1 = − 1 𝑁 𝑖=1 𝑁 log 𝑒 𝑊𝑦𝑖𝑥𝑖+𝑏𝑦𝑖 𝑇 𝑗=1 𝑛 𝑒𝑊𝑗 𝑇𝑥𝑖+𝑏𝑗 𝑑 : 埋め込み特徴量の次元数 𝑥𝑖 ∈ ℝ𝑑 : 𝑖番目サンプルの特徴量 𝑦𝑖 : 𝑖番目サンプルのクラス 𝑁 : バッチサイズ 𝑛 : クラス数 𝑊 𝑗 ∈ ℝ𝑑 : 𝑗番目の重み 𝑊 ∈ ℝ𝑑×𝑛 𝑏𝑗 ∈ ℝ𝑑 : バイアス項 一般的なSoftmax-loss 1. 簡略化のため、𝑏𝑗 = 0 とする 2. 𝑊 𝑗 𝑇 𝑥𝑖 = 𝑊 𝑗 𝑥𝑖 𝑐𝑜𝑠𝜃𝑗 (𝜃𝑗 は 𝑊 𝑗 と 𝑥𝑖 の間の角度) 3. 𝑙2正規化より、 𝑊 𝑗 = 1 4. 𝑙2正規化とre-scaleを行い、埋め込み特徴量 𝑥𝑖 = 𝑠 → 埋め込み特徴量が半径𝑠 の超球面に分布 SphereFaceと同じ処理 𝐿2 = − 1 𝑁 𝑖=1 𝑁 log 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 + 𝑗=1,𝑗≠𝑦𝑖 𝑛 𝑒𝑠 𝑐𝑜𝑠𝜃𝑗
  • 12.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 提案手法 𝐿1 = − 1 𝑁 𝑖=1 𝑁 log 𝑒 𝑊𝑦𝑖𝑥𝑖+𝑏𝑦𝑖 𝑇 𝑗=1 𝑛 𝑒𝑊𝑗 𝑇𝑥𝑖+𝑏𝑗 𝑥𝑖 ∈ ℝ𝑑 : 𝑖番目サンプルの特徴量 𝑦𝑖 : 𝑖番目サンプルのクラス 𝑑 : 埋め込み特徴量の次元数 𝑁 : バッチサイズ 𝑛 : クラス数 𝑊 𝑗 ∈ ℝ𝑑 : 𝑗番目の重み 𝑊 ∈ ℝ𝑑×𝑛 𝑏𝑗 ∈ ℝ𝑑 : バイアス項 一般的なSoftmax-loss 1. 簡略化のため、𝑏𝑗 = 0 とする 2. 𝑊 𝑗 𝑇 𝑥𝑖 = 𝑊 𝑗 𝑥𝑖 𝑐𝑜𝑠𝜃𝑗 (𝜃𝑗 は 𝑊 𝑗 と 𝑥𝑖 の間の角度) 3. 𝑙2正規化より、 𝑊 𝑗 = 1 4. 𝑙2正規化とre-scaleを行い、埋め込み特徴量 𝑥𝑖 = 𝑠 → 埋め込み特徴量が半径𝑠 の超球面に分布 SphereFaceと同じ処理 𝐿2 = − 1 𝑁 𝑖=1 𝑁 log 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 + 𝑗=1,𝑗≠𝑦𝑖 𝑛 𝑒𝑠 𝑐𝑜𝑠𝜃𝑗 SphereFaceの途中式
  • 13.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 提案手法 𝐿2 = − 1 𝑁 𝑖=1 𝑁 log 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 𝑒𝑠 𝑐𝑜𝑠𝜃𝑦𝑖 + 𝑗=1,𝑗≠𝑦𝑖 𝑛 𝑒𝑠 𝑐𝑜𝑠𝜃𝑗 𝑦𝑖 : 𝑖番目サンプルのクラス 𝑁 : バッチサイズ 𝑛 : クラス数 𝑠 : 埋め込み特徴量 𝜃𝑗 : 𝑗番目の重みと特徴量間の角度 𝑥𝑖 と 𝑊 𝑦𝑖 の間に Additive angular margin penalty 𝒎 を加える → クラス内のコンパクト性とクラス間の不一致を同時に強める (クラス内の特徴量の分散を小さく、クラス間の特徴量の分散を大きく) 𝐿3 = − 1 𝑁 𝑖=1 𝑁 log 𝑒𝑠 (𝑐𝑜𝑠(𝜃𝑦𝑖 +𝒎)) 𝑒𝑠 (𝑐𝑜𝑠(𝜃𝑦𝑖 +𝒎)) + 𝑗=1,𝑗≠𝑦𝑖 𝑛 𝑒𝑠 𝑐𝑜𝑠𝜃𝑗
  • 14.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 提案手法 1クラス約1500枚を含む8クラスの顔画像を 2次元特徴埋め込みネットワークで学習 クラス内のコンパクト性とクラス間の不一致を実現
  • 15.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 SphereFaceとCosFaceとの比較 • 先行研究にはない幾何学的属性を持つ • 全区間を通して一定の線形角度の余裕を持つ 2値分類の判定境界の比較
  • 16.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 実験設定 • データセット – 顔認識関係 • 埋め込みネットワーク – ResNet50、ResNet100 – 最終層の次元数 𝑑 は514 • ハイパーパラメータ – 特徴量スケール 𝑠 : 64 (CosFaceと同じ数値) – 角度マージン 𝑚 : 0.5 (3.2. Ablation Study on Lossesで決定) – バッチサイズ: 512 • 環境 – NVIDIA Tesla P40 (24GB) × 4台 データセット一覧
  • 17.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 LFW, YTF, CALFW, CPLFWの結果 • 一般的なデータセットで学習 – LFW: 13000枚, 5700ラベル(人) • 類似研究より優れた性能を持つ 類似研究との性能評価 (%) LFW
  • 18.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 MegaFaceの結果 • 大規模のデータセット – 690Kのユニークユーザ、1Mの画像 – 検証はFaceScrubを使用 Id : rank-1の正答率 Ver: False Accept Rate が10−6に おけるTrue Accept Rate R : prob set と 1M distractorを使う
  • 19.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 まとめ • メトリックラーニングを用いた顔認識モデルモ デルの一つ – Sofmax-loss の拡張 • Additive Angular Margin Loss (ArcFace)を提案 – 正解クラスの場合、角度空間にマージンを追加 • 先行研究に比べて高精度を記録
  • 20.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 論文発表後の発展 (コンペ) • Kaggle Happywhale – Whale and Dolphin Identification (2022年 2-4月) – クジラやイルカの写真を用いた個体識別のコンペ – Preferred Networks のチームが優勝[7] • ArcFaceの拡張である dynamic margin ArcFace で1st • 上位解法のほとんどがArcFaceを使用 [7] Kaggle Happywhale – Whale and Dolphin Identificationで優勝&10位でソロ金メダルを獲得しました, https://tech.preferred.jp/ja/blog/kaggle-happywhale-1st-10th-solution/
  • 21.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 論文発表後の発展 (論文) • Sub-center ArcFace[8] – ノイズの多いデータへの対策 • dynamic margin ArcFace[9] – Google Landmark Recognition 2020 Competitionで 3位の解法 – クラスのサンプル数の偏りを考慮 [8] Deng, Jiankang, et al. "Sub-center arcface: Boosting face recognition by large-scale noisy web faces." European Conference on Computer Vision. Springer, Cham, 2020. [9] Ha, Qishen et al. “Google Landmark Recognition 2020 Competition Third Place Solution.” ArXiv abs/2010.05350, 2020.

Editor's Notes

  • #6 入力画像 (Anchor) Positive Negative 3枚組でEmbedding空間に配置。
  • #7 開集合顔認識 は ポーズ変動や年齢差も含む
  • #12 次の式で使用するため単純に分離
  • #13 次の式で使用するため単純に分離
  • #14 直接的に角度空間でマージンを加算。 正解クラスに対応するlogitsの値は小さくする必要あるため、モデルが頑張ってxのクラス内分散を小さくする sはlogitsの値が小さすぎるとsoftmaxが機能しなくなるために調整している。
  • #15 直接的に角度空間でマージンを加算。 正解クラスに対応するlogitsの値は小さくする必要あるため、モデルが頑張ってxのクラス内分散を小さくする sはlogitsの値が小さすぎるとsoftmaxが機能しなくなるために調整している。
  • #17 Resnet50: 8.9 ms/face ResNet100: 15.4 ms/face