1 
2014.12.6 
第26回 コンピュータビジョン勉強会@関東 ECCV2014読み会 
Facial Landmark Detection 
by Deep Multi-task Learning 
Zhanpeng Zhang, Ping Luo, Chen Change Loy, Xiaoou Tang 
The Chinese University of Hong Kong 
笹尾幸良 Yukiyoshi Sasao (紹介者) 
@poyy
2 
Summary 
目的:顔画像の5点の位置を得る(顔特徴点検出:Facial Landmark Detection) 
主目的 
補助的なタスク 
(性別とか顔向き) 
情報も用いて 
一緒に学習する 
Deep CNN + Multi-Task Learning (タスク毎の停止条件付き) 
によって、少ないNN-layer数で高精度,隠れに強い顔特徴点検出を実現
3 
著者(研究室) 紹介1 
香港中文大学 
The Chinese University of Hong Kong / Multimedia Laboratory 
Xiaogang Wang 
Deep Learning を人・顔などの認識に応用 
ECCV2014 : 10papers accepted 
CVPR2014 : 12papers accepted
4 
著者(研究室) 紹介2 
顔認識ベンチマーク Labeled Faces in the Wild でNo.1精度 
人が実施した精度 (Human performance) 
Facebook
5 
顔特徴点検出の先行研究 
● Regression-based method 
Valstar, M., Martinez, B., Binefa, X., Pantic, M.: 
Facial point detection using boosted regression 
and graph models. In: CVPR. pp. 2729-2736 (2010) 
回帰で、点の位置を直接求める 
● Template fitting method 
Cootes, T.F., Edwards, G.J., Taylor, C.J.: 
Active appearance models. 
PAMI 23(6), 681-685 (2001) 
位置や見た目のモデルをあてはめる 
● Cascaded CNN 
Sun, Y., Wang, X., Tang, X.: 
Deep convolutional network cascade 
for facial point detection. 
In: CVPR. pp. 3476-3483 (2013) 
同じ研究室の手法 
特徴点ごとに分割して段階的にCNNを適用. 
CNN数が多い. 23 CNNs. 
先行研究に対し,補助的なタスクを使うことと, 
Raw-pixel入力のCNNで,Cascadeせずに 
少ない処理時間で処理できることが特徴.
6 
メインTask と 補助Task 
w 
メインTask 
5点の2次元座標 (回帰) 
眼鏡をかけているか (識別) 
笑顔か (識別) 
性別 (識別) 
顔向き (識別) 
g
7 
目的関数 1 
● 一般的な Multi-Task Learning (MTL) 
各Task 各訓練サンプル 
正則化 
正解y 特徴量x, パラメータwによる関数 
各Taskの損失関数 
→ 全てのTaskの損失関数を平等に最適化
8 
● 本稿でのMTL 
目的関数 2 
各補助Task 
その補助Taskの重要度 
メインTask(顔特徴点検出)の損失補助Task(笑顔,眼鏡,..)の損失 
→ Taskごとに重要度λは異なる (λも学習) 
目的はあくまでメインTaskを最適化すること 
正則化 
の線形関数softmax関数 
実装は..
9 
全体構造 
TCDCN : Tasks-Constrained Deep Convolutional Network 
特徴量 
は共通 
Network (特徴抽出)は 
全Taskで共通 
各Taskで回帰
10 
CNNで抽出した特徴量 
・学習した特徴量を可視化すると.. 
似たような顔向き、顔属性の入力に対し 
同じような特徴量を抽出できている 
→ 顔向き・顔属性にロバストな特徴空間
11 
学習方法: 
一般的な確率的勾配降下法 (Stochastic Gradient Descent) 
例: 
Back propagation 特徴量のエラー = 全TaskのErrorを統合したもの 
収束するまで繰り返す
12 
Task-wise early stopping: 
Taskによって, 難易度, 収束率 (最適なパラメータまでのiteration数) は異なる 
例えば, 眼鏡のあり/なしは, 笑顔かどうか よりも簡単である 
そのTaskの最良の時を過ぎて学習を続けることは, 
メインTaskの学習を阻害することになりかねない 
→ Taskごとに, 最良の時に学習をstopする 
[最良の時]のcriterion 
閾値 
training-errorの傾向. 
直近k回のtraining-errorが 
急激に落ちていると, 
値は小さくなる → stop しない 
:補助Taskの重要度 
汎化性能. 
training-error に対する validation-error の率.
13 
結果 評価Dataset : AFLW 
評価Dataset : AFW 
失敗例
14 
評価(1) 各補助Taskの効果: 
学習画像として, 自ら用意した公開Dataset (MTFL) を使用 
評価Dataset : AFLW 
・全補助Taskを使用する(FLD+all)ことで, 従来(FLD)から失敗率を10%改善 
・補助Taskの中ではposeが最も寄与している
15 
評価(2) Smile, Poseの効果: 
評価Dataset : AFLW
16 
評価(3) Task-wise Early Stoppingの効果: 
補助Taskごとにstopすることで, 精度向上している
17 
評価(4) 他手法との比較 1 
Cascaded CNN と比較し, より少ない計算量で, 精度が良い 
CNN数処理時間 on Core i5 
Cascaded CNN 23 120 msec 
TCDCN 1 17 msec GPU 
→ 1.5 msec
18 
評価(4) 他手法との比較 2
19 
Demo 
http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html 
● Live Demo (exe, windows) 
● Multi-Task Facial Landmark (MTFL) dataset
まとめ 
● 異なる, だが少し関係するTaskとのjoint-learningによって, 
隠れや顔角度に頑強な顔特徴点検出を実現. 
20 
● Taskごとの早期停止スキームによってモデルを収束. 
● CNNをCascadeしないため高速. 
● 他の手法の初期位置推定としても使用可能. 
RCPR(Robust face landmark estimation under occlusion) 
を高精度化

Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

  • 1.
    1 2014.12.6 第26回コンピュータビジョン勉強会@関東 ECCV2014読み会 Facial Landmark Detection by Deep Multi-task Learning Zhanpeng Zhang, Ping Luo, Chen Change Loy, Xiaoou Tang The Chinese University of Hong Kong 笹尾幸良 Yukiyoshi Sasao (紹介者) @poyy
  • 2.
    2 Summary 目的:顔画像の5点の位置を得る(顔特徴点検出:FacialLandmark Detection) 主目的 補助的なタスク (性別とか顔向き) 情報も用いて 一緒に学習する Deep CNN + Multi-Task Learning (タスク毎の停止条件付き) によって、少ないNN-layer数で高精度,隠れに強い顔特徴点検出を実現
  • 3.
    3 著者(研究室) 紹介1 香港中文大学 The Chinese University of Hong Kong / Multimedia Laboratory Xiaogang Wang Deep Learning を人・顔などの認識に応用 ECCV2014 : 10papers accepted CVPR2014 : 12papers accepted
  • 4.
    4 著者(研究室) 紹介2 顔認識ベンチマーク Labeled Faces in the Wild でNo.1精度 人が実施した精度 (Human performance) Facebook
  • 5.
    5 顔特徴点検出の先行研究 ●Regression-based method Valstar, M., Martinez, B., Binefa, X., Pantic, M.: Facial point detection using boosted regression and graph models. In: CVPR. pp. 2729-2736 (2010) 回帰で、点の位置を直接求める ● Template fitting method Cootes, T.F., Edwards, G.J., Taylor, C.J.: Active appearance models. PAMI 23(6), 681-685 (2001) 位置や見た目のモデルをあてはめる ● Cascaded CNN Sun, Y., Wang, X., Tang, X.: Deep convolutional network cascade for facial point detection. In: CVPR. pp. 3476-3483 (2013) 同じ研究室の手法 特徴点ごとに分割して段階的にCNNを適用. CNN数が多い. 23 CNNs. 先行研究に対し,補助的なタスクを使うことと, Raw-pixel入力のCNNで,Cascadeせずに 少ない処理時間で処理できることが特徴.
  • 6.
    6 メインTask と補助Task w メインTask 5点の2次元座標 (回帰) 眼鏡をかけているか (識別) 笑顔か (識別) 性別 (識別) 顔向き (識別) g
  • 7.
    7 目的関数 1 ● 一般的な Multi-Task Learning (MTL) 各Task 各訓練サンプル 正則化 正解y 特徴量x, パラメータwによる関数 各Taskの損失関数 → 全てのTaskの損失関数を平等に最適化
  • 8.
    8 ● 本稿でのMTL 目的関数 2 各補助Task その補助Taskの重要度 メインTask(顔特徴点検出)の損失補助Task(笑顔,眼鏡,..)の損失 → Taskごとに重要度λは異なる (λも学習) 目的はあくまでメインTaskを最適化すること 正則化 の線形関数softmax関数 実装は..
  • 9.
    9 全体構造 TCDCN: Tasks-Constrained Deep Convolutional Network 特徴量 は共通 Network (特徴抽出)は 全Taskで共通 各Taskで回帰
  • 10.
    10 CNNで抽出した特徴量 ・学習した特徴量を可視化すると.. 似たような顔向き、顔属性の入力に対し 同じような特徴量を抽出できている → 顔向き・顔属性にロバストな特徴空間
  • 11.
    11 学習方法: 一般的な確率的勾配降下法(Stochastic Gradient Descent) 例: Back propagation 特徴量のエラー = 全TaskのErrorを統合したもの 収束するまで繰り返す
  • 12.
    12 Task-wise earlystopping: Taskによって, 難易度, 収束率 (最適なパラメータまでのiteration数) は異なる 例えば, 眼鏡のあり/なしは, 笑顔かどうか よりも簡単である そのTaskの最良の時を過ぎて学習を続けることは, メインTaskの学習を阻害することになりかねない → Taskごとに, 最良の時に学習をstopする [最良の時]のcriterion 閾値 training-errorの傾向. 直近k回のtraining-errorが 急激に落ちていると, 値は小さくなる → stop しない :補助Taskの重要度 汎化性能. training-error に対する validation-error の率.
  • 13.
    13 結果 評価Dataset: AFLW 評価Dataset : AFW 失敗例
  • 14.
    14 評価(1) 各補助Taskの効果: 学習画像として, 自ら用意した公開Dataset (MTFL) を使用 評価Dataset : AFLW ・全補助Taskを使用する(FLD+all)ことで, 従来(FLD)から失敗率を10%改善 ・補助Taskの中ではposeが最も寄与している
  • 15.
    15 評価(2) Smile,Poseの効果: 評価Dataset : AFLW
  • 16.
    16 評価(3) Task-wiseEarly Stoppingの効果: 補助Taskごとにstopすることで, 精度向上している
  • 17.
    17 評価(4) 他手法との比較1 Cascaded CNN と比較し, より少ない計算量で, 精度が良い CNN数処理時間 on Core i5 Cascaded CNN 23 120 msec TCDCN 1 17 msec GPU → 1.5 msec
  • 18.
  • 19.
    19 Demo http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html ● Live Demo (exe, windows) ● Multi-Task Facial Landmark (MTFL) dataset
  • 20.
    まとめ ● 異なる,だが少し関係するTaskとのjoint-learningによって, 隠れや顔角度に頑強な顔特徴点検出を実現. 20 ● Taskごとの早期停止スキームによってモデルを収束. ● CNNをCascadeしないため高速. ● 他の手法の初期位置推定としても使用可能. RCPR(Robust face landmark estimation under occlusion) を高精度化