Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

2,561 views

Published on

This file explains "Facial Landmark Detection by Deep Multi-task Learning" in ECCV2014.
Its for the Computer Vision study conference in Tokyo.

Published in: Technology
  • Be the first to comment

Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

  1. 1. 1 2014.12.6 第26回 コンピュータビジョン勉強会@関東 ECCV2014読み会 Facial Landmark Detection by Deep Multi-task Learning Zhanpeng Zhang, Ping Luo, Chen Change Loy, Xiaoou Tang The Chinese University of Hong Kong 笹尾幸良 Yukiyoshi Sasao (紹介者) @poyy
  2. 2. 2 Summary 目的:顔画像の5点の位置を得る(顔特徴点検出:Facial Landmark Detection) 主目的 補助的なタスク (性別とか顔向き) 情報も用いて 一緒に学習する Deep CNN + Multi-Task Learning (タスク毎の停止条件付き) によって、少ないNN-layer数で高精度,隠れに強い顔特徴点検出を実現
  3. 3. 3 著者(研究室) 紹介1 香港中文大学 The Chinese University of Hong Kong / Multimedia Laboratory Xiaogang Wang Deep Learning を人・顔などの認識に応用 ECCV2014 : 10papers accepted CVPR2014 : 12papers accepted
  4. 4. 4 著者(研究室) 紹介2 顔認識ベンチマーク Labeled Faces in the Wild でNo.1精度 人が実施した精度 (Human performance) Facebook
  5. 5. 5 顔特徴点検出の先行研究 ● Regression-based method Valstar, M., Martinez, B., Binefa, X., Pantic, M.: Facial point detection using boosted regression and graph models. In: CVPR. pp. 2729-2736 (2010) 回帰で、点の位置を直接求める ● Template fitting method Cootes, T.F., Edwards, G.J., Taylor, C.J.: Active appearance models. PAMI 23(6), 681-685 (2001) 位置や見た目のモデルをあてはめる ● Cascaded CNN Sun, Y., Wang, X., Tang, X.: Deep convolutional network cascade for facial point detection. In: CVPR. pp. 3476-3483 (2013) 同じ研究室の手法 特徴点ごとに分割して段階的にCNNを適用. CNN数が多い. 23 CNNs. 先行研究に対し,補助的なタスクを使うことと, Raw-pixel入力のCNNで,Cascadeせずに 少ない処理時間で処理できることが特徴.
  6. 6. 6 メインTask と 補助Task w メインTask 5点の2次元座標 (回帰) 眼鏡をかけているか (識別) 笑顔か (識別) 性別 (識別) 顔向き (識別) g
  7. 7. 7 目的関数 1 ● 一般的な Multi-Task Learning (MTL) 各Task 各訓練サンプル 正則化 正解y 特徴量x, パラメータwによる関数 各Taskの損失関数 → 全てのTaskの損失関数を平等に最適化
  8. 8. 8 ● 本稿でのMTL 目的関数 2 各補助Task その補助Taskの重要度 メインTask(顔特徴点検出)の損失補助Task(笑顔,眼鏡,..)の損失 → Taskごとに重要度λは異なる (λも学習) 目的はあくまでメインTaskを最適化すること 正則化 の線形関数softmax関数 実装は..
  9. 9. 9 全体構造 TCDCN : Tasks-Constrained Deep Convolutional Network 特徴量 は共通 Network (特徴抽出)は 全Taskで共通 各Taskで回帰
  10. 10. 10 CNNで抽出した特徴量 ・学習した特徴量を可視化すると.. 似たような顔向き、顔属性の入力に対し 同じような特徴量を抽出できている → 顔向き・顔属性にロバストな特徴空間
  11. 11. 11 学習方法: 一般的な確率的勾配降下法 (Stochastic Gradient Descent) 例: Back propagation 特徴量のエラー = 全TaskのErrorを統合したもの 収束するまで繰り返す
  12. 12. 12 Task-wise early stopping: Taskによって, 難易度, 収束率 (最適なパラメータまでのiteration数) は異なる 例えば, 眼鏡のあり/なしは, 笑顔かどうか よりも簡単である そのTaskの最良の時を過ぎて学習を続けることは, メインTaskの学習を阻害することになりかねない → Taskごとに, 最良の時に学習をstopする [最良の時]のcriterion 閾値 training-errorの傾向. 直近k回のtraining-errorが 急激に落ちていると, 値は小さくなる → stop しない :補助Taskの重要度 汎化性能. training-error に対する validation-error の率.
  13. 13. 13 結果 評価Dataset : AFLW 評価Dataset : AFW 失敗例
  14. 14. 14 評価(1) 各補助Taskの効果: 学習画像として, 自ら用意した公開Dataset (MTFL) を使用 評価Dataset : AFLW ・全補助Taskを使用する(FLD+all)ことで, 従来(FLD)から失敗率を10%改善 ・補助Taskの中ではposeが最も寄与している
  15. 15. 15 評価(2) Smile, Poseの効果: 評価Dataset : AFLW
  16. 16. 16 評価(3) Task-wise Early Stoppingの効果: 補助Taskごとにstopすることで, 精度向上している
  17. 17. 17 評価(4) 他手法との比較 1 Cascaded CNN と比較し, より少ない計算量で, 精度が良い CNN数処理時間 on Core i5 Cascaded CNN 23 120 msec TCDCN 1 17 msec GPU → 1.5 msec
  18. 18. 18 評価(4) 他手法との比較 2
  19. 19. 19 Demo http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html ● Live Demo (exe, windows) ● Multi-Task Facial Landmark (MTFL) dataset
  20. 20. まとめ ● 異なる, だが少し関係するTaskとのjoint-learningによって, 隠れや顔角度に頑強な顔特徴点検出を実現. 20 ● Taskごとの早期停止スキームによってモデルを収束. ● CNNをCascadeしないため高速. ● 他の手法の初期位置推定としても使用可能. RCPR(Robust face landmark estimation under occlusion) を高精度化

×