08
Распознавание лиц с помощью
глубоких нейронных сетей
Сергей Миляев, ведущий исследователь VisionLabs
AVITO DATA SCIENCE MEETUP: COMPUTER VISION
28.10.2017
08
Верификация (1:1)
Идентификация (1:N)
Основные задачи распознавания лиц
08
Этапы распознавания лица
f( ) = di
Sij
= k(di
,dj
)
S( ) = 0.05
S( ) = 6.67
1. Детектирование лица 2. Выравнивание лица 3. Извлечение
дескриптора
4. Вычисление
схожести
08
Оценка качества распознавания лиц
True Positive Rate:
TPR = correct_positive / all_positive
False Positive Rate:
TPR = wrong_positive / all_negative
08
Самая известная база тестирования распознавания лиц
Labelled faces in the wild: A database for studying face recognition in unconstrained environments, Huang G. B.
et al., Technical Report 07-49, 2007
Более 13 тысяч фото знаменитостей собранных с
интернета
Тестовая выборка: фиксированные 3000 положительных и
3000 отрицательных пар фото, разбитых равномерно на
10 частей, кросс-валидация.
Несколько протоколов тестирования:
Дальнейшее развитие - YouTube Faces Dataset (Face Recognition in Unconstrained Videos with Matched Background Similarity, L. Wolf et
al., CVPR 2011)
08
Контролируемые и неконтролируемые условия
Labelled Faces in the Wild
08
Распознавание лиц как задача классификации
DeepFace: Closing the Gap to Human-Level Performance in Face Verification, Y. Taigman et al., CVPR 2014
Взвешенная схожесть χ2
:
08
Обучающая выборка: Facebook Social Face Classification
dataset, 4.4 млн. картинок 4030 людей
LFW ROC LFW accuracy
YouTube Faces accuracy
08
Deep Learning Face Representation from Predicting 10,000 Classes, Y. Sun et al., CVPR 2014
Патчи нескольких масштабов
08
Обучающая выборка: CelebFaces, 87628 изображений 5436 людей и авторское расширение до 202599 изображений 10177 людей
08
Deep Learning Face Representation by Joint Identification-Verification, Y. Sun et al., NIPS 2014
08
Эволюция архитектур глубоких нейронных сетей
ImageNet top-5 classification error, %
Very Deep Convolutional Networks for Large-Scale Image Recognition, K. Simonyan et al., ICLR 2015
Going Deeper with Convolutions, C. Szegedy et al., CVPR 2015
Deep Residual Learning for Image Recognition, K. He et al., CVPR 2016
08
Очень глубокие нейронные сети для распознавания лиц
FaceNet: A Unified Embedding for Face Recognition and Clustering, F. Shroff et al., CVPR 2015
08
Обучающая выборка: более 200 млн. изображений 8
млн. людей
Собственный валидационный
набор
08
Deep Face Recognition, O. Parkhi et al., BMVC 2015
1. Собрали свою базу для обучения распознавания
2. Используют архитектуру VGG-16 для обучения дескрипторов.
3. Делают предварительное обучение сети на задачу классификации
4. Добавляют слой L2 нормализации и embedding-слой, который потом обучают на триплетах
08
LFW accuracy
YouTube Faces accuracy
08
Обучение дискриминативных признаков
A Discriminative Feature Learning Approach for Deep Face Recognition, Y. Wen et al., ECCV 2016
08
MNIST features
08
SphereFace: Deep Hypersphere Embedding for Face Recognition, W. Liu et al., CVPR 2017
Решающая граница класса 1: Решающая граница класса 2:
08
08
08
LFW YouTube Faces
08
Результаты VisionLabs на LFW
08
NIST Ongoing Face Recognition Vendor Test (FVRT)
● Независимый тест систем распознавания лиц Национального института
стандартов и технологий США
● Начиная с 2017 года проводится на постоянной основе.
● Тестовые данные зафиксированы в различных условиях.
● Для участия в тесте необходимо отправить программу, отвечающую
требованиям теста.
● Участники не имеют никакого доступа к тестовым данным.
● На текущий момент оценивается только верификация.
08
Результаты VisionLabs на NIST FVRT
08
08
08
Заключение по нашему решению
1. У парных функций потерь появилась хорошая альтернатива - задача
на классификацию, но с требованиями на дискриминативность
обучаемых представлений.
2. Хорошие архитектуры (residual blocks) для ImageNet обычно
применимы и для улучшения распознавания лиц, но стоит
экспериментировать.
3. В распознавании лиц важность данных, архитектуры сети и функции
потерь при обучении одинакова.
4. Максимальная производительность достигается с использованием
собственной оптимизированной библиотеки для нейронных сетей
(VisionLabs FLOWER).
08
Спасибо за внимание!
Сергей Миляев
ведущий исследователь VisionLabs
s.milyaev@visionlabs.ru
visionlabs.ai

Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)

  • 1.
    08 Распознавание лиц спомощью глубоких нейронных сетей Сергей Миляев, ведущий исследователь VisionLabs AVITO DATA SCIENCE MEETUP: COMPUTER VISION 28.10.2017
  • 2.
  • 3.
    08 Этапы распознавания лица f() = di Sij = k(di ,dj ) S( ) = 0.05 S( ) = 6.67 1. Детектирование лица 2. Выравнивание лица 3. Извлечение дескриптора 4. Вычисление схожести
  • 4.
    08 Оценка качества распознаваниялиц True Positive Rate: TPR = correct_positive / all_positive False Positive Rate: TPR = wrong_positive / all_negative
  • 5.
    08 Самая известная базатестирования распознавания лиц Labelled faces in the wild: A database for studying face recognition in unconstrained environments, Huang G. B. et al., Technical Report 07-49, 2007 Более 13 тысяч фото знаменитостей собранных с интернета Тестовая выборка: фиксированные 3000 положительных и 3000 отрицательных пар фото, разбитых равномерно на 10 частей, кросс-валидация. Несколько протоколов тестирования: Дальнейшее развитие - YouTube Faces Dataset (Face Recognition in Unconstrained Videos with Matched Background Similarity, L. Wolf et al., CVPR 2011)
  • 6.
  • 7.
    08 Распознавание лиц какзадача классификации DeepFace: Closing the Gap to Human-Level Performance in Face Verification, Y. Taigman et al., CVPR 2014 Взвешенная схожесть χ2 :
  • 8.
    08 Обучающая выборка: FacebookSocial Face Classification dataset, 4.4 млн. картинок 4030 людей LFW ROC LFW accuracy YouTube Faces accuracy
  • 9.
    08 Deep Learning FaceRepresentation from Predicting 10,000 Classes, Y. Sun et al., CVPR 2014 Патчи нескольких масштабов
  • 10.
    08 Обучающая выборка: CelebFaces,87628 изображений 5436 людей и авторское расширение до 202599 изображений 10177 людей
  • 11.
    08 Deep Learning FaceRepresentation by Joint Identification-Verification, Y. Sun et al., NIPS 2014
  • 12.
    08 Эволюция архитектур глубокихнейронных сетей ImageNet top-5 classification error, % Very Deep Convolutional Networks for Large-Scale Image Recognition, K. Simonyan et al., ICLR 2015 Going Deeper with Convolutions, C. Szegedy et al., CVPR 2015 Deep Residual Learning for Image Recognition, K. He et al., CVPR 2016
  • 13.
    08 Очень глубокие нейронныесети для распознавания лиц FaceNet: A Unified Embedding for Face Recognition and Clustering, F. Shroff et al., CVPR 2015
  • 14.
    08 Обучающая выборка: более200 млн. изображений 8 млн. людей Собственный валидационный набор
  • 15.
    08 Deep Face Recognition,O. Parkhi et al., BMVC 2015 1. Собрали свою базу для обучения распознавания 2. Используют архитектуру VGG-16 для обучения дескрипторов. 3. Делают предварительное обучение сети на задачу классификации 4. Добавляют слой L2 нормализации и embedding-слой, который потом обучают на триплетах
  • 16.
  • 17.
    08 Обучение дискриминативных признаков ADiscriminative Feature Learning Approach for Deep Face Recognition, Y. Wen et al., ECCV 2016
  • 18.
  • 19.
    08 SphereFace: Deep HypersphereEmbedding for Face Recognition, W. Liu et al., CVPR 2017 Решающая граница класса 1: Решающая граница класса 2:
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
    08 NIST Ongoing FaceRecognition Vendor Test (FVRT) ● Независимый тест систем распознавания лиц Национального института стандартов и технологий США ● Начиная с 2017 года проводится на постоянной основе. ● Тестовые данные зафиксированы в различных условиях. ● Для участия в тесте необходимо отправить программу, отвечающую требованиям теста. ● Участники не имеют никакого доступа к тестовым данным. ● На текущий момент оценивается только верификация.
  • 25.
  • 26.
  • 27.
  • 28.
    08 Заключение по нашемурешению 1. У парных функций потерь появилась хорошая альтернатива - задача на классификацию, но с требованиями на дискриминативность обучаемых представлений. 2. Хорошие архитектуры (residual blocks) для ImageNet обычно применимы и для улучшения распознавания лиц, но стоит экспериментировать. 3. В распознавании лиц важность данных, архитектуры сети и функции потерь при обучении одинакова. 4. Максимальная производительность достигается с использованием собственной оптимизированной библиотеки для нейронных сетей (VisionLabs FLOWER).
  • 29.
    08 Спасибо за внимание! СергейМиляев ведущий исследователь VisionLabs s.milyaev@visionlabs.ru visionlabs.ai