ВИДЫ	НЕЙРОННЫХ	
СЕТЕЙ	И	ИХ	
ПРИМЕНЕНИЕ	
Ефремова	Наталия
N-TechLab
Введение
Основные	области	применения	DeepLearning архитектур:		
• обработка	изображений	и	видео,	
• распознавание	образов,
• распознавание	лиц,	
• распознавание	эмоций,
• робототехника,
• игры,	
• распознавание	образов	в	медицинских	приложениях	и	т.п.
Структура	доклада
• Что	такое	нейронные	сети:
• биологические
• искусственные
• Какие	архитектуры	в	каких	областях	применяются:
• нейронные	сети свёртки	(CNN)
• рекуррентные	нейронные	сети	(RNN)
• обучение	с	подкреплением
• Нестандартное	применение	нейронных	сетей
Нейронные сети:
что это такое
Биологические	НС
«что?»Ungerleider	and	Mishkin (1982)
Goodale	and	Milner	(1992)
«где?»
Биологические	НС
Primary	
Visual	
Cortex
Inferotemporal	
Cortex
Posterior	Parietal	
Cortex
LGN
Retina
SC
Pulv
LGN	-lateral	geniculate	nucleus
Pulv	- pulvinar
SC	- superior	colliculusGoodale	and	Humphrey	(1998)
Hubel	and	Wiesel	(1968)
стимул
отклик клетки при
изменении ориентации
стимула
активация
V1
Свойства	рецептивных	полей
Kobatake,	Tanaka	(1995)
Обработка	изображений:	биологические	НС
IT V2-V4 V1
простые	
признакиточки
ориентация,	
цвет
цвет,	
основные	
2D	и	3D	
формы,	
кривизна
сложные	
признаки	и	
объекты
Свойства	зрительных	зон
сложные	фигуры	и	
объекты
f
T
E
Перcептрон…простейший	аналог	
биологической	НС
входной	слой
слой	скрытых	нейронов
выходной	слой
входной	слой
слои	скрытых	нейронов
выходной	слой
Fischler and Elschlager, 1973
FACE
X W Y
X”*”W	=	Y
2”*”W	=	6
Error	=	2”*”W	- 6
Error
Time
1 2 3 4 5 6 7
Error	=	|2*w	– 6| =	0,001
W	=	2.9999?
Перерисовать! 7	скрытых	слоев,	
650	000	нейронов,
60	000	000	параметров
Обучалась	на	2	GPU	неделю
Распознавание образов до 2010 года:
самые большие базы изображений
PASCAL	VOC
(20	категорий)
CALTECH	101
(101 категория)
От	20	классов	к	миллионам
14,197,122	изображений
22К	категорий
www.image-net.org
От	20	классов	к	миллионам
14,197,122	изображений
22К	категорий
www.image-net.org
От	20	классов	к	миллионам
2016	competition	winner:
269	layer	R-CNN	network
Gated	Bi-directional	CNN	for	Object	Detection
X.Zeng et	al.,		The	Chinese	University	of	Hong	Kong,	Sensetime Group
Архитектура
Input
Simple	
features
More	
abstract	
features
Mapping	
from	
features
Output
(Goodfellow, 2016)
input to layer
a
a. convolution stage: affine transform
b. detector stage: non-linearity (rectified linear)
c. pooling
b c
next layerconvolutional layer
convolution pooling convolution pooling
полносвязные слои
прогноз
Распознавание
входное	изображение
convolution pooling convolution pooling
полносвязные слои
прогноз
Распознавание
входное	изображение
feedforward
M.Zieler,	CVSS	2015
convolution pooling convolution pooling
полносвязные слои
прогноз
Распознавание
входное	изображение
H.Lee et	al.,	2011
Человек	все	равно	распознает	лучше?
Cadieu et	al.,	2014
IT	cortex
V4
Zeiler&Fergus	2013
Krizhevsky	et	al.	2012
HMO
Acuracy	
chance
Cadieu et	al.,	2014
Классические
задачи
Стандартные	задачи,	решаемые	CNN
• идентификация	объектов	(object	detection)	
• семантическая	сегментация	(semantic	segmentation)	
• распознавание	лиц	(face	recognition)
• распознавание	частей	тела	человека	(human	body	parts	recognition)
• семантическое	определение	границ	(semantic	boundary	detection)	
• выделение	объектов	внимания	(saliency	estimation)
• выделение	нормалей	к	поверхности	(surface	normal	estimation)
(Kokkinos,	 2016)
Классические	задачи	для	CNN
q low-
q mid-
q high-
level	vision	tasks
(Kokkinos,	 2016)
Классические	задачи	для	CNN
Поиск	по	базе	данных
БД
Имя/
Профиль
Сценарии
идентификация
? ?
верификация
NTechLab
q 95%	- точность	идентификации	при	поиске	по	10K фото		
q 99%	- точность верификации
q устойчивость	к	изменениям
Точность
NTechLab
q 95%	- точность	идентификации	при	поиске	по	10K фото		
q 99%	- точность верификации
q устойчивость	к	изменениям
Точность
NTechLab
q 0,5	сек	на	обработку	1	млрд	фото		
q уникальный	индекс	быстрого	поиска	
q дескриптор	использует	20	Гб	памяти	для	хранения	500	млн	фото
q работа	с	изображениями	низкого	качества
q 95%	- точность	идентификации	при	поиске	по	10K фото		
q 99%	- точность верификации
q устойчивость	к	изменениям
Производительность
Точность
NTechLab
q 0,5	сек	на	обработку	1	млрд	фото		
q уникальный	индекс	быстрого	поиска	
q дескриптор	использует	20	Гб	памяти	для	хранения	500	млн	фото
q работа	с	изображениями	низкого	качества
q 95%	- точность	идентификации	при	поиске	по	10K фото		
q 99%	- точность верификации
q устойчивость	к	изменениям
q загрузка фото	через	web-интерфейс,	Android	или	iOS	
q 250	млн	фото	100	млн	пользователей
q первое	место	на	MefaFace
Производительность
Точность
MegaFace	
FindFace.ru
Рекуррентные	сети
q RNN: распознавание	естественного	языка	
q Обработка	видео	
q Новый	подход:	распознавание	изображений
Рекуррентные	сети
Рекуррентные	сети	для	распознавания	
эмоций	на	видео
Kahou	et	al.,	2015
input
Hidden	
layer
Output
Обучение	с	подкреплением
q Робототехника
q Atari
q AlphaGo
Andrej	Karpathy	blog	(2016)
V.	Mnih 2015
J.Leitner (2014)
Levine	et.	al(2016)
Нестандартные
решения
Прогнозирование	уровня
бедности
M.Xie	et	al.,	2016
Семантическая	сегментация	
3D-изображений
(Kamnitsas et	al.	2016)
Семантическая	сегментация	
3D-изображений
Спасибо
за внимание!
www.ntechlab.ru
www.findface.pro
www.findface.ru
n.efremova@ntechlab.com
Ссылки:
www.theguardian.com
www.nvidia.com
www.image-net.org
Blaise Agüera y Arcas:How computers are
learning to be creative (TED talk)
Вопросы?

Нейронные сети: практическое применение / Наталия Ефремова (NTechLab)