Deep Learning и HPC
Буряк Дмитрий,
к.ф-м.н
МГУ им. М.В.Ломоносова
Исследовательская лаборатория LG Electronics
2
Размер задачи vs cложность НС
Размер задачи Сложность НС Вычислительные
ресурсы
~ 100K примеров
~ 100 классов
~10 слоев
~100K параметров
CPU,
Многопроцессорные
системы
3
Размер задачи vs cложность НС
Размер задачи Сложность НС Вычислительные
ресурсы
~ 100K примеров
~ 100 классов
~10 слоев
~100K параметров
CPU,
Многопроцессорные
системы
~10M примеров
~ 1000 классов
~ 50 слоев
~ 10M параметров
(Сверточные НС)
GPU, multi-GPU
системы
4
Классификация изображений
 ImageNet
http://image-net.org/challenges/LSVRC
 1.2M изображений (обучающая выборка)
 100K тестовых изображений
 1000 классов
 ILSVRC 2012
 Лучший результат: 15.3% (Top-5 error)
 Сверточная НС, 8 слоев, ~550K нейронов (A. Krizhevsky et al, 2012)
 ILSVRC 2015
 Большинство решений основаны на сверточных НС.
 Лучший результат: 4.49% (Top-5 error)
 Сверточная НС, 19 слоев, ~140М параметров (K. He et al, 2015)
5
Беспилотный автомобиль
 Dave-2 (NVIDIA)
https://blogs.nvidia.com/blog/2016/05/06/self-driving-cars-3/
 Обучение на действиях водителя
 Управление на основе данных с одной
камеры
 Архитектура НС
 27М связей
 250К параметров
6
Размер задачи vs cложность НС
Размер задачи Сложность НС Вычислительные
ресурсы
~ 100K примеров
~ 100 классов
~10 слоев
~100K параметров
CPU,
Многопроцессорные
системы
~10M примеров
~ 1000 классов
~ 50 слоев
~ 10M параметров
(Сверточные НС)
GPU, multi-GPU
системы
~ 1000M примеров
~ 10K классов
~ 10Mлрд
параметров
(Большие, глубокие
НС)
Высокопроизводите-
льные
вычислительные
системы (HPC)
7
НС для анализа базы YFCC100M
 99M изображений;
 793K видео
 База изображений и видео YFCC100M
 K. Ni et al, 2015
 Глубокая НС, 15Млрд параметров
 Edge HPC кластер в LLNL(Lawrence
Livermore National Laboratory):
- 206 узлов (Intel Xeon EP X5660, Tesla M2050 (Fermi) NVIDIA GPU)
- обучение проводилось на 96 узлах
- длительность обучения - 8 дней.
8
LBANN toolkit (B.V.Essen et al, 2015)
 Построение оптимального признакового пространства для
представления изображений
197K – X – 197K
 НС с 78.6Млрд параметров
 Суперкомпьютер Catalyst, 324x24Xeon EP X5660
 Использует библиотеку матричных операций Elemental
 Масштабирование параллельной реализации (strong, weak scaling)
 Ускорение обучения больших НС на HPC
 Нехватка средств разработки больших НС на HPC
9
Deep Learning и HPC
 Эффективные алгоритмы обучения
 Прогнозирование времени
выполнения НС
Эффективная реализация глубоких НС с использованием HPC
 Эффективность вычислений глубоких НС
 Анализ архитектуры глубоких НС
 Автоматизированное построение глубоких НС
 Восстановление доминирующих обобщенных образов сверточной НС
(M.Zeiler et al., 2011, 2013)
 Оптимизация архитектуры сверточной НС

Нейронные сети в высокопроизводительных вычислениях

  • 1.
    Deep Learning иHPC Буряк Дмитрий, к.ф-м.н МГУ им. М.В.Ломоносова Исследовательская лаборатория LG Electronics
  • 2.
    2 Размер задачи vscложность НС Размер задачи Сложность НС Вычислительные ресурсы ~ 100K примеров ~ 100 классов ~10 слоев ~100K параметров CPU, Многопроцессорные системы
  • 3.
    3 Размер задачи vscложность НС Размер задачи Сложность НС Вычислительные ресурсы ~ 100K примеров ~ 100 классов ~10 слоев ~100K параметров CPU, Многопроцессорные системы ~10M примеров ~ 1000 классов ~ 50 слоев ~ 10M параметров (Сверточные НС) GPU, multi-GPU системы
  • 4.
    4 Классификация изображений  ImageNet http://image-net.org/challenges/LSVRC 1.2M изображений (обучающая выборка)  100K тестовых изображений  1000 классов  ILSVRC 2012  Лучший результат: 15.3% (Top-5 error)  Сверточная НС, 8 слоев, ~550K нейронов (A. Krizhevsky et al, 2012)  ILSVRC 2015  Большинство решений основаны на сверточных НС.  Лучший результат: 4.49% (Top-5 error)  Сверточная НС, 19 слоев, ~140М параметров (K. He et al, 2015)
  • 5.
    5 Беспилотный автомобиль  Dave-2(NVIDIA) https://blogs.nvidia.com/blog/2016/05/06/self-driving-cars-3/  Обучение на действиях водителя  Управление на основе данных с одной камеры  Архитектура НС  27М связей  250К параметров
  • 6.
    6 Размер задачи vscложность НС Размер задачи Сложность НС Вычислительные ресурсы ~ 100K примеров ~ 100 классов ~10 слоев ~100K параметров CPU, Многопроцессорные системы ~10M примеров ~ 1000 классов ~ 50 слоев ~ 10M параметров (Сверточные НС) GPU, multi-GPU системы ~ 1000M примеров ~ 10K классов ~ 10Mлрд параметров (Большие, глубокие НС) Высокопроизводите- льные вычислительные системы (HPC)
  • 7.
    7 НС для анализабазы YFCC100M  99M изображений;  793K видео  База изображений и видео YFCC100M  K. Ni et al, 2015  Глубокая НС, 15Млрд параметров  Edge HPC кластер в LLNL(Lawrence Livermore National Laboratory): - 206 узлов (Intel Xeon EP X5660, Tesla M2050 (Fermi) NVIDIA GPU) - обучение проводилось на 96 узлах - длительность обучения - 8 дней.
  • 8.
    8 LBANN toolkit (B.V.Essenet al, 2015)  Построение оптимального признакового пространства для представления изображений 197K – X – 197K  НС с 78.6Млрд параметров  Суперкомпьютер Catalyst, 324x24Xeon EP X5660  Использует библиотеку матричных операций Elemental  Масштабирование параллельной реализации (strong, weak scaling)  Ускорение обучения больших НС на HPC  Нехватка средств разработки больших НС на HPC
  • 9.
    9 Deep Learning иHPC  Эффективные алгоритмы обучения  Прогнозирование времени выполнения НС Эффективная реализация глубоких НС с использованием HPC  Эффективность вычислений глубоких НС  Анализ архитектуры глубоких НС  Автоматизированное построение глубоких НС  Восстановление доминирующих обобщенных образов сверточной НС (M.Zeiler et al., 2011, 2013)  Оптимизация архитектуры сверточной НС