ML on the Edge - Highload++ Siberia 2019

ML on the Edge
Андрей Татаринов (Epoch8)

Intro
• Epoch8
– Команда заказной разработки ML-решений
• Задачи
– CV
– NLP

Типичные CV-задачи
• Классификация изображений
• Детекция объектов на изображении
• Извлечение признаков
• Хорошие задачи для DNN

ЗАДАЧА ЗАКАНЧИВАЕТСЯ
ВНЕДРЕНИЕМ

«ДЛЯ ВНЕДРЕНИЯ NN НУЖНЫ GPU»

GPU – это дорого
• Для облака:
– $1000/мес – одна машина
• Для self-hosting:
– ~$1000-1500/host, если начинать с consumer-
class железа
– Страшные цифры, если server-class

АЛЬТЕРНАТИВЫ GPU В PROD ЕСТЬ

Почему GPU нужен для NN?
• Любой курс ML начинается с «вам
обязательно понадобится GPU»

Почему GPU нужен для NN?
• Типичная NN: ResNet50
– 30M параметров
– 50 слоев
• Прямой проход:
– 4GFLOPs (224*224px)
• Обучение:
– Градиентный спуск в 30М-мерном пространстве
– Миллионы шагов
– Очень много compute!

Inference != Train
• 1 раз на 1 изображение
• Все еще десятки миллионов операций
• Но уже появляются опции

CPU – кейсы
• Внедрение в существующую
инфраструктуру
– Hadoop-кластер
– Много рабочих станций
– Закрытый ДЦ

Как сравнивать скорость GPU и CPU
• GPU – это тысячи медленных ядер с быстрой памятью
• Ядро CPU быстрее, чем ядро GPU
• GPU выигрывает за счет агрессивной параллельности
• Если задача меньше, чем ресурсы GPU
недоутилизированы
• 100% утилизация GPU достигается за счет больших
батчей

• CPU – несколько мощных general purpose
ядер
• Батч размера 1 полностью утилизирует весь
процессор
• Батч размера 10 в 10 раз дольше

GPU vs CPU. ResNet50
Batch size GPU (Nvidia 1080) CPU (core i7)
1 20ms 128ms
5 24ms 727ms
10 42ms 1.6s

• Часто в прикладных задачах batch size = 1
• GPU менее эффективен
• CPU не так медленно работает
• Инференс в ~100мс/запрос – ок

Как внедряться на CPU
• Если Linux+Docker
– Все хорошо
– Можно воспроизвести окружение, идентичное
исследовательскому
– Все работает без изменений
• Если нет Docker (например Hadoop или Windows)
– Сложнее
– Упаковать Py Science-стек в single binary довольно сложно

Как внедряться без docker
• Монолит на Golang / C++
• Удобно внедрять – нет зависимостей
• Сложно переносить сложные модели

Как перенести NN на другую
платформу
• Сконвертировать модель (если требуется) –
легко
• Синхронизировать логику подготовки и
обработки результатов – сложно

Inference Pipeline
Preprocess
(Py)
Inference
(NN)
Postprocess
(Py)

Inference Pipeline: классификация
Preprocess
~10 LoC
Inference
Postprocess
~10 LoC

Inference Pipeline: детекция
Preprocess
~10 LoC
Inference
Postprocess
200+ LoC

Inference Pipeline: детекция

Синхронизация кода – сложно
• Синхронизация кода между исследовательским окружением и
боевым – сложная задача
• Пример про Лего
– Хорошо работает в исследовании – 80% recall на конкретный класс
– Плохо работает в приложении – 30% recall на тот же класс
• Оказалось:
– Мобильный разработчик «оптимизировал» код, обрабатывал только
топ-100 самых уверенных bbox из 3500

Синхронизация кода – сложно
• Решение: локализовать ответственность в
одной команде
• Научили datascience-команду писать на
golang / Swift

CPU – итого
• Пока инференс на 1-10 кадров/секунду –
все хорошо

Honorable mentions
• Intel Cascade Lake (Xeon Platinum 92xx)
• Non-Nvidia GPU
– Radeon – Tensorflow ROCm
– Intel HD – OpenVino

Inference без GPU
• CPU
• Mobile

Mobile
• Во многих телефонах встроен NN-ускоритель
– iPhone 7 и выше
– Флагманские Android (например S9, S10, Pixel)
• Доступом к ускорителю управляет фреймворк
– CoreML – iPhone
– Android NNAPI – Android (обычно не используется напрямую)
• ML Kit (TF Lite) – кроссплатформенное решение

CoreML vs ML Kit
CoreML ML Kit (TF Lite)
• Cross platform
• Практически весь набор
операторов TF
• Нет гарантии ускорения,
возможен фолбэк на CPU в
некоторых случаях
• iOS only
• Ограниченный (но
достаточно широкий)
набор операций
• Гарантированное
ускорение, если
сконвертировалось

Mobile – iPhone
• Достаточно быстрый инференс
ResNet50 performance (batch size = 1):
Nvidia 1080 iPhone X
20ms ~100ms

Mobile – нюансы
• Мобильные не предназначены для пиковой
нагрузки
– Если inference 100ms, это не значит, что можно
бесконечно обрабатывать 10 кадров в секунду
• Сильно греется и быстро расходуется батарея: 1-2
часа
• Через несколько минут пиковой нагрузки OS
начинает throttling
• Сложная синхронизация кода

Mobile – нюансы: медленный CPU
• Если сложный pre-/postprocessing –
медленно
• Пример:
– U-net для instance segmentation и
постобработка на CPU с поиском связных
компонент

Mobile – итого
• Хорошее аппаратное ускорение, сравнимое
с desktop-GPU
• CPU – узкое место
• Синхронизация кода между
исследовательским и боевым окружением

• CPU
• Mobile
• Edge HW

Внедрение «в поля»
• Нет ничего
• Обработка видео с локальной камеры
• Максимально дешево
Задачи:
• Захват видео
• Транскодирование / хранение
• ML – обработка

Внедрение «в поля»
• Desktop + GPU: ~$1000
• Дорого

Edge HW
• Google Edge TPU
• Nvidia Jetson Nano

Google Edge TPU
• Лидер в Edge inference
Нюансы:
• Компилятор моделей – в облаке Google
• Недоступен в России

Nvidia Jetson Nano
• Devboard
– RPi
– NN GPU

Nvidia Jetson Nano – нюансы
• Большой разброс в зависимости от способа
запуска
– ~1-2fps TF
– ~20-25fps TF-TensorRT
– ~65fps Nvidia C++ implementation with TensorRT

Nvidia Jetson Nano
• Дешевый = $99
• Комфортная среда исполнения
– Ubuntu Linux + TF
• Достаточно памяти
• Слабый процессор
• Лучший выбор для IoT

• CPU
• Mobile
• Edge HW
• Misc

Micro HW
• Sipeed K210
– $10
– 6Mb NN
– 30fps

Browser
• ONNX.js
• Tensorflow.js
• WebDNN

Итого
• Запуск в бой без больших GPU возможен
• Cluster/Legacy – CPU
• Mobile – CoreML/TF Lite
• Edge – спец. железо

ML on the Edge - Highload++ Siberia 2019

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ML on the Edge - Highload++ Siberia 2019

Similar to ML on the Edge - Highload++ Siberia 2019 (20)

More from Andrey Tatarinov

More from Andrey Tatarinov (7)

ML on the Edge - Highload++ Siberia 2019