Опыт моделеварения от команды ComputerVision Mail.ru

Опыт моделеварения от команды
ComputerVision Mail.ru
Тянтов Эдуард

edges object parts (combination of edges) object models

Решаем задачи компьютерного зрения в Mail.Ru
– Облако
– Vision b2b
– Почта
– …
Проекты

Сервис для хранения и обработки фотографий
– 60 миллиардов
– «Умная» обработка
Cases: Cloud

Face & Landmark
Recognition
Cases: Cloud

1. Постановка задачи
2. Данные
3. Обучение
4. Inference
План

Постановка задачи

Как поставишь – так и поплывет
Постановка

В AI-продуктах
– Нельзя описать словами, что нужно
– Не формочка на сайте
Особенности постановки

Задача
Различать людей по лицу
Вроде все понятно, скорее делать?
Пример: Face Recognition

Проблемы
– Разные национальности
– Рисованные персонажи
– Дети
– На чем нельзя фолзить?
– …
Пример: Face Recognition

– Общаться с продактом на данных
• в идеале – тест-сет
– Постановка – совместная работа ML + Product
• Иначе => куча итераций переделок
Постановка AI-продукта

Постановка задачи – ваша ответственность,
пока вы не научите продакта
AI-продукты

– Data is fuel
– Clean Data!
Что с данными ?

Data + Model + Clustering = Clean Data
How to make it clean

Face
Detection Pick
largest
FR+
Clustering
Cleaning algorithm
1.Face detection2.Face recognition -> embeddings3.Hierarchical clustering algorithm4.Pick the largest cluster as a personIterate after each model improvement
HowTo: clean

Class 5
Поиск по картинке
– Набрали классы по косвенным признакам
– Семантически похожи
Class 1 Class 2
Class 3
HowTo: merge
Class 4

...
Плохое качество embedding’а
из-за дублей
HowTo: merge
Search NN
Task Embedding
Metric
Learning
200k classses
…

...
Clustering
Dataset
HowTo: merge
Trained NN
…
Merging

Hierarchical clustering: CLink
– Задаем порог дистанции
– Сферические кластера
– O(n2)
Clustering Algorithms

Loop: model Data
Основное

– Неограниченные данные
– Но надо пилить
Generators

PIL – самый удобный для OCR
+ Шрифты, цвета
- CPU intensive (3-5s per batch)
Generator: PIL

– Opensource
– Отличное PythonAPI
– Rendering: Ray Tracing
– Модели:
– $$
– или сgpeers.com =)
Generator: Blender

1. Metric Learning
Обучение: план

Goal: discriminative embeddings space
– Naïve way: Softmax
too close
Metric learning

Стягивает точки к центру кластера
Metric learning: center loss

||X||= 1
||W||= 1
b=0
Angular Softmax

To enforce
larger angle
Angular Softmax

Variations
– CosFace
– ArcFace (SOTA)
Angular Softmax: better

CNN 128 floats
Embedding
Softmax Cross
Entropy
Metric learning: Arcface
20 13
Classify
10
9
Scores
20

– ArcFace > Center loss, Triplet, …
– ArcFace легко интегрируется с Softmax
– Улучшает классификацию
Metric learning: bottom line

1. Metric Learning
2. Transfer learning

Image search
– Transfer learning from OpenImages
Query Results
Transfer learning: example

Search NN
Task Embedding
Arcface
200k classses
…
– Metric learning from OpenImages-pretrained
Transfer learning example

В процессе обучения модель забывает классы OI
Query Results

Search NN
Task Embedding
Frozen OI NN
OI Embedding
Embedding
Arcface
200k classses
…
…
…
OI class scores
BCE
Transfer with Knowledge distillation

Query Results

Результаты
– Сеть учит семантический embedding
– Не забывает классы OpenImages
Model mAP
Arcface 92.8
+Knowledge Distil 93.8
(+1%)
Transfer with Knowledge distillation

1. Metric Learning
3. Auxiliary heads

Доп. головы дают доп. сигнал сети
CNN
Embedding
… Person
… Age
… Eye color
Auxiliary heads

Доп. голова:
голова
AP: 73.5 -> 74%
Auxiliary heads: example

Detection
Penguins
Can
FlyRecognition
Pengulns
OCR: recognition

Pengulns -> Penguins ?
Как встроить знания про N-граммы и слова языка в модель ?
OCR: recognition

Byte Pair Encoding
– Алгоритм компрессии
– Частые последовательности заменяются на токены

Byte Pair Encoding
aaabdaaabac

Byte Pair Encoding
aaabdaaabac
ZabdZabac Z=aa

Byte Pair Encoding
aaabdaaabac
ZabdZabac
ZYdZYac
Z=aa
Y=ab

Byte Pair Encoding
aaabdaaabac
ZabdZabac
ZYdZYac
XdXac
Статистические зависимости символов
Z=aa
Y=ab
X=ZY

Pengulns
Hidden states
RNNFully CNN
CTC
RNN2 + attention
Hidden states
predict BPE
l -> i
WER: -0.25%
Penguins
OCR: доп. голова
Peng_ul_ns
Pen_gu_ins
≠

– Доп. головы полезны для вашего здоровья
– Выкидываются при inference
Auxiliary heads: bottom line

1. Metric Learning
3. Auxiliary heads
4. FP16

FP16 Training: gradients
FP32: распределение магнитуды градиентов при обучении SSD (Nvidia)

FP16: Mixed precision training

– Кастомная сборка Pytorch с Apex
– Использовать Automatic Mixed Precision
• FP16_Optimizer – больше контроля, гемора и только Adam
…
FP16 Training

0 100 200 300 400 500 600
Inference
Training
Tesla T4, Resnet50, 64 batch
FP16+Apex FP16 FP32
Результаты
– Качество обучения не страдает
– Ускорение: 2x
– 20% от Apex на обучении
ms
FP16 Training

Options:
– ONNX -> Caffe2
– ONNX -> TensorRT
– Now: Pytorch C++
We use PyTorch
– How to deploy ?
Frameworks

Это боль!
– Отставание версий от pytorch
– Только nearest_neighbor interpolation (upsampling)
– Фиксированный батч
ONNX + Caffe2

– До 100% ускорения на FP16 vs Pytorch
0
0.5
1
1.5
2
2.5
3
3.5
Pytorch TensorRT
Resnet 101, batch=128 (Tesla T4)
FP32 FP16
ms/msg
TensorRT

– Еще больше проблем, чем c Caffe2
– Для Turing карт стоит того
TensorRT

- Бывают баги с производительностью
- Не хватает документации
+ Идентичная работа питону
Pytorch C++ / TorchScript

– Постановка
– На данных, тест-сет, работаем вместе с продактом
Recap

– Данные
– Чистим кластеризацией (CLink)
Recap

– Данные
– Обучение
– Metric learning: Arcface
– Knowledge distillation for Transfer learning
– Multi-head
– FP16 Apex
Recap

– Данные
– Обучение
– Metric learning: Arcface
– Knowledge distillation for Transfer learning
– Multi-head
– FP16 Apex
– Inference
– Pytorch C++
Recap

Опыт моделеварения от команды ComputerVision Mail.ru

Recommended

Recommended

More Related Content

Similar to Опыт моделеварения от команды ComputerVision Mail.ru

Similar to Опыт моделеварения от команды ComputerVision Mail.ru (20)

More from Eduard Tyantov

More from Eduard Tyantov (9)

Опыт моделеварения от команды ComputerVision Mail.ru

Editor's Notes