Опыт моделеварения от команды ComputerVision Mail.ru

Опыт моделеварения от команды
ComputerVision Mail.ru
Тянтов Эдуард

edges object parts (combination of edges) object models

Решаем задачи компьютерного зрения в Mail.Ru
– Облако
– Vision b2b
– Почта
– …
Проекты

Сервис для хранения и обработки фотографий
– 60 миллиардов
– «Умная» обработка
Cases: Cloud

Face & Landmark
Recognition
Cases: Cloud

1. Постановка задачи
2. Данные
3. Обучение
4. Inference
План

Постановка задачи

Как поставишь – так и поплывет
Постановка

В AI-продуктах
– Нельзя описать словами, что нужно
– Не формочка на сайте
Особенности постановки

Задача
Различать людей по лицу
Вроде все понятно, скорее делать?
Пример: Face Recognition

Проблемы
– Разные национальности
– Рисованные персонажи
– Дети
– На чем нельзя фолзить?
– …
Пример: Face Recognition

– Общаться с продактом на данных
• в идеале – тест-сет
– Постановка – совместная работа ML + Product
• Иначе => куча итераций переделок
Постановка AI-продукта

Постановка задачи – ваша ответственность,
пока вы не научите продакта
AI-продукты

– Data is fuel
– Clean Data!
Что с данными ?

Data + Model + Clustering = Clean Data
How to make it clean

Face
Detection Pick
largest
FR+
Clustering
Cleaning algorithm
1.Face detection2.Face recognition -> embeddings3.Hierarchical clustering algorithm4.Pick the largest cluster as a personIterate after each model improvement
HowTo: clean

Class 5
Поиск по картинке
– Набрали классы по косвенным признакам
– Семантически похожи
Class 1 Class 2
Class 3
HowTo: merge
Class 4

...
Плохое качество embedding’а
из-за дублей
HowTo: merge
Search NN
Task Embedding
Metric
Learning
200k classses
…

...
Clustering
Dataset
HowTo: merge
Trained NN
…
Merging

Hierarchical clustering: CLink
– Задаем порог дистанции
– Сферические кластера
– O(n2)
Clustering Algorithms

Loop: model Data
Основное

– Неограниченные данные
– Но надо пилить
Generators

PIL – самый удобный для OCR
+ Шрифты, цвета
- CPU intensive (3-5s per batch)
Generator: PIL

– Opensource
– Отличное PythonAPI
– Rendering: Ray Tracing
– Модели:
– $$
– или сgpeers.com =)
Generator: Blender

1. Metric Learning
Обучение: план

Goal: discriminative embeddings space
– Naïve way: Softmax
too close
Metric learning

Стягивает точки к центру кластера
Metric learning: center loss

||X||= 1
||W||= 1
b=0
Angular Softmax

To enforce
larger angle
Angular Softmax

Variations
– CosFace
– ArcFace (SOTA)
Angular Softmax: better

CNN 128 floats
Embedding
Softmax Cross
Entropy
Metric learning: Arcface
20 13
Classify
10
9
Scores
20

– ArcFace > Center loss, Triplet, …
– ArcFace легко интегрируется с Softmax
– Улучшает классификацию
Metric learning: bottom line

1. Metric Learning
2. Transfer learning

Image search
– Transfer learning from OpenImages
Query Results
Transfer learning: example

Search NN
Task Embedding
Arcface
200k classses
…
– Metric learning from OpenImages-pretrained
Transfer learning example

В процессе обучения модель забывает классы OI
Query Results

Search NN
Task Embedding
Frozen OI NN
OI Embedding
Embedding
Arcface
200k classses
…
…
…
OI class scores
BCE
Transfer with Knowledge distillation

Query Results

Результаты
– Сеть учит семантический embedding
– Не забывает классы OpenImages
Model mAP
Arcface 92.8
+Knowledge Distil 93.8
(+1%)
Transfer with Knowledge distillation

1. Metric Learning
3. Auxiliary heads

Доп. головы дают доп. сигнал сети
CNN
Embedding
… Person
… Age
… Eye color
Auxiliary heads

Доп. голова:
голова
AP: 73.5 -> 74%
Auxiliary heads: example

Detection
Penguins
Can
FlyRecognition
Pengulns
OCR: recognition

Pengulns -> Penguins ?
Как встроить знания про N-граммы и слова языка в модель ?
OCR: recognition

Byte Pair Encoding
– Алгоритм компрессии
– Частые последовательности заменяются на токены

Byte Pair Encoding
aaabdaaabac

Byte Pair Encoding
aaabdaaabac
ZabdZabac Z=aa

Byte Pair Encoding
aaabdaaabac
ZabdZabac
ZYdZYac
Z=aa
Y=ab

Byte Pair Encoding
aaabdaaabac
ZabdZabac
ZYdZYac
XdXac
Статистические зависимости символов
Z=aa
Y=ab
X=ZY

Pengulns
Hidden states
RNNFully CNN
CTC
RNN2 + attention
Hidden states
predict BPE
l -> i
WER: -0.25%
Penguins
OCR: доп. голова
Peng_ul_ns
Pen_gu_ins
≠

– Доп. головы полезны для вашего здоровья
– Выкидываются при inference
Auxiliary heads: bottom line

1. Metric Learning
3. Auxiliary heads
4. FP16

FP16 Training: gradients
FP32: распределение магнитуды градиентов при обучении SSD (Nvidia)

FP16: Mixed precision training

– Кастомная сборка Pytorch с Apex
– Использовать Automatic Mixed Precision
• FP16_Optimizer – больше контроля, гемора и только Adam
…
FP16 Training

0 100 200 300 400 500 600
Inference
Training
Tesla T4, Resnet50, 64 batch
FP16+Apex FP16 FP32
Результаты
– Качество обучения не страдает
– Ускорение: 2x
– 20% от Apex на обучении
ms
FP16 Training

Options:
– ONNX -> Caffe2
– ONNX -> TensorRT
– Now: Pytorch C++
We use PyTorch
– How to deploy ?
Frameworks

Это боль!
– Отставание версий от pytorch
– Только nearest_neighbor interpolation (upsampling)
– Фиксированный батч
ONNX + Caffe2

– До 100% ускорения на FP16 vs Pytorch
0
0.5
1
1.5
2
2.5
3
3.5
Pytorch TensorRT
Resnet 101, batch=128 (Tesla T4)
FP32 FP16
ms/msg
TensorRT

– Еще больше проблем, чем c Caffe2
– Для Turing карт стоит того
TensorRT

- Бывают баги с производительностью
- Не хватает документации
+ Идентичная работа питону
Pytorch C++ / TorchScript

– Постановка
– На данных, тест-сет, работаем вместе с продактом
Recap

– Данные
– Чистим кластеризацией (CLink)
Recap

– Данные
– Обучение
– Metric learning: Arcface
– Knowledge distillation for Transfer learning
– Multi-head
– FP16 Apex
Recap

– Данные
– Обучение
– Metric learning: Arcface
– Knowledge distillation for Transfer learning
– Multi-head
– FP16 Apex
– Inference
– Pytorch C++
Recap

Опыт моделеварения от команды ComputerVision Mail.ru

More Related Content

Similar to Опыт моделеварения от команды ComputerVision Mail.ru

More from Eduard Tyantov

Опыт моделеварения от команды ComputerVision Mail.ru

Editor's Notes