CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Маслович

CV в пайплайне распознавания
ценников товаров
Трюки и хитрости
Николай Маслович, Metacommerce, 2020

2011 — год основания
107 сотрудников
2 офиса (Россия, Европа)
Резидент IT-кластера
Фонда «Сколково»
Мультиканальный мониторинг
ассортимента и цен
Создано с содействием инвестиций
Фонда развития интернет-инициатив
Собираем в день 3,6 терабайт
сырых данных о 100 млн. товаров
Нам доверяют
О компании
2

Про меня
3
● CV & ML специалист в R&D отделе
● 1.5 года
● НИТУ МИСиС: Прикладная Математика
@maslovich

Про задачи
4
Проблематика мониторинга цен продуктового ритейла:
● 100 товарных позиций в день с помощью блокнота и ручки
● 100% ручной мониторинг
● 200 – 300 ценников в день с человека
● Полностью ручной ввод в систему ценообразования
● Ошибки ручного поиска товаров

Про задачи
5
Результат работы R&D отдела по автоматизации:
● 12 000 ценников в день на человека
● Полный контроль качества исполнения
● Качество распознавания 99%+
● Удешевление процессов в 7 раз

Как мы это сделали
Детекция Сегментация Распознавание
6
Пайплайн

Наше окружение
torch
cv2
tf
pandas
jupyter
flask
numpy
server
docker
.deb
7

Работа на сервере
Как разрабатывать код и обучать модели на
локальном сервере?
8

Работа на сервере
9

Если нет своего сервера...
● Vast.ai https://vast.ai
Цены заметно ниже, чем на amazon, google
Максимально простое использование
Дорогой трафик
10

Executable python
● click module https://click.palletsprojects.com
● jobs | disown
● screen, tmux https://help.ubuntu.ru/wiki/screen,
https://linuxize.com/post/getting-started-with-tmux/
● Прогресс-бары https://github.com/tqdm/tqdm
11
Как создавать скрипты с CLI и запускать без
остановки после разрыва ssh?

Чтение и сохранение данных
Как быстро и просто хранить и обрабатывать
данные?
12

● pathlib.Path вместо os
Стандартная библиотека в
python >= 3.4
13

● ujson вместо json
https://pypi.org/project/ujson/
14

● ilio вместо with open
https://github.com/gowhari/ilio
15

● Используйте turbojpeg для открытия и
сохранения jpeg
17

Сравнение opencv и turbojpeg на чтении
# turbo
Total time: 26.819
Avg. time: 0.001788
# cv2
Total time: 45.458
Avg. time: 0.003031
18

● Храните табличные данные в parquet
формате для экономии места.
19

https://towardsdatascience.com/the-best-f
ormat-to-save-pandas-data-414dca023e0d
20

● Для хранения большого числа файлов
используйте шардинг
21
folder/abcdef.jpg folder/a/b/c/abcdef.jpg

Слишком много кода!
Это всё конечно хорошо, но...
22

Организация кода
Как разрабатывать код в команде без
копипаста и боли?
23
● python-package и установка как гит-сабмодуль.
● при разработке pip install -e submodule/

Организация кода
● Для кода всегда используйте git. Даже если вам нужна только “бэкап”
функциональность
● Никогда не используйте git для хранения датасетов
● Сформируйте .gitignore для всех ML-проектов и копипастьте его
● Не забывайте использовать info/exclude
● Всегда используйте только ssh подключения
24

Эксперименты
Как организовать код эксперимента, не
ограничивая гибкость и сохранить
воспроизводимость?
25

Эксперименты
● Cata... jupyter + .py
Код в PyCharm
Параметры в Jupyter с %autoreload
Свой велосипед лучше, если чаще всего вы меняете код, а не параметры.
26

А теперь про нейроночки
torch
cv2
tf
pandas
jupyter
flask
numpy
go
tf
torch
27

Чистка данных
Как без переразметки убрать часть ошибок в
разметке и улучшить скор?
28
4 6 0 7 0 6 4 2 2 1 4 5 5

1. Train
Обучаем модель на том, что есть. Если данных достаточно много, то
обучаем не боясь оверфита
29

1. Train
2. Peel
Выкидываем часть данных, на которых сеть показывает плохой
результат (например 5% квантиль или даже все с неидеальным скором)
30

1. Train
2. Peel
3. Repeat
Файнтюним / обучаем с нуля модель на новом датасете. Повторяем, пока
число примеров с плохим скором не перестанет значительно меняться /
качество на валидации станет падать.
Работает, если разметка имеет значительные изъяны, например
отсутствует часть последовательности
31

Про pytorch и подводные камни
32

● Denormal values
https://discuss.pytorch.org/t/conv2d-is-very
-slow-on-trained-weights-vs-random-weights/4337
7
33
%Total OwnTime TotalTime Function (filename:line)
80.00% 34.93s 34.93s forward (torch/nn/modules/conv.py:320)

● .pt vs .pth
● Saving optimizer
● Initialization
torch.save({
'epoch': epoch,
'model_state_dict': model.state_dict(),
'optimizer_state_dict':
optimizer.state_dict(),
'loss': loss,
...
}, PATH)
34
torch_utils.py

Маски для сегментатора
1. Генерация на лету vs чтение с диска
2. Если число классов <= 8, можно хранить в битах с помощью
np.(un)packbits
3. npz vs npy vs sparse
35
Хранить или создавать на лету? Если
хранить, то в чём?

“Липкая” сегментация
Объекты одного класса находятся близко
друг к другу
36

● Грубая сегментация:
Обвести сегмент через opencv черным цветом
На постпроцессинге увеличить размер bounding box-a
37

● Точная сегментация:
Прининцип watershed:
from scipy import ndimage as ndi
distance = ndi.distance_transform_edt(mask).astype(np.float32)
Нормируем на максимальное значение
mask = np.max(np.stack(distances), axis=0)
Подбираем пороговое значение на постпроцессинге, уменьшая пока не
появится слипание
38

Ground truth без трешхолда
“Умный” трешхолд
39

Пропущенная разметка в многоклассовой
сегментации
Как сказать нейросетке, чтобы она не училась
на ложно-отсутствующей разметке?
40

Пропущенная разметка в многоклассовой
сегментации
● Кастомный loss
В датагенераторе добавить к сэмплу маску индексов
Отобрать из предиктнутой маски и GT маски каналы для обучения
41

Секция про наш pipeline
torch
cv2
tf
pandas
jupyter
flask
numpy
go
tf
torch
Та самая SOTA с медиума
Конвейер
данных
42

Обучение на “больших данных”
★ Много ресурсов, мало профита
★ Систематические ошибки
★ Отбор лучшего решения
★ Устойчивость модели
43
● Noise - первое обучение
● Fine4Test - валидация
● Fine4Train - дообучение
● Устойчивые метрики

Разметка данных
Как просто и гибко размечать данные с
изображениями?
44

Разметка данных
● VIA (VGG Image
Annotator)
http://www.robots.ox.ac.uk/
~vgg/software/via/
● Файловый сервер
45

Шасси
● Uwsgi + flask (НЕ flask only)
https://uwsgi-docs.readthedocs.io/en/latest/,
https://flask.palletsprojects.com/
@before_first_request
47
На чем деплоить модели в прод?

Production Stories
OCR Detection
48

OCR Наименований товаров
● Что не зашло:
Tesseract – не справляется с текстом “in the wild”, только текст как
картинка/скан. Только консольный интерфейс
Google OCR – недостаточное качество. Систематические ошибки.
Возможные просадки качества. Дороговизна, даже с трюками
49

● Что не зашло:
AlexNet на стероидах с MSE-Loss
Обучение на малых и точных данных
50

● Что зашло:
ResNet-18-UNet и efficientNet-b3-UNet
GRCNN, T=3. 77 символов, 32x1600x3, 201 Ts
Отсутствие сложных замен символов
Levenshtein distance (Needleman–Wunsch algorithm)
https://en.wikipedia.org/wiki/Needleman–Wunsch_algorithm,
https://biopython.org
MSE + CTC magic
51

OCR: CTC
● 2 * n + 1
● Горизонтальная конкатенация и паддинг черным справа
● pytorch: collate_fn
● Грязная разметка работает
● Confidence: warp_ctc, CTCDecoder
https://github.com/SeanNaren/warp-ctc,
https://github.com/githubharald/CTCDecoder
● Best path decoding
52
https://www.youtube.com/watch?v=eYIL4TMAeRI

OCR: CTC
● Использовать confidence для пропуска ручной модерации
53

Production Stories
Detection OCR
54

Детекция ценников товаров
● FPN Mask-RCNN ResNet-50, custom anchors, 2 classes
● Пропуск всего трафика по избранным магазинам
● Tensorpack
https://github.com/tensorpack/tensorpack/tree/master/examples
/FasterRCNN
55

Спасибо за внимание
● Делитесь с коммьюнити своими трюками
● Участвуйте в обсуждениях в ODS Slack
● Дьявол в деталях
58

CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Маслович

Recommended

Recommended

More Related Content

Similar to CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Маслович

Similar to CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Маслович (20)

More from Mail.ru Group

More from Mail.ru Group (20)

CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Маслович