Определение атрибутов и визуальный поиск в UGC-фотографиях одежды / Дмитрий Соловьев (Mail.ru Group)

Определение атрибутов и
визуальный поиск в UGC-
фотографиях одежды
Дмитрий Соловьев, ведущий разработчик

Онлайн-продажи одежды
 Мировой оборот от онлайн продаж
одежды составляет примерно $100
миллионов в год,
 В конкурентной среде улучшение
качества обслуживания является
жизненно необходимым.
Понять, чего вы хотите достаточно тяжело
Но современные достижения в области
“Computer Vision” могут оказать нам помощь

Постановка задачи
Хотим:
Повысить качество рекомендаций через похожесть
Проблема
Нет метаданных для полнотекстового поиска,
можем использовать только контент: изображение
Причина:
Весь контент UGC – слабо аннотируется людьми
Будем принимать во внимание только визуальную
информацию: фотографии, загруженные человеком

Идея решения
• Каждое изображение представляем как вектор
𝑥 ∈ ℝn
( вектор признаков или эмбединг)
• Определяем меру близости для этих векторов
𝑀 ∶ ℝn × ℝn → ℝ (например, евклидово
расстояние)
• Изображение-запрос так же конвертируем в
вектор
• Осуществляем поиск в векторном пространстве,
используя меру 𝑀, по имеющейся базе
изображений
Фото одежды Вектор признаков
Алгоритм
База данных
Запрос
Топ ранки

Сверточная нейронная сеть (CNN)
CNN – суперпозиция
сверточных фильтров и
нелинейных функций…
CNN можно рассмотреть как
“black-box”, для которого мы
задаем данные и определяем
критерий для выхода.

Yosinski et al, “Understanding Neural Networks Through Deep Visualization”, ICML DL Workshop 2014.
Внутри CNN
Фильтры каждого
слоя CNN выделяют
определенные
паттерны.
 Границы
 Текстуры
 Части объектов
Layer1

Вектор признаков классификатора
Последний слой сети – признаки,
представляющие общие
концепты изображения, важные
для целевой задачи.
Датасет с хорошей
диверсификацией даст нам
хороший набор признаков
ImageNet – собран из более чем
миллиона изображений с
разделением на 1000 классов.

Используем признаки ImageNet
Используем последний слой
VGG19, обученной на ImageNet в
качестве вектора признаков
Ответ плохо соответствует
запросу (первая фотография)

Классификатор одежды
Для задачи нужны специфические признаки
CNN, обученная предсказывать атрибуты
одежды, будет иметь нужный нам вектор
признаков
Чем больше разных атрибутов, тем лучше
тип
воротника
вид рукава
талия
паттерн
материала

Данные для классификатора
Фотографии были собраны из известных онлайн-магазинов
Каждое изображение размечено четырьмя типами атрибутов:
collar, fit, pattern and sleeve. Внутри каждого атрибута категории
являются взаимоисключающими.
Датасет содержит примерно 200.000 изображений.

Базовая архитектура
Участники ILSVRC ежегодно
улучшают результат в задачах
распознавания.
Предложенные модели применимы
для других классов задач.
Transfer Learning позволяет
уменьшить количество данных.

ResNet
Каждый блок представляет функцию 𝑦 = 𝐹 𝑥 + 𝑥 и
учит разницу между входом и выходом
Такой подход позволяет тренировать сети более с чем
1000 слоями.
ResNet-101 имеет почти в три раза меньше параметров
чем VGG-19
K. He, X. Zhang, S. Ren è J. Sun, “Deep residual learning for image recognition”.

Тренируем классификатор
 Softmax для каждого атрибута
 ResNet-18
 200k фотографий в обучении

Сравнение результатов

Сравнение результатов (Авто)

Контент, созданный пользователем (UGC)
Пользователи фотографируют как
попало.
Нужна унификация.
Решение: локализация объектов.

Наивный подход к локализации
“Bounding box” описывается
четырьмя координатами.
Тренируем CNN, решая задачу
регрессии.

Недостатки наивного подхода
Наивный подход выдает
неаккуратный результат
Не решает задачу в случае: если на
фото нет одежды или более одной
персоны

Object Detection
Используем продвинутые подходы
нахождения всех интересующих
объектов на фото.
 region proposal based
(R-CNN)
 prior-boxes based
(YOLO, SSD)

Оценка методов
W. Liu, D. Anguelov, D. Erhan et. al., “Ssd: Single shot multibox detector”. Slides

Single Shot Multi-Box Detector
Feed-forward конволюционная сеть
Дополнительные структурные блоки
Использует набор предопределенных bounding boxes

SSD: идея
W. Liu, D. Anguelov, D. Erhan et. al., “Ssd: Single shot multibox detector”

Non-Maximum Suppression
IoU –
Intersection
over Union
1. Выбираем прямоугольник с
максимальным ранком класса
2. Откидываем все прямоугольники с
IoU > 0.7
3. Повторяем с шага 1.

Landmarks Detection
Для более точной локализации
можно определять опорные точки
(landmark)
В некоторых случаях выравнивание
объектов дает улучшение

Результат
• 50 асессоров, 20 запросов каждый
• 90% запросов содержат релевантный результат

Спасибо за внимание
d.soloviev@corp.mail.ru

Определение атрибутов и визуальный поиск в UGC-фотографиях одежды / Дмитрий Соловьев (Mail.ru Group)

Recommended

Recommended

More Related Content

Similar to Определение атрибутов и визуальный поиск в UGC-фотографиях одежды / Дмитрий Соловьев (Mail.ru Group)

Similar to Определение атрибутов и визуальный поиск в UGC-фотографиях одежды / Дмитрий Соловьев (Mail.ru Group) (20)

More from Ontico

More from Ontico (20)

Определение атрибутов и визуальный поиск в UGC-фотографиях одежды / Дмитрий Соловьев (Mail.ru Group)