Машинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов

Машинное обучение
в Дзене
Евгений Соколов
Дмитрий Ушанов

Фидбэк пользователя
• Клики
• Лайки, дизлайки, блокировки
• Время чтения статей
• Время просмотра карточки
• …

Факторы
• Показы, клики, CTR по всем пользователям
• Лайки, дизлайки, блокировки по всем пользователям
• Ранжирование по CTR — достаточно сильный алгоритм

Проблемы CTR
• Проблема кликбейта
• Кликовые факторы и кликовая
целевая переменная мешают
находить закономерности в других
группах факторов
• Утечка значимости факторов в CTR’ы
• …но если не учитывать фидбэк, то
большая аудитория не даёт
конкурентного преимущества

Пессимизация нежелательного контента
• Контентные классификаторы:
• Computer vision, Текстовые классификаторы
• Сбор асессорских оценок:
• Яндекс Толока, Amazon Mechanical Turk
• Метрики качества контента

TrueSkill
• Система вычисления рейтингов
• Соревнование: две статьи, которые оказались соседями в выдаче
• Победила та статья, по которой был клик
• Позволяет быстро выяснить кликабельность новой статьи по её
соревнованиям со старыми статьями
• Позволяет переносить статистику с популярных статей на
непопулярные

Явный фидбэк
• Явные сигналы могут противоречить кликам
• Пример: сайт с некачественной мобильной версией
• Модель не учитывает факторы по
лайкам/дизлайкам/блокировкам, нет ощущения управляемости

Явный фидбэк
• Вариант 1: большие веса для кликов/некликов, по которым имеет
явный фидбэк
• Вариант 2: переход к вещественной целевой переменной
• Вариант 3: отбор кандидатов только на основе контентных
факторов и явного фидбэка
• Вариант 4: отдельная модель для каждого типа фидбэка
• Как принимать такие эксперименты?

С чего начинаются рекомендации?

Сложности масштабирования Дзена
• Мало пользовательского фидбека

• Документы на разных языках

• Пользовательские интересы сильно варьируются по странам

• Пользовательские интересы сильно варьируются по странам
• Время жизни документа в ленте рекомендаций 3-5 дней

• Существуют разные виды контента:
• Тексты
• Картинки
• Видео
• Метаданные

Текстовые представления
• Sparse:
• Bag of words, Bag of n-grams, Skip-grams

• Sparse:
• Topic models:
• LDA, PLSA

• Sparse:
• Topic models:
• LDA, PLSA
• Neural Network Based:
• Word2vec, Paragraph2vec

Как объединить векторные
представления, полученные по
текстам и SVD?

Контентные факторы
Use text embeddings

Контентные факторы
• Разные векторные представления текста: LDA, w2v и др.
• Разный пользовательский фидбек: клики, лайки, дизлайки
• Разные части документа: заголовок, сниппет, текст

Как можно сделать лучше?

Контентные факторы v2.0
• Представления для документов учатся независимо от представлений пользователей

• При обучении представлений не используется знание о поведении пользователей в ленте

• При обучении представлений не используется знание о поведении пользователей в ленте
• Разные виды контента: URL, картинки, видео, html и т.д.

Резюме
• Глобальные кликовые факторы — много качества и высокий риск
переобучения
• Существуют методы для быстрого переноса кликовой статистики на
новые и непопулярные документы
• Учёт явного фидбэка — много вариантов и сложности с приёмкой
• Хорошие масштабируемые факторы получаются на основе
представлений слов и текстов
• Представления и SVD позволяют совместить контентную и кликовую
информацию
esky@yandex-team.ru
tddy@yandex-team.ru

Машинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов

Recommended

Recommended

More Related Content

What's hot

What's hot (11)

Similar to Машинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов

Similar to Машинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов (20)

More from AvitoTech

More from AvitoTech (20)

Машинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов