Яндекс.Дзен — сервис персональных рекомендаций, который агрегирует новости и медийный контент с большого количества сайтов, а также позволяет авторам делать публикации напрямую в платформу. На всех этапах построения рекомендаций, от сбора контента и его фильтрации до ранжирования, используется машинное обучение. В наших рекомендательных алгоритмах используется два основных типа сигналов: обратная связь пользователей и семантическая близость контента. В докладе мы разберём несколько необычных примеров учёта этих сигналов: как использовать модели со скрытыми переменными для текстов в матричных разложениях, и как правильно формировать факторы на их основе; как учитывать клики пользователей с помощью систем спортивных рейтингов; как совмещать явный и неявный пользовательский фидбек.
6. Факторы
• Показы, клики, CTR по всем пользователям
• Лайки, дизлайки, блокировки по всем пользователям
• Ранжирование по CTR — достаточно сильный алгоритм
7.
8.
9. Проблемы CTR
• Проблема кликбейта
• Кликовые факторы и кликовая
целевая переменная мешают
находить закономерности в других
группах факторов
• Утечка значимости факторов в CTR’ы
• …но если не учитывать фидбэк, то
большая аудитория не даёт
конкурентного преимущества
11. TrueSkill
• Система вычисления рейтингов
• Соревнование: две статьи, которые оказались соседями в выдаче
• Победила та статья, по которой был клик
• Позволяет быстро выяснить кликабельность новой статьи по её
соревнованиям со старыми статьями
• Позволяет переносить статистику с популярных статей на
непопулярные
15. Явный фидбэк
• Явные сигналы могут противоречить кликам
• Пример: сайт с некачественной мобильной версией
• Модель не учитывает факторы по
лайкам/дизлайкам/блокировкам, нет ощущения управляемости
16. Явный фидбэк
• Вариант 1: большие веса для кликов/некликов, по которым имеет
явный фидбэк
• Вариант 2: переход к вещественной целевой переменной
• Вариант 3: отбор кандидатов только на основе контентных
факторов и явного фидбэка
• Вариант 4: отдельная модель для каждого типа фидбэка
• Как принимать такие эксперименты?
21. Сложности масштабирования Дзена
• Мало пользовательского фидбека
• Документы на разных языках
• Пользовательские интересы сильно варьируются по странам
22. Сложности масштабирования Дзена
• Мало пользовательского фидбека
• Документы на разных языках
• Пользовательские интересы сильно варьируются по странам
• Время жизни документа в ленте рекомендаций 3-5 дней
29. Контентные факторы
• Разные векторные представления текста: LDA, w2v и др.
• Разный пользовательский фидбек: клики, лайки, дизлайки
• Разные части документа: заголовок, сниппет, текст
31. Контентные факторы v2.0
• Представления для документов учатся независимо от представлений пользователей
32. Контентные факторы v2.0
• Представления для документов учатся независимо от представлений пользователей
• При обучении представлений не используется знание о поведении пользователей в ленте
33. Контентные факторы v2.0
• Представления для документов учатся независимо от представлений пользователей
• При обучении представлений не используется знание о поведении пользователей в ленте
• Разные виды контента: URL, картинки, видео, html и т.д.
34.
35. Резюме
• Глобальные кликовые факторы — много качества и высокий риск
переобучения
• Существуют методы для быстрого переноса кликовой статистики на
новые и непопулярные документы
• Учёт явного фидбэка — много вариантов и сложности с приёмкой
• Хорошие масштабируемые факторы получаются на основе
представлений слов и текстов
• Представления и SVD позволяют совместить контентную и кликовую
информацию
esky@yandex-team.ru
tddy@yandex-team.ru