Настоящее и будущее
рекомендательных систем
Михаил Ройзнер
amazon.com 3
foursquare.com 4
facebook.com 5
Ты помнишь, как всё
начиналось…
7
Netflix Prize
〉 2006–2009
〉 100 млн оценок
〉 Задача: улучшить качество
предсказания оценки пользователя
на 10%
〉 $1 000 000
netflixprize.com 8
Похожим пользователям — похожие фильмы
9
Похожим пользователям — похожие фильмы
9
Стражи

галактики
Вася ?
Похожим пользователям — похожие фильмы
9
Стражи

галактики
Вася ?
Катя
Люди 

Икс
Мстители Железный 

человек
Капитан 

Америка
Света
Маша
Петя
4
3
5
5
4
4
5
4
5
4
4
4
4
4
5
5
5
4
3 5
Похожим пользователям — похожие фильмы
9
Стражи

галактики
Вася
Катя
Люди 

Икс
Мстители Железный 

человек
Капитан 

Америка
Света
Маша
Петя
4
3
5
5
4
4
5
4
5
4
4
4
4
4
5
5
5
4
3 5 4.6
Singular Value Decomposition (SVD)
10
≈
Users
Movies
×
Users
Movies
d
d
U IR
Композиции алгоритмов
11
User-based Item-based SVD RBM
X
k
↵kfk
netflixprize.com 12
netflixprize.com 12
netflixprize.com 12
Выводы из Netflix Prize
13
Выводы из Netflix Prize
〉 Новые методы, такие как SVD и RBM, работают лучше
стандартных корреляционных моделей.
13
Выводы из Netflix Prize
〉 Новые методы, такие как SVD и RBM, работают лучше
стандартных корреляционных моделей.
〉 Алгоритмы можно объединять в композиции.
13
Выводы из Netflix Prize
〉 Новые методы, такие как SVD и RBM, работают лучше
стандартных корреляционных моделей.
〉 Алгоритмы можно объединять в композиции.
〉 Самые точные методы оказались слишком сложны 

для масштабирования и внедрения.
13
Выводы из Netflix Prize
〉 Новые методы, такие как SVD и RBM, работают лучше
стандартных корреляционных моделей.
〉 Алгоритмы можно объединять в композиции.
〉 Самые точные методы оказались слишком сложны 

для масштабирования и внедрения.
〉 Качество рекомендаций зависит не только от качества
предсказания оценок, но и от других характеристик.
13
Качество рекомендаций
RMSE
Метрика
http://research.microsoft.com/pubs/115396/evaluationmetrics.tr.pdf 15
RMSE
Метрика
http://research.microsoft.com/pubs/115396/evaluationmetrics.tr.pdf 15
RMSE
Метрика
http://research.microsoft.com/pubs/115396/evaluationmetrics.tr.pdf 15
NDCG Precision/Recall
Оригинальность
Властелин колец
16
Крестный отецМатрица
Разнообразие
iPhone 6 Black 64Gb
17
iPhone 6 Silver 64GbiPhone 6 Black 16Gb
Новизна
Doom
18
Age of EmpiresCarmagedon
Доверие
19
Три неизвестных альбома
Объяснение рекомендаций
SVD помогает объяснять рекомендации
22
i1, i2) = cos ↵ =
hi1, i2i
ki1kki2k
sim(i1, i2) = cos ↵ =
hi1, i2i
ki1kki2k
sim(i1, i2) = cos ↵ =
hi1, i2i
ki1kki2k
sim(i1, i2) = cos ↵ =
hi1, i2i
ki1kki2k
item 1
item 2
Метаинформация
Pandora
〉 Music Genome Project
〉 450 атрибутов треков
〉 20–30 минут на один трек
24
István Pilászy, Domonkos Tikk, 2009
http://dl.acm.org/citation.cfm?id=1639731
Recommending New Movies:
Even a Few Ratings
Are More Valuable
Than Metadata
Метаинформация в SVD
26
items
users
tags

pseudo-users
Контекст
Контекстные рекомендации
28
Контекстные рекомендации
28
Время суток
Контекстные рекомендации
Местоположение
28
Время суток
Контекстные рекомендации
Местоположение
28
ПогодаВремя суток
Контекст в SVD — тензорные разложения
29
Users
Items Context
Контекст в SVD — тензорные разложения
29
Users
Items Context U
I
C
d
d
Context
Items
Users
d
Контекст в SVD — тензорные разложения
29
Users
Items Context bruic =
dX
k=1
ukikckU
I
C
d
d
Context
Items
Users
d
Дополнительные источники
данных
Spotify
〉 Анализ аудиосигнала треков
〉 Извлечение атрибутов с помощью
свёрточных нейронных сетей
http://benanne.github.io/2014/08/05/spotify-cnns.html 31
eBay
〉 Фотографии из блогов о моде
〉 Распознавание предметов одежды
〉 Модель сочетаемости одежды
по её характеристикам
http://arxiv.org/abs/1401.1778 32
eBay
〉 Фотографии из блогов о моде
〉 Распознавание предметов одежды
〉 Модель сочетаемости одежды
по её характеристикам
http://arxiv.org/abs/1401.1778 32
YouTube
〉 Тематическое моделирование
по текстовым данным
〉 Поисковые запросы, описания
роликов, комментарии
〉 Вовлеченность пользователей
увеличилась на 80%
http://dl.acm.org/citation.cfm?id=2623344 33
YouTube
〉 Тематическое моделирование
по текстовым данным
〉 Поисковые запросы, описания
роликов, комментарии
〉 Вовлеченность пользователей
увеличилась на 80%
http://dl.acm.org/citation.cfm?id=2623344 33
Внешние и внутренние данные в одной модели
34
items
users
words
items
1 1 1
1 11
1 11
Внешние и внутренние данные в одной модели
34
items
users
words
items
1 1 1
1 11
1 11
SVD
Внешние и внутренние данные в одной модели
34
items
users
words
items
1 1 1
1 11
1 11
SVD LDA
Внешние и внутренние данные в одной модели
34
items
users
words
items
1 1 1
1 11
1 11
SVD LDA
Будущее рекомендаций
Знания о пользователях
36
Знания о пользователях
36
Социальные сети
Знания о пользователях
Телефоны
36
Социальные сети
Знания о пользователях
Телефоны
36
Носимые устройстваСоциальные сети
Идеальные рекомендации
37
Идеальные рекомендации
37
Точные
Идеальные рекомендации
37
Точные Понятные
Идеальные рекомендации
37
Точные Понятные Полезные
Спасибо!
Михаил Ройзнер
Руководитель группы разработки рекомендательных систем
Контакты
@mroizner
roizner@yandex-team.ru

Настоящее и будущее рекомендательных систем. Михаил Ройзнер