Recsys.hse

Рекомендательные системы и
факторизационные модели
Михаил Ройзнер
23 апреля 2014 г.
2

План
Виды и области применения рекомендательные систем
Стандартные алгоритмы
Измерение качества рекомендаций
Направления развития
Бонус: тензорные разложения

И другие категории
Заведения на карте
Новости, статьи, сайты
Концерты, театры, выставки
Видео
Книги
Приложения
Игры
Путешествия
Социальные связи
. . .

Виды рекомендательных систем
Content-based
Пользователю рекомендуются объекты, похожие на те,
которые этот пользователь уже употребил.
Похожести оцениваются по признакам содержимого
объектов.
Сильная зависимость от предметной области, полезность
рекомендаций ограничена.
8

Content-based
объектов.
Коллаборативная фильтрация (Collaborative Filtering)
Для рекомендаций используется история оценок как
самого пользователя, так и других пользователей.
Более универсальный подход, часто дает лучший результат.
Есть свои проблемы (например, холодный старт).
8

Content-based
объектов.
Коллаборативная фильтрация (Collaborative Filtering)
Для рекомендаций используется история оценок как
самого пользователя, так и других пользователей.
Более универсальный подход, часто дает лучший результат.
Есть свои проблемы (например, холодный старт).
Гибридные системы
Сочетают оба подхода.
8

Коллаборативная фильтрация: формальная постановка
Имеется:
Пользователи (users, u ∈ U)
Объекты (items, i ∈ I)
События (events, (rui, u, i, . . .) ∈ D)
9

Имеется:
Требуется:
Предсказать предпочтение:
ˆrui = Predict(u, i, . . .) ≈ rui
9

Имеется:
Требуется:
Персональные рекомендации:
u → (i1, . . . , iK) = RecommendK(u, . . .)
9

Имеется:
Требуется:
Персональные рекомендации:
u → (i1, . . . , iK) = RecommendK(u, . . .)
Похожие объекты:
i → (i1, . . . , iM ) = SimilarM (i)
9

Netﬂix Prize
Рассвет рекомендательных систем — Netﬂix Prize1.
480 189 пользователей;
17 770 фильмов;
100 480 507 оценок {1, 2, 3, 4, 5};
задача: уменьшить RMSE (средне-квадратичное
отклонение) c 0.9514 до 0.8563 (на 10%);
2 октября 2006 — 21 сентября 2009;
1
www.netflixprize.com
10

Netﬂix Prize
Рассвет рекомендательных систем — Netﬂix Prize1.
480 189 пользователей;
17 770 фильмов;
100 480 507 оценок {1, 2, 3, 4, 5};
задача: уменьшить RMSE (средне-квадратичное
отклонение) c 0.9514 до 0.8563 (на 10%);
2 октября 2006 — 21 сентября 2009;
приз $1 000 000.
1
www.netflixprize.com
10

Memory-based
Кластеризация:
u ∈ F(u),
F(u) состоит из пользователей, “похожих” на u.
ˆrui =
1
|F(u)|
v∈F(u)
rvi
12

Memory-based
u ∈ F(u),
ˆrui =
1
|F(u)|
v∈F(u)
rvi
User-based:
ˆrui = ¯ru +
v∈Ui
sim(u, v)(rvi − ¯rv)
v∈Ui
sim(u, v)
12

Memory-based
u ∈ F(u),
ˆrui =
1
|F(u)|
v∈F(u)
rvi
User-based:
ˆrui = ¯ru +
v∈Ui
sim(u, v)(rvi − ¯rv)
v∈Ui
sim(u, v)
Item-based:
ˆrui = ¯ri +
j∈Iu
sim(i, j)(ruj − ¯rj)
j∈Iu
sim(i, j)
12

Memory-based
Виды функции sim(·, ·):
Корреляция:
sim(i, j) =
u∈Uij
(rui − ¯ri)(ruj − ¯rj)
u∈Ui
(rui − ¯ri)2
u∈Uj
(ruj − ¯rj)2
Косинус:
sim(i, j) =
u∈Uij
ruiruj
u∈Uij
r2
ui u∈Uij
r2
uj
13

Memory-based
Виды функции sim(·, ·):
Корреляция:
sim(i, j) =
u∈Uij
(rui − ¯ri)(ruj − ¯rj)
u∈Ui
(rui − ¯ri)2
u∈Uj
(ruj − ¯rj)2
Косинус:
sim(i, j) =
u∈Uij
ruiruj
u∈Uij
r2
ui u∈Uij
r2
uj
Проблемы:
холодный старт;
ресурсоемкость вычислений;
точность предсказаний.
13

Singular Value Decomposition
14

Сингулярное разложение матрицы:
A
n×m
= U
n×n
× Σ
n×m
× V T
m×m
,
U, V — ортогональные, Σ — диагональная:
UUT
= In, V V T
= Im,
Σ = diag λ1, . . . , λmin(n,m) , λ1 . . . λmin(n,m) 0.
14

A
n×m
= U
n×n
× Σ
n×m
× V T
m×m
,
UUT
= In, V V T
= Im,
Усеченное разложение ранга d:
λd+1, . . . , λmin(n,m) := 0,
A
n×m
= U
n×d
× Σ
d×d
× V
T
d×m
≈ A
14

A
n×m
= U
n×n
× Σ
n×m
× V T
m×m
,
UUT
= In, V V T
= Im,
Усеченное разложение ранга d:
λd+1, . . . , λmin(n,m) := 0,
A
n×m
= U
n×d
× Σ
d×d
× V
T
d×m
≈ A
A — наилучшее низкоранговое приближение:
A = arg min
B: rkB=d
||A − B||F
14

Singluar Value Decomposition
15

Выявление скрытых признаков объектов и интересов
пользователей!
15

Выявление скрытых признаков объектов и интересов
пользователей!
Проблемы:
Матрица оценок R нам полностью не известна.
Разложение не единственное:
(UΩ)Σ(V Ω)T
= UΣV T
15

SVD: Обучение
Модель:
ˆrui(Θ) = pT
u qi,
Θ = {pu, qi | u ∈ U, i ∈ I}
16

Модель:
ˆrui(Θ) = pT
u qi,
Θ = {pu, qi | u ∈ U, i ∈ I}
Хотим оптимизировать качество предсказаний в будущем:
E(u,i) ˆrui(Θ) − rui
2
→ min
Θ

Модель:
ˆrui(Θ) = pT
u qi,
Θ = {pu, qi | u ∈ U, i ∈ I}
Хотим оптимизировать качество предсказаний в будущем:
E(u,i) ˆrui(Θ) − rui
2
→ min
Θ
Имеем только оценки из прошлого (обучающая выборка):
(u,i)∈D
ˆrui(Θ) − rui
2
качество на обучающей выборке
+
θ∈Θ
λθ θ 2
регуляризация
→ min
Θ

SVD: Методы оптимизации
L(Θ) =
(u,i)∈D
pT
u qi − rui
2
+ λ
u
||pu||2
+
i
||qi||2
17

L(Θ) =
(u,i)∈D
pT
u qi − rui
2
+ λ
u
||pu||2
+
i
||qi||2
Градиентный спуск:
Θt+1 = Θt − η L(Θ)

L(Θ) =
(u,i)∈D
pT
u qi − rui
2
+ λ
u
||pu||2
+
i
||qi||2
Θt+1 = Θt − η L(Θ)
Проблема: работает очень медленно.

L(Θ) =
(u,i)∈D
pT
u qi − rui
2
+ λ
u
||pu||2
+
i
||qi||2
Θt+1 = Θt − η L(Θ)
Стохастический градиентный спуск:
L(Θ) =
j
Lj(Θ) =
j
(pT
uj
qij
−rujij )2
+λ||puj
||2
+λ||qij
||2
Θt+1 = Θt − η Ljt (Θ)

L(Θ) =
(u,i)∈D
pT
u qi − rui
2
+ λ
u
||pu||2
+
i
||qi||2
Θt+1 = Θt − η L(Θ)
Стохастический градиентный спуск:
L(Θ) =
j
Lj(Θ) =
j
(pT
uj
qij
−rujij )2
+λ||puj
||2
+λ||qij
||2
Θt+1 = Θt − η Ljt (Θ)
Проблема: не распараллеливается.

L зависит от всех параметров квадратично. По каждому
параметру можно найти точный оптимум.
18

Для каждого пользователя и для каждого объекта задача
оптимизации — в точности метод наименьших квадратов.
p∗
u(Θ) = arg min
pu
L(Θ) = (QT
u Qu + λI)−1
QT
u ru,
q∗
i (Θ) = arg min
qi
L(Θ) = (P T
i P i + λI)−1
P T
i ri.
18

p∗
u(Θ) = arg min
pu
L(Θ) = (QT
u Qu + λI)−1
QT
u ru,
q∗
i (Θ) = arg min
qi
L(Θ) = (P T
i P i + λI)−1
P T
i ri.
Alternating Least Squares:
∀u ∈ U p2t+1
u = p∗
u(Θ2t),
∀i ∈ I q2t+2
i = q∗
i (Θ2t+1).
18

p∗
u(Θ) = arg min
pu
L(Θ) = (QT
u Qu + λI)−1
QT
u ru,
q∗
i (Θ) = arg min
qi
L(Θ) = (P T
i P i + λI)−1
P T
i ri.
Alternating Least Squares:
∀u ∈ U p2t+1
u = p∗
u(Θ2t),
∀i ∈ I q2t+2
i = q∗
i (Θ2t+1).
Каждый шаг можно распараллелить.
18

Метрики: предсказание оценки
Задача регрессии.
RMSE = 1
|D| D (ˆrui − rui)2
MAE = 1
|D| D |ˆrui − rui|

Метрики: предсказание оценки
Задача регрессии.
RMSE = 1
|D| D (ˆrui − rui)2
MAE = 1
|D| D |ˆrui − rui|
Проблемы:
Не для всех событий известно численное представление.
У каждого пользователя свое представление о шкале
оценок.
Ошибка в предсказании высокой оценки имеет такой же
вес, что и ошибка в предсказании низкой оценки.

Метрики: понравилось ли пользователю?
Задача классификации.

Precision = |{(u,i)∈D|ˆrui>θ,rui=1}|
|{(u,i)∈D|ˆrui>θ}|
21

Recall = |{(u,i)∈D|ˆrui>θ,rui=1}|
|{(u,i)∈D|rui=1}|
21

|{(u,i)∈D|rui=1}|
AUC = 1
|...|
rui=1 ru i =0
[ˆrui > ˆru i ]
21

|{(u,i)∈D|rui=1}|
AUC = 1
|...|
rui=1 ru i =0
[ˆrui > ˆru i ]
LogLikelihood = 1
|D| D rui log ˆrui + (1 − rui) log(1 − ˆrui)
21

|{(u,i)∈D|rui=1}|
AUC = 1
|...|
rui=1 ru i =0
[ˆrui > ˆru i ]
LogLikelihood = 1
|D| D rui log ˆrui + (1 − rui) log(1 − ˆrui)
Проблемы:
Необходимость специально задавать понятие
“понравилось”.
По-прежнему нет прямой связи с качеством рекомендаций.
21

Метрики: ранжирование
Precision, Recall, . . . на списке top-K, выданном моделью.
22

NDCG = 1
|U|
u∈U
1
IDCGu
K
k=1
2
ruik −1
log2(1+k)
22

NDCG = 1
|U|
u∈U
1
IDCGu
K
k=1
2
ruik −1
log2(1+k)
Проблемы:
Нет данных про рекомендованные объекты, которые
пользователь не оценивал.
Оптимизация метрик вычислительно более сложная.
22

Другие свойства рекомендаций
Желаемые свойства рекомендаций, которые, возможно, не
выражаются качеством предсказания:
23

Diversity (разнообразие),
23

Serendipity (неожиданность),
23

Novelty (новизна),
23

Novelty (новизна),
Coverage, Trust, Utility, Robustness, Adaptivity, Scalability, . . .
23

Похожие объекты
Что такое похожие объекты?
24

Объекты, похожие по своим признакам (content-based).

Объекты, которые часто используют вместе («клиенты,
купившие i, также покупали j»).
24

Рекомендации для пользователя, которому понравился
данный объект.

Рекомендации для пользователя, которому понравился
данный объект.
Рекомендации, в которых данный объект выступает в
качестве контекста.

Концептуальные вопросы
26

Как строить списки рекомендаций на основе
предсказаний?
26

Как улучшать качество именно рекомендаций, а не
26

Как измерять похожести объектов?
26

Как измерять похожести объектов?
Как обосновывать рекомендации?
26

Технические вопросы
27

Как решать проблему холодного старта для новых
пользователей и новых объектов?
27

Как быстро обновлять рекомендации?
27

Как быстро находить объекты с наибольшим
предсказанием?
27

Как измерять качество онлайн-рекомендаций?
27

Как измерять качество онлайн-рекомендаций?
Как масштабировать систему?
27

Как учитывать дополнительную информацию?

Как учитывать не только явный (explicit), но и неявный
(implicit) фидбек?

Как учитывать контекст? (Context-aware recommendations)

Как учитывать признаки объектов? (Гибридные системы)
28

Как учитывать связи между объектами (таксономию)?
28

Как учитывать признаки и связи пользователей?
28

Как учитывать признаки и связи пользователей?
Как учитывать информацию из других предметных
областей? (Cross-domain recommendations)
28

Как учитывать контекст?
30

Тензорные разложения
31

Canonical Decomposition
ˆru,i,l =
d
k=1
pu,k · qi,k · sl,k
31

ˆru,i,l =
d
k=1
Pairwise Decomposition
ˆru,i,l =
dUI
k=1
pUI
u,k · qUI
i,k +
dUL
k=1
pUL
u,k · sUL
l,k +
dIL
k=1
qIL
i,k · sIL
l,k
31

ˆru,i,l =
d
k=1
Pairwise Decomposition
ˆru,i,l =
dUI
k=1
pUI
u,k · qUI
i,k +
dUL
k=1
pUL
u,k · sUL
l,k +
dIL
k=1
qIL
i,k · sIL
l,k
Tucker Decomposition
ˆru,i,l =
dU
u =1
dI
i =1
dL
l =1
cu ,i ,l · pu,u · qi,i · sl,l
31

Factorization MachinesLarge Categorical Domains
e Rating
ic 5
ng Hill 3
Wars 1
Wars 4
Trek 5
ic 1
Wars 5
. . .
1 0 0 ...
1 0 0 ...
0 1 0 ...
0 1 0 ...
0 0 1 ...
1
0
0
0
1
0
1
0
0
0
0
0
1
0
0
0
0
0
1
0
...
...
...
...
...
0 0 1 ... 0 0 1 0 ...
A B C ... TI NH SW ST ...
x(1)
x(2)
x(4)
x(5)
x(6)
x(7)
Feature vector x
User Movie
1 0 0 ... 0 0 1 0 ...x(3)
5
3
4
5
1
5
Target y
y(1)
y(2)
y(4)
y(5)
y(6)
y(7)
1 y(3)
ssion models to this data leads to:
ssion: ˆy(x) = w0 + wu + wi
regression: ˆy(x) = w0 + wu + wi + wu,i
32

Factorization MachinesLarge Categorical Domains
e Rating
ic 5
ng Hill 3
Wars 1
Wars 4
Trek 5
ic 1
Wars 5
. . .
1 0 0 ...
1 0 0 ...
0 1 0 ...
0 1 0 ...
0 0 1 ...
1
0
0
0
1
0
1
0
0
0
0
0
1
0
0
0
0
0
1
0
...
...
...
...
...
0 0 1 ... 0 0 1 0 ...
A B C ... TI NH SW ST ...
x(1)
x(2)
x(4)
x(5)
x(6)
x(7)
Feature vector x
User Movie
1 0 0 ... 0 0 1 0 ...x(3)
5
3
4
5
1
5
Target y
y(1)
y(2)
y(4)
y(5)
y(6)
y(7)
1 y(3)
ssion models to this data leads to:
ssion: ˆy(x) = w0 + wu + wi
regression: ˆy(x) = w0 + wu + wi + wu,i
SVD:
ˆy(x) = w0 +
n
i=1
wi xi +
n
i=1
n
j=i+1
vi, vj xi xj

Factorization Machines
ˆy(x) = w0 +
n
i=1
wi xi +
n
i=1
n
j=i+1
vi, vj xi xj
orization Machines with libFM
1. Example (from Rendle [2010]) for representing a recommender problem with real valued f
ors x. Every row represents a feature vector xi with its corresponding target yi. For easier inter
the features are grouped into indicators for the active user (blue), active item (red), other movies
33

Recsys.hse

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (8)

Similar to Recsys.hse

Similar to Recsys.hse (20)

Recsys.hse