Diversity in Recommender
Systems
Paolo Tomeo
Twitter: @PaoTomeo
Facebook: PTomeo
Information overload

@mkapor
Information Retrieval vs
Information Filtering
Information Retrieval vs
Information Filtering
IR

IF

Representation
of information
needs

Queries

User profiles

Goal

Selecting relevant items
(docs) that match a
query

Filtering out the many
irrelevant data items
in accord with a user's
profile

Type of use

Ad-hoc use

Repetitive use

Type of users

One-time users

Long-term users

Index

Items

User profiles

Database

Relatively static

Dynamic

U. Hanani, B. Shapira, P. Shoval. “Information Filtering: Overview of Issues, Research and Systems”. User
Modeling and User-Adapted Interaction, 11(3): 203-259, 2001
Recommender Systems
Information filtering personalizzato
Recommender Systems
Information filtering personalizzato
selezione di item fra una miriade di possibilità, in
base a interessi e necessità degli utenti
Recommender Systems
Information filtering personalizzato
selezione di item fra una miriade di possibilità, in
base a interessi e necessità degli utenti
suggeriscono interazioni con nuovi item analizzando
le passate interazioni
Recommender Systems

Affrontano efficacemente l'information
overload
Forniscono valore aggiunto per utenti,
imprese e relazioni fra loro
Recommender Systems
La progettazione richiede conoscenze di
varie discipline
statistics, machine learning,
human-computer interaction,
social network analysis,
psychology
Recommender Systems
La progettazione richiede conoscenze di
varie discipline
statistics, machine learning,
human-computer interaction,
social network analysis,
psychology
http://www.slideshare.net/blueace/how-to-build-a-recommender-system-presentation
Data
URM: user-rating matrix
Data

http://www.slideshare.net/blueace/how-to-build-a-recommender-system-presentation
14

Output
Suggerisce item apprezzati da altri utenti che hanno
preferenze simili
Generalmente

una
lista di Top-N
suggerimenti: N
item considerati più
accurati

http://www.youtube.com/feed/recommended
15

Steps
Input:Rating
Output: Recommendation
1 – Training
2 – Prediction
3 – Ranking
(4 – Re-Ranking)
16

Prediction
Stima della rilevanza di un item per un
utente
f: U×I→[0,1]
17

Approaches
Suggerisce all'utente item simili a quelli che ha apprezzato in
passato

Collaborative filtering
Content Based filtering
Hybrid approaches
18

Content based filtering
Suggerisce item apprezzati da altri utenti che hanno
preferenze simili
19

Content based filtering
Suggerisce item apprezzati da altri utenti che hanno
preferenze simili
Punti di forza
indipendenza dell'utente
indipendenza dal numero utenti e dalla popolarità degli item
trasparenza (è possibile fornire spiegazioni)
Limiti
sensibilità a informazioni superficiali o incomplete
over-specialization
cold-start
20

Content representation
Se il contenuto è rappresentato da una
descrizione testuale, è necessaria una
strutturazione tramite tecniche NLP
Tokenizzazione
Eliminazione Stop Words
Stemming
Assegnazione di un peso ai token (tf-idf)
21

Collaborative filtering
Suggerisce item apprezzati da altri utenti che hanno
preferenze simili
22

Collaborative filtering
Suggerisce item apprezzati da altri forza che hanno
Punti di utenti
preferenze simili

suggerimenti diversificati per categorie di item
indipendenza dal contenuto (che può non esistere)
molto accurati secondo valutazioni empiriche
Limiti
Dipendenza dal numero di utenti
Cold-start per nuovi item e utenti
Sparsità matrice user-item
23

Neighborhood-based CFRS
Sono memorizzati gli item/utenti più simili
(detti Neighbors) per ognuno di essi

Riduzione di complessità temporale e
occupazione di memoria
24

User-based Collaborative filtering
1- Similarità calcolata fra utenti

2 – Stima rating considerando le similarità

B. Sarwar, G. Karypis, J. Konstan, J. Riedl , “ItemBased Collaborative Filtering Recommendation
Algorithms”, Proceedings of the 10th international
conference on World Wide Web, pp. 285-295, 2001.
25

Item-based Collaborative filtering
1- Similarità calcolata fra item

2 – Stima rating considerando le similarità

B. Sarwar, G. Karypis, J. Konstan, J. Riedl , “ItemBased Collaborative Filtering Recommendation
Algorithms”, Proceedings of the 10th international
conference on World Wide Web, pp. 285-295, 2001.
26

Altre categorie di RS
Social
Context-aware
Personality-based
Knowledge-based
Geographic
27

Qualità dei suggerimenti

Valutare l'accuratezza è necessario,
ma non basta!

•

•

Alcune sfide aperte:
•
Serendipità, Diversità, Novità
•
28

Valutare le perfomance
Sperimentazione in vitro
Sperimentazioni con utenti
Solitamente si susseguono: molti algoritmi sono
confrontati e ottimizzati in vitro, i migliori sono
valutati con utenti
29

Sperimentazione in vitro
1- scegliere un dataset
(Es. Movieles)
2 - Partizionare i rating di ogni utente
(Es. Hold-out, Cross Validation)
3 – Per ogni (o qualche) utente nel dataset il
RS è addestrato sull'intero dataset esclusi i
rating dell'utente considerato
4 – I suggerimenti del RS sono confrontati con
i rating di test dell'utente
30

Valutare l'accuratezza
Indica il grado di corrispondenza dei suggerimenti
ad interessi e necessità degli utenti
Metriche di errore
Metriche di classificazione
31

Metriche di errore
32

Metriche di classificazione
33

Diversity
Individual Div

Aggregate Div

Definition

diversity of
recommendation sets
for a given
individual user

diversity of
recommendations across
all users

Resolve

Over-specialization
problem

Rich-get-richer
phenomenon

Benefit

User-experience

Sales
34

Trade-off accuratezza-diversity
Soluzioni?
Diversificare con minime perdite di
accuratezza
Applicare meccanismi di bilanciamento
parametrizzato
35

G. Adomavicius, Y. Kwon , “Improving Aggregate Recommendation Diversity
Using Ranking-Based Techniques”, IEEE Transactions on Knowledge and Data
Engineering, vol. 24. no. 5, pp. 896 - 911, 2012
36

Individual Diversification

NP-difficile
Non considera accuratezza
37

Euristiche!
Greedy
Interchange
Neighborhood
Clustering

M. Drosou and E. Pitoura, "Comparing diversity heuristics", Technical Report, Computer
Science Department, University of Ioannina, 2009
38

M. Drosou and E. Pitoura, "Comparing diversity heuristics", Technical Report, Computer
Science Department, University of Ioannina, 2009
39

MMR – Maximal Marginal Relevance

Considera sia l'accuratezza che la distanza.
È piuttosto efficiente ed efficace.
Un limite è l'assunzione di indipendenza fra
rilevanza e diversità
40

Valutare individual diversity
41

Aggregate Diversification
Euristiche di re-ranking
G. Adomavicius, Y. Kwon , “Improving Aggregate Recommendation Diversity Using
Ranking-Based Techniques”, IEEE Transactions on Knowledge and Data Engineering, vol.
24. no. 5, pp. 896 - 911, 2012

Euristiche basate sulla teoria dei grafi
G. Adomavicius, Y. Kwon , “Maximizing Aggregate Recommendation Diversity: A
Graph-Theoretic Approach ”, Proceedings of Workshop on Novelty and Diversity in
Recommender Systems, Chicago, Illinois, USA, pp. 3-10, 2011
42

Valutare aggregate diversity
Coverage = percentuale di item suggeriti
almeno una volta

Diversità per Recommender Systems