HS: Personalisierung
mit großen Daten

Evaluierung von
Empfehlungssystemen
Referent: Benjamin Hartwich

1
HS: Personalisierung
mit großen Daten

Gliederung
1.
2.
3.
4.
5.
6.
7.

Recommender Systeme und Collaborative Filtering
Us...
HS: Personalisierung
mit großen Daten

Recommender Systeme und
Collaborative Filtering Algorithms
3
HS: Personalisierung
mit großen Daten

Was ist ein Recommender Sytem?
“Recommender systems use the opinions of a community...
HS: Personalisierung
mit großen Daten

Collaborative Filtering Algorithms
“The task in collaborative filtering is to predi...
HS: Personalisierung
mit großen Daten

User und Rating Tasks
6
HS: Personalisierung
mit großen Daten

UT: Annotation in Context

7
HS: Personalisierung
mit großen Daten

UT: Find Good Items

8
HS: Personalisierung
mit großen Daten

UT: Find All Good Items

9
HS: Personalisierung
mit großen Daten

UT: Just Browsing

10
HS: Personalisierung
mit großen Daten

UT: Recommend Sequence

11
HS: Personalisierung
mit großen Daten

UT: Find Credible Recommender

12
HS: Personalisierung
mit großen Daten

Rating Tasks
 Improve Profile
 Express Self
 Help Others
 Influence Others

13
HS: Personalisierung
mit großen Daten

Beispiel

14
HS: Personalisierung
mit großen Daten

Beispiel

15
HS: Personalisierung
mit großen Daten

Start einer Evaluation
16
HS: Personalisierung
mit großen Daten

… => Empfehlungen?
 Algorithmen vs. Datensets
 Plattformumgebung und –zweck
 Zie...
HS: Personalisierung
mit großen Daten

Evaluierung mittels…
 … Offline-Daten
 … Befragung / Experiment
 … Online-Daten
...
HS: Personalisierung
mit großen Daten

Experiment / Befragung
 Sammeln qualitativer Daten
 Pre-Test empfehlenswert
 Tes...
HS: Personalisierung
mit großen Daten

Offline-Daten
 Datenset ist bereits vorhanden (Verhalten der Nutzer früher
und jet...
HS: Personalisierung
mit großen Daten

Online-Daten
 Ziel: Beeinflussen des Nutzerverhaltens
 Maßgeblich sind: Intention...
HS: Personalisierung
mit großen Daten

Anforderung an ein Datenset
 Kontext der Empfehlungen: Thema, Nutzerverhalten,
Bed...
HS: Personalisierung
mit großen Daten

Daten => Evaluierung

Teilung

Lernen

Berechnung

Vergleich

23
HS: Personalisierung
mit großen Daten

Gütekriterien
24
HS: Personalisierung
mit großen Daten

Güte der Vorhersagen
 Messung, wie nah die vorhergesagten Empfehlungen an den
wirk...
HS: Personalisierung
mit großen Daten

Klassifizierung
Relevant

Nicht-Relevant

26
HS: Personalisierung
mit großen Daten

Klassifizierung
Recommender System

User

Ausgewählt

Nicht ausgewählt

Total

Wahr...
HS: Personalisierung
mit großen Daten

Precision
Ausgewählt

Nicht ausgewählt

Total

Wahr-positiv

Wahr-negativ

NR

Nich...
HS: Personalisierung
mit großen Daten

Beispiel Precision
Ausgewählt

Nicht ausgewählt

Total

3

2

5

Nicht Relevant 7

...
HS: Personalisierung
mit großen Daten

Recall
Ausgewählt

Nicht ausgewählt

Total

Wahr-positiv

Wahr-negativ

NR

Nicht R...
HS: Personalisierung
mit großen Daten

Beispiel: Recall
Ausgewählt

Nicht ausgewählt

Total

3

2

5

Nicht Relevant 7

3
...
HS: Personalisierung
mit großen Daten

F1 Score
Harmonisch:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙
𝐹1 = 2 ×
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙

Zwischen 0 un...
HS: Personalisierung
mit großen Daten

Beispiel: F1 Score
𝐹1 = 2 ×

0,3 ×0,6
0,3+0,6

= 0,4

33
HS: Personalisierung
mit großen Daten

Precision und Recall
Präzision

Relevanz
34
HS: Personalisierung
mit großen Daten

Precision Recall Curve

35
HS: Personalisierung
mit großen Daten

ROC-Curve
Messung, wie genau ein
Informationsverarbeitungs
system zwischen
Relevanz...
HS: Personalisierung
mit großen Daten

ROC-Curve

37
HS: Personalisierung
mit großen Daten

Probleme
 Geschmack in binäres System transformieren?
 Voraussetzung: Wissen, was...
HS: Personalisierung
mit großen Daten

Ranking
 Reference Ranking: Ranking mithilfe einer weiteren Referenz
(Normalized D...
HS: Personalisierung
mit großen Daten

Abseits der Gütekriterien
40
HS: Personalisierung
mit großen Daten

Coverage
 Item Space Coverage:
 Anteil an Empfehlungen, die ein Empfehlungssystem...
HS: Personalisierung
mit großen Daten

Learning Rate
 Overall Learning Rate: Qualität einer Empfehlung als
Funktion über ...
HS: Personalisierung
mit großen Daten

Learning Rate

43
HS: Personalisierung
mit großen Daten

Confidence
 Sicherheit des Systems über Gültigkeit der Vorhersage
 Steigt mit Anz...
HS: Personalisierung
mit großen Daten

Trust
 Im Gegensatz zu Confidence das Vertrauen der Nutzer in
das Empfehlungssyste...
HS: Personalisierung
mit großen Daten

Novelty
 Generell: Ausfiltern von Items, die der Nutzer bereits kennt
 Aber nur r...
HS: Personalisierung
mit großen Daten

Serendipity
 Messwert, wie überraschend eine Empfehlung war
 Methode: Distanzmess...
HS: Personalisierung
mit großen Daten

Diversity
 Annahme: Vielfältige Ergebnisse verkürzen Suchaktionen
 Methode: Messu...
HS: Personalisierung
mit großen Daten

Weitere Indikatoren
 Risk
 Robustness
 Scalability
 Adaptivity
 Privacy

49
HS: Personalisierung
mit großen Daten

User Evaluation
Explizit vs. implizit

Labor- vs. Feldstudie

Dimensionen

Ergebnis...
HS: Personalisierung
mit großen Daten

Ziele der User Evaluation
 Nutzen des System für den User
 Befriedigung der Bedür...
HS: Personalisierung
mit großen Daten

Danke für die Aufmerksamkeit

52
HS: Personalisierung
mit großen Daten

Literaturverzeichnis
 Breese, John S.; Heckerman, David; Kadie, Carl: Empirical An...
Upcoming SlideShare
Loading in...5
×

Evaluierung von Empfehlungssystemen

281

Published on

Ein Vortrag von Benjamin Hartwich aus dem Hauptseminar "Personalisierung mit großen Daten".

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
281
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Evaluierung von Empfehlungssystemen

  1. 1. HS: Personalisierung mit großen Daten Evaluierung von Empfehlungssystemen Referent: Benjamin Hartwich 1
  2. 2. HS: Personalisierung mit großen Daten Gliederung 1. 2. 3. 4. 5. 6. 7. Recommender Systeme und Collaborative Filtering User Tasks und Rating Tasks Beispiel Starten einer Evaluation Gütekriterien Abseits der Gütekriterien User Evaluation 2
  3. 3. HS: Personalisierung mit großen Daten Recommender Systeme und Collaborative Filtering Algorithms 3
  4. 4. HS: Personalisierung mit großen Daten Was ist ein Recommender Sytem? “Recommender systems use the opinions of a community of users to help individuals in that community more effectively identify content of interest from a potentially overwhelming set of choices [Resnick and Varian 1997].” 4
  5. 5. HS: Personalisierung mit großen Daten Collaborative Filtering Algorithms “The task in collaborative filtering is to predict the utility of items to a particular user (the active user) based on a database of user votes from a sample or population of other users (the user database).” [Breese 1998]  Memory Based  Model Based 5
  6. 6. HS: Personalisierung mit großen Daten User und Rating Tasks 6
  7. 7. HS: Personalisierung mit großen Daten UT: Annotation in Context 7
  8. 8. HS: Personalisierung mit großen Daten UT: Find Good Items 8
  9. 9. HS: Personalisierung mit großen Daten UT: Find All Good Items 9
  10. 10. HS: Personalisierung mit großen Daten UT: Just Browsing 10
  11. 11. HS: Personalisierung mit großen Daten UT: Recommend Sequence 11
  12. 12. HS: Personalisierung mit großen Daten UT: Find Credible Recommender 12
  13. 13. HS: Personalisierung mit großen Daten Rating Tasks  Improve Profile  Express Self  Help Others  Influence Others 13
  14. 14. HS: Personalisierung mit großen Daten Beispiel 14
  15. 15. HS: Personalisierung mit großen Daten Beispiel 15
  16. 16. HS: Personalisierung mit großen Daten Start einer Evaluation 16
  17. 17. HS: Personalisierung mit großen Daten … => Empfehlungen?  Algorithmen vs. Datensets  Plattformumgebung und –zweck  Ziele einer Evaluation  Definition der richtigen Empfehlung  User vs. System 17
  18. 18. HS: Personalisierung mit großen Daten Evaluierung mittels…  … Offline-Daten  … Befragung / Experiment  … Online-Daten 18
  19. 19. HS: Personalisierung mit großen Daten Experiment / Befragung  Sammeln qualitativer Daten  Pre-Test empfehlenswert  Testpersonen sollten Zielgruppe abbilden  Analyse innerhalb und zwischen den Testgruppen  Anzeige der Ergebnisse randomisieren  Fragebögen / Befragung verwenden  Hohe Kosten 19
  20. 20. HS: Personalisierung mit großen Daten Offline-Daten  Datenset ist bereits vorhanden (Verhalten der Nutzer früher und jetzt?)  Algorithmus vs. Datenset?  Samples aus Set auswählen (User, Items, Zeit)  Daten ab Auswahlzeitpunkt verbergen  Algorithmus ab da rechnen lassen 20
  21. 21. HS: Personalisierung mit großen Daten Online-Daten  Ziel: Beeinflussen des Nutzerverhaltens  Maßgeblich sind: Intention und Kontext des Nutzers, Nutzerinterface  Randomisierte Auswahl an Nutzern, die leicht verändertes System verwenden  Online-Datensatz alleine reicht nicht 21
  22. 22. HS: Personalisierung mit großen Daten Anforderung an ein Datenset  Kontext der Empfehlungen: Thema, Nutzerverhalten, Bedürfnisse, Genauigkeit  Systemeigenschaften: Wie kommen Ratings zustande und sind skaliert? Was wird geloggt?  Eigenschaften des Datensets: Dichte der Gesamtratings, Nutzerzahl  Implizite vs. Explizite Daten 22
  23. 23. HS: Personalisierung mit großen Daten Daten => Evaluierung Teilung Lernen Berechnung Vergleich 23
  24. 24. HS: Personalisierung mit großen Daten Gütekriterien 24
  25. 25. HS: Personalisierung mit großen Daten Güte der Vorhersagen  Messung, wie nah die vorhergesagten Empfehlungen an den wirklichen User Ratings sind  MAE: Standardabweichung zwischen vorhergesagtem und wahrem Rating 𝑁 𝑖=1 𝑝 𝑖 − 𝑟𝑖 𝑀𝐴𝐸 = 𝑁  Detailgenauigkeit entscheidend 25
  26. 26. HS: Personalisierung mit großen Daten Klassifizierung Relevant Nicht-Relevant 26
  27. 27. HS: Personalisierung mit großen Daten Klassifizierung Recommender System User Ausgewählt Nicht ausgewählt Total Wahr-positiv Wahr-negativ NR Nicht Relevant Falsch-positiv Falsch-negativ NNR Total NNA N Relevant NA 27
  28. 28. HS: Personalisierung mit großen Daten Precision Ausgewählt Nicht ausgewählt Total Wahr-positiv Wahr-negativ NR Nicht Relevant Falsch-positiv Falsch-negativ NNR Total NNA N Relevant NA 𝑃= 𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒 𝑖𝑛𝑛𝑒𝑟ℎ𝑎𝑙𝑏 𝑑𝑒𝑟 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒 𝐴𝑙𝑙𝑒 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒 28
  29. 29. HS: Personalisierung mit großen Daten Beispiel Precision Ausgewählt Nicht ausgewählt Total 3 2 5 Nicht Relevant 7 3 10 Total 5 15 Relevant 10 3 𝑃= 10 29
  30. 30. HS: Personalisierung mit großen Daten Recall Ausgewählt Nicht ausgewählt Total Wahr-positiv Wahr-negativ NR Nicht Relevant Falsch-positiv Falsch-negativ NNR Total NNA N Relevant NA 𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒 𝑖𝑛𝑛𝑒𝑟ℎ𝑎𝑙𝑏 𝑑𝑒𝑟 𝐸𝑟𝑔𝑒𝑏𝑛𝑖𝑠𝑠𝑒 𝑅= 𝑎𝑙𝑙𝑒 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡𝑒𝑛 𝐷𝑜𝑘𝑢𝑚𝑒𝑛𝑡𝑒 30
  31. 31. HS: Personalisierung mit großen Daten Beispiel: Recall Ausgewählt Nicht ausgewählt Total 3 2 5 Nicht Relevant 7 3 10 Total 5 15 Relevant 10 𝑅= 3 5 31
  32. 32. HS: Personalisierung mit großen Daten F1 Score Harmonisch: 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙 𝐹1 = 2 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 Zwischen 0 und 1. F1 =< 1 => bester Wert 32
  33. 33. HS: Personalisierung mit großen Daten Beispiel: F1 Score 𝐹1 = 2 × 0,3 ×0,6 0,3+0,6 = 0,4 33
  34. 34. HS: Personalisierung mit großen Daten Precision und Recall Präzision Relevanz 34
  35. 35. HS: Personalisierung mit großen Daten Precision Recall Curve 35
  36. 36. HS: Personalisierung mit großen Daten ROC-Curve Messung, wie genau ein Informationsverarbeitungs system zwischen Relevanz und NichtRelevanz unterscheiden kann 36
  37. 37. HS: Personalisierung mit großen Daten ROC-Curve 37
  38. 38. HS: Personalisierung mit großen Daten Probleme  Geschmack in binäres System transformieren?  Voraussetzung: Wissen, was relevant ist  Modell zu sehr am IR ausgerichtet  Ergebnisse von Länge der Liste abhängig 38
  39. 39. HS: Personalisierung mit großen Daten Ranking  Reference Ranking: Ranking mithilfe einer weiteren Referenz (Normalized Distance-based Performance Measure, Kendall´s tau)  Utility-Based Ranking: Nützlichkeit der Liste anhand jedes Items in Abhängigkeit der Position im Gesamtkontext der Liste (R-Score, Normalized Cumulative Discounted Gain)  Online Evaluation: Welche Art des Rankings präferiert der Nutzer 39
  40. 40. HS: Personalisierung mit großen Daten Abseits der Gütekriterien 40
  41. 41. HS: Personalisierung mit großen Daten Coverage  Item Space Coverage:  Anteil an Empfehlungen, die ein Empfehlungssystem geben kann  Anteil an Empfehlungen, die jemals gegeben wurden  User Space Coverage:  Anteil an Nutzern oder Nutzerinteraktionen, für die das System Empfehlungen generieren kann 41
  42. 42. HS: Personalisierung mit großen Daten Learning Rate  Overall Learning Rate: Qualität einer Empfehlung als Funktion über alle Ratings im System  Per Item Learning Rate: Qualität einer Empfehlung für ein Item als Funktion über die Anzahl der vorhandenen Ratings  Per User Learning Rate: Qualität einer Empfehlung für einen Nutzer als Funktion über die Anzahl der Ratings, die der Nutzer gemacht hat Methode zum Vergleich: Graph aus Qualität vs. Anzahl der Ratings 42
  43. 43. HS: Personalisierung mit großen Daten Learning Rate 43
  44. 44. HS: Personalisierung mit großen Daten Confidence  Sicherheit des Systems über Gültigkeit der Vorhersage  Steigt mit Anzahl der Daten  Methode: Herausfinden aller möglichen Empfehlungsergebnisse  In welchem Rahmen bewegen sich die Ergebnisse? 44
  45. 45. HS: Personalisierung mit großen Daten Trust  Im Gegensatz zu Confidence das Vertrauen der Nutzer in das Empfehlungssystem  Wird durch wiederkehrende Nutzer bestätigt  Experimente / Online-Umfragen 45
  46. 46. HS: Personalisierung mit großen Daten Novelty  Generell: Ausfiltern von Items, die der Nutzer bereits kennt  Aber nur relevantes Neues  Implementation über die Gütekriterien => Höhere Credits für korrekt vorhergesagte unpopuläre Items 46
  47. 47. HS: Personalisierung mit großen Daten Serendipity  Messwert, wie überraschend eine Empfehlung war  Methode: Distanzmessung zwischen Inhalt der Items => Höherer Score für Items, die von einem Set bisher bewerteter Items entfernt sind 47
  48. 48. HS: Personalisierung mit großen Daten Diversity  Annahme: Vielfältige Ergebnisse verkürzen Suchaktionen  Methode: Messung der Ähnlichkeit zwischen Items  Kurven zur Beurteilung zwischen Anstieg der Vielfältigkeit und Sinken der Gütekriterien 48
  49. 49. HS: Personalisierung mit großen Daten Weitere Indikatoren  Risk  Robustness  Scalability  Adaptivity  Privacy 49
  50. 50. HS: Personalisierung mit großen Daten User Evaluation Explizit vs. implizit Labor- vs. Feldstudie Dimensionen Ergebnis vs. Prozess Kurzzeit- vs. Langzeitstudie 50
  51. 51. HS: Personalisierung mit großen Daten Ziele der User Evaluation  Nutzen des System für den User  Befriedigung der Bedürfnisse des Users  User Tasks eruieren  Besten Algorithmus für Datenset 51
  52. 52. HS: Personalisierung mit großen Daten Danke für die Aufmerksamkeit 52
  53. 53. HS: Personalisierung mit großen Daten Literaturverzeichnis  Breese, John S.; Heckerman, David; Kadie, Carl: Empirical Analysis of Predictive Algorithms for Collaborative Filtering.  Herlocker, Jonathan L.; Konstan, Joseph A.; Terveen, Loren G.;Riedl, John T.: Evaluating Collaborative Filtering Recommender Systems.  McNee, Sean M.; Riedl, John; Konstan, Joseph A.: Being Accurate is Not Enough: How Accuracy Metrics have hurt Recommender Systems.  McNee, Sean M.; Lam, Shyong K.; Guetzlaff, Catherine; Konstan, Joseph A.; Riedl, John: Confidence Displays and Training in Recommender Systems.  Ricci, Francesco: Database and Information Systems.  Shani, Guy; Gunawardana, Asela: Evaluating Recommendation Systems. 53
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×