Your SlideShare is downloading. ×
0
Semantically-Enhanced                Recommendation Algorithms                                        CCIA 2012           ...
Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni   2
The value of recommendations Netflix: 2/3 of the movies rented are recommend Google News: 38% more clickthrough Amazon:...
But in most online services the CF approach           does not work so well                                  Why??        ...
OutlineCold-start problem and existing solutionsProposed solution to overcome cold startEvaluation and results       Seman...
Outline                                                              Cold-start problemCold-start problem andexisting solu...
What is the cold-start problem? Narrow view   o No ratings at all associated to items or users Wider view    o Few ratin...
Typical solution: hybrid recommender combiningCF with content-based filtering                      PAST SOLUTION          ...
OutlineCold-start problem and existing solutions                                                  Acquisition of implicit ...
Acquisition of implicit domain semantics Implicit semantics = semantic similarities among item  attributes extracted from...
Semantic similarities are context-dependant Item-based   o Similarity is measured in terms of how many items are similarl...
Exploitation of implicit semantics in   content-based filtering     USER MODELING                                         ...
Method 1: User profile expansion by constrained     spreading activation                                                  ...
Method 2: Prediction generation by pair-wise     semantic matching strategies                                             ...
OutlineCold-start problem and existing solutionsProposed solution to overcome cold start                                  ...
Offline experimentation with a MovieLens dataset extended with movie metadataData set statistics after pruning unusualattr...
Evaluation of methods for semantics exploitationBaseline = Traditional CB using hybrid user modeling techniqueExpansion-CB...
Conclusions Cold-start problem can be very critical   o Above all in systems with small databases Existing solutions hav...
Future work Experimenting with data sets of different domains   o Million Song data set Extending the study of Vector Sp...
Upcoming SlideShare
Loading in...5
×

Semantically-Enhanced Recommendation Algorithms

163

Published on

Published in: Technology, Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
163
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Soc estudiant de doctorat del grup KEMLG a la UPC i el meu director de tesis és el Luigi Ceccaroni A grans trets la meva investigació consisteix en estudiar nous metodes per millorar el rendiment de les tecniques de recomanació existents mitjançant la explotació de la semantica implicita del domini
  • Desde l’arribada d’internet tenim un al nostre abast un exces d’informarció que fa dificil en moltes ocasions trobar els productes i serveis que millor s’adapten a les nostres preferencies. Per cobrir aquesta necessitat van apareixer els sistemes de filtrat d’informació o de recomanació personalitzada, i cada cop més, s’han convertit en un component imprescindible per a molts serveis en linea, principalment de l’industria de l’entreteniment.
  • Oferir bones recomanacions als usuaris comporta normalment una millora de la seva satisfacció i un increment de les ventes o de l’us del sistema. Clars exemples d’exit els tenim en companyies amb una gran base de dades com Netflix, Google I Amazon La tecnica de recomanació que més predomina actualment es la recomanació cooperativa o CF, donat que en condicions optimes es la que aconsegueix recomanacions més precises. La idea principal d’aquesta tecnica es la de recomanar objectes que han agradat a altres usuaris amb interessos semblants al nostre.
  • Pero el problema es que aquest bon rendiment no es repeteix normalment en la majoria de serveis online. Per què? Doncs la principal raó es la falta de dades d’usuari. Una de las principals limitacions dels metodes basats en CF es que el seu rendiment va altament lligat a la quantitat de dades disponibles per generar les prediccions, es a dir, en el nombre d’usuaris i de ratings disponibles. La falta de sensibilitat al context i particularitats del domini on s’aplica el recomanador també poden causar un mal funcionament.
  • - El nostre treball es centra amb el problema de la falta d’informació que normalment es coneix com el cold-start o d’arrencada en fred - Començaré parlant amb més detall d’aquest problema i de les solucions que existeixen actualment Després presentaré la solució que proposem I finalment mostraré els resultats principals de la nostra evaluació
  • - A continuació explicaré el problema de cold-start i les solucions principals que s’apliquen actualment
  • -En la literatura, el problema de cold-start es pot definir desde 2 punts de vista diferents: alguns consideren cold-start quan els usuaris o objectes son completament nous, es a dir, encara no hi ha cap valoració implicita o explicita associada amb ells; I a d’altres que consideren cold-start, ademés dels completament nous, els que tenen poques valoracions associades. Nosaltres fem us d’aquest punt de vista més ampli del problema. -Ens podem trobar en 3 escenaris de cold-start alhora de predir el grau d’utilitat d’un objecte per un usuari concret. -L’escenari de nou objecte, quan nomes tenim poques valoracions de l’objecte -L’escenari de nou usuari, quan nomes tenim -I l’escenari més extrem quan hi ha poques valoracions tan de l’objecte com de l’usuari.
  • -La solucio més comuna per evitar un baix rendiment en els escenaris de cold-start es utilitzar un sistem hibrid on es combini recomanacio cooperativa amb recomanacio basada en contingut. Aquesta altre familia de tecniques fa us dels descripcions textuals o metadata dels objectes per generar les recomanacions. -D’aquesta manera l’escenari de nou objecte queda solventat ja que no depen de que altres usuaris l’hagin valorat anteriorment. -En canvi, l’escenari nou usuari segueix sent un problema ja que per construir un perfil d’usuari precis es necessari que l’usuari proporcioni un nombre determinat de valoracions. -Ademes, el metode tradicional té la limitació de que la semantica del domini no es té en compte durant la predicció. -Per solventar aquesta limitació, més recentment va apareixer la familia de recomanadors semantics que es caracteritzar per explotar la semantica explicita del domini normalment representada en la forma d’ontologies. Gracies a la semantica diversos estudis han demostrat que també es pot millorar el rendiment en l’escenari de nou usuari ja que permet completar els perfils d’usuari. - Tot I això, l’aplicació dels recomanador semantics actuals depenen completament de l’existencia d’ontologies de domini I aixo no es sempre possible.
  • Amb l’objectiu de solventar aquesta limitació dels recomanadors semantics, en aquest treball hem desenvolupat I evaluat metodes per l’acquisició I explotacio de la semantica implicita del domini.
  • Nosaltres entenem com a semantica implicita del domini a les semblances semantics entre atributs que descrien els objectes calculades a partir de models distribucionals, també coneguts com vector space models. Aquests models es basen en la hypothesis distribucional, que assumeix que termes o paraules que apareixen frequentment en contexts semblants estan relacionades semanticament. Nosaltres hem generalitzat aquesta hypthosis per a ser utilitzada per calcular relacions semantics entre attributs, ja siguin tags, actors de peliculas. En particular, utilitzem com a corpus els perfils normalizats dels objectes o del usuaris, que com a continuació veureu implican resultats ben diferents. Un cop seleccionat el corpus, es pot aplicat una transformació a la matriu corresponent (com una reducció de dimensionalitat) I finalment es calcula la similitut entre attributs comparant els vectors de coocurrencia corresponents per a cada attribut. En els experiments hem utilitzat 2 tecnicas de reduccio de dimensionalitat i la measure del cosinus.
  • Com he dit anteriorment, depenent del context utilitzat com a corpus les similituts semantics resultants son diferents. En el cas d’utilitzar els objectes com a context de coocurrencia, la semblança entre dos attributs es mesura en termes de quants objectes contenen ambdos atributs. En el cas d’utilitzar els usuarios, la semblança es measura en termes de quants usuaris estan interessats en ambdos attributs. Com podeu veure en l’example, les semblances calculades varien dependen del context tan en valor com en ordre.
  • Aquest grafic mostra els principals components de la recomanacio basada en contingut: per una banda hi ha el component de modelatge d’usuari, que s’encarrega de crear el perfil d’usuari en relació als atributs del domini a partir de les valoracions als objectes del domini I de la seves descripcions. I per una altra banda hi ha el component de predicció que s’encarrega de generar la puntuació per a un objecte concret, calculant la correspodencia entre els perfil d’usuari I de l’objecte. En aquest treball hem implementat dos metodes per explotar la semantica implicita: el metode d’expansio de perfil d’usuari que modifica el vector d’interesos uriginal amb nova informació que despres s’utilitza pel calcul de la correspondencia. I el metode de correspodencia semantica que incorpora les relacions semantics entre atributs durant el calcul.
  • En aquesta transparencia mostro un exemple senzill de com funciona l’algoritme d’expansio de perfil d’usuari que hem desenvolupat basat en una tecnica de CSA. En el costat esquerra podeu veure la matriu de semblances semantiques entre els atributs del domini. En aquest exemple hi ha 5 attributs. I a la dreta teniu un perfil d’usuari en relació als 5 attributs. Un valor positiu representa que l’usuari esta interessat en l’atribut I un negatiu el contrari. El metode d’expansio té 3 hyperparamentres que regulen el grau de propagació: el llindar d’activació que delimita el grau d’interes necessari que a que s’activi la propagació desde un node; el llindar de fanout que delimita la semblança minima entre atributs per fer la propagació a un node; I finalment el numero maxim de nivells d’expansio des del node inicial. Tenint en compte els valors indicats del hyperparams, en aquest example nomes s’activaria la propagació des de l’atribut 2 ja que es l’unic que supera el llindar d’activació. Des d’aquest node es propagaria el valor als atributs 1 I 3 ja que el valor de les seves semblances superen el llindar de fanout. Donat que max num de nivells d’expansio es 1 aqui s’acabaria la expansio de perfil. Com a resultat el perfil d’usuari s’hauria completat amb 1 nou interes positiu I un recalcul del grau d’interes en l’atribut 3.
  • -Ara passaré a explicar com funcional el metode correspodencia semantica aprofitant el mateix example, per lo que la matriu de semblances I el perfil d’usuari son els mateixos -En aquest cas el que busquem es incorporar les relacions semantiques entre atributs durant el calcul de la predicció Començo per mostrar com funciona el metode tradicional basat en el producte vectorial. En aquest cas, l’unic attribut que coincideix en ambdos perfils es el 2 per lo que la predicció es calculario como el producte del pesos corresponents. Si en comptes del metode tradicional utilizem l’estrategia de correspondencia semantica de millor-parell, ademés del atribut 2 també es consideria la correspondecia entre l’atribut 5 de l’object I el 3 de l’usuari, ja que aquesta estrategia considera per a cada atribut del perfil de l’objecte amb valor diferent de zero l’atribut del perfil d’usuari més semblant. L’altre estrategia semantica que hem estudiat es la de tots els parells, en la qual es consideren totes les correspondencies semantiques. En aquests casos l’aportació de cada correspodencia es ponderada amb el valor de la semblança entre atributs. Amb l’objectiu d’evitar correspodencias massa debils les estrategies utilitzen un llindar de semblança que delimina el minim valor de semblança per a ser considerat en el calcul de la correspodencia.
  • A continuació mostraré els results principals de l’avaluació dels metodes proposats
  • Per a l’avaluació hem utilitzat un dels conjunts de dades disponibles del sistema MovieLens que inclou metadata sobre les peliculas. Aquestes son les principals estadisticas del data set despres de filtrar pelicules amb poca metadata. En particular hem utilitzat per a l’experiment 4 attributes differents: … amb un total de 2886 valors d’atributs diferents.
  • En aquest grafic de barres es poden apreciar els principals resultats dels metodes d’explotació semantica proposats. El que es mostra es el tan percent de millora respecte al baseline en quan a precisió de ranking. En aquest cas el baseline consisteix en un metode basat en contingut tradicional, es adir, sense fer us de la semantic del domini. Les barres de color negre corresponen als resultats globals, tenint en compte tots els usuaris I objectes. La de color vermell corresponen als resultats de nomes nous usuaris I la de color ver son els de nous objectes. Pels simular els escenaris de cold-start hem seleccionat el 10% d’usuaris I objectes amb menys ratings. En quant els algoritmes avaluats expansion-CB correspon el metode d’expansio de perfil d’usuari, matching-CB correspon al metode de correspondencia semantica de millor parells, I BPR-MF correspon a un algoritme actual de CF optimizat per generar rankings. Per a cada un dels algoritmes hem seleccionat la configuració amb millor rendiment global. A partir dels resultats s’observa que el metode correspodencia semantica es més efectiu que el metode d’expansio de perfil. Si el comparem amb el resultats de l’algoritme de filtrat cooperatiu podem comprobar que tan en nous usuaris com nous objectes el rendiment de matching-CB es millor. De fet, el rendiment del recomanador collaboratiu en l’escenari de nous items es pitjor que el de baseline, algo força normal tenint em compte que el baseline es una algoritme basat en contingut. Finalment, el terms de rendiment global els dos metodes estan força equiparats sent una mica millor el de filtrat cooperatiu.
  • Transcript of "Semantically-Enhanced Recommendation Algorithms"

    1. 1. Semantically-Enhanced Recommendation Algorithms CCIA 2012 Victor Codina & Luigi Ceccaroni vcodina@lsi.upc.edu lceccaroni@BDigital.orgDepartament de Llenguatges i Sistemes Informàtics Health InformaticsKnowledge Engineering and Machine Learning Group Personalized Computational Medicine
    2. 2. Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 2
    3. 3. The value of recommendations Netflix: 2/3 of the movies rented are recommend Google News: 38% more clickthrough Amazon: 35% sales from recommendations All these systems employ as a main component Collaborative Filtering (CF) approach Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 3
    4. 4. But in most online services the CF approach does not work so well Why?? Usually: Lack of Data Other reasons: lack of context-awareness, domain-specific particularities Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 4
    5. 5. OutlineCold-start problem and existing solutionsProposed solution to overcome cold startEvaluation and results Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 5
    6. 6. Outline Cold-start problemCold-start problem andexisting solutions Hybrid recommendersProposed solution to overcome cold startEvaluation and results Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 6
    7. 7. What is the cold-start problem? Narrow view o No ratings at all associated to items or users Wider view o Few ratings associated Cold-start scenarios: Users Many ratings Few ratings Many Normal New user ratings Items Few New item New user & item ratings Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 7
    8. 8. Typical solution: hybrid recommender combiningCF with content-based filtering PAST SOLUTION MORE RECENT SOLUTION Collaborative Filtering Collaborative Filtering + + Traditional Semantically-Enhanced Content-based filtering Content-based filteringNew itemNew user Lack of understanding The need of domainLimitation and exploitation of ontologies describing explicit domain semantics metadata relations Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 8
    9. 9. OutlineCold-start problem and existing solutions Acquisition of implicit semanticsProposed solution toovercome cold start Methods for semantics exploitationEvaluation and results Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 9
    10. 10. Acquisition of implicit domain semantics Implicit semantics = semantic similarities among item attributes extracted from Vector Space Models (VSMs) Distributional hypothesis: “words that share similar contexts share similar meaning” Items Users Context MatrixAttributes Similarity … Attribute … wa,c Transformation measure semantic (SVD, Conditional (Cosine, similarities probabilities) Jaccard) Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 10
    11. 11. Semantic similarities are context-dependant Item-based o Similarity is measured in terms of how many items are similarly described by both attributes User-based o Similarity is measured in terms of how many users are similarly interested in both attributesExample: User-based Items-based- Top-5 tags similar to “Sci-Fi” Scifi 0.79598457 Scifi 0.48631117- Calculated using cosine future 0.6889696 aliens 0.42508063similarity without matrix space 0.65459067 dystopia 0.34769687transformation aliens 0.6110453 space 0.32580933 robots 0.59465224 future 0.27470198 Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 11
    12. 12. Exploitation of implicit semantics in content-based filtering USER MODELING PREDICTION GENERATION Attributes AttributesAttributerelevance [0,1] … wi,a … Items … w Item attributes (i) i,a degree of interest [-1,1] Items score Attributes … ru,i … User modeling … wu,a Vector-based 2. Semantic ( ) technique matching matchinguser ratings (u) User interests (u) Expanded user interests (u) 1. Profile expansion Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 12
    13. 13. Method 1: User profile expansion by constrained spreading activation activated node Attribute a1 a2 a3 a4 a5 semantic similarities 0 0.5 -0.1 0 0 User interests [-1,1] a1 a2 a3 a4 a5 1 0.5 0.2 0 0.3a1 (0.5) (0.3) 0.5 1 0.3 0 0.1a2a3 0.2 0.3 1 0.7 0.8a4 0.25 0.5 0.05 0 0 Expanded 0 0 0.7 1 0 a1 a2 a3 a4 a5 user interests [-1,1]a5 0.3 0.1 0.8 0 1 new interest Weight updated Similarities can be symmetric or not depending on the similarity measure used Method - activation threshold = 0.25 hyper-parameters: - fan-out threshold = 0.25 - max.expansion levels = 1 Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 13
    14. 14. Method 2: Prediction generation by pair-wise semantic matching strategies Approach: Vector-based matching All-pairs matching Best-pairs matching Attribute Result: 0.15 - 0.056 = 0.094 - 0.056 = 0.12 - 0.009 + 0.035 semantic similarities (using the product as aggregation function) a1 a2 a3 a4 a5 a1 a2 a3 a4 a5 Item attributes [0,1] 1 0.5 0.2 0 0.3a1 0 0.3 0 0 0.7 0.5 1 0.3 0 0.1a2a3 (0.3) 0.2 0.3 1 0.7 0.8 Direct (0.1)a4 0 0 0.7 1 0 matching (1) (0.8)a5 0.3 0.1 0.8 0 1 Similarities can be symmetric or 0 0.5 -0.1 0 0 User interests [-1,1] not depending on the similarity a1 a2 a3 a4 a5 measure used Method - similarity threshold = 0.05 hyper-parameter: Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 14
    15. 15. OutlineCold-start problem and existing solutionsProposed solution to overcome cold start MovieLens data setEvaluation and results Experimental results Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 15
    16. 16. Offline experimentation with a MovieLens dataset extended with movie metadataData set statistics after pruning unusualattributes values and movies with few attributes: Users 2113 Movies 1646 Attributes 4 (Genres, directors, actors and tags) Attribute values 2886 Ratings per user on avg. 239 Rating density 14% Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 16
    17. 17. Evaluation of methods for semantics exploitationBaseline = Traditional CB using hybrid user modeling techniqueExpansion-CB = CSA-same + User-based + raw frequenciesMatching-CB = Best-pairs-same + User-based + Forbes-Zhu methodBPR-MF = CF based on matrix factorization optimized for ranking Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 17
    18. 18. Conclusions Cold-start problem can be very critical o Above all in systems with small databases Existing solutions have some limitations o Traditional CB cannot solve new user scenario o Semantically-enhanced CB requires domain ontologies to work Exploitation of implicit semantics can be a good alternative to overcome cold-start problem o User-based semantics is more effective than item-based o The best-pair semantic matching method is more effective than the profile expansion based on spreading activation Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 18
    19. 19. Future work Experimenting with data sets of different domains o Million Song data set Extending the study of Vector Space Models o Probabilistic similarity measures (e.g. Kullback-Leiber) Apply the same approach to enhance cold-start performance of context-aware recommenders o Implicit semantics of contextual conditions can also be acquired from user data o Similarly, pair-wise semantic strategies can be employed to enhance contextual user modeling Semantically-Enhanced Recommendation Algorithms - Victor Codina & Luigi Ceccaroni 19
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×