Técnicas de recomendación y argumentación


Published on

Descripción de las técnicas de recomendación y argumentación utilizadas en los distintos tipos de Sistemas de Recomendación

Published in: Technology
  • Be the first to comment

  • Be the first to like this

No Downloads
Total views
On SlideShare
From Embeds
Number of Embeds
Embeds 0
No embeds

No notes for slide

Técnicas de recomendación y argumentación

  2. 2. AGENDA• Técnicas de recomendación • Collaborative Filtering • Content-based • Knowledge-based • Híbridas• Técnicas de argumentación • Predicciones • Recomendaciones
  3. 3. COLLABORATIVE FILTERING• Valoraciones de todos los usuarios como características de los ítems• Perfil de usuario • En base a las valoraciones del propio usuario• Recomendaciones o predicciones • Por similaridad/probabilidad entre usuarios • Por similaridad/probabilidad entre ítems [Schafer, 2007]
  4. 4. COLLABORATIVE FILTERING• Universo • Valoraciones de U de los ítems en I• Entrada • Valoraciones de u de los ítems en I• Proceso • Identificar usuarios en U similares a u y extrapolar sus valoraciones de i [Burke, 2002]
  5. 5. COLLABORATIVE FILTERING• Predicciones • Valor numérico que representa la opinión anticipada del usuario para el ítem no valorado. Conocido como Individual Scoring.• Recomendaciones • Lista de N ítems que se corresponden con las preferencias del usuario. Conocido como Top-N recommendation o Rank Scoring. [Vozalis, 2003]
  6. 6. PREDICCIONES [Zanker, 2010]
  7. 7. PREDICCIONES [Zanker, 2010]
  8. 8. 9 Collaborative Filtering Recommender Systems 293 RECOMENDACIONES(Table 1). Without loss of generality, a ratings matrix consists of a table where eachrow represents a user, each column represents a specific movie, and the number at theintersection of a row and a column represents the user’s rating value. The absence of arating score at this intersection indicates that user has not yet rated the item.Table 1. A MovieLens ratings matrix. Amy rated the movie Sideways a 5. Matt has not seenThe Matrix Speed Sideways Brokeback The M atrix M ountain Amy 1 2 5 M att 3 5 4 Paul 5 5 2 1 Cliff 5 5 5 5The term user refers to any individual who provides ratings to a system. Most often,we use this term to refer to the people using a system to receive information (e.g.,recommendations) although it also refers to those who provided the data (ratings)used in generating this information. Collaborative filtering systems produce predictions or recommendations for a
  10. 10. RECOMENDACIONES• Similaridad Euclidiana Mahalanobis Minkowski Coseno
  11. 11. RECOMENDACIONES [Vozalis, 2003]
  12. 12. PROBLEMAS• Sparsity • Default Voting • Insertar valoraciones por default • User Average Scheme [Vozalis, 2003]
  13. 13. PROBLEMAS• Sparsity • Singular Value Decomposition (SVD) [Amatriain, 2011]
  14. 14. COLLABORATIVE FILTERING• Escenarios para su utilización: • Ítems que no requieran una exactitud semántica con las preferencias del usuario • Ítems con características heterogéneas y múltiples dominios • Cuando se tengan valoraciones de los ítems • Cuando no se conozcan las necesidades del usuario pero si sus preferencias
  15. 15. CONTENT-BASED• Los ítems se definen por sus características • Género, año de publicación, autor, no. de páginas. • Palabras clave.• Perfil de (interés de) usuario • Características de los ítems valorados por el usuario.• Recomendaciones • Comparación del ítem no valorado con el perfil de (interés de) usuario.
  16. 16. CONTENT-BASED• Universo • Características de los ítems en I• Entrada • Características de los ítems en I valorados por u• Proceso • Generar un clasificador que represente la conducta de valoraciones de u y usarlo sobre cada i no valorado. [Burke, 2002]
  17. 17. CONTENT-BASED• Técnicas 1. Representación de ítems 2. Creación del perfil (de interés) de usuario - Clasificador 3. Similaridad de (1) con (2)
  18. 18. 10.1.1 I tem Representation CONTENT-BASED Items that can be recommended to the user are often stored in a database table. Table 10.1 shows a simple database with records (i.e., “rows”) that describe three restaurants. The column names (e.g., Cuisine or Service) are properties of restaurants. These properties are also called “attributes,” “characteristics,” “fields,” or “variables” in different publications. Each record contains a value for each attribute. A unique• Representación de ítemsitems with the same name to be distinguished and identifier, ID in Table 10.1, allows serves as a key to retrieve the other attributes of the record. Table 10.1. A restaurant database ID Name Cuisine Service Cost 10001 Mike’s Pizza Italian Counter Low 10002 Chris’s Cafe French Table Medium 10003 Jacques Bistro French Table High The database depicted in Table 10.1 could be used to drive a web site that lists and Table 10.2. Part of a newspaper article recommends restaurants. This is an example of structured data in which there is a small number Fine-Tuning Energy item is described by the same set of attributes, and Lawmakers of attributes, each Plan there is a known set of values that theCalifornias may have. In this case, manyall but SACRAMENTO, Calif. -- With attributes energy reserves remaining machine depleted, lawmakers prepared to work through the weekend fine-tuning a plan Gov. learning algorithms may be used to learn a user profile, or a menu interface can easily Gray Davis says will put the state in the power business for "a long time to come." be created to allow a user to create a profile. The next section of this chapter The proposal involves partially taking over Californias two largest utilities and discusses several approachesof up to 10 years toprofile from structured data. signing long-term contracts to creating a user buy electricity from wholesalers. Of course, a web page typically has more information than is shown in Table 10.1, such as a texttexts such asof the restaurant, a restaurant of unstructured data. Unlike Unrestricted description news articles are examples review, or even a menu. These may easily be storedare no attribute fields in thewell-defined values. Furthermore,be structured data, there as additional names with database and a web page can [Pazzani, 2007] created with templatesnatural language text fields (as wellthe text field including the full complexity of to display the may be present in as the structured data).
  19. 19. CONTENT-BASED• Representación de ítems • Vector Space Model (VSM) • Keyword-based VSM • Synset-based VSM • Semantic analysis • Ontologies • Explicit Semantic Analysis (ESA)
  20. 20. REPRESENTACIÓN DE ÍTEMS• Vector Space Model • Representación espacial de las características del ítem • Aplicado a ítems de tipo texto o con características textuales • NO-ESTRUCTURADO
  21. 21. REPRESENTACIÓN DE ÍTEMS• Keyword-based VSM • Basado en técnicas de recuperación de información • TF-IDF (Term Frequency – Inverse Document Frecuency)
  22. 22. REPRESENTACIÓN DE ÍTEMS• Keyword-based VSM • En base a observaciones empíricas, se observan 3 supuestos: • IDF assumption: Los términos poco frecuentes no son menos relevantes que los frecuentes. • TF assumption: Múltiples ocurrencias de un término en un documento no con menos relevantes que las ocurrencias simples. • Normalization assumption: Los documentos largos no se prefieren sobre los cortos. [Lops, 2011]
  23. 23. REPRESENTACIÓN DE ÍTEMS• Keyword-based VSM Table 10.2. Part of a newspaper article Lawmakers Fine-Tuning Energy Plan SACRAMENTO, Calif. -- With Californias energy reserves remaining all but depleted, lawmakers prepared to work through the weekend fine-tuning a plan Gov. Gray Davis says will put the state in the power business for "a long time to come." The proposal involves partially taking over Californias two largest utilities and signing long-term contracts of up to 10 years to buy electricity from wholesalers. Unrestricted texts such as news articles are examples of unstructured data. Unlike structured data, there are no attribute names with well-defined values. Furthermore, the full complexity of natural language may be present in the text field including polysemous words (the same word may have several meanings) and synonyms (different words may have the same meaning). For example, in the article in Table 10.2, “Gray” is a name rather than a color, and “power” and “electricity” refer to the same underlying concept. Many domains are best represented by semi-structured data in which there are some attributes with a set of restricted values and some free-text fields. A common approach to dealing with free text fields is to convert the free text to a structured representation. For example, each word may be viewed as an attribute, with a Boolean value indicating whether the word is in the article or with an integer value
  24. 24. REPRESENTACIÓN DE ÍTEMS• Keyword-based VSM • Stemming • Ocurrencia de palabras tomando la raíz del término • Computación, Computadora, Computólogo, Cómputo
  25. 25. REPRESENTACIÓN DE ÍTEMS• Synset-based VSM • Utiliza los synsets de WordNet • Mismos cálculos que Keyword-based VSM • Los pesos de los términos del mismo synset forman un elemento del vector • Los 3 supuestos aplican de la misma forma • Propósito: • Dar tratamiento a la sinonimia y polisemia
  26. 26. REPRESENTACIÓN DE ÍTEMS• Semantic Analysis • Adición de información semántica a las representaciones de los ítems • Uso de Ontologías
  27. 27. REPRESENTACIÓN DE ÍTEMS• Explicit Semantic Analysis • Añade información de fuentes de conocimiento externas como Wikipedia, Open Directory Project (ODP) y Yahoo! Web Directory. • Cada concepto de la ontología se encuentra ligado a un enlace de la fuente externa [Gabrilovich, 2011]
  28. 28. CONTENT-BASED• Creación del perfil (de interés) de usuario • Vector Space Model(VSM) • Support Vector Machine (SVM) • Métodos probabilísticos (Naïve Bayes) • Relevance Feedback (Rochio’s Algorithm)
  29. 29. CREACIÓN DEL PERFIL DE USUARIO• Vector Space Model • Mismo caso que el VSM para la representación de ítems • Vector con las características de todos los ítems valorados por el usuario
  30. 30. CREACIÓN DEL PERFIL DE USUARIO• Support Vector Machine • Encontrar una función (hiperplano lineal, límite de decisión) que separe los datos con un margen maximizado.
  31. 31. CREACIÓN DEL PERFIL DE USUARIO• Support Vector Machine
  32. 32. CREACIÓN DEL PERFIL DE USUARIO• Métodos probabilísticos (Naïve Bayes) Multinomial Event Model
  33. 33. CREACIÓN DEL PERFIL DE USUARIO• Relevance Feedback (Rochio’s Algorithm) • Similar al VSM • Crea un vector prototipo para compararlo con el vector de características del ítem
  34. 34. CONTENT-BASED• Similaridad Euclidiana Mahalanobis Minkowski Coseno
  35. 35. CONTENT-BASED• Escenarios para su utilización: • Ítems con contenido textual (Objetos de conocimiento) • Ítems con descripciones textuales • Ítems que con el mismo conjunto de características y valores discretos para cada rasgo (Sin heterogeneidad de ítems) • Cuando sea necesario relacionar un ítem con una categoría
  36. 36. KNOWLEDGE-BASED• Se basa en inferencias sobre las necesidades y preferencias del usuario• Diferencia • Utiliza conocimiento funcional • Como un determinado ítem cumple una necesidad específica• El perfil de usuario debe ser una estructura de conocimiento que soporte la inferencia [Burke, 2002]
  37. 37. KNOWLEDGE-BASED• Universo • Características de los ítems en I • Conocimiento sobre como estos ítems cumplen las necesidades de los usuarios (Reglas de inferencia)• Entrada • Descripción de los intereses o necesidades de u• Proceso • Inferir una relación entre i y las necesidades de u [Burke, 2002]
  38. 38. KNOWLEDGE-BASED• Association Rule Mining • Identifica colecciones de dos o mas elementos con un número repetitivo de transacciones que los contienen. • Itemset = Colecciones (Milk, Beer, Diaper) • Support count = Ocurrencias/Transacciones • Frequent itemset = Colecciones con Support count superior o igual al umbral • Association rule = X -> Y (Milk, Diaper) -> Beer • Se hacen N combinaciones y se comparan con el umbral mínimo de transacciones. [Amatriain, 2011]
  39. 39. KNOWLEDGE-BASED• Rule-based classifier • Se basa en el uso de las reglas de asociación • If … then …
  40. 40. KNOWLEDGE-BASED Example Example • Rule-based classifier Know le d ge Ba se : Know le d ge Ba se : P Pr oduct ca t a lo gue : Pow e r shot XY W e ight LH S e ight W LH S RH S RH S Popref. Brand Canon C1: 25 TRUE 25 C1: TRUE Brand = Brand pref. = Brand Brand Br =< Lower focal length 35 C2: 20 Motives 20 Landscape =Low. foc. Length =< C2: = Motives Landscape Low. foc. Lengt Lo 28 28 Upper focal length 140 Upost C3: 15 TRUE 15 C3: TRUE Price =< Max Price =< Max c Max. cost Max. Price 420 EUR Pr Cur r e nt use r : Cur r e nt use r : Lum ix Lu Use r m ode l Use r m ode l Brand Panasonic Br ( r e quir e m e nt s) quir e m e nt s) ( re Lower focal length 28 Lo Motives Motives Landscape Landscape Upper focal length 112 Up Brand preference Brand preference Canon Canon Price 319 EUR Pr Max. cost Max. cost 350 EUR 350 EUR - 59 -
  41. 41. KNOWLEDGE-BASED• Rule-based classifier• Rank 1. Lumix 35/60• Rank 2. Powershot 25/60 [Zanker, 2010]
  42. 42. KNOWLEDGE-BASED• Escenarios para su utilización: • Cuando se han obtenido las reglas asociativas mediante el análisis previo del dominio • Cuando no se tienen valoraciones de los ítems • Cuando se cuente con información de las necesidades del usuario y del dominio de los ítems
  43. 43. HÍBRIDAS• Métodos de hibridación • Weighted • Switching • Cascade • Mixed • Feature Augmentation [Burke, 2002]
  44. 44. HÍBRIDAS• Weighted [Zanker, 2010]
  45. 45. HÍBRIDAS• Switching• Por ejemplo: • Si hay pocas valoraciones • Usar Knowledge-based • Si no • Usar Collaborative Filtering [Zanker, 2010]
  46. 46. HÍBRIDAS• Cascade [Zanker, 2010]
  47. 47. HÍBRIDAS• Mixed • Las recomendaciones de distintos recomendadores se presentan al mismo tiempo• Feature Augmentation • La salida de un recomendador es la entrada del siguiente.
  48. 48. COMBINACIONES [Burke, 2002]
  49. 49. ARGUMENTACIÓN• Predicciones • Data-Explorative Model • El usuario puede observar los datos sobre los cuales se hizo la predicción. • No se basa en el proceso matemático para la obtención de la predicción. • Process-Explorative Model • Se explica el proceso matemático tras la predicción. • Diagrama de flujos • Argumentative Model • Utiliza técnicas de argumentación lógica para soportar la predicción.
  50. 50. ARGUMENTACIÓN• Recomendaciones • Estilos de recomendación • Por tipo de elementos (user x feature x item) • Por visualización
  51. 51. ARGUMENTACIÓN• Por tipo de elemento [Papadimitriou, 2011]
  52. 52. ARGUMENTACIÓN• Por tipo de elemento [Papadimitriou, 2011]
  53. 53. ARGUMENTACIÓN• Por tipo de visualización • Keyword Style Explanation • Neighbor Style Explanation • Influence Style Explanation [Bilgic, 2005]
  54. 54. REFERENCIAS[Burke, 2002] Burke, Robin. «Hybrid Recommender Systems: Survey and Experiments.» User Modeling and User-Adapted Interaction, nº 12 (2002): 331-370.[Schafer, 1999] Schafer, J. B., J. Konstan, y J. Riedl. «Recommender Systems in E-Commerce.» Proceedings of the First ACM Conference on Electronic Commerce. Denver, Colorado, 1999. 158-166.[Pasquale, 2011] Lops, Pasquale, Marco de Gemmis, y Giovanni Semeraro. «Content-based Recommender Systems: State of the Art and Trends.» En Recommender Systems Handbook, de Francesco Ricci, Lior Rokach, Bracha Shapira y Paul B. Kantor, 73-105. Springer Science+Bussiness Media, 2011.[Pazzani, 2007] Pazzani, Michael J., y Daniel Billsus. «Content-based Recommendation Systems.» En Personalization, The Adaptative Web: Methods and Strategies of Web, de Peter Brusilovsky, Alfred Kobsa y Wolfgang Nejdl, 325-341. Springer-Verlag Berlin Heidelberg, 2007.
  55. 55. REFERENCIAS[Gabrilovich, 2007] Gabrilovich, E., Markovitch, S.: Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis. In: M.M. Veloso (ed.) Proceedings of the 20th International Joint Conference on Artificial Intelligence, pp. 1606–1611 (2007)[Schafer, 2007] Schafer, J. B., Frankowski, D., Herlocker, J. y S. Shilad. «Collaborative Filtering Recommender Systems.» En Personalization, The Adaptative Web: Methods and Strategies of Web, de Peter Brusilovsky, Alfred Kobsa y Wolfgang Nejdl, 325-341. Springer-Verlag Berlin Heidelberg, 2007.[Vozalis, 2003] Vozalis, E., y K. G. Margaritis. «Analysis of Recommender Systems Algorithms.» 6th Hellenic European Conference on Computer Mathematics & its Applications HERCMA. Atenas, Grecia, 2003.
  56. 56. REFERENCIAS[Zanker, 2010] Zanker, M., y D. Jannach. «Introduction to Recommender Systems.» Tutorial at ACM Symposium on Applied Computing. Sierre, Suiza, 2010.[Amatriain, 2011] Amatriain, X., Jaimes, A., Oliver, N. y Pujol, J. M. «Data Mining Methods for Recommender Systems» En Recommender Systems Handbook, de Francesco Ricci, Lior Rokach, Bracha Shapira y Paul B. Kantor, 73-105. Springer Science+Bussiness Media, 2011.[Papadimitriou, 2011] Papadimitriou, Alexis, Panagiotis Symeonidis, y Yannis Manolopoulos. «A generalized taxonomy of explanations styles for traditional and social recommender systems.» Data Mining and Knowledge Discovery , 2011: 1-29.
  57. 57. REFERENCIAS[Bilgic, 2005] Bilgic, M., y R. J. Mooney. «Explaining Recommendations: Satisfaction vs. Promotion.» International Conference on Intelligent User Interfaces. San Diego, California, 2005.