Stanz@Mi

380 views

Published on

StanzaMi, Recommender System for renting apartments using Mahout with a large amount of simulated data

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
380
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Stanz@Mi

  1. 1. Sistema Recomendador de alquileres. “STATE OF THE ART“ IN RECOMMENDER SYSTEMS Karim Abdeselam Canales STaNZ@Mi,
  2. 2. • Introducción • Documentación, BPMN y requisitos • Activiti • Fuentes de información • Arquitectura en Capas • Mahout …Tareas de aprendizaje automático • Conclusión • Bibliografía
  3. 3. • Sistemas de recomendaciones vs viejos sistemas • Tareas de aprendizaje automático • Arquitectura en Capas • Fuentes de información • Alquileres… • Documentación, requisitos y BPMNs
  4. 4. • Sistemas de recomendaciones vs viejos sistemas • Tareas de aprendizaje automático • Arquitectura en Capas • Fuentes de información • Alquileres… • Documentación, requisitos y BPMNs
  5. 5. • Sistemas de recomendaciones vs viejos sistemas • Tareas de aprendizaje automático • Arquitectura en Capas • Fuentes de información • Alquileres… • Documentación, requisitos y BPMNs
  6. 6. • Sistemas de recomendaciones vs viejos sistemas • Tareas de aprendizaje automático • Arquitectura en Capas • Fuentes de información • Alquileres… • Documentación, requisitos y BPMNs
  7. 7. • Sistemas de recomendaciones vs viejos sistemas • Tareas de aprendizaje automático • Arquitectura en Capas • Fuentes de información • Alquileres… • Documentación, requisitos y BPMNs
  8. 8. •  Cliente/Servicios Busca/Ofrecer Modo? Características Perfil  Recomendaciones
  9. 9. Modelo de Negocio     
  10. 10. • Activiti
  11. 11. • Activiti Software Project Requirements Analyst •Java •XML •Buildscripts •Tests •… Developer Tomcat JDK 6 JBoss … Activiti Your App Oracle, MySQL, H2
  12. 12. • Activiti      Engine Modeler Designer Explorer Rest
  13. 13. • Activiti
  14. 14. • Usuarios • Feeds/Repositorios, proveedores
  15. 15. • Usuarios
  16. 16. • Usuarios
  17. 17. • Feeds/Repositorios, proveedores  Simulación  Proveedores & Competencia & Sistemas reales & RSS/FEEDS & Simulación  Sistemas reales, RSS, Feeds  Scripts  Formato
  18. 18. ………………………………………………..      ………………………………………………..
  19. 19.     
  20. 20.     
  21. 21.    ROOMS/ ROOM ROOM   TITLE TITLE 360 € single room Milano (via San Galdino 2) EUR360 LINK …………… DECRIPTION DESC-- Single room, quite neighborhood, 4th floor with elevator (lift) Available October indefinitely 3 roommates: one [...] ……………
  22. 22.     
  23. 23. RIAS
  24. 24. RIAS
  25. 25. • 1. Clustering 2. Classification 3. Recommendation ?
  26. 26. • • Clustering (Experimental) • Introducción • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  27. 27. • • Clustering (Experimental) • Introducción • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  28. 28. • • Clustering (Experimental) • Modelado • 1) vectorización • 2) Selección de medida de distancia • • • • • 1. Distancia Euclidiana 2. Distancia Euclidiana Cuadrada 3. Distancia del Coseno 4. Distancia Tanimoto (combinación de distancia euclidiana y el coseno.) 5.Distancia Manhattan (Taxista) • 3) Puesta a punto características • 4) Ejecutar el K-means • 5) Observar
  29. 29. • • Clustering (Experimental) • Modelado • 1) vectorización • 2) Selección de medida de distancia • • • • • 1. Distancia Euclidiana 2. Distancia Euclidiana Cuadrada 3. Distancia del Coseno 4. Distancia Tanimoto (combinación de distancia euclidiana y el coseno.) 5.Distancia Manhattan (Taxista) • 3) Puesta a punto características • 4) Ejecutar el K-means • 5) Observar
  30. 30. • • Clustering (Experimental) • Modelado • 1) vectorización • 2) Selección de medida de distancia • • • • • 1. Distancia Euclidiana 2. Distancia Euclidiana Cuadrada 3. Distancia del Coseno 4. Distancia Tanimoto (combinación de distancia euclidiana y el coseno.) 5.Distancia Manhattan (Taxista) • 3) Puesta a punto características • 4) Ejecutar el K-means • 5) Observar
  31. 31. Tanimoto Manhattan
  32. 32. • • Clustering (Experimental) • Modelado • 1) vectorización • 2) Selección de medida de distancia • • • • • 1. Distancia Euclidiana 2. Distancia Euclidiana Cuadrada 3. Distancia del Coseno 4. Distancia Tanimoto (combinación de distancia euclidiana y el coseno.) 5.Distancia Manhattan (Taxista) • 3) Puesta a punto características • 4) Ejecutar el K-means • 5) Observar
  33. 33. • • Clustering (Experimental) • Modelado • 1) vectorización • 2) Selección de medida de distancia • • • • • 1. Distancia Euclidiana 2. Distancia Euclidiana Cuadrada 3. Distancia del Coseno 4. Distancia Tanimoto (combinación de distancia euclidiana y el coseno.) 5.Distancia Manhattan (Taxista) • 3) Puesta a punto características K = 5 , a , wt (tdf-idf), md , x, ml, seq… • 4) Ejecutar el K-means • 5) Observar
  34. 34. • • Clustering (Experimental) • Modelado • 1) vectorización • 2) Selección de medida de distancia • • • • • 1. Distancia Euclidiana 2. Distancia Euclidiana Cuadrada 3. Distancia del Coseno 4. Distancia Tanimoto (combinación de distancia euclidiana y el coseno.) 5.Distancia Manhattan (Taxista) • 3) Puesta a punto características • 4) Ejecutar el K-means • 5) Observar
  35. 35. • • Clustering (Experimental) • Introducción • Caso Práctico • • • • DataSet Modelado ( ≈ 1000 docs…) Resultado K-Means Conclusiones
  36. 36. • • Clustering (Experimental) • Introducción • Caso Práctico • • • • DataSet Modelado ( ≈ 1000 docs…) Resultado K-Means Conclusiones
  37. 37. • • Clustering (Experimental) • Introducción • Caso Práctico • • • • DataSet Modelado ( ≈ 1000 docs…) Resultado K-Means Conclusiones
  38. 38. • • Classification • Introducción • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  39. 39. • • Classification • Introducción • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  40. 40. • • Classification • Introducción • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  41. 41. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  42. 42. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  43. 43. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  44. 44. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  45. 45. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  46. 46. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  47. 47. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  48. 48. • • Classification • Introducción • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  49. 49. • • Recommendation  • Introducción   • Basados en Contenidos • Basados en Colaboración • Híbridos • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  50. 50. • • Recommendation  • Introducción   • Basados en Contenidos • Basados en Colaboración • Híbridos • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  51. 51. • • Recommendation  • Introducción   • Basados en Contenidos • Basados en Colaboración • Híbridos • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  52. 52.   
  53. 53.   
  54. 54.  UserSimilarity define una noción de similitud entre dos usuarios.  ItemSimilarity define una noción de similitud entre dos artículos.  ¿Qué definición de similitud están disponibles? • • • • • Pearson Correlation Spearman Correlation Euclidean Distance Tanimoto Coefficient LogLikelihood Similarity
  55. 55.  UserSimilarity define una noción de similitud entre dos usuarios.  ItemSimilarity define una noción de similitud entre dos artículos.  ¿Qué definición de similitud están disponibles? • • • • • Pearson Correlation Spearman Correlation Euclidean Distance Tanimoto Coefficient LogLikelihood Similarity
  56. 56.   Medidas de predicción basados en  • Mean Average Error • RMSE (Root Mean Square Error)  Medidas basadas en IR  • Precision • Recall • F1-measure ....
  57. 57. • • Recommendation • Modelado • • • • • DataSet 1) Implementaciones 2) Puesta a punto características 3) Ejecutar 4) Observar Precision, Recall, Accuracy, Error...
  58. 58. …… ……
  59. 59. • • Recommendation • Modelado • • • • • DataSet 1) Implementaciones 2) Puesta a punto características 3) Ejecutar 4) Observar Precision, Recall, Accuracy, Error...
  60. 60. • • Recommendation • Modelado • 4) Observar Precision, Recall, Accuracy, Error... --------------------LogLikelihoodSimilarity 2---------------------Precision ==> 0.9 Recall ==> 0.5714285714285714 F1 ==> 0.6990291262135921 Mean Average Error (sum_error)/n ==> 0.8348631858825684 RMSE (Root Mean Square Error (sqrt(sum_error2))/n) ==> 1.1467651365788167 -------------------------------------------------------
  61. 61. Gráfico Representativo Precision 0.69 0.5 0.41 0.41 0.78 0.3 0.41 0.41 0.11 0.5 0.5 0.5 0.64 0.28 0.21 0.5 0.5 0.5 1 0.35 0.35 0.33 0.35 0.35 0.5 0.41 0.41 0.5 0.5 0.5 0.35 0.35 0.21 0.35 0.42 0.42 0.25 0.9 F1 0.34 0.32 0.27 0.32 0.41 0.44 0.38 0.31 0.34 0.78 0.07 0.57 Recall 0.66 0.28 0.4 0.3 0.4 0.35 0.6 0.35 0.42 0.35 0.42 0.28 0.28 0.64 1 0.5
  62. 62. • Dataset... • Análisis de los datos y calidad de los mismos… • Pruebas… • Infraestructura…receta… • Dificultad y envergadura del proyecto... • Innovación y perdiendo en profundidad… • Ingenio….La informática ha sido…. • Bonito sería... • Contento de...
  63. 63.  Gediminas Adomavicius and Alexander Tuzhilin.” Toward the Next Generation of Recommender, A Survey of the State-of-the-Art and Possible Extensions”. IEEE  TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 17, NO. 6, JUNE 2005.  Iván Cantador Gutiérrez, Pablo Castells Azpilicueta. “Exploiting the conceptual space in hybrid  recommender systems: a semantic-based approach”. October 2008  Tijs Rademakers. “Activiti in Action. Executable business processes in BPMN 2.0”. July, 2012.  Chuck Lam.”Hadoop in Action”. December, 2010  Grant S. Ingersoll, Thomas S. Morton, and Andrew L. Farris. “Taming Text. How to Find,  Organize, and Manipulate It”. January, 2013  Michael McCandless, Erik Hatcher, and Otis Gospodnetid. “Lucene in Action, Second Edition”. July, 2010.  Sean Owen, Robin Anil, Ted Dunning, and Ellen Friedman. “Mahout in Action”. October, 2011  Jonathan R. Owens, Jon Lentz, Brian Femiano. “Hadoop Real World Solutions CookBook”.  February 2013.  Mark Pollack, Oliver Gierke, Thomas Risberg, Jon Brisbin, Michael Hunger. ”Spring Data”. October 2012.  Etc..

×