Your SlideShare is downloading. ×
Stanz@Mi
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Stanz@Mi

126
views

Published on

StanzaMi, Recommender System for renting apartments using Mahout with a large amount of simulated data

StanzaMi, Recommender System for renting apartments using Mahout with a large amount of simulated data

Published in: Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
126
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Sistema Recomendador de alquileres. “STATE OF THE ART“ IN RECOMMENDER SYSTEMS Karim Abdeselam Canales STaNZ@Mi,
  • 2. • Introducción • Documentación, BPMN y requisitos • Activiti • Fuentes de información • Arquitectura en Capas • Mahout …Tareas de aprendizaje automático • Conclusión • Bibliografía
  • 3. • Sistemas de recomendaciones vs viejos sistemas • Tareas de aprendizaje automático • Arquitectura en Capas • Fuentes de información • Alquileres… • Documentación, requisitos y BPMNs
  • 4. • Sistemas de recomendaciones vs viejos sistemas • Tareas de aprendizaje automático • Arquitectura en Capas • Fuentes de información • Alquileres… • Documentación, requisitos y BPMNs
  • 5. • Sistemas de recomendaciones vs viejos sistemas • Tareas de aprendizaje automático • Arquitectura en Capas • Fuentes de información • Alquileres… • Documentación, requisitos y BPMNs
  • 6. • Sistemas de recomendaciones vs viejos sistemas • Tareas de aprendizaje automático • Arquitectura en Capas • Fuentes de información • Alquileres… • Documentación, requisitos y BPMNs
  • 7. • Sistemas de recomendaciones vs viejos sistemas • Tareas de aprendizaje automático • Arquitectura en Capas • Fuentes de información • Alquileres… • Documentación, requisitos y BPMNs
  • 8. •  Cliente/Servicios Busca/Ofrecer Modo? Características Perfil  Recomendaciones
  • 9. Modelo de Negocio     
  • 10. • Activiti
  • 11. • Activiti Software Project Requirements Analyst •Java •XML •Buildscripts •Tests •… Developer Tomcat JDK 6 JBoss … Activiti Your App Oracle, MySQL, H2
  • 12. • Activiti      Engine Modeler Designer Explorer Rest
  • 13. • Activiti
  • 14. • Usuarios • Feeds/Repositorios, proveedores
  • 15. • Usuarios
  • 16. • Usuarios
  • 17. • Feeds/Repositorios, proveedores  Simulación  Proveedores & Competencia & Sistemas reales & RSS/FEEDS & Simulación  Sistemas reales, RSS, Feeds  Scripts  Formato
  • 18. ………………………………………………..      ………………………………………………..
  • 19.     
  • 20.     
  • 21.    ROOMS/ ROOM ROOM   TITLE TITLE 360 € single room Milano (via San Galdino 2) EUR360 LINK …………… DECRIPTION DESC-- Single room, quite neighborhood, 4th floor with elevator (lift) Available October indefinitely 3 roommates: one [...] ……………
  • 22.     
  • 23. RIAS
  • 24. RIAS
  • 25. • 1. Clustering 2. Classification 3. Recommendation ?
  • 26. • • Clustering (Experimental) • Introducción • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  • 27. • • Clustering (Experimental) • Introducción • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  • 28. • • Clustering (Experimental) • Modelado • 1) vectorización • 2) Selección de medida de distancia • • • • • 1. Distancia Euclidiana 2. Distancia Euclidiana Cuadrada 3. Distancia del Coseno 4. Distancia Tanimoto (combinación de distancia euclidiana y el coseno.) 5.Distancia Manhattan (Taxista) • 3) Puesta a punto características • 4) Ejecutar el K-means • 5) Observar
  • 29. • • Clustering (Experimental) • Modelado • 1) vectorización • 2) Selección de medida de distancia • • • • • 1. Distancia Euclidiana 2. Distancia Euclidiana Cuadrada 3. Distancia del Coseno 4. Distancia Tanimoto (combinación de distancia euclidiana y el coseno.) 5.Distancia Manhattan (Taxista) • 3) Puesta a punto características • 4) Ejecutar el K-means • 5) Observar
  • 30. • • Clustering (Experimental) • Modelado • 1) vectorización • 2) Selección de medida de distancia • • • • • 1. Distancia Euclidiana 2. Distancia Euclidiana Cuadrada 3. Distancia del Coseno 4. Distancia Tanimoto (combinación de distancia euclidiana y el coseno.) 5.Distancia Manhattan (Taxista) • 3) Puesta a punto características • 4) Ejecutar el K-means • 5) Observar
  • 31. Tanimoto Manhattan
  • 32. • • Clustering (Experimental) • Modelado • 1) vectorización • 2) Selección de medida de distancia • • • • • 1. Distancia Euclidiana 2. Distancia Euclidiana Cuadrada 3. Distancia del Coseno 4. Distancia Tanimoto (combinación de distancia euclidiana y el coseno.) 5.Distancia Manhattan (Taxista) • 3) Puesta a punto características • 4) Ejecutar el K-means • 5) Observar
  • 33. • • Clustering (Experimental) • Modelado • 1) vectorización • 2) Selección de medida de distancia • • • • • 1. Distancia Euclidiana 2. Distancia Euclidiana Cuadrada 3. Distancia del Coseno 4. Distancia Tanimoto (combinación de distancia euclidiana y el coseno.) 5.Distancia Manhattan (Taxista) • 3) Puesta a punto características K = 5 , a , wt (tdf-idf), md , x, ml, seq… • 4) Ejecutar el K-means • 5) Observar
  • 34. • • Clustering (Experimental) • Modelado • 1) vectorización • 2) Selección de medida de distancia • • • • • 1. Distancia Euclidiana 2. Distancia Euclidiana Cuadrada 3. Distancia del Coseno 4. Distancia Tanimoto (combinación de distancia euclidiana y el coseno.) 5.Distancia Manhattan (Taxista) • 3) Puesta a punto características • 4) Ejecutar el K-means • 5) Observar
  • 35. • • Clustering (Experimental) • Introducción • Caso Práctico • • • • DataSet Modelado ( ≈ 1000 docs…) Resultado K-Means Conclusiones
  • 36. • • Clustering (Experimental) • Introducción • Caso Práctico • • • • DataSet Modelado ( ≈ 1000 docs…) Resultado K-Means Conclusiones
  • 37. • • Clustering (Experimental) • Introducción • Caso Práctico • • • • DataSet Modelado ( ≈ 1000 docs…) Resultado K-Means Conclusiones
  • 38. • • Classification • Introducción • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  • 39. • • Classification • Introducción • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  • 40. • • Classification • Introducción • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  • 41. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  • 42. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  • 43. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  • 44. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  • 45. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  • 46. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  • 47. • • Classification • Caso Práctico • • • • • IndexFiles Extract Training Data SplitInput TrainingData TestData
  • 48. • • Classification • Introducción • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  • 49. • • Recommendation  • Introducción   • Basados en Contenidos • Basados en Colaboración • Híbridos • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  • 50. • • Recommendation  • Introducción   • Basados en Contenidos • Basados en Colaboración • Híbridos • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  • 51. • • Recommendation  • Introducción   • Basados en Contenidos • Basados en Colaboración • Híbridos • Caso Práctico • • • • DataSet Modelado Resultado Conclusiones
  • 52.   
  • 53.   
  • 54.  UserSimilarity define una noción de similitud entre dos usuarios.  ItemSimilarity define una noción de similitud entre dos artículos.  ¿Qué definición de similitud están disponibles? • • • • • Pearson Correlation Spearman Correlation Euclidean Distance Tanimoto Coefficient LogLikelihood Similarity
  • 55.  UserSimilarity define una noción de similitud entre dos usuarios.  ItemSimilarity define una noción de similitud entre dos artículos.  ¿Qué definición de similitud están disponibles? • • • • • Pearson Correlation Spearman Correlation Euclidean Distance Tanimoto Coefficient LogLikelihood Similarity
  • 56.   Medidas de predicción basados en  • Mean Average Error • RMSE (Root Mean Square Error)  Medidas basadas en IR  • Precision • Recall • F1-measure ....
  • 57. • • Recommendation • Modelado • • • • • DataSet 1) Implementaciones 2) Puesta a punto características 3) Ejecutar 4) Observar Precision, Recall, Accuracy, Error...
  • 58. …… ……
  • 59. • • Recommendation • Modelado • • • • • DataSet 1) Implementaciones 2) Puesta a punto características 3) Ejecutar 4) Observar Precision, Recall, Accuracy, Error...
  • 60. • • Recommendation • Modelado • 4) Observar Precision, Recall, Accuracy, Error... --------------------LogLikelihoodSimilarity 2---------------------Precision ==> 0.9 Recall ==> 0.5714285714285714 F1 ==> 0.6990291262135921 Mean Average Error (sum_error)/n ==> 0.8348631858825684 RMSE (Root Mean Square Error (sqrt(sum_error2))/n) ==> 1.1467651365788167 -------------------------------------------------------
  • 61. Gráfico Representativo Precision 0.69 0.5 0.41 0.41 0.78 0.3 0.41 0.41 0.11 0.5 0.5 0.5 0.64 0.28 0.21 0.5 0.5 0.5 1 0.35 0.35 0.33 0.35 0.35 0.5 0.41 0.41 0.5 0.5 0.5 0.35 0.35 0.21 0.35 0.42 0.42 0.25 0.9 F1 0.34 0.32 0.27 0.32 0.41 0.44 0.38 0.31 0.34 0.78 0.07 0.57 Recall 0.66 0.28 0.4 0.3 0.4 0.35 0.6 0.35 0.42 0.35 0.42 0.28 0.28 0.64 1 0.5
  • 62. • Dataset... • Análisis de los datos y calidad de los mismos… • Pruebas… • Infraestructura…receta… • Dificultad y envergadura del proyecto... • Innovación y perdiendo en profundidad… • Ingenio….La informática ha sido…. • Bonito sería... • Contento de...
  • 63.  Gediminas Adomavicius and Alexander Tuzhilin.” Toward the Next Generation of Recommender, A Survey of the State-of-the-Art and Possible Extensions”. IEEE  TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 17, NO. 6, JUNE 2005.  Iván Cantador Gutiérrez, Pablo Castells Azpilicueta. “Exploiting the conceptual space in hybrid  recommender systems: a semantic-based approach”. October 2008  Tijs Rademakers. “Activiti in Action. Executable business processes in BPMN 2.0”. July, 2012.  Chuck Lam.”Hadoop in Action”. December, 2010  Grant S. Ingersoll, Thomas S. Morton, and Andrew L. Farris. “Taming Text. How to Find,  Organize, and Manipulate It”. January, 2013  Michael McCandless, Erik Hatcher, and Otis Gospodnetid. “Lucene in Action, Second Edition”. July, 2010.  Sean Owen, Robin Anil, Ted Dunning, and Ellen Friedman. “Mahout in Action”. October, 2011  Jonathan R. Owens, Jon Lentz, Brian Femiano. “Hadoop Real World Solutions CookBook”.  February 2013.  Mark Pollack, Oliver Gierke, Thomas Risberg, Jon Brisbin, Michael Hunger. ”Spring Data”. October 2012.  Etc..