Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Bienvenid@s a
Antonio Pita Lozano
Data Science Awards Spain 2016
24 de octubre de 2016
Big Data Week
Primera Fase
Fase eliminatoria
Test con 20 preguntas cronometradas
Sólo los 50 mejores pasaron a la segunda ronda
Segunda Fase: Data Analysis
Sistema Recomendador de películas
El objetivo del reto de Data Analysis es diseñar y desarro...
Resumen
Crear Netflix
Resumen
Crear Netflix
¡¡Sin Datos!!
Resumen
Crear Netflix
¡¡Sin Datos!!
¿¿En 30 días??
Objetivo de Negocio
¿Cuál es el objetivo de negocio?
Objetivo de Negocio
¿Incrementar la
recurrencia?
¿Incrementar los
visionados?
¿Aumentar el
tiempo de
navegación?
¿Reducir ...
Objetivo de Negocio
¿Incrementar la
recurrencia?
¿Incrementar los
visionados?
¿Aumentar el
tiempo de
navegación?
¿Reducir ...
Del Dato al Conocimiento
La extracción de conocimiento de las películas se realiza con dato muerto (Batch)
PASEO POR LA S...
Navegación
Pantalla de inicio simple, sencillo e intuitivo. Login social para facilitar el Onboarding
Login
Social
Pantalla principal Perfil Usuario
Entorno sencillo y amigable para facilitar la navegación
Menú
de
opciones
Carrusel básic...
Pantalla principal Perfil Administrador
Gestión integral de la herramienta
Menú
de
opciones
Perfil del
Administrador
Multidispositivo
Filosofía “mobile first” y “responsive” para permitir la conexión adaptada a móvil y tablet
Tecnología
...
Comienzo de Navegación
La selección puede realizarse por múltiples sistemas de recomendación “básicos”
Comienzo de Navegación
La selección puede realizarse por múltiples sistemas de recomendación “básicos”
Sistemas de recomen...
Comienzo de Navegación
La selección puede realizarse por múltiples sistemas de recomendación “básicos”
Sistemas de recomen...
Comienzo de Navegación
La selección puede realizarse por múltiples sistemas de recomendación “básicos”
Sistemas de recomen...
Ficha de Película
La ficha de película contiene la información básica y los comentarios del resto de usuarios
Navegación por Características
Pulsando sobre el nombre de un Actor/Actriz o un Director podemos continuar la navegación
Del Dato al Conocimiento
La extracción de conocimiento de las películas se realiza con dato muerto (Batch)
ES EL MOMENTO ...
Aprovisionamiento externo
Aprovisionamiento de los datos
Desarrollo de Web Crawler y Web Scrapper para aprovisionamiento e...
Representación de las películas
(1,0,2,0,1, … , 1)
Visión algebraica Visión geométrica
Dimensión: 745.763
Similitud entre películas
(1,0,2,0,1, … , 1)
(2,0,0,1,1, … , 0)
Visión algebraica Visión geométrica
Dimensión: 745.763
Similitud entre películas
Para cada par de películas se calcula su similitud en función de la información textual disponi...
Recomendaciones por similaridad
En la ficha de cada película se muestran las películas más similares para poder navegar...
Recomendaciones por similaridad
En la ficha de cada película se muestran las películas más similares para poder navegar en...
Corrección colaborativa de errores
Los usuarios colaboran en la depuración del modelo con sus desvinculaciones
Colaboració...
Ranking de usuarios
Los usuarios ganan Sigefilm Coins que podrán canjear por descuentos, preestrenos y promociones exclus...
Gestión de denuncias
Los administradores gestionan las denuncias de los usuarios
Perfil del
Administrador
Del Dato al Conocimiento
La extracción de conocimiento de los usuarios se realiza en tiempo real
ES EL MOMENTO DE INCLUIR
...
Aprovisionamiento interno
La información del usuario actualiza en tiempo real las recomendaciones personalizadas
Marca “Me...
Recomendadores personalizados
Hay diferentes sistemas de recomendación en función de la tipología de producto y el grado ...
Test de Valoraciones
Si no hay suficientes valoraciones, al pulsar en los sistemas de recomendación te aparece un test de ...
Recomendaciones Items-User
+ + + -
Recomendaciones Items-User
+ + + -
Score: 0,127 8,29 12,42 -5,42
Propagación
por similitud
Recomendaciones Items-User
Un score para cada película ( ̴123.942) en base a los gustos del usuario y las relaciones entr...
Recomendaciones Items-User
Un score para cada película ( ̴123.942) en base a los gustos del usuario y las relaciones entr...
Recomendaciones Users-User
10 7 9 1 3 ?
8 -- 10 2 -- 8
9 8 -- -- 4 9
2 0 -- 9 10 3
Machine Learning
Recomendaciones Users-User
10 7 9 1 3 ?
8 -- 10 2 -- 8
9 8 -- -- 4 9
2 0 -- 9 10 3
Machine Learning
Recomendaciones Users-User
Un score para cada película en función a las valoraciones de otros usuarios y su relación con ...
Recomendaciones Items-Users
Permite realizar estimaciones de las valoraciones de cada película y usuario utilizando toda ...
Tecnología y Arquitectura
El desarrollo se ha realizado con software libre, algoritmos paralelizados y arquitectura Big Da...
Otros casos de uso
Estas técnicas pueden adaptarse a diferentes sectores para realizar recomendaciones de nuevos productos...
Mis Musas
Por todo el tiempo que os he robado y todo vuestro apoyo, cariño, amor, comprensión,…
OS DEDICO ESTE PREMIO
Te esperamos…
Antonio Pita Lozano
Data Science Awards Spain 2016
24 de octubre de 2016
Big Data Week
Upcoming SlideShare
Loading in …5
×

Proyecto Sigefilms. Ganador de los Data Science Awards Spain 2016

963 views

Published on

Presentación del proyecto SIgefilms en el Big Data Week celebrado en Madrid. Sigefilms es un sistema recomendador de películas que incluye un sistema de recomendación basado en los gustos y preferencias de los usuarios utilizando técnicas de Machine Learning sobre una arquitectura Big Data.

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Proyecto Sigefilms. Ganador de los Data Science Awards Spain 2016

  1. 1. Bienvenid@s a Antonio Pita Lozano Data Science Awards Spain 2016 24 de octubre de 2016 Big Data Week
  2. 2. Primera Fase Fase eliminatoria Test con 20 preguntas cronometradas Sólo los 50 mejores pasaron a la segunda ronda
  3. 3. Segunda Fase: Data Analysis Sistema Recomendador de películas El objetivo del reto de Data Analysis es diseñar y desarrollar un sistema que recomiende una serie de películas a partir de una película seleccionada previamente. Para ello, el sistema se basará en la siguiente información del entorno: Gustos• del usuario que usa la aplicación. Toda• la información de las películas (casting, sinopsis, etc). Opiniones• y críticas de cada película. Cualquier• otra información de fuente externa que se considere. Datos Será necesaria la obtención de datos procedentes de las webs IMDB o FilmAffinity. Para extraerlas se puede utilizar la API o bien desarrollar scrapers. Se tendrá que aprovisionar cualquier otra fuente que se desee.
  4. 4. Resumen Crear Netflix
  5. 5. Resumen Crear Netflix ¡¡Sin Datos!!
  6. 6. Resumen Crear Netflix ¡¡Sin Datos!! ¿¿En 30 días??
  7. 7. Objetivo de Negocio ¿Cuál es el objetivo de negocio?
  8. 8. Objetivo de Negocio ¿Incrementar la recurrencia? ¿Incrementar los visionados? ¿Aumentar el tiempo de navegación? ¿Reducir el tiempo de selección? ¿Reducir la recencia? ¿Realizar recomendaciones conservadoras? ¿Cuál es el objetivo de negocio? ¿Aumentar el valor de las valoraciones? ¿Realizar recomendaciones arriesgadas?
  9. 9. Objetivo de Negocio ¿Incrementar la recurrencia? ¿Incrementar los visionados? ¿Aumentar el tiempo de navegación? ¿Reducir el tiempo de selección? ¿Reducir la recencia? ¿Realizar recomendaciones conservadoras? ¿Cuál es el objetivo de negocio? ¿Aumentar el valor de las valoraciones? ¿Realizar recomendaciones arriesgadas? Facilitar la selección y mejorar la experiencia del usuario
  10. 10. Del Dato al Conocimiento La extracción de conocimiento de las películas se realiza con dato muerto (Batch) PASEO POR LA SOLUCIÓN
  11. 11. Navegación Pantalla de inicio simple, sencillo e intuitivo. Login social para facilitar el Onboarding Login Social
  12. 12. Pantalla principal Perfil Usuario Entorno sencillo y amigable para facilitar la navegación Menú de opciones Carrusel básico con la propuesta de películas mas vistas, puede personalizarse.
  13. 13. Pantalla principal Perfil Administrador Gestión integral de la herramienta Menú de opciones Perfil del Administrador
  14. 14. Multidispositivo Filosofía “mobile first” y “responsive” para permitir la conexión adaptada a móvil y tablet Tecnología Boostrap
  15. 15. Comienzo de Navegación La selección puede realizarse por múltiples sistemas de recomendación “básicos”
  16. 16. Comienzo de Navegación La selección puede realizarse por múltiples sistemas de recomendación “básicos” Sistemas de recomendación no personalizados Mejor Valoradas Mas Vistas
  17. 17. Comienzo de Navegación La selección puede realizarse por múltiples sistemas de recomendación “básicos” Sistemas de recomendación no personalizados Mejor Valoradas Género Clásico Ej. “Aventuras” Mas Vistas Temática Ej. “Cocodrilos”
  18. 18. Comienzo de Navegación La selección puede realizarse por múltiples sistemas de recomendación “básicos” Sistemas de recomendación no personalizados Sistemas de recomendación personalizados Mejor Valoradas Género Clásico Ej. “Aventuras” Mas Vistas Temática Ej. “Cocodrilos” Mis películas Vistas Las que me gustan
  19. 19. Ficha de Película La ficha de película contiene la información básica y los comentarios del resto de usuarios
  20. 20. Navegación por Características Pulsando sobre el nombre de un Actor/Actriz o un Director podemos continuar la navegación
  21. 21. Del Dato al Conocimiento La extracción de conocimiento de las películas se realiza con dato muerto (Batch) ES EL MOMENTO DE INCLUIR INTELIGENCIA BASADA EN LAS PELÍCULAS RECOMENDACIONES NO PERSONALIZADAS
  22. 22. Aprovisionamiento externo Aprovisionamiento de los datos Desarrollo de Web Crawler y Web Scrapper para aprovisionamiento e incrementales 129.942 películas Carátula Título Título Original Género Tópico Año País Duración Director Sinopsis Reparto Guion Música Fotografía Productora Críticas Sólo información en Castellano Almacenado en una base de datos documental NoSQL semiestructurada
  23. 23. Representación de las películas (1,0,2,0,1, … , 1) Visión algebraica Visión geométrica Dimensión: 745.763
  24. 24. Similitud entre películas (1,0,2,0,1, … , 1) (2,0,0,1,1, … , 0) Visión algebraica Visión geométrica Dimensión: 745.763
  25. 25. Similitud entre películas Para cada par de películas se calcula su similitud en función de la información textual disponible (1,0,2,0,1, … , 1) (2,0,0,1,1, … , 0) Visión algebraica Visión geométrica Visión geométrica Similitud Dimensión: 745.763 Dimensión: 2 Sim( , )=cos(θ)=0,373 θ
  26. 26. Recomendaciones por similaridad En la ficha de cada película se muestran las películas más similares para poder navegar entre ellas Carrusel con películas similares
  27. 27. Recomendaciones por similaridad En la ficha de cada película se muestran las películas más similares para poder navegar entre ellas Carrusel con películas similares 123.942*123.941 similitudes 123.942 películas 15.362 Millones de similitudes
  28. 28. Corrección colaborativa de errores Los usuarios colaboran en la depuración del modelo con sus desvinculaciones Colaboración de los usuarios a cambio de Sigefilm Coins 123.942*123.941 similitudes 123.942 películas 15.362 Millones de similitudes
  29. 29. Ranking de usuarios Los usuarios ganan Sigefilm Coins que podrán canjear por descuentos, preestrenos y promociones exclusivas Gamificación para mejorar la vinculación de los usuarios
  30. 30. Gestión de denuncias Los administradores gestionan las denuncias de los usuarios Perfil del Administrador
  31. 31. Del Dato al Conocimiento La extracción de conocimiento de los usuarios se realiza en tiempo real ES EL MOMENTO DE INCLUIR INTELIGENCIA BASADA EN LOS USUARIOS RECOMENDACIONES PERSONALIZADAS
  32. 32. Aprovisionamiento interno La información del usuario actualiza en tiempo real las recomendaciones personalizadas Marca “Me gusta” Valoración
  33. 33. Recomendadores personalizados Hay diferentes sistemas de recomendación en función de la tipología de producto y el grado de madurez de la herramienta Recomendaciones Users-User. Adecuada para sistemas maduros con muchos usuarios recurrentes Recomendaciones Items-User. Adecuada para sistemas iniciales o sin recurrencia Recomendaciones Items-Users. Adecuada para sistemas muy maduros
  34. 34. Test de Valoraciones Si no hay suficientes valoraciones, al pulsar en los sistemas de recomendación te aparece un test de valoraciones
  35. 35. Recomendaciones Items-User + + + -
  36. 36. Recomendaciones Items-User + + + - Score: 0,127 8,29 12,42 -5,42 Propagación por similitud
  37. 37. Recomendaciones Items-User Un score para cada película ( ̴123.942) en base a los gustos del usuario y las relaciones entre las películas + + + - Score: 0,127 8,29 12,42 -5,42 Propagación por similitud
  38. 38. Recomendaciones Items-User Un score para cada película ( ̴123.942) en base a los gustos del usuario y las relaciones entre las películas + + + - Score: 0,127 8,29 12,42 -5,42 Recomendaciones 1 2 Propagación por similitud
  39. 39. Recomendaciones Users-User 10 7 9 1 3 ? 8 -- 10 2 -- 8 9 8 -- -- 4 9 2 0 -- 9 10 3 Machine Learning
  40. 40. Recomendaciones Users-User 10 7 9 1 3 ? 8 -- 10 2 -- 8 9 8 -- -- 4 9 2 0 -- 9 10 3 Machine Learning
  41. 41. Recomendaciones Users-User Un score para cada película en función a las valoraciones de otros usuarios y su relación con el usuario 10 7 9 1 3 ? 8 -- 10 2 -- 8 9 8 -- -- 4 9 2 0 -- 9 10 3 ? = 8,42 Machine Learning
  42. 42. Recomendaciones Items-Users Permite realizar estimaciones de las valoraciones de cada película y usuario utilizando toda la información disponible Descomposición algebraica en variables latentes de usuarios y películas Las 10 variables más predictivas para películas y usuarios Selección de 10 variables (de 745.763) sintéticas utilizando técnicas de reducción de dimensionalidad Estimación de las variables latentes mediante técnicas estadísticas de regresión N x 129.942 N x 10 10 x 129.942
  43. 43. Tecnología y Arquitectura El desarrollo se ha realizado con software libre, algoritmos paralelizados y arquitectura Big Data distribuida Tecnología Big Data Arquitectura Desarrollo 2 servidores SO: Debian 8 Disco Duro: 50GB SAS RAM: 10GB RAM Cores: 8 Alojados en el CPD de neosis tec Producción Portatil ASUS Intel Core i5 SO: Windows 7 RAM: 4GB RAM Agradecer a que mantenga alojada la solución en su CPD
  44. 44. Otros casos de uso Estas técnicas pueden adaptarse a diferentes sectores para realizar recomendaciones de nuevos productos o servicios Recomendación novedosa Consumo esporádico Consumo repetitivo Selección nuevo Consumo repetitivo
  45. 45. Mis Musas Por todo el tiempo que os he robado y todo vuestro apoyo, cariño, amor, comprensión,… OS DEDICO ESTE PREMIO
  46. 46. Te esperamos… Antonio Pita Lozano Data Science Awards Spain 2016 24 de octubre de 2016 Big Data Week

×