Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big data aplicado el negocio CRISP-DM

1,570 views

Published on

Sesión sobre Big Data Analytics aplicado el negocio para el Master in Internet Business del ISDI

Published in: Data & Analytics
  • Be the first to comment

Big data aplicado el negocio CRISP-DM

  1. 1. INTRODUCCIÓN A LAS MÉTRICAS CLASE: Nuevas Tendencias en el Uso de Métricas – Big Data Aplicado el Negocio Profesor: Jorge Pérez Colín www.isdi.es 1
  2. 2. Jorge Pérez Colín Value Sight Diseño y Arte por Computadora Emprendedor Academia Profesional www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
  3. 3. Mi primera aproximación analítica al churn www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 3 El Financiero Excelsior El Sol de Puebla Churn 0.07 0.1 0.1 Participación 15 25 60 inicial (P0) Paticipación final (P48) 42 17 41 Supuestos: 1. El número de suscriptores es constante 2. Las suscripciones perdidas por un periódico son absorbidas por los otros dos en proporción a su participación de mercado
  4. 4. Apliquemos analítica al negocio de las suscripciones ¿Qué más les gustaría saber para incrementar el índice de renovaciones? ¿Cómo sacarían esa información? ¿Qué harían con lo descubierto? ¿Es replicable esta experiencia al mundo de Internet? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 4
  5. 5. Big Data: Volumen, Variedad y Velocidad www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Capturistas Usuarios Máquinas 5 Social Media Internet of Things
  6. 6. Big Data no tiene sentido sin analytics Big Data entendido como la posibilidad de contar con grandes volúmenes de información brinda la posibilidad de descubrir patrones que pueden ser aprovechados en beneficio del negocio. Una abundancia de información genera una escasez de atención o de enfoque o, simplemente, saber por dónde empezar. CRISP-DM es una de las metodologías más utilizadas en minería de datos pero sobre todo en business analytics para usar eficientemente esta nuevo activo (Big Data). Competing on Analytics Big Data Era www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 6 Gap Analítico Datos Disponibles Capacidad de Ejecución Gap de Ejecución Capacidad de Análisis 2020 1980 1990 2000 2010
  7. 7. Antes de Big Data es Busines Analytics www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 7
  8. 8. Objetivo y temas a tratar Esta sesión tiene como objetivo explicar a grandes rasgos lo que la analítica predictiva, desde el punto de vista de Big Data Analytics es, pero sobre conocer cómo afrontar el reto analítico a través del uso de la metodología Cross Industry Standard Process for Data Mining (CRISP-DM) en el contexto de Big Data. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Temas: Diferencia entre Business Intelligence y Business Analytics Cross Industry Standard Process for Data Mining (CRISP-DM) en sus seis fases Nota aclaratoria de la sesión: El tema Big Data Analytics toca al margen los negocios en Internet, materia de esta maestría, pero presenta una serie de herramentales que serán cada vez más útiles para ellos. 8
  9. 9. Diferencia entre Business Intelligence y Business Analytics Business Analytics (y es el sentido que le damos aquí a Big Data Analytics) se refiere a las habilidades, tecnologías y prácticas para la exploración e investigación del desempeño pasado de la empresa para ganar conocimiento y conducir la planeación y ejecución del negocio. BA se enfoca en desarrollar nuevos aprendizajes y entendimiento del negocio basado en los datos, métodos estadísticos y de optimización. En contraste, Business Intelligence tradicionalmente se enfoca en usar un conjunto consistente de métricas para al mismo tiempo medir el desempeño pasado y guiar la planeación del negocio. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 9 Business Intelligence
  10. 10. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM BI Software: Business Objects (SAP), Hypheron (Oracle), Cognos (IBM), Qlickview (Qliktech), MicroStrategy, Tibco, Tableau Software/hardware (appliances—good for Big Data) Netezza (IBM) Greenplum (EMC) DataAllegro (Microsoft) Teradata BI en la nube (for Big Data Too) AWS (Amazon) Pivotal (EMC+Vmware) BA Estadística SPSS Modeler (IBM) SAS R (software libre) Optimización AIMSS (Paragon) Lingo Mathematica (Wolfram) … (hasta Excel) Software de BI y de BA 10
  11. 11. Cross Industry Standard Process for Data Mining (CRISP-DM) Concebido en1996: •DaimlerChrysler •SPSS •NCR En ese tiempo empieza el auge por la minería de datos, Un modelo de proceso estándar para cualquier industria, no propietario y gratuito, cumpliría con el propósito. Un año después se crea un consorcio para desarrollar este proceso estándar quien en 2 años y medio se dedicaron a desarrollar y refinar lo que hoy en día es el CRISP-DM. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 11
  12. 12. Antes de entender los datos debemos de entender el negocio ENTENDIMIENTO DEL NEGOCIO ¿Para quién producimos valor? ¿Cuál es nuestra propuesta de valor? ¿Cómo la entregamos? ¿Cómo la creamos? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 12
  13. 13. Si no sabes cuál es la pregunta no tiene caso preocuparte por el Big Data No sé cuál es la pregunta www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 13
  14. 14. Antes de la respuesta necesitamos la pregunta No poner el caballo detrás de la carreta ¿Cuál es la pregunta de negocio? Las preguntas de negocio se sintetizan en una sola: ¿cómo lograr ventaja competitiva? Se pueden categorizar en rentabilidad cliente (RC), rentabilidad de recursos (RR) y rentabilidad de oferta (RO). Ejemplos: ¿Cómo seleccionar y atraer a los clientes más rentables? (RC) ¿Cómo incrementar el índice de cierre de mi fuerza de ventas? (RR) ¿Cómo seleccionar puntos de venta más rentables? (RR) ¿Cómo seleccionar productos/servicios que maximicen la rentabilidad? (RO) ¿Cómo fijar precios para mi portafolio de productos/servicios? (RO) www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 14
  15. 15. Lienzo de Osterwalder: Una herramienta para entender el negocio El lienzo (canvas) del modelo de negocio de Osterwalder es una plantilla de gestión estratégica para desarrollar o documentar modelos de negocio. Es un apoyo visual con elementos que describen la propuesta de valor de la empresa, los clientes, las operaciones y las finanzas. Esta herramienta ayuda a las organizaciones a alinear sus recursos, actividades y gente ilustrando potenciales desventajas. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 15
  16. 16. Modelo de Negocio Modelo de Negocio de… Propuesta de valor Aliados clave Actividades clave Relaciones con el cliente Segmentos de clientes Recursos clave Canales www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Estructura de costos Fuentes de ingreso Business Model Canvas de Alexander Osterwalder 16
  17. 17. ¿Cuáles son los dos KPIs en los que debes superar a tu competencia? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Telecom ARPU Churn Banca al menudeo Cross Sale Attrition ¿Cuáles son los dos KPIs de tu industria? 17
  18. 18. Generación de hipótesis No existe tal cosa como el discovery puro... El KPI dispara las preguntas (por qué, por qué, por qué), la hipótesis establece una respuesta a contrastar. Documentación de hipótesis ¿Quién la emite? ¿Cómo se priorizan? ¿Qué datos necesitamos para contrastarlas? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
  19. 19. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Ejercicio ¿Qué hace que se vendan más cafés en un punto de venta que en otro?
  20. 20. ETENDIMIENTO DE LOS DATOS ¿Existen los datos? ¿Dónde están? ¿Necesito más datos? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
  21. 21. Sé cuál es la pregunta Sé la pregunta, pero no sé que datos necesito para contestarla Sé que datos necesito, pero no sé donde encontrarlos www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 21
  22. 22. Tipos y fuentes de datos www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 22 No estructurado Investigación cuantitativa Investigación cualitativa Infraestructura Fotografías Grabaciones Media Social media Estructurado ERP/xRM/eCommerce Service Desk WMS/TMS INEGI Sistema Meteorológico Nacional Cámaras y Asociaciones Interno Externo
  23. 23. Ejemplo de fuentes de información para un modelo de localización predictiva Punto de Venta Contexto Infraestructura Encuestas de satisfacción ¡Más de 4,500 www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 23 variables!
  24. 24. Punto de Venta Contexto Infraestructura Encuestas de satisfacción Foursquare ¡Posibilidad de hacer sentimental analysis! www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Con nueva fuente 24
  25. 25. PREPARACIÓN DE LOS DATOS ¿Cómo obtengo los datos? ¿Me sirven así? ¿Dónde depositarlos? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
  26. 26. Business Intelligence me permite saber qué pasa pero no necesariamente por qué Business Intelligence Tradicionalmente un sistema de business intelligence se diseña de arriba a hacia abajo Defino que quiero saber, extraigo el dato, hago el cálculo lo cargo en un receptorio Reportes Tableros de Control Business Dataware House (BDW) Servidor de Reportes Alertas ETL ETL ETL ETL ETL www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 26 ERP CRM HRM SCM Otros
  27. 27. Un Business Dataware House puede ser útil pero no indispensable Modelado con SPPS, SAS, R,… Archivo plano Queries www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 27 Business Analytics En un mundo ideal, la organización cuenta con un BDW en el cual existen los datos necesarios para responder la pregunta de negocios. Pocas veces sucede y si existe no hay el tiempo de respuesta requerido (síndrome del dueño del kínder). Los ETL son ejecutados manualmente a partir de extracciones a modo. ERP CRM HRM SCM Otros
  28. 28. Bases de datos en Big Data El Big Data empezó a estresar el desempeño en empresas como Google y Amazon haciéndoles evidente que las bases de datos relacionales (SQL) no satisfacían sus necesidades. Necesitaban mejor desempeño para atender miles de peticiones sobre una cantidad de datos inmensa, compleja, creciente y distribuida entre miles (millones) de servidores. Necesitaban entonces una nueva concepción de bases de datos, esto es, bases de datos no relacionales (NoSQL), y un nueva arquitectura (Hadhoop) para procesar eficientemente la información distribuida. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 28 Bases de datos relacionales Bases de datos no relacionales SQL Server, MySQL, Oracle… MongoDB, CouchDB, BigTable…
  29. 29. A9.com, AOL, Booz Allen Hamilton, Eharmony, eBay, Facebook, Fox Interactive Media, Freebase, IBM, ImageShack, ISI, Joost, Last.fm, LinkedIn, Meebo, Metaweb, Mitula15, The New York Times, Ning, Rackspace, StumbleUpon16, Tuenti, Twitter, Veoh, Zoosk, 1&1, Mercadolibre ¿Necesito Hadhoop? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 29
  30. 30. MODELACIÓN ¿Qué técnicas de análisis existen? ¿Cuáles usar? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 30
  31. 31. Sé cuál es la pregunta Sé que datos necesito para contestarla Sé donde encontrarlos Sé dónde encontrarlos, pero no sé como procesarlos www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 31
  32. 32. Técnicas de análisis predictivo Técnicas de regresión Regresión lineal Series de tiempo Análisis de superviviencia Modelos elección discreta Logit Probit Árboles de decisión Machine learning Redes neuronales Modelación geoespacial Naïve Bayes k-nearest neighbours www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 32
  33. 33. Aplicación de modelación predictiva en gestión de clientes ¿Qué clientes me conviene retener? ¿Cuál es el ciclo de vida de un cliente y cómo podemos ampliar su duración/valor? ¿Qué clientes están por irse y cómo los retengo? ¿Por qué han comprado y cómo lo han hecho? ¿Qué comprarán después? ¿Qué clientes son susceptibles de comprar más productos? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 33
  34. 34. Por su volumen de facturación (agrupación tradicional) • Poco o ningún entendimiento de motivos www.isdi.es < Big Data Aplicado al Negocio CRISP-DM consumo. • No permite descubrir ciclos de vida • Acciones comerciales similares para clientes distintos y planteadas en escenario Por su comportamiento histórico (base para análisis predictivo) • Patrones de consumo claramente identificados y segmentados • Potencial de los clientes medido en función de su segmento, no del total • Ciclos de vida son evidentes por segmento • Acciones individualizadas y proactivas en función de modelos predictivos Descriptiva Vs Predictiva 34
  35. 35. Objetivo y los modelos de segmentación Campañas iguales a clientes parecidos Predicción certera de: • Up-sale • Cross-sale • Churn • Default Cada grupo de clientes tiene que ser significativamente distinto que los otros Cada cliente dentro de un grupo debe ser significativamente similar con los otros miembros del grupo www.isdi.es < Big Data Aplicado al Negocio CRISP-DM de clientes 35
  36. 36. EVALUACIÓN ¿Tiene sentido lo que he encontrado? ¿Es aplicable? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 36
  37. 37. Sé cuál es la pregunta Sé que datos necesito para contestarla Sé donde encontrarlos Sé como procesarlos ¿Tengo la respuesta adecuada? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 37
  38. 38. Evaluación del modelo No es indispensable esperar eventos futuros para determinar la precisión de nuestros modelos. El procedimiento cruzado nos permite validar con los mismos datos que tenemos ahora. Estimación Prueba www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 38 Datos (y1, x1),…(yn, xn) Datos entrenamiento. Todos los datos salvo (yk, xk)) Datos de prueba (yk, xk)) Predicción Repetir para cada k
  39. 39. Contrastación del modelo con la realidad R2=0.92 Modelo estadístico de pronóstico www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 39 900 800 700 600 500 400 300 200 100 0 0 100 200 300 400 500 600 700 800 900 Venta mensual Real Mínimo de ventas deseado Venta pronosticada dada la ubicación (venta mensual promedio)
  40. 40. No sólo debe ser preciso, debe tener sentido económico (de negocio) “La producción pesquera explica muy bien la venta de cerveza” “Pon la próxima cafetería al lado de una agencia Bentley” www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 40
  41. 41. DESPLIEGUE ¿Cómo sacar valor de lo aprendido? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 41
  42. 42. Sé cuál es la pregunta Sé que datos necesito para contestarla Sé donde encontrarlos Sé como procesarlos Tengo la respuesta adecuada ¿Cómo sacarle provecho a lo aprendido? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 42
  43. 43. Plan de despliegue ¿Qué procesos de negocio serán modificados/implantados? ¿Qué reglas de negocio serán alteradas o introducidas? ¿En qué tecnologías será desplegado? ¿Qué nuevas habilidades serán necesarias? ¿Cómo manejar el cambio? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 43 Procesos Tecnología Gente
  44. 44. Herramienta tecnológica de soporte a compra de calzado Sistema de soporte predictivo para la compra (SSPC) • Predice el comportamiento de un producto a partir de sus características • Facilita la labor de recompra luego de las dos primeras semanas de venta www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 44
  45. 45. Modificación en el proceso de decisión inmobiliaria www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Presentación de ubicación disponible Definición de infraestructura Visita a campo y estimación de venta Caso de negocio a considerar 45 Búsqueda proactiva en AGEBs con mayor potencial Estimación de venta preliminar Estimación de venta final con certeza de entre el 94 y el 96% Proceso anterior Modificaciones al proceso Mejora del hit rate (número de tiendas arriba del objetivo) pasó del 62% al 79%
  46. 46. El perfil ideal de demostradoras de alcohol De 27 a 29 años con baja antigüedad Salario: 6,619 Bono: 1,388 Estado civil: 69% soltera Grado de estudios: 63% con educación básica N: 41 - 21% Salario: 6,364 con hijos Bono: 1,327 Estado civil: 95% soltera Grado de estudios: 73.6% con educación-media N: 59 - 30% www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 46 De 23 a 25 años con baja antigüedad sin hijos De 31 a 33 años con muy alta antigüedad con hijos Venta adicional al esperado por grupo de demostradora Salario: 7,148 Bono: 1,376 Estado civil: 66% soltera Grado de estudios: 50% con educación media y 38% educación básica N: 28 - 15% Salario: 6,354 Bono: 1,353 Estado civil: 61% casada Grado de estudios: 64% con educación-media N: 66 - 34% $14,643 $6,265 De 28 a 30 años con alta antigüedad sin hijos
  47. 47. 900 800 700 600 500 400 300 200 100 Modelo estadístico de pronóstico Bien ubicadas, mal desempeño www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Qué se hizó con 47 0 0 100 200 300 400 500 600 700 800 900 Venta mensual real R2=0.92 Mala ubicación y mal desempeño Los esfuerzos de apoyo no eran rentables Se aplicaron prácticas que se pueden replicar Venta pronosticada dada la ubicación (venta mensual promedio) Mínimo de ventas deseado
  48. 48. Big Data Analytics La velocidad, variedad y volumen en la que hoy se genera la información puede generar un reto abrumador para las empresas que deseen enriquecer su toma de decisiones y mejorar sus procesos a través de la analítica predictiva. En esta sesión estudiamos como es posible afrontar exitosamente ese reto a través de la aplicación de una metodología consistente de minería de datos (CRISP-DM), en la que la pregunta de negocio guía nuestros esfuerzos y la aplicabilidad de los mismos garantiza la eficiencia. jperezcolin@bdatascience.com www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 48

×