Big data aplicado el negocio CRISP-DM

1,197 views

Published on

Sesión sobre Big Data Analytics aplicado el negocio para el Master in Internet Business del ISDI

Published in: Data & Analytics
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,197
On SlideShare
0
From Embeds
0
Number of Embeds
31
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide
  • Soy un economista, tecnólogo y académico centrado en ayudar a las empresas, los ejecutivos y los empresarios a hacer frente a retos de negocio a través estrategias pragmáticas de análisis y operación. Hoy soy socio de Business Data Scientists (BDS) empresa dedicada a invertir y desarrollar en empresas especializadas en Big Data Analytics en la región. Las empresas de BDS se enfoca en ayudar a sus clientes en obtener beneficios económicos de la información oculta en los datos de las empresas a través de metodologías y tecnologías de la ciencia de datos. Nuestros clientes son empresas globales de bienes de consumo envasados ​​(CPG), empresas en los sectores de telecomunicaciones y finanzas, entre otras. Soy consejero editorial de la revista InformationWeek México. He colaborado con la revista en el diseño y la ejecución del premio 50 Empresas más Innovadoras. También soy miembro fundador de la Asociación de Gestión de Desarrollo de Productos de México PDMA y consejero independiente de la empresa Praxis. He dado consultoría a Oracle y Microsoft ayudándoles a entender y servir mejor a sus clientes clave, a través de prácticas de alineación estratégica de las tecnologías de información a los negocios.. Fui coordinador del Centro de Estudios Económicos de la Universidad de las Américas -Puebla. Había sido profesor visitante de Dirección de Tecnología de Información en el PAD Escuela de Negocios, Perú e INALDE Business School, Colombia . Sostuve la posición de CIO del IPADE Business Shool y fui profesor de Entorno Económico de la misma escuela durante 3 años. Hoy soy profesor en el Master en Internet Business (MIB ) del ISDI, una red académica y profesional para las empresas digitales en México y España.
  • Mi primera aproximación analítica en mi vida profesional la desplegué cuando era gerente de la sucursal puebla del periódico El Financiero.

    Problema: Siendo un periódico nacional y con menos tiempo en el mercado que el Excélsior, mi participación de mercado de suscripciones de periódico era sensiblemente menor que los otros periódicos establecidos en la ciudad de Puebla.

    Solución. Entendí la dinámica que genera en participación de mercado pequeñas diferencias en las suscripciones no renovadas (churn) y establecí incentivos en los repartidores para rescatar a toda costa aquellas suscripciones que no estaban renovando. El reparto era lo único a mi alcance para incidir en la renovación.
    Una diferencia de un punto y medio porcentual me podía poner en segundo lugar de participación de mercado al cabo de 4 años.

    Beneficio. Durante 3 años consecutivos, la sucursal Puebla fue la de mayor número de suscripciones superando a Monterrey y Puebla
  • El crecimiento exponencial en la generación de datos se puede explicar en el surgimiento sucesivo de tres generadores de datos:
    Desde la entrada de los mainframes (granes computadoras centrales) a las empresas y hasta la popularización del cómputo personal (inclusive) los generadores de datos fueron predominantemente capturistas
    Con la entrada de la web, acelerado por el Web 2.0 y potenciado por el cómputo móvil, son los datos que generan los usuarios los de mayor crecimiento
    Ahora las máquinas empiezan a hablar con otras máquinas, lo que producirá muchos más datos de los que podremos almacenar y analizar

    Un exabyte es una unidad de medida de almacenamiento de datos cuyo símbolo es el 'EB', equivale a 1018 bytes
    1 EB = 103 Petabyte (PB) = 106 Terabyte (TB)
    15 TB es el contenido total de la Biblioteca del Congreso de los Estados Unidos.

    Fuentes: Wikipedia; Data, data everywhere: A special report on managing information, The Economist 27 de febrero 2010; Patrick Schwerdtfeger What is Big Data? Big Data Explained (Hadoop & MapReduce)
  • Retos:
    Aprovechar inversiones en infraestructura de TI
    Integrar fuentes distintas de datos del negocio para tomar decisiones equilibradas
    Dar sentido estratégico a los esfuerzos de recolección, análisis y aplicación de datos
    Maximizar la conversión de estos esfuerzos en rentabilidad: monetizar el valor de los datos del negocio
  • Business Analytics (BA) hace uso extensivo e intensivo de datos, análisis estadístico y cuantitativo y modelaje explicativo y predictivo. Por lo tanto está más relacionado con la ciencia administrativa. La analítica se usa tanto como insumo para las decisiones humanas o para ser usada en procesos automatizados. Business Intelligence es consulta (querying), On-line Analytical Processing (OLAP), reporteo, y alertas.

    En otras palabras, querying, reporteo, OLAP y las herramientas de alertas pueden contestar preguntas como qué es lo que pasó, cuánto, qué tan frecuente, dónde está el problema y qué acciones son necesarias. BA puede contestar preguntas como por qué esta pasando, qué si estas tendencias continúan, qué es lo que puede pasar después (esto es, predecir) y qué es lo mejor que puede pasar (esto es, optimizar).
  • CRISP-DM , de Cross Industry Standard Process for Data Mining. Se trata de un modelo de proceso de minería de datos que describe los enfoques comunes que utilizan los expertos en minería de datos. Encuestas realizadas en 2002, 2004 y 2007 muestran que es la principal metodología utilizada para esta tarea. El único otro estándar de data mining nombrado en estas encuestas era el SEMMA. No obstante, 3-4 veces más personas reportaron optar por CRISP-DM. Una revisión y crítica de los modelos de minería de datos en 2009 llamó a CRISP-DM el "estándar de facto para el desarrollo de la minería de datos y los proyectos de descubrimiento de conocimiento“.
    CRISP-DM divide el proceso de minería de datos en seis fases principales
    Las flechas en el diagrama indican las dependencias más importantes y frecuentes entre fases. El círculo exterior en el diagrama simboliza la naturaleza cíclica de la minería de datos en sí. Un proceso de minería de datos continua después del despliegue de una solución. Las lecciones aprendidas durante el proceso pueden provocar nuevas preguntas de negocio, a menudo más centradas y posteriores procesos de minería de datos se beneficiarán de la experiencia de los anteriores.

    Fuente:ibm.com
  • Acrónimos de abajo hacia arriba:
    ERP. Los sistemas de planificación de recursos empresariales, o ERP (por sus siglas en inglés, Enterprise Resource Planning) son sistemas de información gerenciales que integran y manejan muchos de los negocios asociados con las operaciones de producción y de los aspectos de distribución de una compañía en la producción de bienes o servicios.
    CRM. Software para la administración de la relación con los clientes o CRM(por sus siglas en inglés, Customer Resource Management). Sistemas informáticos de apoyo a la gestión de las relaciones con los clientes, en el mercadeo, la venta y el servicio post-venta.
    HRM. Los sistemas de gestión de recursos humanos, o HRM (por sus siglas en inglés, Human Resource Management) son los sistemas de información que integran y gestionan la atracción, selección, capacitación, remuneración y retención del capital humano.
    SCM. La administración de redes de suministro (en inglés, Supply chain management, SCM) es el sistema que gestiona el proceso de planificación, puesta en ejecución y control de las operaciones de la red de suministro con el propósito de satisfacer las necesidades del cliente con tanta eficacia como sea posible.
    ETL. Extract, Transform and Load (Extraer, transformar y cargar en castellano, frecuentemente abreviado a ETL) es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.
    Business Intelligence. Se denomina inteligencia empresarial, inteligencia de negocios o BI (del inglés business intelligence) al conjunto de estrategias y llaves enfocadas a la administración y administración de conocimiento sobre el medio, a través del procesamiento de los datos existentes en una organización o empresa.

    Fuente: Wikipedia
  • Según algunas estimaciones, Google puede contar a la fecha con más de 2 millones de servidores alrededor del mundo. El número oficial es un secreto industrial.

    SQL no es el tipo de bases de datos, en este caso relacionales. SQL se refiere a una de las maneras en las que se accede a los datos en bases de datos relacionales. SQL no es usado para bases de datos no relacionales, por eso se sí se usa indistintamente NoSQL para llamar a las bases de datos no relacionales.

    Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre.[1] Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos. Hadoop se inspiró en los documentos Google para MapReduce y Google File System (GFS).

    Fuentes: http://slashdot.org/topic/bi/sql-vs-nosql-which-is-better/
    http://es.wikipedia.org/wiki/Hadoop
  • Muy probablemente tu empresa no necesita Hadhoop o bases de datos no relacionales. Y lo más importante: no es indispensable para Analytics.
  • http://web.anglia.ac.uk/numbers/graphsCharts.html
  • Problema. Empresa líder de venta al menudeo de zapatos tenis pierde consistentemente margen bruto debido mala predicción de la rotación de modelos no resurtibles que lo lleva a perder ventas por pedir de menos o hacer descuentos por pedir de más.

    Solución. Modelo predictivo para:
    Sistema de soporte predictivo de compra (SSPC) (mostrado en la lámina)
    Modelo de sembrado (assortment por tienda)
    Modelo de descuentos y regreso a Centro de Distribución
    Modelo de predicción de ventas
    Índice de éxito de las tiendas
    Tecnología y procesos analíticos:
    Se extrajeron los datos de SAP R/3 mediante querys de SQL Server para generar tablas planas CSV al máximo nivel de detalle, se cargaron y prepararon en Netezza y se analizaron en SPSS a diferentes niveles dependiendo del análisis y modelación requerido.
    Cross Industry Standard Process for Data Mining (CRISP-DM).
    Modelos de series de tiempo, modelos multiplicativos de desestacionalización, modelo multivariado de árbol de decisión y regresiones lineales múltiples.
    IBM SPSS, IBM Netezza, MS Visual Basic y MS Excel

    Beneficios:
    Aumento en poder de negociación sobre Nike y Puma. Predicciones con más del 90% de certeza. Mejora de margen bruto
  • Problema. En una gran cadena de cafeterías no se estaba llegando al objetivo de negocio (hit rate) en un porcentaje relevante de ubicaciones.
    Solución. Modelo de localización predictiva y nuevo proceso inmobiliario al incorporar los resultados del modelo. El proceso inmobiliario era totalmente reactivo, esto es, esperaban que los profesionales inmobiliarios trajeran a la mesa locales disponibles con el inherente conflicto de intereses (el buscador decía que era una muy buena ubicación). En el nuevo proceso se establece un listado ordenado (de mayor venta potencial a menor) de Áreas Geostadísticas Básicas sobre el que se solicita a los profesionales inmobiliarios a hacer la búsqueda.
    El modelo genera un pronóstico de ventas son más de 94% de certeza.
    El nuevo proceso incorpora no sólo la demanda disponible sino la venta esperada de acuerdo a la infraestructura.
    Beneficio. El modelo mejoró en casis 17 puntos porcentuales el hit ratedesplegar mejorando la certeza del caso de negocio al mejorar el pronóstico de ventas hasta alcanzar más del 94%.

    Área Geoestadística Básica (AGEB). Subdivisión de los municipios o delegaciones que conforman el país, utilizada por primera vez en el X Censo General de Población y Vivienda 1980. Su utilidad radica en permitir la formación de unidades primarias de muestreo y la organización de la información estadística. Tiene tres atributos fundamentales: a) es perfectamente reconocible en el terreno por estar delimitada por rasgos topográficos identificables y perdurables; b) por lo general es homogénea en cuanto a sus características geográficas, económicas y sociales; c) su extensión es tal que puede ser recorrida por una sola persona. Las AGEB se clasifican en más y menos urbanizadas, dependiendo de su densidad de viviendas.
  • Problema. Inversión de hasta el 4% de las ventas en demostradoras de alcohol con resultados indeterminados.

    Solución. Determinación de la correcta asignación de recursos y actividades que optimiza la inversión en el punto de venta a través de un modelo de segmentación de tiendas y demostradoras y generación de una herramienta para el balanceo de asignación al máximo retorno.

    Beneficios. Se detectó que el 19% de los puntos de venta cuenta con demostradoras y no debería de contar ya que la venta incremental no cubre el costo de la demostradora. Así mismo se detectó que en 8% de los puntos de venta se debería aumentar la demostración para mejorar el retorno.

  • Big data aplicado el negocio CRISP-DM

    1. 1. INTRODUCCIÓN A LAS MÉTRICAS CLASE: Nuevas Tendencias en el Uso de Métricas – Big Data Aplicado el Negocio Profesor: Jorge Pérez Colín www.isdi.es 1
    2. 2. Jorge Pérez Colín Value Sight Diseño y Arte por Computadora Emprendedor Academia Profesional www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
    3. 3. Mi primera aproximación analítica al churn www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 3 El Financiero Excelsior El Sol de Puebla Churn 0.07 0.1 0.1 Participación 15 25 60 inicial (P0) Paticipación final (P48) 42 17 41 Supuestos: 1. El número de suscriptores es constante 2. Las suscripciones perdidas por un periódico son absorbidas por los otros dos en proporción a su participación de mercado
    4. 4. Apliquemos analítica al negocio de las suscripciones ¿Qué más les gustaría saber para incrementar el índice de renovaciones? ¿Cómo sacarían esa información? ¿Qué harían con lo descubierto? ¿Es replicable esta experiencia al mundo de Internet? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 4
    5. 5. Big Data: Volumen, Variedad y Velocidad www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Capturistas Usuarios Máquinas 5 Social Media Internet of Things
    6. 6. Big Data no tiene sentido sin analytics Big Data entendido como la posibilidad de contar con grandes volúmenes de información brinda la posibilidad de descubrir patrones que pueden ser aprovechados en beneficio del negocio. Una abundancia de información genera una escasez de atención o de enfoque o, simplemente, saber por dónde empezar. CRISP-DM es una de las metodologías más utilizadas en minería de datos pero sobre todo en business analytics para usar eficientemente esta nuevo activo (Big Data). Competing on Analytics Big Data Era www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 6 Gap Analítico Datos Disponibles Capacidad de Ejecución Gap de Ejecución Capacidad de Análisis 2020 1980 1990 2000 2010
    7. 7. Antes de Big Data es Busines Analytics www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 7
    8. 8. Objetivo y temas a tratar Esta sesión tiene como objetivo explicar a grandes rasgos lo que la analítica predictiva, desde el punto de vista de Big Data Analytics es, pero sobre conocer cómo afrontar el reto analítico a través del uso de la metodología Cross Industry Standard Process for Data Mining (CRISP-DM) en el contexto de Big Data. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Temas: Diferencia entre Business Intelligence y Business Analytics Cross Industry Standard Process for Data Mining (CRISP-DM) en sus seis fases Nota aclaratoria de la sesión: El tema Big Data Analytics toca al margen los negocios en Internet, materia de esta maestría, pero presenta una serie de herramentales que serán cada vez más útiles para ellos. 8
    9. 9. Diferencia entre Business Intelligence y Business Analytics Business Analytics (y es el sentido que le damos aquí a Big Data Analytics) se refiere a las habilidades, tecnologías y prácticas para la exploración e investigación del desempeño pasado de la empresa para ganar conocimiento y conducir la planeación y ejecución del negocio. BA se enfoca en desarrollar nuevos aprendizajes y entendimiento del negocio basado en los datos, métodos estadísticos y de optimización. En contraste, Business Intelligence tradicionalmente se enfoca en usar un conjunto consistente de métricas para al mismo tiempo medir el desempeño pasado y guiar la planeación del negocio. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 9 Business Intelligence
    10. 10. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM BI Software: Business Objects (SAP), Hypheron (Oracle), Cognos (IBM), Qlickview (Qliktech), MicroStrategy, Tibco, Tableau Software/hardware (appliances—good for Big Data) Netezza (IBM) Greenplum (EMC) DataAllegro (Microsoft) Teradata BI en la nube (for Big Data Too) AWS (Amazon) Pivotal (EMC+Vmware) BA Estadística SPSS Modeler (IBM) SAS R (software libre) Optimización AIMSS (Paragon) Lingo Mathematica (Wolfram) … (hasta Excel) Software de BI y de BA 10
    11. 11. Cross Industry Standard Process for Data Mining (CRISP-DM) Concebido en1996: •DaimlerChrysler •SPSS •NCR En ese tiempo empieza el auge por la minería de datos, Un modelo de proceso estándar para cualquier industria, no propietario y gratuito, cumpliría con el propósito. Un año después se crea un consorcio para desarrollar este proceso estándar quien en 2 años y medio se dedicaron a desarrollar y refinar lo que hoy en día es el CRISP-DM. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 11
    12. 12. Antes de entender los datos debemos de entender el negocio ENTENDIMIENTO DEL NEGOCIO ¿Para quién producimos valor? ¿Cuál es nuestra propuesta de valor? ¿Cómo la entregamos? ¿Cómo la creamos? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 12
    13. 13. Si no sabes cuál es la pregunta no tiene caso preocuparte por el Big Data No sé cuál es la pregunta www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 13
    14. 14. Antes de la respuesta necesitamos la pregunta No poner el caballo detrás de la carreta ¿Cuál es la pregunta de negocio? Las preguntas de negocio se sintetizan en una sola: ¿cómo lograr ventaja competitiva? Se pueden categorizar en rentabilidad cliente (RC), rentabilidad de recursos (RR) y rentabilidad de oferta (RO). Ejemplos: ¿Cómo seleccionar y atraer a los clientes más rentables? (RC) ¿Cómo incrementar el índice de cierre de mi fuerza de ventas? (RR) ¿Cómo seleccionar puntos de venta más rentables? (RR) ¿Cómo seleccionar productos/servicios que maximicen la rentabilidad? (RO) ¿Cómo fijar precios para mi portafolio de productos/servicios? (RO) www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 14
    15. 15. Lienzo de Osterwalder: Una herramienta para entender el negocio El lienzo (canvas) del modelo de negocio de Osterwalder es una plantilla de gestión estratégica para desarrollar o documentar modelos de negocio. Es un apoyo visual con elementos que describen la propuesta de valor de la empresa, los clientes, las operaciones y las finanzas. Esta herramienta ayuda a las organizaciones a alinear sus recursos, actividades y gente ilustrando potenciales desventajas. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 15
    16. 16. Modelo de Negocio Modelo de Negocio de… Propuesta de valor Aliados clave Actividades clave Relaciones con el cliente Segmentos de clientes Recursos clave Canales www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Estructura de costos Fuentes de ingreso Business Model Canvas de Alexander Osterwalder 16
    17. 17. ¿Cuáles son los dos KPIs en los que debes superar a tu competencia? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Telecom ARPU Churn Banca al menudeo Cross Sale Attrition ¿Cuáles son los dos KPIs de tu industria? 17
    18. 18. Generación de hipótesis No existe tal cosa como el discovery puro... El KPI dispara las preguntas (por qué, por qué, por qué), la hipótesis establece una respuesta a contrastar. Documentación de hipótesis ¿Quién la emite? ¿Cómo se priorizan? ¿Qué datos necesitamos para contrastarlas? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
    19. 19. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Ejercicio ¿Qué hace que se vendan más cafés en un punto de venta que en otro?
    20. 20. ETENDIMIENTO DE LOS DATOS ¿Existen los datos? ¿Dónde están? ¿Necesito más datos? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
    21. 21. Sé cuál es la pregunta Sé la pregunta, pero no sé que datos necesito para contestarla Sé que datos necesito, pero no sé donde encontrarlos www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 21
    22. 22. Tipos y fuentes de datos www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 22 No estructurado Investigación cuantitativa Investigación cualitativa Infraestructura Fotografías Grabaciones Media Social media Estructurado ERP/xRM/eCommerce Service Desk WMS/TMS INEGI Sistema Meteorológico Nacional Cámaras y Asociaciones Interno Externo
    23. 23. Ejemplo de fuentes de información para un modelo de localización predictiva Punto de Venta Contexto Infraestructura Encuestas de satisfacción ¡Más de 4,500 www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 23 variables!
    24. 24. Punto de Venta Contexto Infraestructura Encuestas de satisfacción Foursquare ¡Posibilidad de hacer sentimental analysis! www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Con nueva fuente 24
    25. 25. PREPARACIÓN DE LOS DATOS ¿Cómo obtengo los datos? ¿Me sirven así? ¿Dónde depositarlos? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
    26. 26. Business Intelligence me permite saber qué pasa pero no necesariamente por qué Business Intelligence Tradicionalmente un sistema de business intelligence se diseña de arriba a hacia abajo Defino que quiero saber, extraigo el dato, hago el cálculo lo cargo en un receptorio Reportes Tableros de Control Business Dataware House (BDW) Servidor de Reportes Alertas ETL ETL ETL ETL ETL www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 26 ERP CRM HRM SCM Otros
    27. 27. Un Business Dataware House puede ser útil pero no indispensable Modelado con SPPS, SAS, R,… Archivo plano Queries www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 27 Business Analytics En un mundo ideal, la organización cuenta con un BDW en el cual existen los datos necesarios para responder la pregunta de negocios. Pocas veces sucede y si existe no hay el tiempo de respuesta requerido (síndrome del dueño del kínder). Los ETL son ejecutados manualmente a partir de extracciones a modo. ERP CRM HRM SCM Otros
    28. 28. Bases de datos en Big Data El Big Data empezó a estresar el desempeño en empresas como Google y Amazon haciéndoles evidente que las bases de datos relacionales (SQL) no satisfacían sus necesidades. Necesitaban mejor desempeño para atender miles de peticiones sobre una cantidad de datos inmensa, compleja, creciente y distribuida entre miles (millones) de servidores. Necesitaban entonces una nueva concepción de bases de datos, esto es, bases de datos no relacionales (NoSQL), y un nueva arquitectura (Hadhoop) para procesar eficientemente la información distribuida. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 28 Bases de datos relacionales Bases de datos no relacionales SQL Server, MySQL, Oracle… MongoDB, CouchDB, BigTable…
    29. 29. A9.com, AOL, Booz Allen Hamilton, Eharmony, eBay, Facebook, Fox Interactive Media, Freebase, IBM, ImageShack, ISI, Joost, Last.fm, LinkedIn, Meebo, Metaweb, Mitula15, The New York Times, Ning, Rackspace, StumbleUpon16, Tuenti, Twitter, Veoh, Zoosk, 1&1, Mercadolibre ¿Necesito Hadhoop? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 29
    30. 30. MODELACIÓN ¿Qué técnicas de análisis existen? ¿Cuáles usar? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 30
    31. 31. Sé cuál es la pregunta Sé que datos necesito para contestarla Sé donde encontrarlos Sé dónde encontrarlos, pero no sé como procesarlos www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 31
    32. 32. Técnicas de análisis predictivo Técnicas de regresión Regresión lineal Series de tiempo Análisis de superviviencia Modelos elección discreta Logit Probit Árboles de decisión Machine learning Redes neuronales Modelación geoespacial Naïve Bayes k-nearest neighbours www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 32
    33. 33. Aplicación de modelación predictiva en gestión de clientes ¿Qué clientes me conviene retener? ¿Cuál es el ciclo de vida de un cliente y cómo podemos ampliar su duración/valor? ¿Qué clientes están por irse y cómo los retengo? ¿Por qué han comprado y cómo lo han hecho? ¿Qué comprarán después? ¿Qué clientes son susceptibles de comprar más productos? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 33
    34. 34. Por su volumen de facturación (agrupación tradicional) • Poco o ningún entendimiento de motivos www.isdi.es < Big Data Aplicado al Negocio CRISP-DM consumo. • No permite descubrir ciclos de vida • Acciones comerciales similares para clientes distintos y planteadas en escenario Por su comportamiento histórico (base para análisis predictivo) • Patrones de consumo claramente identificados y segmentados • Potencial de los clientes medido en función de su segmento, no del total • Ciclos de vida son evidentes por segmento • Acciones individualizadas y proactivas en función de modelos predictivos Descriptiva Vs Predictiva 34
    35. 35. Objetivo y los modelos de segmentación Campañas iguales a clientes parecidos Predicción certera de: • Up-sale • Cross-sale • Churn • Default Cada grupo de clientes tiene que ser significativamente distinto que los otros Cada cliente dentro de un grupo debe ser significativamente similar con los otros miembros del grupo www.isdi.es < Big Data Aplicado al Negocio CRISP-DM de clientes 35
    36. 36. EVALUACIÓN ¿Tiene sentido lo que he encontrado? ¿Es aplicable? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 36
    37. 37. Sé cuál es la pregunta Sé que datos necesito para contestarla Sé donde encontrarlos Sé como procesarlos ¿Tengo la respuesta adecuada? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 37
    38. 38. Evaluación del modelo No es indispensable esperar eventos futuros para determinar la precisión de nuestros modelos. El procedimiento cruzado nos permite validar con los mismos datos que tenemos ahora. Estimación Prueba www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 38 Datos (y1, x1),…(yn, xn) Datos entrenamiento. Todos los datos salvo (yk, xk)) Datos de prueba (yk, xk)) Predicción Repetir para cada k
    39. 39. Contrastación del modelo con la realidad R2=0.92 Modelo estadístico de pronóstico www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 39 900 800 700 600 500 400 300 200 100 0 0 100 200 300 400 500 600 700 800 900 Venta mensual Real Mínimo de ventas deseado Venta pronosticada dada la ubicación (venta mensual promedio)
    40. 40. No sólo debe ser preciso, debe tener sentido económico (de negocio) “La producción pesquera explica muy bien la venta de cerveza” “Pon la próxima cafetería al lado de una agencia Bentley” www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 40
    41. 41. DESPLIEGUE ¿Cómo sacar valor de lo aprendido? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 41
    42. 42. Sé cuál es la pregunta Sé que datos necesito para contestarla Sé donde encontrarlos Sé como procesarlos Tengo la respuesta adecuada ¿Cómo sacarle provecho a lo aprendido? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 42
    43. 43. Plan de despliegue ¿Qué procesos de negocio serán modificados/implantados? ¿Qué reglas de negocio serán alteradas o introducidas? ¿En qué tecnologías será desplegado? ¿Qué nuevas habilidades serán necesarias? ¿Cómo manejar el cambio? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 43 Procesos Tecnología Gente
    44. 44. Herramienta tecnológica de soporte a compra de calzado Sistema de soporte predictivo para la compra (SSPC) • Predice el comportamiento de un producto a partir de sus características • Facilita la labor de recompra luego de las dos primeras semanas de venta www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 44
    45. 45. Modificación en el proceso de decisión inmobiliaria www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Presentación de ubicación disponible Definición de infraestructura Visita a campo y estimación de venta Caso de negocio a considerar 45 Búsqueda proactiva en AGEBs con mayor potencial Estimación de venta preliminar Estimación de venta final con certeza de entre el 94 y el 96% Proceso anterior Modificaciones al proceso Mejora del hit rate (número de tiendas arriba del objetivo) pasó del 62% al 79%
    46. 46. El perfil ideal de demostradoras de alcohol De 27 a 29 años con baja antigüedad Salario: 6,619 Bono: 1,388 Estado civil: 69% soltera Grado de estudios: 63% con educación básica N: 41 - 21% Salario: 6,364 con hijos Bono: 1,327 Estado civil: 95% soltera Grado de estudios: 73.6% con educación-media N: 59 - 30% www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 46 De 23 a 25 años con baja antigüedad sin hijos De 31 a 33 años con muy alta antigüedad con hijos Venta adicional al esperado por grupo de demostradora Salario: 7,148 Bono: 1,376 Estado civil: 66% soltera Grado de estudios: 50% con educación media y 38% educación básica N: 28 - 15% Salario: 6,354 Bono: 1,353 Estado civil: 61% casada Grado de estudios: 64% con educación-media N: 66 - 34% $14,643 $6,265 De 28 a 30 años con alta antigüedad sin hijos
    47. 47. 900 800 700 600 500 400 300 200 100 Modelo estadístico de pronóstico Bien ubicadas, mal desempeño www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Qué se hizó con 47 0 0 100 200 300 400 500 600 700 800 900 Venta mensual real R2=0.92 Mala ubicación y mal desempeño Los esfuerzos de apoyo no eran rentables Se aplicaron prácticas que se pueden replicar Venta pronosticada dada la ubicación (venta mensual promedio) Mínimo de ventas deseado
    48. 48. Big Data Analytics La velocidad, variedad y volumen en la que hoy se genera la información puede generar un reto abrumador para las empresas que deseen enriquecer su toma de decisiones y mejorar sus procesos a través de la analítica predictiva. En esta sesión estudiamos como es posible afrontar exitosamente ese reto a través de la aplicación de una metodología consistente de minería de datos (CRISP-DM), en la que la pregunta de negocio guía nuestros esfuerzos y la aplicabilidad de los mismos garantiza la eficiencia. jperezcolin@bdatascience.com www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 48

    ×