Advertisement

Aplicaciones Big Data Marketing

Teacher Master Big Data and Business Intelligence at EOI
Feb. 28, 2020
Advertisement

More Related Content

Advertisement
Advertisement

Aplicaciones Big Data Marketing

  1. Tecnologías y aplicaciones
  2. www.stratebi.com Roberto Tardío Head of Big Data en StrateBI. Associate Professor (EAE). Sígueme en Linkedin y en Twittter @RoberTardio
  3. www.stratebi.com
  4. www.stratebi.com
  5. www.stratebi.com • Definición del Big Data en relación a las características de los datos: • Volumen: Escenarios de datos en organizaciones que llegan a Terabytes (103 Gb) e incluso Petabytes (>1.000.000 Gigabytes) • Variedad: Aumento en cantidad y heterogeneidad de las fuentes de datos • Velocidad: Aprovechar los datos en el momento oportuno puede ayudar a reducir los tiempos de actuación Datos estructurados Semi estructurados No estructurados
  6. www.stratebi.com • Escenarios en los que debemos plantearnos una solución Big Data • Necesidad de almacenar y procesar múltiples conjuntos de datos que presentan una o más de las siguientes características: • Volumen, Variedad y Velocidad • Arquitectura BI actual no es capaz de procesar los datos y con las restricciones de tiempo y calidad definidas. • Estar preparados para un futuro Big Data: • Necesidad de soporte a la escalabilidad el procesamiento y almacenamiento de datos a corto o medio plazo.
  7. www.stratebi.com
  8. www.stratebi.com
  9. www.stratebi.com • Ejemplo de arquitectura Big Data Analytics con Azure
  10. www.stratebi.com
  11. www.stratebi.com • Escenario • Empresa de marketing dedicada el desarrollo de aplicaciones web y moviles de pago por suscripción • Para un mercado de más de 30 países • Inversiones de más de 100K € semanales en campañas. • Principales objetivos de análisis • Campañas de marketing (ej. Google Ads) : Impresiones, altas, clicks, eventos, ratios de conversión de (clicks, impresiones, altas,…) , errores de captación,… • Base datos de clientes, duración de las suscripciones,… • Financiero
  12. www.stratebi.com • Objetivos • Mejora del sistema de sistema de reporting existente • Reduciendo el tiempo de carga y preparación de los datos: “Frescura del dato” • Near real time (datos actualizados y disponibles cada 10-15 minutos) • Implantación de herramientas BI Open-Source (Lince Big Data Stack) • Self-service OLAP, reporting y dashboarding • Retos • Cientos de gigabytes de datos nuevos cada día, más de 100 terabytes de datos históricos. • Datos estructurados y semi estructurados. • Actualizaciones de histórico frecuentes.
  13. www.stratebi.com • Modelos de datos identificados • Contexto de análisis Dimensiones Atributos Descripción Periodo Año Año (YYYY) Mes Mes (YYYY-MM) Semana Semana (Fecha del primer día de la semana) Día Día Negocio Línea de Negocio Un operador tiene una o más líneas de negocio Operador Operador que ofrece el servicio País País del operador Producto Portal de Contenidos Es el producto (web portal de contenidos) Landing page Un usuario puede suscribirse a un Portal de Contenidos desde una o más landings. Dominio Landing La web del portal de contenidos. Una landing puede tener múltiples dominios. Creatividad Es el banner o elemento publicitario que se usa para atraer a los potenciales suscriptores hasta el portal de contenidos. Publicidad Proveedor de Publicidad El proveedor de la publicidad del Portal (ej. Google Adwords) Tarifa de Publicidad Tarifa de Publicidad de un proveedor. Un proveedor puede tener 1 o más tarifas de publicidad. Medio de Publicidad Medio de publicidad (SEM, Social Media, Plataformas,…) Subpublisher Un proveedor de publicidad puede tener subpublishers ISP Proveedor de Servicios de Internet del dispositivo del usuario Network Type El tipo de red comunicación (3g, wifi, DOB, Desconocido) Device Type El tipo de dispostivo (Tablet, Mobile, Desktop, Desconocido) Device OS Sistema operativo del dispositivo Canal Canal Canal (SMS, Web,…) Tarifa Tarifa Tarifa a aplicar sobre la suscripción.
  14. www.stratebi.com • Modelos de datos identificados • Algunas métricas Grupo Métrica Descripción Cálculo Altas Altas Incluye todas las suscripciones registradas durante un período específico Net Additions Incluye todas las suscripciones registradas durante un período, menos el número total bajas durante el mismo período. (Altas - Bajas) CPA Eventos pixels Representa el coste de cada suscripción notificada por Google Adds (Publicidad/ Eventos pixels) Bajas Bajas Incluye todos los usuarios facturados o no facturados, registrados tanto dentro como después de las 24 horas desde el momento de su suscripción Bajas billed Bajas facturadas Bajas not billed Bajas no facturadas % Old Churn OC% . Representa el porcentaje de bajas sobre el total de suscritos (Bajas totales / Customer Base (acumulado)) Bajas 24H Incluye todos los usuarios facturados o no facturados, registrados en las 24 horas desde el momento de su suscripción. % Instant Churn %IC. Representa el porcentaje de bajas 24H sobre el total de altas (Bajas 24h / Altas) Conversión Impresiones Impresiones CR Altas Nos informa sobre la capacidad de convertir las impresiones de nuestra publicidad en suscripciones (Altas/ Impresiones) CR Pixels Nos informa sobre la capacidad de convertir las impresiones de nuestra publicidad en eventos pixels (Eventos pixels/ Impresiones) Eventos Pixels/ Altas % Representa el porcentaje de eventos sobre el total de altas Eventos Pixels/ Altas
  15. www.stratebi.com • Arquitectura propuesta basada en AWS y usando tecnologías Open Source • Clúster Hadoop EMR: Sqoop, Hive, Kafka, Oozie, S3 / HDFS… • Apache Kylin: Sistema Big Data OLAP
  16. www.stratebi.com • Resultados • Reducción del tiempo de consulta • Mayoría de las consultas por debajo de los 5 s. • Sobre tablas con miles de millones de filas. • Reducción de los tiempos de carga • Datos disponibles en Kylin cada pocos minutos • Integración con herramientas de BI • STPivot, STReport, STDashboard
  17. www.stratebi.com • Resultados • Ejemplo real: agregación por dimensión país de todo el histórico de una tabla de hechos de unos 300 millones filas → 0,10 segundos (caché desactivada)
  18. www.stratebi.com
  19. www.stratebi.com • Escenario • Empresa de marketing direccional: Servicios de campañas a otras empresas por distintos canales • Correo postal • Teléfono • Email • Datos • Bases de datos de clientes: Nombre, DNI, dirección, teléfono, email,… • Bases de datos de comunicaciones • Ficheros semiestructurados con listas de personas a excluir: Robinson y propias de experiencias de las empresas.
  20. www.stratebi.com • Principales objetivos • Garantizar la calidad de los datos para: 1. Optimizar las campañas. • Evitar el envío de correspondencia a direcciones incorrectas o contacto teléfónico,…. • Dirigirse a la persona adecuadamente en la personalización de la publicidad (señor, señora, señorita, ….) 2. El cumplimiento de la GDPR. • Evitar contactar a personas que han solicitado expresamente que no se les contacte. 3. Limpieza de datos a terceros.
  21. www.stratebi.com • Principales objetivos • Modular • Direcciones • Nombres y apellidos • Documento de identidad • Emails • Teléfonos • De-duplicación de personas (registros completos)
  22. www.stratebi.com • Principales objetivos • Modular • Direcciones • Detección de direcciones ilocalizables. • Fiabilidad para envíos de correspondencia. • Separa tipo de vía, nombre, número, complementos, código postal y población. • Incorpora el código postal correcto y actualizado en función de la población, vía y número. • Nombres y apellidos • Documento de identidad • Emails • Teléfonos • De-duplicación de personas (registros completos)
  23. www.stratebi.com • Principales objetivos • Modular • Direcciones • Nombres y apellidos • Separación de nombres y apellidos, en las personas físicas. • Asignación de género en función del nombre. • Detección de errores frecuentes de deletreo.Expansión de abreviaturas. • Marcaje de nombres no identificables. • Documento de identidad • Emails • Teléfonos • De-duplicación de personas (registros completos)
  24. www.stratebi.com • Solución propuesta • Técnicas • Procesamiento del lenguaje natural (PLN) • Fuzzy Matching: Definición de algoritmo de de-duplicación basado en técnicas estadísticas (Cadenas de levensthein ponderadas). • Expresiónes regulares (Pattern Matching) aplicando reglas estándar para validación de emails (RFC 5322), teléfonos,… • Fuentes de datos complementarías (semi estructuradas y no estructuradas) • Callejeros de todas España: INE y, posteriormente, Correos. • Diccionarios de nombres, nombres-género, apellidos, hipocorísticos,…
  25. www.stratebi.com • Solución propuesta • Tecnología - Clúster Hadoop • Amazon EMR (Elastic Map Reduce) • Apache Spark • 100 % escalable, el mismo código se ejecuta igual en 1 que en 100 o N máquinas. • Ejecución distribuida y en memoria. • En lenguaje Scala y usando principalmente API Spark SQL (Data Frames) • Implementación de algoritmo de-duplicación usando liberias matemáticas, estadísticas, Mlib… • Ideal para la computación compleja e intensiva que requiere la corrección de dirección mediante comparación con los callejeros y la de-deduplicación. • Otros: • S3 (storage), Hive (Data Warehouse), Oozie (Orchestration), Zeppelin (Data Discovery, PoCs),…
  26. www.stratebi.com • Solución propuesta • Tecnología
  27. www.stratebi.com • Solución propuesta • Tecnología
  28. www.stratebi.com • Resultados
  29. www.stratebi.com • Resultados • Correcciones y de-duplicaciones con una fiabilidad superior al 90% • Proceso 100% escalable y eficiente • Ejecutable bajo demanda • Fácilmente adaptable para soportar nuevos diccionarios y callejeros
  30. www.stratebi.com • Casos similares conocidos • https://aws.amazon.com/es/solutions/case-studies/buildfax/ • BuildFax entrega todos sus datos por dirección, por lo que es imperativo ejecutar la corrección de dirección. • La información de la dirección es a veces bastante escasa, tal vez incluyendo sólo el número de la calle, el nombre de la calle y el condado, pero no la ciudad, el estado o el código postal. • Recorrer los valores posibles (todos los códigos postales de un condado, todas las ciudades de un condado, etc.) y marcar las posibles coincidencias. • Este proceso requiere ejecutar 750 millones de combinaciones de direcciones diferentes, lo que sería virtualmente imposible sin Amazon Elastic MapReduce (Amazon EMR). • Con hasta 80 nodos por conjunto de datos, la empresa mantiene los tiempos de ejecución por debajo de 3 horas, gracias a Amazon EMR
  31. www.stratebi.com
  32. www.stratebi.com • La mejor forma para conocer la tecnología Big Data es probándola • Hemos desarrollado una web de demostraciones. http://bigdata.stratebi.com/
  33. www.stratebi.com • Los tecnologías Big Data Analytics permiten la optimización de los procesos de Marketing. • No todos los casos son Big Data. • Es importante valorar el esfuerzo necesario (suele ser alto) en relación al beneficio que podemos obtener. • Cada tecnología Big Data es más adecuada para unos casos de uso. • Apache Spark para la calidad y transformación de datos, machine learning, batch o real time… • Apache Hive, Kylin, Vertica, Azure Synapse…. para el reporting y cuadros de mando. • Elasticsearch para cuadros de mandos y análisis real time, exploración analítica de datos raw…
  34. www.stratebi.com • Algunas de nuestras referencias en proyectos y formaciones Big Data
Advertisement