www.stratebi.com
• Definición del Big Data en relación a las características de los datos:
• Volumen: Escenarios de datos en organizaciones que llegan a Terabytes (103 Gb) e
incluso Petabytes (>1.000.000 Gigabytes)
• Variedad: Aumento en cantidad y heterogeneidad de las fuentes de datos
• Velocidad: Aprovechar los datos en el momento oportuno puede ayudar a reducir
los tiempos de actuación
Datos estructurados Semi estructurados No estructurados
www.stratebi.com
• Escenarios en los que debemos plantearnos una solución Big Data
• Necesidad de almacenar y procesar múltiples conjuntos de datos que
presentan una o más de las siguientes características:
• Volumen, Variedad y Velocidad
• Arquitectura BI actual no es capaz de procesar los datos y con las
restricciones de tiempo y calidad definidas.
• Estar preparados para un futuro Big Data:
• Necesidad de soporte a la escalabilidad el procesamiento y almacenamiento de
datos a corto o medio plazo.
www.stratebi.com
• Escenario
• Empresa de marketing dedicada el desarrollo de aplicaciones web y moviles de
pago por suscripción
• Para un mercado de más de 30 países
• Inversiones de más de 100K € semanales en campañas.
• Principales objetivos de análisis
• Campañas de marketing (ej. Google Ads) : Impresiones, altas, clicks, eventos, ratios de
conversión de (clicks, impresiones, altas,…) , errores de captación,…
• Base datos de clientes, duración de las suscripciones,…
• Financiero
www.stratebi.com
• Objetivos
• Mejora del sistema de sistema de reporting existente
• Reduciendo el tiempo de carga y preparación de los datos: “Frescura del dato”
• Near real time (datos actualizados y disponibles cada 10-15 minutos)
• Implantación de herramientas BI Open-Source (Lince Big Data Stack)
• Self-service OLAP, reporting y dashboarding
• Retos
• Cientos de gigabytes de datos nuevos cada día, más de 100 terabytes de datos
históricos.
• Datos estructurados y semi estructurados.
• Actualizaciones de histórico frecuentes.
www.stratebi.com
• Modelos de datos identificados
• Contexto de análisis
Dimensiones Atributos Descripción
Periodo
Año Año (YYYY)
Mes Mes (YYYY-MM)
Semana Semana (Fecha del primer día de la semana)
Día Día
Negocio
Línea de Negocio Un operador tiene una o más líneas de negocio
Operador Operador que ofrece el servicio
País País del operador
Producto
Portal de Contenidos Es el producto (web portal de contenidos)
Landing page Un usuario puede suscribirse a un Portal de Contenidos desde una o más landings.
Dominio Landing La web del portal de contenidos. Una landing puede tener múltiples dominios.
Creatividad
Es el banner o elemento publicitario que se usa para atraer a los potenciales suscriptores
hasta el portal de contenidos.
Publicidad
Proveedor de Publicidad El proveedor de la publicidad del Portal (ej. Google Adwords)
Tarifa de Publicidad
Tarifa de Publicidad de un proveedor. Un proveedor puede tener 1 o más tarifas de
publicidad.
Medio de Publicidad Medio de publicidad (SEM, Social Media, Plataformas,…)
Subpublisher Un proveedor de publicidad puede tener subpublishers
ISP Proveedor de Servicios de Internet del dispositivo del usuario
Network Type El tipo de red comunicación (3g, wifi, DOB, Desconocido)
Device Type El tipo de dispostivo (Tablet, Mobile, Desktop, Desconocido)
Device OS Sistema operativo del dispositivo
Canal Canal Canal (SMS, Web,…)
Tarifa Tarifa Tarifa a aplicar sobre la suscripción.
www.stratebi.com
• Modelos de datos identificados
• Algunas métricas
Grupo Métrica Descripción Cálculo
Altas
Altas Incluye todas las suscripciones registradas durante un período específico
Net Additions Incluye todas las suscripciones registradas durante un período, menos el
número total bajas durante el mismo período.
(Altas - Bajas)
CPA Eventos pixels Representa el coste de cada suscripción notificada por Google Adds (Publicidad/ Eventos pixels)
Bajas
Bajas Incluye todos los usuarios facturados o no facturados, registrados tanto
dentro como después de las 24 horas desde el momento de su suscripción
Bajas billed Bajas facturadas
Bajas not billed Bajas no facturadas
% Old Churn OC% . Representa el porcentaje de bajas sobre el total de suscritos (Bajas totales / Customer Base
(acumulado))
Bajas 24H Incluye todos los usuarios facturados o no facturados, registrados en las 24
horas desde el momento de su suscripción.
% Instant Churn %IC. Representa el porcentaje de bajas 24H sobre el total de altas (Bajas 24h / Altas)
Conversión
Impresiones Impresiones
CR Altas Nos informa sobre la capacidad de convertir las impresiones de nuestra
publicidad en suscripciones
(Altas/ Impresiones)
CR Pixels Nos informa sobre la capacidad de convertir las impresiones de nuestra
publicidad en eventos pixels
(Eventos pixels/ Impresiones)
Eventos Pixels/ Altas % Representa el porcentaje de eventos sobre el total de altas Eventos Pixels/ Altas
www.stratebi.com
• Arquitectura propuesta basada en AWS y usando tecnologías Open Source
• Clúster Hadoop EMR: Sqoop, Hive, Kafka, Oozie, S3 / HDFS…
• Apache Kylin: Sistema Big Data OLAP
www.stratebi.com
• Resultados
• Reducción del tiempo de consulta
• Mayoría de las consultas por debajo de los 5 s.
• Sobre tablas con miles de millones de filas.
• Reducción de los tiempos de carga
• Datos disponibles en Kylin cada pocos minutos
• Integración con herramientas de BI
• STPivot, STReport, STDashboard
www.stratebi.com
• Resultados
• Ejemplo real: agregación por dimensión país de todo el histórico de una tabla de
hechos de unos 300 millones filas → 0,10 segundos (caché desactivada)
www.stratebi.com
• Escenario
• Empresa de marketing direccional: Servicios de campañas a otras empresas por
distintos canales
• Correo postal
• Teléfono
• Email
• Datos
• Bases de datos de clientes: Nombre, DNI, dirección, teléfono, email,…
• Bases de datos de comunicaciones
• Ficheros semiestructurados con listas de personas a excluir: Robinson y propias de
experiencias de las empresas.
www.stratebi.com
• Principales objetivos
• Garantizar la calidad de los datos para:
1. Optimizar las campañas.
• Evitar el envío de correspondencia a direcciones incorrectas o contacto
teléfónico,….
• Dirigirse a la persona adecuadamente en la personalización de la publicidad (señor,
señora, señorita, ….)
2. El cumplimiento de la GDPR.
• Evitar contactar a personas que han solicitado expresamente que no se les
contacte.
3. Limpieza de datos a terceros.
www.stratebi.com
• Principales objetivos
• Modular
• Direcciones
• Nombres y apellidos
• Documento de identidad
• Emails
• Teléfonos
• De-duplicación de personas (registros completos)
www.stratebi.com
• Principales objetivos
• Modular
• Direcciones
• Detección de direcciones ilocalizables.
• Fiabilidad para envíos de correspondencia.
• Separa tipo de vía, nombre, número, complementos, código postal y población.
• Incorpora el código postal correcto y actualizado en función de la población, vía y número.
• Nombres y apellidos
• Documento de identidad
• Emails
• Teléfonos
• De-duplicación de personas (registros completos)
www.stratebi.com
• Principales objetivos
• Modular
• Direcciones
• Nombres y apellidos
• Separación de nombres y apellidos, en las personas físicas.
• Asignación de género en función del nombre.
• Detección de errores frecuentes de deletreo.Expansión de abreviaturas.
• Marcaje de nombres no identificables.
• Documento de identidad
• Emails
• Teléfonos
• De-duplicación de personas (registros completos)
www.stratebi.com
• Solución propuesta
• Técnicas
• Procesamiento del lenguaje natural (PLN)
• Fuzzy Matching: Definición de algoritmo de de-duplicación basado en técnicas
estadísticas (Cadenas de levensthein ponderadas).
• Expresiónes regulares (Pattern Matching) aplicando reglas estándar para validación de
emails (RFC 5322), teléfonos,…
• Fuentes de datos complementarías (semi estructuradas y no estructuradas)
• Callejeros de todas España: INE y, posteriormente, Correos.
• Diccionarios de nombres, nombres-género, apellidos, hipocorísticos,…
www.stratebi.com
• Solución propuesta
• Tecnología - Clúster Hadoop
• Amazon EMR (Elastic Map Reduce)
• Apache Spark
• 100 % escalable, el mismo código se ejecuta igual en 1 que en 100 o N máquinas.
• Ejecución distribuida y en memoria.
• En lenguaje Scala y usando principalmente API Spark SQL (Data Frames)
• Implementación de algoritmo de-duplicación usando liberias matemáticas, estadísticas, Mlib…
• Ideal para la computación compleja e intensiva que requiere la corrección de dirección
mediante comparación con los callejeros y la de-deduplicación.
• Otros:
• S3 (storage), Hive (Data Warehouse), Oozie (Orchestration), Zeppelin (Data Discovery, PoCs),…
www.stratebi.com
• Resultados
• Correcciones y de-duplicaciones con una fiabilidad superior al 90%
• Proceso 100% escalable y eficiente
• Ejecutable bajo demanda
• Fácilmente adaptable para soportar nuevos diccionarios y callejeros
www.stratebi.com
• Casos similares conocidos
• https://aws.amazon.com/es/solutions/case-studies/buildfax/
• BuildFax entrega todos sus datos por dirección, por lo que es imperativo ejecutar la corrección
de dirección.
• La información de la dirección es a veces bastante escasa, tal vez incluyendo sólo el número de la
calle, el nombre de la calle y el condado, pero no la ciudad, el estado o el código postal.
• Recorrer los valores posibles (todos los códigos postales de un condado, todas las ciudades de un
condado, etc.) y marcar las posibles coincidencias.
• Este proceso requiere ejecutar 750 millones de combinaciones de direcciones diferentes, lo
que sería virtualmente imposible sin Amazon Elastic MapReduce (Amazon EMR).
• Con hasta 80 nodos por conjunto de datos, la empresa mantiene los tiempos de ejecución por
debajo de 3 horas, gracias a Amazon EMR
www.stratebi.com
• La mejor forma para conocer la tecnología Big Data es probándola
• Hemos desarrollado una web de demostraciones.
http://bigdata.stratebi.com/
www.stratebi.com
• Los tecnologías Big Data Analytics permiten la optimización de los procesos
de Marketing.
• No todos los casos son Big Data.
• Es importante valorar el esfuerzo necesario (suele ser alto) en relación al beneficio que
podemos obtener.
• Cada tecnología Big Data es más adecuada para unos casos de uso.
• Apache Spark para la calidad y transformación de datos, machine learning, batch o real
time…
• Apache Hive, Kylin, Vertica, Azure Synapse…. para el reporting y cuadros de mando.
• Elasticsearch para cuadros de mandos y análisis real time, exploración analítica de
datos raw…