Adaptive Big Data Pipelines

1
Adaptive Big Data Pipelines
Lograr tempranamente el máximo impacto mientras se desarrolla una plataforma sostenible
GLOBAL SOFTWARE CONSULTANCY
© ThoughtWorks 2020

Arquitectura de Datos Empresariales
Primera generación: Plataformas de Data Warehouse Empresariales y Business Intelligence
2© ThoughtWorks 2019
Pull-based
Batch
Extracts
Enterprise
Data
Modeling
Complex
ETL
Logic
Poorly Suited to
Non-relational
Data
Emergent Design
is Diﬃcult
Long
running
ETL Jobs

“El Data Warehouse y BI es uno de
los mayores gastos en presupuestos de CIO,
y hasta la fecha ha tenido un valor limitado para
el negocio.”
— Jeﬀ Smith, IBM CIO

“Pensemos en un data mart como una tienda de agua
embotellada, limpia, empaquetada y estructurada para un
consumo fácil; el Data Lake es un gran estanque de agua
en un estado más natural. El contenido del Data Lake ﬂuye
desde una fuente para llenar el lago, y varios usuarios del
lago pueden venir a examinar, sumergirse o tomar
muestras ".
James Dixon, CTO of Pentaho
4
POR QUÉ NO USAR UN DATA LAKE?

Arquitectura de Datos Empresariales
Segunda generación: Ecosistema de Big Data con un Data Lake
http://martinfowler.com/bliki/DataLake.html
Data Warehouse
Los datos entrantes se
limpian y organizan en
un único esquema
coherente antes de ser
almacenados.
El análisis se realiza
directamente en los
datos de almacén
seleccionados.
Data Lake
Con un Data Lake, los
datos entrantes
ingresan al lago en su
forma cruda,
seleccionamos y
organizamos los datos
para cada necesidad.

Problemas en los Data Lakes

Data Mesh
Tercera generación...??? : Move Beyond a Monolithic Data Lake to a Distributed Data Mesh
https://martinfowler.com/articles/data-monolith-to-mesh.html

ARQUITECTURA DE DATOS ADAPTATIVA

VALORES DE UNA ARQUITECTURA ADAPTATIVA
9
Evolucionar es esencial
Resolver durante el
camino es una causa de
fallo
EVOLUCIONAR
PARA EL NEGOCIO
Arquitectura adaptativa
basada en principios
garantizan buenos
resultados
PRINCIPIOS
Un diseño emergente es
la mejor manera para
mitigar riesgos
ENTREGA DE
VALOR
INCREMENTAL
ENTREGA ÁGIL Y
APRENDIZAJE LEAN
Prácticas ágiles son la
mejor manera de validar
decisiones técnicas y
construir la solución
correcta

SEPARACIÓN DE RESPONSABILIDADES
10
Los sistemas operacionales
se comunican a través de
servicios
Los sistemas envían los datos
usando sus propios esquemas
Los cientíﬁcos de datos
exploran los datos para
obtener información
potencial
“Lakeshore marts” limpian y
organizan los datos para
propósitos especíﬁcos

PRINCIPIOS DE DISEÑO ADAPTATIVO
11
Presentación de datos con baja latencia
Escalabilidad poco costosa
Ingesta de datos simple
Streaming sobre batch
Fácil recreación de la información
Lógica cerca del negocio
Diseño emergente
Soportar la persistencia políglota
Exploración y análisis de datos en crudo

AccessData Hub
Canal de
mensajes
Sistemas de
Origen
Fit for purpose
applications
EDW or Marts
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Deploy
Capacidades
de negocio
Capacidades
de negocio
Deploy
Publish Reportes
Publicar
Descubrir
Archivador
de eventos Data cruda
Representación
canónica
Armonizar
Catálogo de Datos
Capacidades
de negocio
Data Locality
Sistemas
Legados /
Aplicaciones
ARQUITECTURA REFERENCIAL
12
Orquestación del Flujo de Datos
Ingesta en Lotes
Puede consumir eventos
directamente si es
necesario

Fuente de Datos e ingesta
Fuente de Datos
Capacidades de negocio
Sistemas legados
Canal de
mensajes

Fuente de Datos e ingesta
Consumer Domain
Core Customer
ML Hub
Messaging Infrastructure
Store
Store Domain
Recommendations
Data Scientist
ML model
ML Model
Online/Mobile
Digital Domain
Consumer Products
Life Events
Shopping Events
Online Events Mobile App

Almacenamiento y
Gobernanza
● Archivador de eventos
● Data Hub
● Acceso
Obtener datos de los streams,
administrarlos en el Data Hub y
proporcionar los mecanismos
adecuados para acceder a ellos.
Access
Publish
Discovery
Event
Archiver
Data Hub
Raw Data
Canonical Representation
Harmonize
Data Catalog
Compute
needing Data
locality

● Consumir mensajes
● Almacenamiento en buﬀer
● Tamaño o ventanas de tiempo
Access
Publish
Discovery
Event
Archiver
Data Hub
Raw Data
Harmonize
Data Catalog
Compute
needing Data
locality
Archivador de Eventos

Data Hub
● Raw Data
● Harmonize
● Canonical Representation
● Data Catalog
Access
Publish
Discovery
Event
Archiver
Data Hub
Raw Data
Harmonize
Data Catalog
Compute
needing Data
locality

● Publicar
● Descubrir
● Data locality
Access
Publish
Discovery
Event
Archiver
Data Hub
Raw Data
Harmonize
Data Catalog
Compute
needing Data
locality
Acceso

Información
● Procesamiento especíﬁco para
aplicaciones que lo requieren
● Pueden acceder a los datos
directamente de los streams de
eventos
❏ Spark SQL
Fit for purpose applications
Capacidades
Capacidades de
negocio
Deploy
Publish Reportes
Deploy
Capacidades de
negocio
Información
Fit for purpose
Applications
Almacenes de datos
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Fit for purpose
Applications

Información
● Herramientas que permiten a los
cientíﬁcos de datos crear, desplegar
y monitorear
○ ML en el laboratorio
○ ML en producción
❏ cd4ml
Plataforma ML
Capacidades
Capacidades de
negocio
Deploy
Publish Reportes
Deploy
Capacidades de
negocio
Información
Fit for purpose
Applications
Almacenes de datos
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Fit for purpose
Applications

Información
● El almacén de datos los consume
desde el hub, lo que convierte al hub
en el origen.
● Es el cambio de ETL a ELT
(extract-load-transform).
Almacenes de datos
Capacidades
Capacidades de
negocio
Deploy
Publish Reportes
Deploy
Capacidades de
negocio
Información
Fit for purpose
Applications
Almacenes de datos
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Fit for purpose
Applications

Capacidades
● Propuesta de valor
● Diseño de API
● Implementación del servicio
De negocio
Capacidades
Capacidades de
negocio
Deploy
Publish Reportes
Deploy
Capacidades de
negocio
Información
Fit for purpose
Applications
Data Warehouses
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Fit for purpose
Applications

Data Hub
Durable
Message
Pipeline
Source
Systems
Fit for purpose
applications
EDW or Marts
ML Platform
Metadata
Catalog
ML Engines
ML Sandbox
Deploy
Business
Capabilities
Business
Capabilities
Deploy
Publish Reports
Publish
Discovery
Event
Archive Raw Data
Canonical
Representation
Harmonize
Data Catalog
Business
capabilities
Compute
needing
data locality
Legacy
/ COTS
ARQUITECTURA REFERENCIAL w/ Candidate Technologies
23
Workﬂow Orchestration
HDFS + IGNITE
SPARK + YARN
AVRO/
PARQUET
HIVE/HBASE
IMPALA/
PRESTO
ZEPPELIN/
MICHELANGELO
SPARK
SQL
KAFKA
SQOOP
AIRFLOW/OOZIE
TABLEAU
SCIKIT-LEARN/
H20.ai
GEODE
ELASTICSEARCH
ATLAS + RANGER
NEO4J/TITAN
AMBARI + ANSIBLE
Batch Ingestion
Access
May consume events
directly if required

Otras preocupaciones en Big Data Pipelines
Se debe también tomar en cuenta...
24
CALIDAD DE
DATOS
SEGURIDAD DE
DATOS
LINAJE DE
DATOS
INTEGRIDAD DE
DATOS

Casos de Éxito

CALIDAD DE SERVICIO
AL CLIENTE
26
Este cliente experimentó un rápido aumento de
usuarios, lo que trajo retos en sus técnicas tradicionales
de análisis de datos, almacenamiento y minería de
datos.
Construimos una plataforma de marketing de Big Data
que tome decisiones semi-automatizadas y mejore la
eﬁciencia de marketing y la calidad del servicio al
cliente.
Más adelante, construimos construimos un producto
llamado "CEO Fortune Teller" con una interfaz fácil para
que los ejecutivos saquen ideas y hagan predicciones
para servir mejor a sus clientes.
8% A 46%
Aumento de
conversaciones en
televentas
5 TERABYTES
Datos en sus registros
2 HORAS
Tiempo en procesar
el set entero de datos
1 SEGUNDO
Tiempo para retornar las
consultas
2 BILLION
Registros
procesados
Uno de los bancos más grandes de China

27
Desde una perspectiva técnica, la solución contó con un clúster de Hadoop. Los
algoritmos de pronóstico se realizaron en R y Hive. Las operaciones de MapReduce
desencadenaron el entrenamiento y las predicciones del modelo desde R.
Outcome: Utilizamos datos sobre inventario,
desviaciones, rendimientos, ventas perdidas,
estacionalidad y efectos promocionales para generar
previsiones de pretemporada (9 meses de
antelación) y en temporada (ciclo de 6 semanas) para
optimizar la producción y el stock.
Creamos una canalización que genera previsiones de
demanda que fue utilizada por los equipos de
planiﬁcación para el reabastecimiento de artículos en
la tienda.

Jennifer Carrillo
jcarrill@thoughtworks.com |
GRACIAS
Carlos Fuentes
cfuentes@thoughtworks.com | @educharlief

Adaptive Big Data Pipelines

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Adaptive Big Data Pipelines

Similar to Adaptive Big Data Pipelines (20)

More from Carlos Fuentes

More from Carlos Fuentes (11)

Adaptive Big Data Pipelines