More Related Content Similar to Adaptive Big Data Pipelines (20) More from Carlos Fuentes (11) Adaptive Big Data Pipelines1. 1
Adaptive Big Data Pipelines
Lograr tempranamente el máximo impacto mientras se desarrolla una plataforma sostenible
GLOBAL SOFTWARE CONSULTANCY
© ThoughtWorks 2020
2. Arquitectura de Datos Empresariales
Primera generación: Plataformas de Data Warehouse Empresariales y Business Intelligence
2© ThoughtWorks 2019
Pull-based
Batch
Extracts
Enterprise
Data
Modeling
Complex
ETL
Logic
Poorly Suited to
Non-relational
Data
Emergent Design
is Difficult
Long
running
ETL Jobs
3. “El Data Warehouse y BI es uno de
los mayores gastos en presupuestos de CIO,
y hasta la fecha ha tenido un valor limitado para
el negocio.”
— Jeff Smith, IBM CIO
3© ThoughtWorks 2020
4. “Pensemos en un data mart como una tienda de agua
embotellada, limpia, empaquetada y estructurada para un
consumo fácil; el Data Lake es un gran estanque de agua
en un estado más natural. El contenido del Data Lake fluye
desde una fuente para llenar el lago, y varios usuarios del
lago pueden venir a examinar, sumergirse o tomar
muestras ".
James Dixon, CTO of Pentaho
4
POR QUÉ NO USAR UN DATA LAKE?
© ThoughtWorks 2020
5. Arquitectura de Datos Empresariales
Segunda generación: Ecosistema de Big Data con un Data Lake
http://martinfowler.com/bliki/DataLake.html
Data Warehouse
Los datos entrantes se
limpian y organizan en
un único esquema
coherente antes de ser
almacenados.
El análisis se realiza
directamente en los
datos de almacén
seleccionados.
Data Lake
Con un Data Lake, los
datos entrantes
ingresan al lago en su
forma cruda,
seleccionamos y
organizamos los datos
para cada necesidad.
9. VALORES DE UNA ARQUITECTURA ADAPTATIVA
9
Evolucionar es esencial
Resolver durante el
camino es una causa de
fallo
EVOLUCIONAR
PARA EL NEGOCIO
Arquitectura adaptativa
basada en principios
garantizan buenos
resultados
PRINCIPIOS
Un diseño emergente es
la mejor manera para
mitigar riesgos
ENTREGA DE
VALOR
INCREMENTAL
ENTREGA ÁGIL Y
APRENDIZAJE LEAN
Prácticas ágiles son la
mejor manera de validar
decisiones técnicas y
construir la solución
correcta
© ThoughtWorks 2020
10. SEPARACIÓN DE RESPONSABILIDADES
10
Los sistemas operacionales
se comunican a través de
servicios
Los sistemas envían los datos
usando sus propios esquemas
Los científicos de datos
exploran los datos para
obtener información
potencial
“Lakeshore marts” limpian y
organizan los datos para
propósitos específicos
© ThoughtWorks 2020
11. PRINCIPIOS DE DISEÑO ADAPTATIVO
11
Presentación de datos con baja latencia
Escalabilidad poco costosa
Ingesta de datos simple
Streaming sobre batch
Fácil recreación de la información
Lógica cerca del negocio
Diseño emergente
Soportar la persistencia políglota
Exploración y análisis de datos en crudo
© ThoughtWorks 2020
12. AccessData Hub
Canal de
mensajes
Sistemas de
Origen
Fit for purpose
applications
EDW or Marts
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Deploy
Capacidades
de negocio
Capacidades
de negocio
Deploy
Publish Reportes
Publicar
Descubrir
Archivador
de eventos Data cruda
Representación
canónica
Armonizar
Catálogo de Datos
Capacidades
de negocio
Data Locality
Sistemas
Legados /
Aplicaciones
ARQUITECTURA REFERENCIAL
12
Orquestación del Flujo de Datos
Ingesta en Lotes
Puede consumir eventos
directamente si es
necesario
© ThoughtWorks 2020
13. Fuente de Datos e ingesta
© ThoughtWorks 2020
Fuente de Datos
Capacidades de negocio
Sistemas legados
Canal de
mensajes
14. Fuente de Datos e ingesta
© ThoughtWorks 2020
Consumer Domain
Core Customer
ML Hub
Messaging Infrastructure
Store
Store Domain
Recommendations
Data Scientist
ML model
ML Model
Online/Mobile
Digital Domain
Consumer Products
Life Events
Shopping Events
Online Events Mobile App
15. Almacenamiento y
Gobernanza
● Archivador de eventos
● Data Hub
● Acceso
Obtener datos de los streams,
administrarlos en el Data Hub y
proporcionar los mecanismos
adecuados para acceder a ellos.
Access
Publish
Discovery
Event
Archiver
Data Hub
Raw Data
Canonical Representation
Harmonize
Data Catalog
Compute
needing Data
locality
© ThoughtWorks 2020
16. ● Consumir mensajes
● Almacenamiento en buffer
● Tamaño o ventanas de tiempo
Access
Publish
Discovery
Event
Archiver
Data Hub
Raw Data
Canonical Representation
Harmonize
Data Catalog
Compute
needing Data
locality
© ThoughtWorks 2020
Archivador de Eventos
17. Data Hub
● Raw Data
● Harmonize
● Canonical Representation
● Data Catalog
© ThoughtWorks 2020
Access
Publish
Discovery
Event
Archiver
Data Hub
Raw Data
Canonical Representation
Harmonize
Data Catalog
Compute
needing Data
locality
18. ● Publicar
● Descubrir
● Data locality
Access
Publish
Discovery
Event
Archiver
Data Hub
Raw Data
Canonical Representation
Harmonize
Data Catalog
Compute
needing Data
locality
© ThoughtWorks 2020
Acceso
19. Información
● Procesamiento específico para
aplicaciones que lo requieren
● Pueden acceder a los datos
directamente de los streams de
eventos
❏ Spark SQL
Fit for purpose applications
© ThoughtWorks 2020
Capacidades
Capacidades de
negocio
Deploy
Publish Reportes
Deploy
Capacidades de
negocio
Información
Fit for purpose
Applications
Almacenes de datos
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Fit for purpose
Applications
20. Información
● Herramientas que permiten a los
científicos de datos crear, desplegar
y monitorear
○ ML en el laboratorio
○ ML en producción
❏ cd4ml
Plataforma ML
© ThoughtWorks 2020
Capacidades
Capacidades de
negocio
Deploy
Publish Reportes
Deploy
Capacidades de
negocio
Información
Fit for purpose
Applications
Almacenes de datos
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Fit for purpose
Applications
21. Información
● El almacén de datos los consume
desde el hub, lo que convierte al hub
en el origen.
● Es el cambio de ETL a ELT
(extract-load-transform).
Almacenes de datos
© ThoughtWorks 2020
Capacidades
Capacidades de
negocio
Deploy
Publish Reportes
Deploy
Capacidades de
negocio
Información
Fit for purpose
Applications
Almacenes de datos
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Fit for purpose
Applications
22. Capacidades
● Propuesta de valor
● Diseño de API
● Implementación del servicio
De negocio
© ThoughtWorks 2020
Capacidades
Capacidades de
negocio
Deploy
Publish Reportes
Deploy
Capacidades de
negocio
Información
Fit for purpose
Applications
Data Warehouses
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Fit for purpose
Applications
23. Data Hub
Durable
Message
Pipeline
Source
Systems
Fit for purpose
applications
EDW or Marts
ML Platform
Metadata
Catalog
ML Engines
ML Sandbox
Deploy
Business
Capabilities
Business
Capabilities
Deploy
Publish Reports
Publish
Discovery
Event
Archive Raw Data
Canonical
Representation
Harmonize
Data Catalog
Business
capabilities
Compute
needing
data locality
Legacy
/ COTS
ARQUITECTURA REFERENCIAL w/ Candidate Technologies
23
Workflow Orchestration
HDFS + IGNITE
SPARK + YARN
AVRO/
PARQUET
HIVE/HBASE
IMPALA/
PRESTO
ZEPPELIN/
MICHELANGELO
SPARK
SQL
KAFKA
SQOOP
AIRFLOW/OOZIE
TABLEAU
SCIKIT-LEARN/
H20.ai
GEODE
ELASTICSEARCH
ATLAS + RANGER
NEO4J/TITAN
AMBARI + ANSIBLE
Batch Ingestion
Access
May consume events
directly if required
© ThoughtWorks 2020
24. Otras preocupaciones en Big Data Pipelines
Se debe también tomar en cuenta...
24
CALIDAD DE
DATOS
SEGURIDAD DE
DATOS
LINAJE DE
DATOS
© ThoughtWorks 2020
INTEGRIDAD DE
DATOS
26. CALIDAD DE SERVICIO
AL CLIENTE
26
Este cliente experimentó un rápido aumento de
usuarios, lo que trajo retos en sus técnicas tradicionales
de análisis de datos, almacenamiento y minería de
datos.
Construimos una plataforma de marketing de Big Data
que tome decisiones semi-automatizadas y mejore la
eficiencia de marketing y la calidad del servicio al
cliente.
Más adelante, construimos construimos un producto
llamado "CEO Fortune Teller" con una interfaz fácil para
que los ejecutivos saquen ideas y hagan predicciones
para servir mejor a sus clientes.
8% A 46%
Aumento de
conversaciones en
televentas
5 TERABYTES
Datos en sus registros
2 HORAS
Tiempo en procesar
el set entero de datos
1 SEGUNDO
Tiempo para retornar las
consultas
2 BILLION
Registros
procesados
Uno de los bancos más grandes de China
© ThoughtWorks 2020
27. 27
Desde una perspectiva técnica, la solución contó con un clúster de Hadoop. Los
algoritmos de pronóstico se realizaron en R y Hive. Las operaciones de MapReduce
desencadenaron el entrenamiento y las predicciones del modelo desde R.
Outcome: Utilizamos datos sobre inventario,
desviaciones, rendimientos, ventas perdidas,
estacionalidad y efectos promocionales para generar
previsiones de pretemporada (9 meses de
antelación) y en temporada (ciclo de 6 semanas) para
optimizar la producción y el stock.
Creamos una canalización que genera previsiones de
demanda que fue utilizada por los equipos de
planificación para el reabastecimiento de artículos en
la tienda.
© ThoughtWorks 2020