SlideShare a Scribd company logo
1 of 28
Download to read offline
1
Adaptive Big Data Pipelines
Lograr tempranamente el máximo impacto mientras se desarrolla una plataforma sostenible
GLOBAL SOFTWARE CONSULTANCY
© ThoughtWorks 2020
Arquitectura de Datos Empresariales
Primera generación: Plataformas de Data Warehouse Empresariales y Business Intelligence
2© ThoughtWorks 2019
Pull-based
Batch
Extracts
Enterprise
Data
Modeling
Complex
ETL
Logic
Poorly Suited to
Non-relational
Data
Emergent Design
is Difficult
Long
running
ETL Jobs
“El Data Warehouse y BI es uno de
los mayores gastos en presupuestos de CIO,
y hasta la fecha ha tenido un valor limitado para
el negocio.”
— Jeff Smith, IBM CIO
3© ThoughtWorks 2020
“Pensemos en un data mart como una tienda de agua
embotellada, limpia, empaquetada y estructurada para un
consumo fácil; el Data Lake es un gran estanque de agua
en un estado más natural. El contenido del Data Lake fluye
desde una fuente para llenar el lago, y varios usuarios del
lago pueden venir a examinar, sumergirse o tomar
muestras ".
James Dixon, CTO of Pentaho
4
POR QUÉ NO USAR UN DATA LAKE?
© ThoughtWorks 2020
Arquitectura de Datos Empresariales
Segunda generación: Ecosistema de Big Data con un Data Lake
http://martinfowler.com/bliki/DataLake.html
Data Warehouse
Los datos entrantes se
limpian y organizan en
un único esquema
coherente antes de ser
almacenados.
El análisis se realiza
directamente en los
datos de almacén
seleccionados.
Data Lake
Con un Data Lake, los
datos entrantes
ingresan al lago en su
forma cruda,
seleccionamos y
organizamos los datos
para cada necesidad.
Problemas en los Data Lakes
6© ThoughtWorks 2019
Data Mesh
Tercera generación...??? : Move Beyond a Monolithic Data Lake to a Distributed Data Mesh
https://martinfowler.com/articles/data-monolith-to-mesh.html
ARQUITECTURA DE DATOS ADAPTATIVA
8© ThoughtWorks 2020
VALORES DE UNA ARQUITECTURA ADAPTATIVA
9
Evolucionar es esencial
Resolver durante el
camino es una causa de
fallo
EVOLUCIONAR
PARA EL NEGOCIO
Arquitectura adaptativa
basada en principios
garantizan buenos
resultados
PRINCIPIOS
Un diseño emergente es
la mejor manera para
mitigar riesgos
ENTREGA DE
VALOR
INCREMENTAL
ENTREGA ÁGIL Y
APRENDIZAJE LEAN
Prácticas ágiles son la
mejor manera de validar
decisiones técnicas y
construir la solución
correcta
© ThoughtWorks 2020
SEPARACIÓN DE RESPONSABILIDADES
10
Los sistemas operacionales
se comunican a través de
servicios
Los sistemas envían los datos
usando sus propios esquemas
Los científicos de datos
exploran los datos para
obtener información
potencial
“Lakeshore marts” limpian y
organizan los datos para
propósitos específicos
© ThoughtWorks 2020
PRINCIPIOS DE DISEÑO ADAPTATIVO
11
Presentación de datos con baja latencia
Escalabilidad poco costosa
Ingesta de datos simple
Streaming sobre batch
Fácil recreación de la información
Lógica cerca del negocio
Diseño emergente
Soportar la persistencia políglota
Exploración y análisis de datos en crudo
© ThoughtWorks 2020
AccessData Hub
Canal de
mensajes
Sistemas de
Origen
Fit for purpose
applications
EDW or Marts
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Deploy
Capacidades
de negocio
Capacidades
de negocio
Deploy
Publish Reportes
Publicar
Descubrir
Archivador
de eventos Data cruda
Representación
canónica
Armonizar
Catálogo de Datos
Capacidades
de negocio
Data Locality
Sistemas
Legados /
Aplicaciones
ARQUITECTURA REFERENCIAL
12
Orquestación del Flujo de Datos
Ingesta en Lotes
Puede consumir eventos
directamente si es
necesario
© ThoughtWorks 2020
Fuente de Datos e ingesta
© ThoughtWorks 2020
Fuente de Datos
Capacidades de negocio
Sistemas legados
Canal de
mensajes
Fuente de Datos e ingesta
© ThoughtWorks 2020
Consumer Domain
Core Customer
ML Hub
Messaging Infrastructure
Store
Store Domain
Recommendations
Data Scientist
ML model
ML Model
Online/Mobile
Digital Domain
Consumer Products
Life Events
Shopping Events
Online Events Mobile App
Almacenamiento y
Gobernanza
● Archivador de eventos
● Data Hub
● Acceso
Obtener datos de los streams,
administrarlos en el Data Hub y
proporcionar los mecanismos
adecuados para acceder a ellos.
Access
Publish
Discovery
Event
Archiver
Data Hub
Raw Data
Canonical Representation
Harmonize
Data Catalog
Compute
needing Data
locality
© ThoughtWorks 2020
● Consumir mensajes
● Almacenamiento en buffer
● Tamaño o ventanas de tiempo
Access
Publish
Discovery
Event
Archiver
Data Hub
Raw Data
Canonical Representation
Harmonize
Data Catalog
Compute
needing Data
locality
© ThoughtWorks 2020
Archivador de Eventos
Data Hub
● Raw Data
● Harmonize
● Canonical Representation
● Data Catalog
© ThoughtWorks 2020
Access
Publish
Discovery
Event
Archiver
Data Hub
Raw Data
Canonical Representation
Harmonize
Data Catalog
Compute
needing Data
locality
● Publicar
● Descubrir
● Data locality
Access
Publish
Discovery
Event
Archiver
Data Hub
Raw Data
Canonical Representation
Harmonize
Data Catalog
Compute
needing Data
locality
© ThoughtWorks 2020
Acceso
Información
● Procesamiento específico para
aplicaciones que lo requieren
● Pueden acceder a los datos
directamente de los streams de
eventos
❏ Spark SQL
Fit for purpose applications
© ThoughtWorks 2020
Capacidades
Capacidades de
negocio
Deploy
Publish Reportes
Deploy
Capacidades de
negocio
Información
Fit for purpose
Applications
Almacenes de datos
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Fit for purpose
Applications
Información
● Herramientas que permiten a los
científicos de datos crear, desplegar
y monitorear
○ ML en el laboratorio
○ ML en producción
❏ cd4ml
Plataforma ML
© ThoughtWorks 2020
Capacidades
Capacidades de
negocio
Deploy
Publish Reportes
Deploy
Capacidades de
negocio
Información
Fit for purpose
Applications
Almacenes de datos
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Fit for purpose
Applications
Información
● El almacén de datos los consume
desde el hub, lo que convierte al hub
en el origen.
● Es el cambio de ETL a ELT
(extract-load-transform).
Almacenes de datos
© ThoughtWorks 2020
Capacidades
Capacidades de
negocio
Deploy
Publish Reportes
Deploy
Capacidades de
negocio
Información
Fit for purpose
Applications
Almacenes de datos
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Fit for purpose
Applications
Capacidades
● Propuesta de valor
● Diseño de API
● Implementación del servicio
De negocio
© ThoughtWorks 2020
Capacidades
Capacidades de
negocio
Deploy
Publish Reportes
Deploy
Capacidades de
negocio
Información
Fit for purpose
Applications
Data Warehouses
Plataforma ML
Metadata
Catalog
ML Engines
ML Sandbox
Fit for purpose
Applications
Data Hub
Durable
Message
Pipeline
Source
Systems
Fit for purpose
applications
EDW or Marts
ML Platform
Metadata
Catalog
ML Engines
ML Sandbox
Deploy
Business
Capabilities
Business
Capabilities
Deploy
Publish Reports
Publish
Discovery
Event
Archive Raw Data
Canonical
Representation
Harmonize
Data Catalog
Business
capabilities
Compute
needing
data locality
Legacy
/ COTS
ARQUITECTURA REFERENCIAL w/ Candidate Technologies
23
Workflow Orchestration
HDFS + IGNITE
SPARK + YARN
AVRO/
PARQUET
HIVE/HBASE
IMPALA/
PRESTO
ZEPPELIN/
MICHELANGELO
SPARK
SQL
KAFKA
SQOOP
AIRFLOW/OOZIE
TABLEAU
SCIKIT-LEARN/
H20.ai
GEODE
ELASTICSEARCH
ATLAS + RANGER
NEO4J/TITAN
AMBARI + ANSIBLE
Batch Ingestion
Access
May consume events
directly if required
© ThoughtWorks 2020
Otras preocupaciones en Big Data Pipelines
Se debe también tomar en cuenta...
24
CALIDAD DE
DATOS
SEGURIDAD DE
DATOS
LINAJE DE
DATOS
© ThoughtWorks 2020
INTEGRIDAD DE
DATOS
Casos de Éxito
25© ThoughtWorks 2020
CALIDAD DE SERVICIO
AL CLIENTE
26
Este cliente experimentó un rápido aumento de
usuarios, lo que trajo retos en sus técnicas tradicionales
de análisis de datos, almacenamiento y minería de
datos.
Construimos una plataforma de marketing de Big Data
que tome decisiones semi-automatizadas y mejore la
eficiencia de marketing y la calidad del servicio al
cliente.
Más adelante, construimos construimos un producto
llamado "CEO Fortune Teller" con una interfaz fácil para
que los ejecutivos saquen ideas y hagan predicciones
para servir mejor a sus clientes.
8% A 46%
Aumento de
conversaciones en
televentas
5 TERABYTES
Datos en sus registros
2 HORAS
Tiempo en procesar
el set entero de datos
1 SEGUNDO
Tiempo para retornar las
consultas
2 BILLION
Registros
procesados
Uno de los bancos más grandes de China
© ThoughtWorks 2020
27
Desde una perspectiva técnica, la solución contó con un clúster de Hadoop. Los
algoritmos de pronóstico se realizaron en R y Hive. Las operaciones de MapReduce
desencadenaron el entrenamiento y las predicciones del modelo desde R.
Outcome: Utilizamos datos sobre inventario,
desviaciones, rendimientos, ventas perdidas,
estacionalidad y efectos promocionales para generar
previsiones de pretemporada (9 meses de
antelación) y en temporada (ciclo de 6 semanas) para
optimizar la producción y el stock.
Creamos una canalización que genera previsiones de
demanda que fue utilizada por los equipos de
planificación para el reabastecimiento de artículos en
la tienda.
© ThoughtWorks 2020
Jennifer Carrillo
jcarrill@thoughtworks.com |
28© ThoughtWorks 2020
GRACIAS
Carlos Fuentes
cfuentes@thoughtworks.com | @educharlief

More Related Content

What's hot

Experiencia de Implantación de una Fábrica de Datos: Air Europa
Experiencia de Implantación de una Fábrica de Datos: Air EuropaExperiencia de Implantación de una Fábrica de Datos: Air Europa
Experiencia de Implantación de una Fábrica de Datos: Air Europa
Denodo
 
CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)
CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)
CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)
Denodo
 
Cómo agilizar la integración de datos y el análisis de la información en el s...
Cómo agilizar la integración de datos y el análisis de la información en el s...Cómo agilizar la integración de datos y el análisis de la información en el s...
Cómo agilizar la integración de datos y el análisis de la información en el s...
Denodo
 

What's hot (20)

Experiencia de Implantación de una Fábrica de Datos: Air Europa
Experiencia de Implantación de una Fábrica de Datos: Air EuropaExperiencia de Implantación de una Fábrica de Datos: Air Europa
Experiencia de Implantación de una Fábrica de Datos: Air Europa
 
Clase 1 parte 1
Clase 1   parte 1Clase 1   parte 1
Clase 1 parte 1
 
3 mitos del Big Data derribados
3 mitos del Big Data derribados3 mitos del Big Data derribados
3 mitos del Big Data derribados
 
CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)
CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)
CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)
 
La aparición del Descubrimiento Gobernado.
La aparición del Descubrimiento Gobernado.La aparición del Descubrimiento Gobernado.
La aparición del Descubrimiento Gobernado.
 
Estado del arte del BI | Jornada Madrid 2014 | UOC
Estado del arte del BI | Jornada Madrid 2014 | UOCEstado del arte del BI | Jornada Madrid 2014 | UOC
Estado del arte del BI | Jornada Madrid 2014 | UOC
 
Informe OBS Business School: Big Data 2017-2018 y el salto del Big Data al Hu...
Informe OBS Business School: Big Data 2017-2018 y el salto del Big Data al Hu...Informe OBS Business School: Big Data 2017-2018 y el salto del Big Data al Hu...
Informe OBS Business School: Big Data 2017-2018 y el salto del Big Data al Hu...
 
Informe obs business school big data y huge data los dos grandes actores
Informe obs business school big data y huge data los dos grandes actoresInforme obs business school big data y huge data los dos grandes actores
Informe obs business school big data y huge data los dos grandes actores
 
Reseña del libro "Data Strategy. From definition to execution" de Ian Wallis
Reseña del libro "Data Strategy. From definition to execution" de Ian WallisReseña del libro "Data Strategy. From definition to execution" de Ian Wallis
Reseña del libro "Data Strategy. From definition to execution" de Ian Wallis
 
Desayuno amdia: Big Data, hacia una visión 360° de mis clientes
Desayuno amdia: Big Data, hacia una visión 360° de mis clientesDesayuno amdia: Big Data, hacia una visión 360° de mis clientes
Desayuno amdia: Big Data, hacia una visión 360° de mis clientes
 
Hablemos de Big Data
Hablemos de Big DataHablemos de Big Data
Hablemos de Big Data
 
108. BIG DATA & ANALYTICS: Por qué BI es insuficiente
108. BIG DATA & ANALYTICS: Por qué BI es insuficiente108. BIG DATA & ANALYTICS: Por qué BI es insuficiente
108. BIG DATA & ANALYTICS: Por qué BI es insuficiente
 
Informe OBS: El salto del Big Data al Huge Data
Informe OBS: El salto del Big Data al Huge DataInforme OBS: El salto del Big Data al Huge Data
Informe OBS: El salto del Big Data al Huge Data
 
Xertica work transformation with Google
Xertica work transformation with GoogleXertica work transformation with Google
Xertica work transformation with Google
 
Cómo agilizar la integración de datos y el análisis de la información en el s...
Cómo agilizar la integración de datos y el análisis de la información en el s...Cómo agilizar la integración de datos y el análisis de la información en el s...
Cómo agilizar la integración de datos y el análisis de la información en el s...
 
ARQUITECTURA BIG DATA VISIÓN 360 ° DE CLIENTES Y NIVEL DE MADUREZ E IMPLEMENT...
ARQUITECTURA BIG DATA VISIÓN 360 ° DE CLIENTES Y NIVEL DE MADUREZ E IMPLEMENT...ARQUITECTURA BIG DATA VISIÓN 360 ° DE CLIENTES Y NIVEL DE MADUREZ E IMPLEMENT...
ARQUITECTURA BIG DATA VISIÓN 360 ° DE CLIENTES Y NIVEL DE MADUREZ E IMPLEMENT...
 
Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big Results
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
 
Customer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep CurtoCustomer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
 
Proteja sus datos de punto a punto
Proteja sus datos de punto a puntoProteja sus datos de punto a punto
Proteja sus datos de punto a punto
 

Similar to Adaptive Big Data Pipelines

Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1
nestor
 

Similar to Adaptive Big Data Pipelines (20)

Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Keepler Data Tech | The cloud data driven partner
Keepler Data Tech | The cloud data driven partnerKeepler Data Tech | The cloud data driven partner
Keepler Data Tech | The cloud data driven partner
 
2016 ULL Cabildo KEEDIO - IT y BANCA
2016 ULL Cabildo KEEDIO - IT y BANCA2016 ULL Cabildo KEEDIO - IT y BANCA
2016 ULL Cabildo KEEDIO - IT y BANCA
 
Autoservicio BI
Autoservicio BI Autoservicio BI
Autoservicio BI
 
Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...
Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...
Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...
 
Querona
QueronaQuerona
Querona
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Nunsys HP Day - Un nuevo estilo de IT
Nunsys HP Day - Un nuevo estilo de ITNunsys HP Day - Un nuevo estilo de IT
Nunsys HP Day - Un nuevo estilo de IT
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
 
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
 
1, 2, 3 y 4 factores clave en la transformacion digital del data center
1, 2, 3 y 4 factores clave en la transformacion digital del data center1, 2, 3 y 4 factores clave en la transformacion digital del data center
1, 2, 3 y 4 factores clave en la transformacion digital del data center
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BI
 
Desmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataDesmitificando un proyecto de Big Data
Desmitificando un proyecto de Big Data
 
ppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdfppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdf
 
Análisis más rápidos, empresas más inteligentes
Análisis más rápidos, empresas más inteligentesAnálisis más rápidos, empresas más inteligentes
Análisis más rápidos, empresas más inteligentes
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSE
 
Microsoft Azure Data Environment
Microsoft Azure Data EnvironmentMicrosoft Azure Data Environment
Microsoft Azure Data Environment
 
Introduccion Oracle Autonomous DB - Diego "Perico" Sanchez - junio 2020
Introduccion Oracle Autonomous DB - Diego "Perico" Sanchez - junio 2020Introduccion Oracle Autonomous DB - Diego "Perico" Sanchez - junio 2020
Introduccion Oracle Autonomous DB - Diego "Perico" Sanchez - junio 2020
 

More from Carlos Fuentes

More from Carlos Fuentes (11)

Descubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfDescubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdf
 
soda-sql
soda-sqlsoda-sql
soda-sql
 
Firebolt vs Snowflake
Firebolt vs SnowflakeFirebolt vs Snowflake
Firebolt vs Snowflake
 
Data Ingestion in AWS
Data Ingestion in AWSData Ingestion in AWS
Data Ingestion in AWS
 
CD4ML
CD4MLCD4ML
CD4ML
 
Deep learning algo mas que una moda
Deep learning algo mas que una modaDeep learning algo mas que una moda
Deep learning algo mas que una moda
 
HPA*
HPA*HPA*
HPA*
 
Realidad virtual
Realidad virtualRealidad virtual
Realidad virtual
 
Entrega contínua en la práctica
Entrega contínua en la prácticaEntrega contínua en la práctica
Entrega contínua en la práctica
 
Análisis, preparación y visualización de datos usando herramientas Open Source
Análisis, preparación y visualización de datos usando herramientas Open SourceAnálisis, preparación y visualización de datos usando herramientas Open Source
Análisis, preparación y visualización de datos usando herramientas Open Source
 
Introducción a Data Science
Introducción a Data ScienceIntroducción a Data Science
Introducción a Data Science
 

Adaptive Big Data Pipelines

  • 1. 1 Adaptive Big Data Pipelines Lograr tempranamente el máximo impacto mientras se desarrolla una plataforma sostenible GLOBAL SOFTWARE CONSULTANCY © ThoughtWorks 2020
  • 2. Arquitectura de Datos Empresariales Primera generación: Plataformas de Data Warehouse Empresariales y Business Intelligence 2© ThoughtWorks 2019 Pull-based Batch Extracts Enterprise Data Modeling Complex ETL Logic Poorly Suited to Non-relational Data Emergent Design is Difficult Long running ETL Jobs
  • 3. “El Data Warehouse y BI es uno de los mayores gastos en presupuestos de CIO, y hasta la fecha ha tenido un valor limitado para el negocio.” — Jeff Smith, IBM CIO 3© ThoughtWorks 2020
  • 4. “Pensemos en un data mart como una tienda de agua embotellada, limpia, empaquetada y estructurada para un consumo fácil; el Data Lake es un gran estanque de agua en un estado más natural. El contenido del Data Lake fluye desde una fuente para llenar el lago, y varios usuarios del lago pueden venir a examinar, sumergirse o tomar muestras ". James Dixon, CTO of Pentaho 4 POR QUÉ NO USAR UN DATA LAKE? © ThoughtWorks 2020
  • 5. Arquitectura de Datos Empresariales Segunda generación: Ecosistema de Big Data con un Data Lake http://martinfowler.com/bliki/DataLake.html Data Warehouse Los datos entrantes se limpian y organizan en un único esquema coherente antes de ser almacenados. El análisis se realiza directamente en los datos de almacén seleccionados. Data Lake Con un Data Lake, los datos entrantes ingresan al lago en su forma cruda, seleccionamos y organizamos los datos para cada necesidad.
  • 6. Problemas en los Data Lakes 6© ThoughtWorks 2019
  • 7. Data Mesh Tercera generación...??? : Move Beyond a Monolithic Data Lake to a Distributed Data Mesh https://martinfowler.com/articles/data-monolith-to-mesh.html
  • 8. ARQUITECTURA DE DATOS ADAPTATIVA 8© ThoughtWorks 2020
  • 9. VALORES DE UNA ARQUITECTURA ADAPTATIVA 9 Evolucionar es esencial Resolver durante el camino es una causa de fallo EVOLUCIONAR PARA EL NEGOCIO Arquitectura adaptativa basada en principios garantizan buenos resultados PRINCIPIOS Un diseño emergente es la mejor manera para mitigar riesgos ENTREGA DE VALOR INCREMENTAL ENTREGA ÁGIL Y APRENDIZAJE LEAN Prácticas ágiles son la mejor manera de validar decisiones técnicas y construir la solución correcta © ThoughtWorks 2020
  • 10. SEPARACIÓN DE RESPONSABILIDADES 10 Los sistemas operacionales se comunican a través de servicios Los sistemas envían los datos usando sus propios esquemas Los científicos de datos exploran los datos para obtener información potencial “Lakeshore marts” limpian y organizan los datos para propósitos específicos © ThoughtWorks 2020
  • 11. PRINCIPIOS DE DISEÑO ADAPTATIVO 11 Presentación de datos con baja latencia Escalabilidad poco costosa Ingesta de datos simple Streaming sobre batch Fácil recreación de la información Lógica cerca del negocio Diseño emergente Soportar la persistencia políglota Exploración y análisis de datos en crudo © ThoughtWorks 2020
  • 12. AccessData Hub Canal de mensajes Sistemas de Origen Fit for purpose applications EDW or Marts Plataforma ML Metadata Catalog ML Engines ML Sandbox Deploy Capacidades de negocio Capacidades de negocio Deploy Publish Reportes Publicar Descubrir Archivador de eventos Data cruda Representación canónica Armonizar Catálogo de Datos Capacidades de negocio Data Locality Sistemas Legados / Aplicaciones ARQUITECTURA REFERENCIAL 12 Orquestación del Flujo de Datos Ingesta en Lotes Puede consumir eventos directamente si es necesario © ThoughtWorks 2020
  • 13. Fuente de Datos e ingesta © ThoughtWorks 2020 Fuente de Datos Capacidades de negocio Sistemas legados Canal de mensajes
  • 14. Fuente de Datos e ingesta © ThoughtWorks 2020 Consumer Domain Core Customer ML Hub Messaging Infrastructure Store Store Domain Recommendations Data Scientist ML model ML Model Online/Mobile Digital Domain Consumer Products Life Events Shopping Events Online Events Mobile App
  • 15. Almacenamiento y Gobernanza ● Archivador de eventos ● Data Hub ● Acceso Obtener datos de los streams, administrarlos en el Data Hub y proporcionar los mecanismos adecuados para acceder a ellos. Access Publish Discovery Event Archiver Data Hub Raw Data Canonical Representation Harmonize Data Catalog Compute needing Data locality © ThoughtWorks 2020
  • 16. ● Consumir mensajes ● Almacenamiento en buffer ● Tamaño o ventanas de tiempo Access Publish Discovery Event Archiver Data Hub Raw Data Canonical Representation Harmonize Data Catalog Compute needing Data locality © ThoughtWorks 2020 Archivador de Eventos
  • 17. Data Hub ● Raw Data ● Harmonize ● Canonical Representation ● Data Catalog © ThoughtWorks 2020 Access Publish Discovery Event Archiver Data Hub Raw Data Canonical Representation Harmonize Data Catalog Compute needing Data locality
  • 18. ● Publicar ● Descubrir ● Data locality Access Publish Discovery Event Archiver Data Hub Raw Data Canonical Representation Harmonize Data Catalog Compute needing Data locality © ThoughtWorks 2020 Acceso
  • 19. Información ● Procesamiento específico para aplicaciones que lo requieren ● Pueden acceder a los datos directamente de los streams de eventos ❏ Spark SQL Fit for purpose applications © ThoughtWorks 2020 Capacidades Capacidades de negocio Deploy Publish Reportes Deploy Capacidades de negocio Información Fit for purpose Applications Almacenes de datos Plataforma ML Metadata Catalog ML Engines ML Sandbox Fit for purpose Applications
  • 20. Información ● Herramientas que permiten a los científicos de datos crear, desplegar y monitorear ○ ML en el laboratorio ○ ML en producción ❏ cd4ml Plataforma ML © ThoughtWorks 2020 Capacidades Capacidades de negocio Deploy Publish Reportes Deploy Capacidades de negocio Información Fit for purpose Applications Almacenes de datos Plataforma ML Metadata Catalog ML Engines ML Sandbox Fit for purpose Applications
  • 21. Información ● El almacén de datos los consume desde el hub, lo que convierte al hub en el origen. ● Es el cambio de ETL a ELT (extract-load-transform). Almacenes de datos © ThoughtWorks 2020 Capacidades Capacidades de negocio Deploy Publish Reportes Deploy Capacidades de negocio Información Fit for purpose Applications Almacenes de datos Plataforma ML Metadata Catalog ML Engines ML Sandbox Fit for purpose Applications
  • 22. Capacidades ● Propuesta de valor ● Diseño de API ● Implementación del servicio De negocio © ThoughtWorks 2020 Capacidades Capacidades de negocio Deploy Publish Reportes Deploy Capacidades de negocio Información Fit for purpose Applications Data Warehouses Plataforma ML Metadata Catalog ML Engines ML Sandbox Fit for purpose Applications
  • 23. Data Hub Durable Message Pipeline Source Systems Fit for purpose applications EDW or Marts ML Platform Metadata Catalog ML Engines ML Sandbox Deploy Business Capabilities Business Capabilities Deploy Publish Reports Publish Discovery Event Archive Raw Data Canonical Representation Harmonize Data Catalog Business capabilities Compute needing data locality Legacy / COTS ARQUITECTURA REFERENCIAL w/ Candidate Technologies 23 Workflow Orchestration HDFS + IGNITE SPARK + YARN AVRO/ PARQUET HIVE/HBASE IMPALA/ PRESTO ZEPPELIN/ MICHELANGELO SPARK SQL KAFKA SQOOP AIRFLOW/OOZIE TABLEAU SCIKIT-LEARN/ H20.ai GEODE ELASTICSEARCH ATLAS + RANGER NEO4J/TITAN AMBARI + ANSIBLE Batch Ingestion Access May consume events directly if required © ThoughtWorks 2020
  • 24. Otras preocupaciones en Big Data Pipelines Se debe también tomar en cuenta... 24 CALIDAD DE DATOS SEGURIDAD DE DATOS LINAJE DE DATOS © ThoughtWorks 2020 INTEGRIDAD DE DATOS
  • 25. Casos de Éxito 25© ThoughtWorks 2020
  • 26. CALIDAD DE SERVICIO AL CLIENTE 26 Este cliente experimentó un rápido aumento de usuarios, lo que trajo retos en sus técnicas tradicionales de análisis de datos, almacenamiento y minería de datos. Construimos una plataforma de marketing de Big Data que tome decisiones semi-automatizadas y mejore la eficiencia de marketing y la calidad del servicio al cliente. Más adelante, construimos construimos un producto llamado "CEO Fortune Teller" con una interfaz fácil para que los ejecutivos saquen ideas y hagan predicciones para servir mejor a sus clientes. 8% A 46% Aumento de conversaciones en televentas 5 TERABYTES Datos en sus registros 2 HORAS Tiempo en procesar el set entero de datos 1 SEGUNDO Tiempo para retornar las consultas 2 BILLION Registros procesados Uno de los bancos más grandes de China © ThoughtWorks 2020
  • 27. 27 Desde una perspectiva técnica, la solución contó con un clúster de Hadoop. Los algoritmos de pronóstico se realizaron en R y Hive. Las operaciones de MapReduce desencadenaron el entrenamiento y las predicciones del modelo desde R. Outcome: Utilizamos datos sobre inventario, desviaciones, rendimientos, ventas perdidas, estacionalidad y efectos promocionales para generar previsiones de pretemporada (9 meses de antelación) y en temporada (ciclo de 6 semanas) para optimizar la producción y el stock. Creamos una canalización que genera previsiones de demanda que fue utilizada por los equipos de planificación para el reabastecimiento de artículos en la tienda. © ThoughtWorks 2020
  • 28. Jennifer Carrillo jcarrill@thoughtworks.com | 28© ThoughtWorks 2020 GRACIAS Carlos Fuentes cfuentes@thoughtworks.com | @educharlief