2. Agenda
• Introducion a Big Data + Casos de Uso
• Arquitetura Moderna de Data Lake
• Coffee Break
• Creando Metadata y Análisis de información
• Almuerzo
• Transformación de Datos y Creación de procesos
• Análisis y Consumo de información
4. Las organizaciones que lograron
generar valor de negocio a partir de sus
datos hoy superan a la competencia.
Una encuesta de Aberdeem indica que
las organizaciones que implementaron
un data lake crecieron un 9% más que
sus pares en sus ingresos .
24%
15%
Líderes Seguidores
Crecimiento orgánico de
los ingresos
*Aberdeen: Angling for Insight in Today’s Data Lake, Michael Lock, SVP Analytics and Business Intelligence
Cuál es el valor del dato?
5. ¿Cómo almaceno y analizo los datos?
Arquitectura de Big Data
Arquitetura para almacenar y
analizar volúmenes masivos de
datos de diversos tipos
Separando el Almacenamiento
del Procesamiento. Esclando
cada componente de manera
necesaria en forma
independiente.
"¿Cómo puedo escalar
cuandos los volúmenes de
datos aumentan
exponencialmente?"
6. Beneficios de separar el Procesamiento
del Almacenamiento
• Almacenamiento de todos los datos sin pagar por "CPUs" no
utilizados
• Costo independiente por "Dataset"
• Posibilidad de elegir la herramienta más apropiada para cada
análisis, y utilizarla en el momento adecuado
• Aumento de la resistencia sin operaciones excesivas
• Modelo de datos compartidos, sin especificar un método de acceso
7. “Schema on Read” – Esquema
definido en la lectura
Múltiples herramientas
analíticas y frameworks de
procesamiento para el mismo
dato
El Data Lake permite
realizar consultas ad-hoc
aplicando “schemas” en la
lectura, no en la escritura
8. Beneficios del Data Lake
Almacenamiento y análisis de
datos de clientes en forma
centralizada
Una única fuente de Verdad
Mayor velocidad durante la
ingesta de datos de clientes sin
necesidad de forzar un esquema
predefinido
Recolección y
almacenamiento de datos de
múltiples fuentes de manera
ágil
9. Construcción del Data Lake en AWS
Kinesis Firehose
Catálogo y
búsqueda Control de Acceso
Procesamiento y
Análisis
Ingestión de datos
Almacenamiento
Centralizado
Athena
Query Service
Seguridad
11. “For our market
surveillance systems,
we are looking at about
40% [savings with
AWS], but the real
benefits are the
business benefits: We
can do things that we
physically weren’t able
to do before, and that
is priceless.”
- Steve Randich, CIO
Lo que FINRA necesitaba
Infraestructura para su plataforma de supervisión del mercado
Soporte para análisis y almacenamiento de aproximadamente 75
mil millones de eventos diarios del mercado
Por qué eligieron AWS
Cumplimiento de los requisitos de seguridad de FINRA
Posibilidad de crear una plataforma flexible utilizando clústeres
dinámicos (Hadoop, Hive y HBase), Amazon EMR y Amazon S3
Beneficios
Mayor agilidad, velocidad y ahorro de costos
Ahorros estimados en $ 10-20 millones anuales
12. FINRA utiliza Amazon EMR y Amazon S3 para procesar hasta 75 mil
millones de eventos comerciales por día y almacenar de forma segura
más de 5 petabytes de datos, con un ahorro annual de $ 10-20 M.
Detección de Fraude
14. NASDAQ LISTS
3 , 6 0 0 G L O B A L C O M P A N I E S
IN MARKET CAP REPRESENTING
WORTH $9.6TRILLION
DIVERSE INDUSTRIES AND
MANY OF THE WORLD’S
MOST WELL-KNOWN AND
INNOVATIVE BRANDSMORE THAN U.S.
1 TRILLIONNATIONAL VALUE IS TIED
TO OUR LIBRARY OF MORE THAN
41,000 GLOBAL INDEXES
N A S D A Q T E C H N O L O G Y
IS USED TO POWER MORE THAN
IN 50 COUNTRIES
100 MARKETPLACES
OUR GLOBAL PLATFORM
CAN HANDLE MORE THAN
1 MILLION
MESSAGES/SECOND
AT SUB-40 MICROSECONDS
AV E R A G E S P E E D S
1 C L E A R I N G H O U S E
WE OWN AND OPERATE
26 MARKETS
5 CENTRAL SECURITIES
DEPOSITORIES
INCLUDING
AC RO S S A S S E T C L A S S ES
& GEOGRAPHIES
15. • Su datalake está compuesto principalmente por Redshift y S3.
• Los datos más recientes, menores a dos años, se almacenan tanto en Redshift
como en S3 para contingencia.
• Los datos mayores a dos años y menores a cinco años se resguardan en S3.
• Utilizan Presto (en EMR) para realizar consultas ad-hoc de sus datos en S3.
• Una migración que implicó:
• Más de 1,000 tablas
• Más de 7B de filas
• Siete meses de tiempo hombre de principio a fin
• Una reducción del 43% de los costos para el mismo conjunto de datos
16. Yelp utiliza Amazon S3 para almacenar registros diarios y fotos, que generan
aproximadamente 1.2TB de información diaria. La compañía emplea Amazon EMR
para ejecutar aproximadamente 20 scripts que procesan recurrentemente los
registros. Algunos de los casos de uso que han implementado con Amazon EMR
son:
• Las personas que vieron esto también vieron
• Reseña destacados
• Autocompletar en la búsqueda
• Sugerencias de ortografía
• Top búsquedas
• Anuncios
19. Los datos y la capacidad análitica
están cambiando
Captura y almacenamiento de
datos a gran escala, PBs-EBs.
Nuevos tipos de análisis, de forma
rentable:
• Machine learning
• Big data
• Análisis Real-time
• Búsqueda Full-text
Nuevos tipos de
capacidad analítica
20. Visión tradicional de la
arquitectura de datos
OLTP ERP CRM LOB
Data warehouse
Business
intelligence
• Dato relacional
• Escala de TBs–PBs
• Esquema definido antes de la
ingesta de datos
• Informes operativos y ad-hoc
• CAPEX inicial
21. Data Lakes, una extension del
enfoque tradicional
Data warehouse
Business intelligence
OLTPERP CRM LOB
• Dato relacional y no relacional
• Escala de TBs–EBs
• Variedad de motores analíticos
• Almacenamiento y analítica a bajo
costo
Dispositivos Web Sensores Social
Data lake
Procesamiento big data,
real-time, machine learning
22. Data Lakes en AWS
Analytics
• Durabilidad y disponibilidad a escala de EBs
• Capacidades de seguridad, cumplimiento normativo, y
auditoria
• Control granular de accesos a nivel de objeto
• Máximo desempeño al recuperar subconjuntos de datos
• Múltiples maneras de recuperar los datos
• Integraciones con software de terceros
• Análisis con un amplio conjunto de servicios
Machine
learning
Datos
Real-time
Datos
On-premises
Data Lake
en AWS
23. Servicios manejados de ML
Deep Learning AMIs
Reconocimiento de video e imágen
Interfaces conversacionales
Cámara Deep-Learning
Procesamiento de lenguaje natural
Traducción
Reconocimiento de voz
Text-to-Speech
Análisis interactivo
Hadoop & Spark
Data Warehousing
Búsqueda Full-text
Análisis Real-time
Dashboards & Visualizaciones
Conexión de red dedicada
Herramientas de seguridad
Migración de base de datos
Dispositivos conectados a
AWS
Stream de datos Real-time
Stream de video Real-time
Data Lake
en AWS
Almacenamiento | Catálogo de dados
AnalyticsMachine learning
Datos Real-timeDatos On-premises
Portfolio de Data Lakes
integrado
25. Data Lake en Amazon S3 con
AWS Glue
Datos on-
premise
Web app data
Amazon RDS
Otras Bases de
Datos
Streaming data
Sus Datos
AMAZON
QUICKSIGHT
26. Creación de JobsCatálogo de Datos Ejecución de Jobs
Compatible Apache Hive
Metastore
Integrado con servicios AWS
Crawling automático
Descubrir
Generar ETL
automáticamente
Python y Apache Spark
Edición, debug, e
intercambio
Desarrollar
Ejecución Serverless
Programación flexible
Monitoreo y alarmado
Implementar
AWS Glue
27. Catálogo de datos - Metadata Index
• Almacena los datos de los datos en Amazon S3
• Tamaño y recuento de objetos por prefijo,
clasificación, periodicidad de refresco, versión
• Los eventos en Amazon S3 se procesan con
funciones Lambda
• Tablas de metadatos en DynamoDB para
almacenar los atributos requeridos
29. Amazon Athena
Servicio de consulta interactiva que facilita
el análisis de datos directamente de Amazon
S3 utilizando una interfaz ANSI-SQL
30. Hadoop/Spark Analytics en
AWS
YARN (Hadoop Resource Manager)
NoSQLMachine
learning
Real-timeInteractiveScriptBatch
Data Lake
na AWS
Amazon S3
Amazon
EMR
Hadoop/Spark
Manejado
Almacenamiento de
Objetos
32. Amazon S3 – Fuente de verdad
Amazon S3
Interactive Spark Cluster
Amazon EMR
Amazon EMR
HDFS
EC2 Instance Memory
Intermediates
stored on local
disk or HDFS
Local
HDFS
EC2 Instance Memory
Intermediates
stored on local
disk or HDFS
Local
Transient ETL Job
Fuente de verdad
HDFS
HDFS
Datos Intermedios Locales
HDFS/Storage
Datos Intermedios Locales
HDFS/Storage
HDFS
HDFS
33. Gestión de metadatos externos
Amazon S3
Interactive Spark Cluster
Amazon EMR
Amazon EMR
HDFS
Transient ETL Job
Fuente de verdad
HDFS
Descripción de los datos
de S3
MySQL DB
instance
Glue Data
Catalog
40. Amazon Kinesis
Firehose
Amazon Kinesis
Streams
Apache Kafka
Amazon DynamoDB
Streams
Amazon SQS
Amazon SQS
• Servicio gestionado de mensajería
Apache Kafka
• Mensajería de alto rendimiento
Amazon Kinesis Streams
• Servicio getionado stream + processing
Amazon Kinesis Firehose
• Servicio gestionado de entrega de datos
Amazon DynamoDB
• NoSQL administrado
• Capacidad para realizar streaming de
las tablas
Mensajes & Streaming
Devices
Sensors &
IoT platforms
AWS IoT STREAMS
IoT
ingesta almacenamiento
Mobile apps
Web apps
Data centers
AWS Direct
Connect
RECORDS
DatabaseApplications
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
DOCUMENT
S
FILES
Search
File store
LoggingTransport
Messaging
Message MESSAGES
Messaging
Queue
Stream
41. ingesta almacenamiento
Mobile apps
Web apps
Data centers AWS Direct
Connect
RECORD
S
Database
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
DOCUMENT
S
FILES
Search
Messaging
Message MESSAGES
Devices
Sensors &
IoT platforms
AWS IoT STREAMS
Apache Kafka
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Amazon DynamoDB
Streams
Hot
Stream
Amazon S3
Amazon SQS
Message
Amazon S3
File
LoggingIoTApplicationsTransportMessaging
42. almacenamiento de objetos escalable
1 byte a 5 TB de tamaño por objeto + número
ilimitado de objetos
99.999999999% de durabilidad
99,99% de disponibilidad
Servicio regional, sin punto único de falla
Cifrado del lado del servidor / cliente
Storage
AWS Global Infrastructure
App Services
Deployment & Administration
Networking
Compute Database
Analytics
43. NoSQL, Cache y
Búsqueda
ingesta almacenamiento
Mobile apps
Web apps
Data centers
AWS Direct
Connect
RECORDS
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
DOCUMENT
S
FILES
Messaging
Message MESSAGES
Devices
Sensors &
IoT platforms
AWS IoT STREAMS
Apache Kafka
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Amazon DynamoDB
Streams Hot
Stream
Amazon SQS
Message
Amazon Elasticsearch
Service
Amazon DynamoDB
Amazon S3
Amazon ElastiCache
Amazon RDS
SearchSQLNoSQLCacheFile
LoggingIoTApplicationsTransportMessaging
datos disponibles
Baijísima Latencia
44. Amazon ElastiCache
Amazon
DynamoDB
Amazon
RDS/Aurora
Amazon
Elasticsearch Amazon S3 Amazon Glacier
Average
latency
ms ms ms, sec ms,sec ms,sec,min
(~ size)
hrs
Typical
data stored
GB GB–TBs
(no limit)
GB–TB
(64 TB max)
GB–TB MB–PB
(no limit)
GB–PB
(no limit)
Typical
item size
B-KB KB
(400 KB max)
KB
(64 KB max)
KB
(2 GB max)
KB-TB
(5 TB max)
GB
(40 TB max)
Request
Rate
High – very high Very high
(no limit)
High High Low – high
(no limit)
Very low
Storage cost
GB/month
$$ ¢¢ ¢¢ ¢¢ ¢ ¢/10
Durability Low - moderate Very high Very high High Very high Very high
Availability High
2 AZ
Very high
3 AZ
Very high
3 AZ
High
2 AZ
Very high
3 AZ
Very high
3 AZ
Hot data Warm data Cold data
Carácterísticas de las diferentes tecnologías de
almacenamiento
46. Amazon S3
Data Lake
Batch Analytics
Streaming/Real-time Analytics
Amazon Kinesis
Streams & Firehose
AWS Lambda
Apache Storm on
EMR
Apache Flink
on EMR
Spark Streaming
on EMR
Hadoop / Spark
Streaming Analytics Tools
Amazon Redshift
Data Warehouse
Amazon DynamoDB
NoSQL DB & Graph DB
Amazon
Elasticsearch Service
Relational Database
Amazon EMR
Amazon Aurora
Amazon Machine Learning
Machine Learning
Open Source
Tool of Choice
on EC2
DataSources
Arquitetura de
Data Lake AWS
Data Science Sandbox
Visualization /
Reporting
Amazon Kinesis
Analytics
47. procesamiento / análisis
• Batch - Minutos u horas de datos fríos
• Informes diarios / semanales / mensuales
• Interactivo - Segundos de datos tibios / fríos
• Self-service dashboards
• Mensajería - Milisegundos o segundos de datos calientes
• Message / event buffering
• Streaming - Milisegundos o segundos datos calientes
• Facturación / fraude, métricas por minuto
48. Predicciones como Aprendizaje
de Máquina
• Capacidad de aprender cómo ejecutar un programa que no está
explícitamente programado, basado en datos históricos.
• Interpretar el comportamiento y anticipar un comportamiento
futuro, o algo posible y útil en relación a los clientes.
• Ejemplos de algoritmos de máquina de aprendizaje:
• Aprendizaje supervisado ← "teach" program
• ¿Esta transacción es un fraude? (Sí No)
• Regresion ← Valor del ciclo de vida de un cliente?
• Aprendizaje no supervisado ← Let it learn by being
• Clustering ← Segmentación de mercado
50. Procesamiento y Análisis
Real-time Batch
AI & Predictive
BI & Data Visualization
Transactional &
RDBMS
AWS Lambda
Apache Storm
on EMR
Apache Flink
on EMR
Spark Streaming
on EMR
Elasticsearch
Service
Kinesis Analytics,
Kinesis Streams
DynamoDB
NoSQL DB Relational Database
Aurora
EMR
Hadoop, Spark,
Presto
Redshift
Data Warehouse
Athena
Query Service
Amazon Lex
Speech
recognition
Amazon
Rekognition
Amazon Polly
Text to speech
Machine Learning
Predictive analytics
Kinesis Streams
& Firehose
51. Amazon
Kinesis
Streams
Crie seus próprios
aplicativos
personalizados que
processam ou analisem
dados de transmissão
Amazon Kinesis
Firehose
Carregue facilmente
volumes maciços de
dados de transmissão
em Amazon S3,
Elasticsearch e Redshift
Amazon
Kinesis
Analytics
Analise facilmente
fluxos de dados
usando consultas SQL
padrão
Amazon Kinesis: Streaming de dados AWS
Tiempo real na AWS
52. Características de las tecnologías de streaming / procesamiento
Spark
Streaming
Apache
Storm
Kinesis KCL
Application AWS Lambda
Amazon SQS
Apps
Scale ~ Nodes ~ Nodes ~ Nodes Automatic ~ Nodes
Micro-batch or
Real-time
Micro-batch Real-time Near-real-time Near-real-time Near-real-time
AWS managed
service
Yes (EMR) No (EC2) No (KCL + EC2
+ Auto Scaling)
Yes No (EC2 + Auto
Scaling)
Scalability No limits
~ nodes
No limits
~ nodes
No limits
~ nodes
No limits No limits
Availability Single AZ Configurable Multi-AZ Multi-AZ Multi-AZ
Programming
languages
Java, Python,
Scala
Any language
via Thrift
Java, via
MultiLang
Daemon (.NET,
Python, Ruby,
Node.js)
Node.js, Java,
Python
AWS SDK
languages
(Java, .NET,
Python, …)
53. Características de las tecnologías de consulta / análisis
Amazon
Redshift
Amazon EMR
Presto Spark Hive
Query
latency
Low Low Low High
Durability High High High High
Data volume 1.6 PB max ~Nodes ~Nodes ~Nodes
AWS
managed
Yes Yes Yes Yes
Storage Native HDFS / S3 HDFS / S3 HDFS / S3
SQL
compatibility
High High Low (SparkSQL) Medium (HQL)
Slow
58. Encriptación ComplianceSeguridad
§ Identity and Access
Management (IAM) policies
§ Bucket policies
§ Access Control Lists (ACLs)
§ Private VPC endpoints to
Amazon S3
§ SSL endpoints
§ Server Side Encryption
(SSE-S3)
§ S3 Server Side
Encryption with
provided keys (SSE-C,
SSE-KMS)
§ Client-side Encryption
§ Buckets access logs
§ Lifecycle Management
Policies
§ Access Control Lists
(ACLs)
§ Versioning & MFA
deletes
§ Certifications – HIPAA,
PCI, SOC 1/2/3 etc.
Seguridad
59. Federación IAM
• IAM permite la federación
con Active Directory y otros
proveedores de OpenID
(Amazon, Facebook,
Google)
• AWS Directory Service
provee un conector de AD
que automatiza la conexión
con AD
IAM
Users
AWS
Directory
Service
AD Connector
Direct
Connect
Hardware
VPN
60. Resumen de los Servicios Gestionados
Amazon Redshift
Enterprise Data Warehouse
Amazon EMR
Hadoop/Spark
Amazon Athena
Clusterless SQL
Amazon Glue
Clusterless ETL
Amazon Aurora
Managed Relational Database
Amazon Machine Learning
Predictive Analytics
Amazon Quicksight
Business Intelligence/Visualization
Amazon ElasticSearch Service
ElasticSearch
Amazon ElastiCache
Redis In-memory Datastore
Amazon DynamoDB
Managed NoSQL Database
Amazon Rekognition
Deep Learning-based Image Recognition
Amazon Lex
Voice or Text Chatbots
61. Laboratorio!
Explotación de nuestro caso
eCommerce: iBeer
Preguntas de negocio:
¿Cuál es mi canal de marketing más efectivo?
¿Cuál es el producto más buscado?
¿Cuál es el producto más vendido?
¿Cuál es el canal más efectivo para el producto más
buscado?
Desafío: ¿qué otras preguntas podemos responder?