SlideShare a Scribd company logo
1 of 63
Download to read offline
Agenda
• Introducion a Big Data + Casos de Uso
• Arquitetura Moderna de Data Lake
• Coffee Break
• Creando Metadata y Análisis de información
• Almuerzo
• Transformación de Datos y Creación de procesos
• Análisis y Consumo de información
Introducion a Big Data + Casos de Uso
Las organizaciones que lograron
generar valor de negocio a partir de sus
datos hoy superan a la competencia.
Una encuesta de Aberdeem indica que
las organizaciones que implementaron
un data lake crecieron un 9% más que
sus pares en sus ingresos .
24%
15%
Líderes Seguidores
Crecimiento orgánico de
los ingresos
*Aberdeen: Angling for Insight in Today’s Data Lake, Michael Lock, SVP Analytics and Business Intelligence
Cuál es el valor del dato?
¿Cómo almaceno y analizo los datos?
Arquitectura de Big Data
Arquitetura para almacenar y
analizar volúmenes masivos de
datos de diversos tipos
Separando el Almacenamiento
del Procesamiento. Esclando
cada componente de manera
necesaria en forma
independiente.
"¿Cómo puedo escalar
cuandos los volúmenes de
datos aumentan
exponencialmente?"
Beneficios de separar el Procesamiento
del Almacenamiento
• Almacenamiento de todos los datos sin pagar por "CPUs" no
utilizados
• Costo independiente por "Dataset"
• Posibilidad de elegir la herramienta más apropiada para cada
análisis, y utilizarla en el momento adecuado
• Aumento de la resistencia sin operaciones excesivas
• Modelo de datos compartidos, sin especificar un método de acceso
“Schema on Read” – Esquema
definido en la lectura
Múltiples herramientas
analíticas y frameworks de
procesamiento para el mismo
dato
El Data Lake permite
realizar consultas ad-hoc
aplicando “schemas” en la
lectura, no en la escritura
Beneficios del Data Lake
Almacenamiento y análisis de
datos de clientes en forma
centralizada
Una única fuente de Verdad
Mayor velocidad durante la
ingesta de datos de clientes sin
necesidad de forzar un esquema
predefinido
Recolección y
almacenamiento de datos de
múltiples fuentes de manera
ágil
Construcción del Data Lake en AWS
Kinesis Firehose
Catálogo y
búsqueda Control de Acceso
Procesamiento y
Análisis
Ingestión de datos
Almacenamiento
Centralizado
Athena
Query Service
Seguridad
Casos de estudio
Naranja
invitado especial
“For our market
surveillance systems,
we are looking at about
40% [savings with
AWS], but the real
benefits are the
business benefits: We
can do things that we
physically weren’t able
to do before, and that
is priceless.”
- Steve Randich, CIO
Lo que FINRA necesitaba
Infraestructura para su plataforma de supervisión del mercado
Soporte para análisis y almacenamiento de aproximadamente 75
mil millones de eventos diarios del mercado
Por qué eligieron AWS
Cumplimiento de los requisitos de seguridad de FINRA
Posibilidad de crear una plataforma flexible utilizando clústeres
dinámicos (Hadoop, Hive y HBase), Amazon EMR y Amazon S3
Beneficios
Mayor agilidad, velocidad y ahorro de costos
Ahorros estimados en $ 10-20 millones anuales
FINRA utiliza Amazon EMR y Amazon S3 para procesar hasta 75 mil
millones de eventos comerciales por día y almacenar de forma segura
más de 5 petabytes de datos, con un ahorro annual de $ 10-20 M.
Detección de Fraude
S3
Netflix usa S3 para respaldar sus clusters
NASDAQ LISTS
3 , 6 0 0 G L O B A L C O M P A N I E S
IN MARKET CAP REPRESENTING
WORTH $9.6TRILLION
DIVERSE INDUSTRIES AND
MANY OF THE WORLD’S
MOST WELL-KNOWN AND
INNOVATIVE BRANDSMORE THAN U.S.
1 TRILLIONNATIONAL VALUE IS TIED
TO OUR LIBRARY OF MORE THAN
41,000 GLOBAL INDEXES
N A S D A Q T E C H N O L O G Y
IS USED TO POWER MORE THAN
IN 50 COUNTRIES
100 MARKETPLACES
OUR GLOBAL PLATFORM
CAN HANDLE MORE THAN
1 MILLION
MESSAGES/SECOND
AT SUB-40 MICROSECONDS
AV E R A G E S P E E D S
1 C L E A R I N G H O U S E
WE OWN AND OPERATE
26 MARKETS
5 CENTRAL SECURITIES
DEPOSITORIES
INCLUDING
AC RO S S A S S E T C L A S S ES
& GEOGRAPHIES
• Su datalake está compuesto principalmente por Redshift y S3.
• Los datos más recientes, menores a dos años, se almacenan tanto en Redshift
como en S3 para contingencia.
• Los datos mayores a dos años y menores a cinco años se resguardan en S3.
• Utilizan Presto (en EMR) para realizar consultas ad-hoc de sus datos en S3.
• Una migración que implicó:
• Más de 1,000 tablas
• Más de 7B de filas
• Siete meses de tiempo hombre de principio a fin
• Una reducción del 43% de los costos para el mismo conjunto de datos
Yelp utiliza Amazon S3 para almacenar registros diarios y fotos, que generan
aproximadamente 1.2TB de información diaria. La compañía emplea Amazon EMR
para ejecutar aproximadamente 20 scripts que procesan recurrentemente los
registros. Algunos de los casos de uso que han implementado con Amazon EMR
son:
• Las personas que vieron esto también vieron
• Reseña destacados
• Autocompletar en la búsqueda
• Sugerencias de ortografía
• Top búsquedas
• Anuncios
Arquitetura Moderna de Data Lake
Workshop Setup
Los datos y la capacidad análitica
están cambiando
Captura y almacenamiento de
datos a gran escala, PBs-EBs.
Nuevos tipos de análisis, de forma
rentable:
• Machine learning
• Big data
• Análisis Real-time
• Búsqueda Full-text
Nuevos tipos de
capacidad analítica
Visión tradicional de la
arquitectura de datos
OLTP ERP CRM LOB
Data warehouse
Business
intelligence
• Dato relacional
• Escala de TBs–PBs
• Esquema definido antes de la
ingesta de datos
• Informes operativos y ad-hoc
• CAPEX inicial
Data Lakes, una extension del
enfoque tradicional
Data warehouse
Business intelligence
OLTPERP CRM LOB
• Dato relacional y no relacional
• Escala de TBs–EBs
• Variedad de motores analíticos
• Almacenamiento y analítica a bajo
costo
Dispositivos Web Sensores Social
Data lake
Procesamiento big data,
real-time, machine learning
Data Lakes en AWS
Analytics
• Durabilidad y disponibilidad a escala de EBs
• Capacidades de seguridad, cumplimiento normativo, y
auditoria
• Control granular de accesos a nivel de objeto
• Máximo desempeño al recuperar subconjuntos de datos
• Múltiples maneras de recuperar los datos
• Integraciones con software de terceros
• Análisis con un amplio conjunto de servicios
Machine
learning
Datos
Real-time
Datos
On-premises
Data Lake
en AWS
Servicios manejados de ML
Deep Learning AMIs
Reconocimiento de video e imágen
Interfaces conversacionales
Cámara Deep-Learning
Procesamiento de lenguaje natural
Traducción
Reconocimiento de voz
Text-to-Speech
Análisis interactivo
Hadoop & Spark
Data Warehousing
Búsqueda Full-text
Análisis Real-time
Dashboards & Visualizaciones
Conexión de red dedicada
Herramientas de seguridad
Migración de base de datos
Dispositivos conectados a
AWS
Stream de datos Real-time
Stream de video Real-time
Data Lake
en AWS
Almacenamiento | Catálogo de dados
AnalyticsMachine learning
Datos Real-timeDatos On-premises
Portfolio de Data Lakes
integrado
Creando Metadata y Análisis de
información
Data Lake en Amazon S3 con
AWS Glue
Datos on-
premise
Web app data
Amazon RDS
Otras Bases de
Datos
Streaming data
Sus Datos
AMAZON
QUICKSIGHT
Creación de JobsCatálogo de Datos Ejecución de Jobs
Compatible Apache Hive
Metastore
Integrado con servicios AWS
Crawling automático
Descubrir
Generar ETL
automáticamente
Python y Apache Spark
Edición, debug, e
intercambio
Desarrollar
Ejecución Serverless
Programación flexible
Monitoreo y alarmado
Implementar
AWS Glue
Catálogo de datos - Metadata Index
• Almacena los datos de los datos en Amazon S3
• Tamaño y recuento de objetos por prefijo,
clasificación, periodicidad de refresco, versión
• Los eventos en Amazon S3 se procesan con
funciones Lambda
• Tablas de metadatos en DynamoDB para
almacenar los atributos requeridos
Catálogo y estructura de búsqueda
Amazon Athena
Servicio de consulta interactiva que facilita
el análisis de datos directamente de Amazon
S3 utilizando una interfaz ANSI-SQL
Hadoop/Spark Analytics en
AWS
YARN (Hadoop Resource Manager)
NoSQLMachine
learning
Real-timeInteractiveScriptBatch
Data Lake
na AWS
Amazon S3
Amazon
EMR
Hadoop/Spark
Manejado
Almacenamiento de
Objetos
EMR – Enterprise - Hadoop &
Spark
Versiones recientes de ambientes Hadoop / Spark
• Diecinueve
proyectos open-
source: Apache
Hadoop, Spark,
HBase, Presto, y
muchos más
• Actualizado con los
últimos frameworks
open-source
Hadoop
Ganglia
HBase
Hive&
Catalog
Hue
Mahout
Oozie
Phoenix
Pig
Presto
Spark
Tez
Zeppelin
Zookeeper
Flink
Livy
MXNet
Sqoop
Emr-4.0.0
Julho2015
2.6.0 1.0.0 0.10.0 0.14.0 1.4.1
Emr-4.7.0
Junho2016
2.7.2 3.7.2 1.2.1 1.0.0 3.7.1 0.12.0 4.2.0 4.7.0 0.14.0 .147 1.6.1 1.4.6 0.8.3 0.5.6 3.4.8
Emr-5.3.0
Janeiro2017
2.7.3 3.7.2
1.2.3
+
S3
2.1.1 3.11.0 0.12.2 4.3.0 4.7.0 0.16.0
0.157.
1 2.1.0 1.4.6 0.8.4 0.6.2 3.4.9 1.1.4
Emr-5.14.0
Junho2018
2.8.3 3.7.2
1.4.2
+
S3
2.3.2 4.1.0 0.13.0 4.3.0 4.13.0 0.17.0 0.194 2.3.0 1.4.7 0.8.4 0.7.3 3.4.10 1.4.2 0.4.0 1.1.0
EMR lanzamientos
Amazon S3 – Fuente de verdad
Amazon S3
Interactive Spark Cluster
Amazon EMR
Amazon EMR
HDFS
EC2 Instance Memory
Intermediates
stored on local
disk or HDFS
Local
HDFS
EC2 Instance Memory
Intermediates
stored on local
disk or HDFS
Local
Transient ETL Job
Fuente de verdad
HDFS
HDFS
Datos Intermedios Locales
HDFS/Storage
Datos Intermedios Locales
HDFS/Storage
HDFS
HDFS
Gestión de metadatos externos
Amazon S3
Interactive Spark Cluster
Amazon EMR
Amazon EMR
HDFS
Transient ETL Job
Fuente de verdad
HDFS
Descripción de los datos
de S3
MySQL DB
instance
Glue Data
Catalog
Vision
AWS Machine Learning
Frameworks
& Infra-
estrutura GPU MobileCPU IoT (Greengrass)
Platform
Services
Application
Services
Amazon SageMaker
Rekognition
Image
Rekognition
Video
Speech
Polly Transcribe
Language
Translate ComprehendLex
TensorFlow GluonApache MXNet Cognitive
Toolkit
Caffe2 & Caffe PyTorch Keras
Transformación de Datos y Creación de
procesos
Simplificando el procesamiento
ingesta
almacenamie
nto
procesamient
o / análisis consumo
datos respuestas
Tempo de la respuesta (latencia)?
Throughput?
Costo?
ingesta
• Tipos de datos
• Registros de bases de datos
• Documentos (ej. logs)
• Archivos
• Mensajes (ej. eventos)
• Devices / sensores / IoT stream
Devices
Sensors &
IoT platforms
AWS IoT STREAMS
Stream
storage
IoT
ingesta almacenamiento
Mobile apps
Web apps
Data centers
AWS Direct
Connect
RECORDS
Database
Applications
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
DOCUMENT
S
FILES
Search
File store
LoggingTransport
Messaging
Message MESSAGES Queue
Messaging
almacenamiento
Amazon Kinesis
Firehose
Amazon Kinesis
Streams
Apache Kafka
Amazon DynamoDB
Streams
Amazon SQS
Amazon SQS
• Servicio gestionado de mensajería
Apache Kafka
• Mensajería de alto rendimiento
Amazon Kinesis Streams
• Servicio getionado stream + processing
Amazon Kinesis Firehose
• Servicio gestionado de entrega de datos
Amazon DynamoDB
• NoSQL administrado
• Capacidad para realizar streaming de
las tablas
Mensajes & Streaming
Devices
Sensors &
IoT platforms
AWS IoT STREAMS
IoT
ingesta almacenamiento
Mobile apps
Web apps
Data centers
AWS Direct
Connect
RECORDS
DatabaseApplications
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
DOCUMENT
S
FILES
Search
File store
LoggingTransport
Messaging
Message MESSAGES
Messaging
Queue
Stream
ingesta almacenamiento
Mobile apps
Web apps
Data centers AWS Direct
Connect
RECORD
S
Database
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
DOCUMENT
S
FILES
Search
Messaging
Message MESSAGES
Devices
Sensors &
IoT platforms
AWS IoT STREAMS
Apache Kafka
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Amazon DynamoDB
Streams
Hot
Stream
Amazon S3
Amazon SQS
Message
Amazon S3
File
LoggingIoTApplicationsTransportMessaging
almacenamiento de objetos escalable
1 byte a 5 TB de tamaño por objeto + número
ilimitado de objetos
99.999999999% de durabilidad
99,99% de disponibilidad
Servicio regional, sin punto único de falla
Cifrado del lado del servidor / cliente
Storage
AWS Global Infrastructure
App Services
Deployment & Administration
Networking
Compute Database
Analytics
NoSQL, Cache y
Búsqueda
ingesta almacenamiento
Mobile apps
Web apps
Data centers
AWS Direct
Connect
RECORDS
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
DOCUMENT
S
FILES
Messaging
Message MESSAGES
Devices
Sensors &
IoT platforms
AWS IoT STREAMS
Apache Kafka
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Amazon DynamoDB
Streams Hot
Stream
Amazon SQS
Message
Amazon Elasticsearch
Service
Amazon DynamoDB
Amazon S3
Amazon ElastiCache
Amazon RDS
SearchSQLNoSQLCacheFile
LoggingIoTApplicationsTransportMessaging
datos disponibles
Baijísima Latencia
Amazon ElastiCache
Amazon
DynamoDB
Amazon
RDS/Aurora
Amazon
Elasticsearch Amazon S3 Amazon Glacier
Average
latency
ms ms ms, sec ms,sec ms,sec,min
(~ size)
hrs
Typical
data stored
GB GB–TBs
(no limit)
GB–TB
(64 TB max)
GB–TB MB–PB
(no limit)
GB–PB
(no limit)
Typical
item size
B-KB KB
(400 KB max)
KB
(64 KB max)
KB
(2 GB max)
KB-TB
(5 TB max)
GB
(40 TB max)
Request
Rate
High – very high Very high
(no limit)
High High Low – high
(no limit)
Very low
Storage cost
GB/month
$$ ¢¢ ¢¢ ¢¢ ¢ ¢/10
Durability Low - moderate Very high Very high High Very high Very high
Availability High
2 AZ
Very high
3 AZ
Very high
3 AZ
High
2 AZ
Very high
3 AZ
Very high
3 AZ
Hot data Warm data Cold data
Carácterísticas de las diferentes tecnologías de
almacenamiento
procesamiento /
análisis
Amazon S3
Data Lake
Batch Analytics
Streaming/Real-time Analytics
Amazon Kinesis
Streams & Firehose
AWS Lambda
Apache Storm on
EMR
Apache Flink
on EMR
Spark Streaming
on EMR
Hadoop / Spark
Streaming Analytics Tools
Amazon Redshift
Data Warehouse
Amazon DynamoDB
NoSQL DB & Graph DB
Amazon
Elasticsearch Service
Relational Database
Amazon EMR
Amazon Aurora
Amazon Machine Learning
Machine Learning
Open Source
Tool of Choice
on EC2
DataSources
Arquitetura de
Data Lake AWS
Data Science Sandbox
Visualization /
Reporting
Amazon Kinesis
Analytics
procesamiento / análisis
• Batch - Minutos u horas de datos fríos
• Informes diarios / semanales / mensuales
• Interactivo - Segundos de datos tibios / fríos
• Self-service dashboards
• Mensajería - Milisegundos o segundos de datos calientes
• Message / event buffering
• Streaming - Milisegundos o segundos datos calientes
• Facturación / fraude, métricas por minuto
Predicciones como Aprendizaje
de Máquina
• Capacidad de aprender cómo ejecutar un programa que no está
explícitamente programado, basado en datos históricos.
• Interpretar el comportamiento y anticipar un comportamiento
futuro, o algo posible y útil en relación a los clientes.
• Ejemplos de algoritmos de máquina de aprendizaje:
• Aprendizaje supervisado ← "teach" program
• ¿Esta transacción es un fraude? (Sí No)
• Regresion ← Valor del ciclo de vida de un cliente?
• Aprendizaje no supervisado ← Let it learn by being
• Clustering ← Segmentación de mercado
Herramientas y Frameworks
• Machine Learning
• Amazon ML, Amazon EMR (Spark ML)
• Interactivo
• Amazon Redshift, Amazon EMR (Presto, Spark)
• Batch
• Amazon EMR (MapReduce, Hive, Pig, Spark)
• Mensajeria
• Aplicaciones con Amazon SQS en Amazon EC2
• Streaming
• Micro-batch: Spark Streaming, KCL
• Real-time: Amazon Kinesis Analytics, Storm,
AWS Lambda, KCL
Amazon SQS apps
Streaming
Amazon Kinesis
Analytics
Amazon KCL
apps
AWS Lambda
Amazon Redshift
procesamiento /
análisis
Amazon Machine
Learning
Presto
Amazon
EMR
FastSlowFast
BatchMessageInteractiveStreamML
Amazon EC2
Amazon EC2
Procesamiento y Análisis
Real-time Batch
AI & Predictive
BI & Data Visualization
Transactional &
RDBMS
AWS Lambda
Apache Storm
on EMR
Apache Flink
on EMR
Spark Streaming
on EMR
Elasticsearch
Service
Kinesis Analytics,
Kinesis Streams
DynamoDB
NoSQL DB Relational Database
Aurora
EMR
Hadoop, Spark,
Presto
Redshift
Data Warehouse
Athena
Query Service
Amazon Lex
Speech
recognition
Amazon
Rekognition
Amazon Polly
Text to speech
Machine Learning
Predictive analytics
Kinesis Streams
& Firehose
Amazon
Kinesis
Streams
Crie seus próprios
aplicativos
personalizados que
processam ou analisem
dados de transmissão
Amazon Kinesis
Firehose
Carregue facilmente
volumes maciços de
dados de transmissão
em Amazon S3,
Elasticsearch e Redshift
Amazon
Kinesis
Analytics
Analise facilmente
fluxos de dados
usando consultas SQL
padrão
Amazon Kinesis: Streaming de dados AWS
Tiempo real na AWS
Características de las tecnologías de streaming / procesamiento
Spark
Streaming
Apache
Storm
Kinesis KCL
Application AWS Lambda
Amazon SQS
Apps
Scale ~ Nodes ~ Nodes ~ Nodes Automatic ~ Nodes
Micro-batch or
Real-time
Micro-batch Real-time Near-real-time Near-real-time Near-real-time
AWS managed
service
Yes (EMR) No (EC2) No (KCL + EC2
+ Auto Scaling)
Yes No (EC2 + Auto
Scaling)
Scalability No limits
~ nodes
No limits
~ nodes
No limits
~ nodes
No limits No limits
Availability Single AZ Configurable Multi-AZ Multi-AZ Multi-AZ
Programming
languages
Java, Python,
Scala
Any language
via Thrift
Java, via
MultiLang
Daemon (.NET,
Python, Ruby,
Node.js)
Node.js, Java,
Python
AWS SDK
languages
(Java, .NET,
Python, …)
Características de las tecnologías de consulta / análisis
Amazon
Redshift
Amazon EMR
Presto Spark Hive
Query
latency
Low Low Low High
Durability High High High High
Data volume 1.6 PB max ~Nodes ~Nodes ~Nodes
AWS
managed
Yes Yes Yes Yes
Storage Native HDFS / S3 HDFS / S3 HDFS / S3
SQL
compatibility
High High Low (SparkSQL) Medium (HQL)
Slow
Amazon SQS apps
Streaming
Amazon Kinesis
Analytics
Amazon KCL
apps
AWS Lambda
Amazon Redshift
ingesta almacenamiento Consumo
procesamiento /
análisis
Amazon Machine
Learning
Presto
Amazon
EMR
Amazon Elasticsearch
Service
Apache Kafka
Amazon SQS
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Amazon DynamoDB
Amazon S3
Amazon ElastiCache
Amazon RDS
Amazon DynamoDB
Streams
HotHotWarm
FastSlowFast
BatchMessageInteractiveStreamML
SearchSQLNoSQLCacheFileMessage
Stream
Amazon EC2
Amazon EC2
Mobile apps
Web apps
Devices
Messaging
Message
Sensors &
IoT platforms
AWS IoT
Data centers
AWS Direct
Connect
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
RECORDS
DOCUMENT
S
FILES
MESSAGES
STREAMS
LoggingIoTApplicationsTransportMessaging
ETL
Consumo
almacenamiento Consumo
procesamiento /
análisis
Amazon QuickSight
Apps & Services
Analysis&visualizationNotebooksIDEAPI
Aplicaciones & API
Visualización y Análisis
Notebooks
IDE
Business
users
Data scientist,
developers
ingesta ETL
Amazon SQS apps
Streaming
Amazon Kinesis
Analytics
Amazon KCL
apps
AWS Lambda
Amazon Redshift
ingesta almacenamiento Consumo
procesamiento /
análisis
Amazon Machine
Learning
Presto
Amazon
EMR
Amazon Elasticsearch
Service
Apache Kafka
Amazon SQS
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Amazon DynamoDB
Amazon S3
Amazon ElastiCache
Amazon RDS
Amazon DynamoDB
Streams
HotHotWarm
FastSlowFast
BatchMessageInteractiveStreamML
SearchSQLNoSQLCacheFileQueueStream
Amazon EC2
Amazon EC2
Mobile apps
Web apps
Devices
Messaging
Message
Sensors &
IoT platforms
AWS IoT
Data centers AWS Direct
Connect
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
RECORDS
DOCUMENT
S
FILES
MESSAGES
STREAMS
Amazon QuickSight
Apps & Services
Analysis&visualizationNotebooksIDEAPI
Reference architecture
LoggingIoTApplicationsTransportMessaging
ETL
Encriptación ComplianceSeguridad
§ Identity and Access
Management (IAM) policies
§ Bucket policies
§ Access Control Lists (ACLs)
§ Private VPC endpoints to
Amazon S3
§ SSL endpoints
§ Server Side Encryption
(SSE-S3)
§ S3 Server Side
Encryption with
provided keys (SSE-C,
SSE-KMS)
§ Client-side Encryption
§ Buckets access logs
§ Lifecycle Management
Policies
§ Access Control Lists
(ACLs)
§ Versioning & MFA
deletes
§ Certifications – HIPAA,
PCI, SOC 1/2/3 etc.
Seguridad
Federación IAM
• IAM permite la federación
con Active Directory y otros
proveedores de OpenID
(Amazon, Facebook,
Google)
• AWS Directory Service
provee un conector de AD
que automatiza la conexión
con AD
IAM
Users
AWS
Directory
Service
AD Connector
Direct
Connect
Hardware
VPN
Resumen de los Servicios Gestionados
Amazon Redshift
Enterprise Data Warehouse
Amazon EMR
Hadoop/Spark
Amazon Athena
Clusterless SQL
Amazon Glue
Clusterless ETL
Amazon Aurora
Managed Relational Database
Amazon Machine Learning
Predictive Analytics
Amazon Quicksight
Business Intelligence/Visualization
Amazon ElasticSearch Service
ElasticSearch
Amazon ElastiCache
Redis In-memory Datastore
Amazon DynamoDB
Managed NoSQL Database
Amazon Rekognition
Deep Learning-based Image Recognition
Amazon Lex
Voice or Text Chatbots
Laboratorio!
Explotación de nuestro caso
eCommerce: iBeer
Preguntas de negocio:
¿Cuál es mi canal de marketing más efectivo?
¿Cuál es el producto más buscado?
¿Cuál es el producto más vendido?
¿Cuál es el canal más efectivo para el producto más
buscado?
Desafío: ¿qué otras preguntas podemos responder?
Laboratorio!
AWS Analytics Experience Argentina

More Related Content

What's hot

What's hot (20)

AWS Cloud Experience CA: Prepare su gente para la nube
AWS Cloud Experience CA: Prepare su gente para la nubeAWS Cloud Experience CA: Prepare su gente para la nube
AWS Cloud Experience CA: Prepare su gente para la nube
 
Acelere la velocidad de migración a la nube - MXO214 - Mexico City Summit
Acelere la velocidad de migración a la nube - MXO214 - Mexico City SummitAcelere la velocidad de migración a la nube - MXO214 - Mexico City Summit
Acelere la velocidad de migración a la nube - MXO214 - Mexico City Summit
 
Influencia del aprendizaje automático para mejorar el valor comercial - MXO20...
Influencia del aprendizaje automático para mejorar el valor comercial - MXO20...Influencia del aprendizaje automático para mejorar el valor comercial - MXO20...
Influencia del aprendizaje automático para mejorar el valor comercial - MXO20...
 
Session #1 - The New Normal
Session #1 - The New NormalSession #1 - The New Normal
Session #1 - The New Normal
 
Transformando la Industria de IT
Transformando la Industria de ITTransformando la Industria de IT
Transformando la Industria de IT
 
Evaluación y prácticas para migrar a la nube
Evaluación y prácticas para migrar a la nubeEvaluación y prácticas para migrar a la nube
Evaluación y prácticas para migrar a la nube
 
Reinvención de SAP en AWS: Mejorar y simplificar las operaciones SAP en AWS -...
Reinvención de SAP en AWS: Mejorar y simplificar las operaciones SAP en AWS -...Reinvención de SAP en AWS: Mejorar y simplificar las operaciones SAP en AWS -...
Reinvención de SAP en AWS: Mejorar y simplificar las operaciones SAP en AWS -...
 
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
 
Arquitecturas y estrategias para generar aplicaciones modernas en AWS - MXO20...
Arquitecturas y estrategias para generar aplicaciones modernas en AWS - MXO20...Arquitecturas y estrategias para generar aplicaciones modernas en AWS - MXO20...
Arquitecturas y estrategias para generar aplicaciones modernas en AWS - MXO20...
 
AWS Database Day - Español
AWS Database Day - EspañolAWS Database Day - Español
AWS Database Day - Español
 
Lleve la inteligencia al borde del IoT con AWS Greengrass - MXO205 - Mexico C...
Lleve la inteligencia al borde del IoT con AWS Greengrass - MXO205 - Mexico C...Lleve la inteligencia al borde del IoT con AWS Greengrass - MXO205 - Mexico C...
Lleve la inteligencia al borde del IoT con AWS Greengrass - MXO205 - Mexico C...
 
AWS Initiate Day Mexico City | Big Data y AI - Impulsando la información y ag...
AWS Initiate Day Mexico City | Big Data y AI - Impulsando la información y ag...AWS Initiate Day Mexico City | Big Data y AI - Impulsando la información y ag...
AWS Initiate Day Mexico City | Big Data y AI - Impulsando la información y ag...
 
AWS para organizaciones sin ánimo de lucro
AWS para organizaciones sin ánimo de lucroAWS para organizaciones sin ánimo de lucro
AWS para organizaciones sin ánimo de lucro
 
Transformando el Desarrollo de Producto
Transformando el Desarrollo de ProductoTransformando el Desarrollo de Producto
Transformando el Desarrollo de Producto
 
Innovation Track AWS Cloud Experience Argentina - Nuevos Paradigmas de Arquit...
Innovation Track AWS Cloud Experience Argentina - Nuevos Paradigmas de Arquit...Innovation Track AWS Cloud Experience Argentina - Nuevos Paradigmas de Arquit...
Innovation Track AWS Cloud Experience Argentina - Nuevos Paradigmas de Arquit...
 
AWS Cloud Experience CA: Mejores prácticas en ambientes hibridos onpremise/cloud
AWS Cloud Experience CA: Mejores prácticas en ambientes hibridos onpremise/cloudAWS Cloud Experience CA: Mejores prácticas en ambientes hibridos onpremise/cloud
AWS Cloud Experience CA: Mejores prácticas en ambientes hibridos onpremise/cloud
 
AWS purpose-built database strategy: The right tool for the right job - ADB30...
AWS purpose-built database strategy: The right tool for the right job - ADB30...AWS purpose-built database strategy: The right tool for the right job - ADB30...
AWS purpose-built database strategy: The right tool for the right job - ADB30...
 
AWS Cloud Experience CA: Nuevos Paradigmas de Arquitecturas en la Nube (Serve...
AWS Cloud Experience CA: Nuevos Paradigmas de Arquitecturas en la Nube (Serve...AWS Cloud Experience CA: Nuevos Paradigmas de Arquitecturas en la Nube (Serve...
AWS Cloud Experience CA: Nuevos Paradigmas de Arquitecturas en la Nube (Serve...
 
Treinta arquitecturas sin servidores en 30 minutos - MXO209 - Mexico City Summit
Treinta arquitecturas sin servidores en 30 minutos - MXO209 - Mexico City SummitTreinta arquitecturas sin servidores en 30 minutos - MXO209 - Mexico City Summit
Treinta arquitecturas sin servidores en 30 minutos - MXO209 - Mexico City Summit
 
Impulsando la innovación con arquitectura de contenedores - MXO202 - Mexico C...
Impulsando la innovación con arquitectura de contenedores - MXO202 - Mexico C...Impulsando la innovación con arquitectura de contenedores - MXO202 - Mexico C...
Impulsando la innovación con arquitectura de contenedores - MXO202 - Mexico C...
 

Similar to AWS Analytics Experience Argentina

Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Antoni Riveros
 

Similar to AWS Analytics Experience Argentina (20)

Servicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWSServicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWS
 
Sistema de Bases de Datos AWS
Sistema de Bases de Datos AWSSistema de Bases de Datos AWS
Sistema de Bases de Datos AWS
 
Servicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWSServicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWS
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
 
Big Data: Arquitecturas y mejores prácticas en AWS
Big Data: Arquitecturas y mejores prácticas en AWSBig Data: Arquitecturas y mejores prácticas en AWS
Big Data: Arquitecturas y mejores prácticas en AWS
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
Big Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSBig Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWS
 
[Webinar] AWS Storage Day - Español
[Webinar] AWS Storage Day - Español[Webinar] AWS Storage Day - Español
[Webinar] AWS Storage Day - Español
 
Flowics - Jornada en Big Data 2016 - ITBA
Flowics - Jornada en Big Data 2016 - ITBA Flowics - Jornada en Big Data 2016 - ITBA
Flowics - Jornada en Big Data 2016 - ITBA
 
AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Dat...
 AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Dat... AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Dat...
AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Dat...
 
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big da...
AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big da...AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big da...
AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big da...
 
Patrones de Arquitectura para Big Data en AWS
Patrones de Arquitectura para Big Data en AWSPatrones de Arquitectura para Big Data en AWS
Patrones de Arquitectura para Big Data en AWS
 
AnalyticZ - De la A a la Z con Amazon Web Services
AnalyticZ - De la A a la Z con Amazon Web ServicesAnalyticZ - De la A a la Z con Amazon Web Services
AnalyticZ - De la A a la Z con Amazon Web Services
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuarios
 
Big Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSBig Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWS
 
Data Platform de BEEVA
Data Platform de BEEVAData Platform de BEEVA
Data Platform de BEEVA
 

More from Amazon Web Services LATAM

More from Amazon Web Services LATAM (20)

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWS
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWS
 
Cómo empezar con Amazon EKS
Cómo empezar con Amazon EKSCómo empezar con Amazon EKS
Cómo empezar con Amazon EKS
 
Como começar com Amazon EKS
Como começar com Amazon EKSComo começar com Amazon EKS
Como começar com Amazon EKS
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWS
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWS
 
Ransomware: Estratégias de Mitigação
Ransomware: Estratégias de MitigaçãoRansomware: Estratégias de Mitigação
Ransomware: Estratégias de Mitigação
 
Ransomware: Estratégias de Mitigación
Ransomware: Estratégias de MitigaciónRansomware: Estratégias de Mitigación
Ransomware: Estratégias de Mitigación
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWS
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administrados
 
Simplifique su BI con AWS
Simplifique su BI con AWSSimplifique su BI con AWS
Simplifique su BI con AWS
 
Simplifique o seu BI com a AWS
Simplifique o seu BI com a AWSSimplifique o seu BI com a AWS
Simplifique o seu BI com a AWS
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWS
 

Recently uploaded

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
nicho110
 

Recently uploaded (10)

Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 

AWS Analytics Experience Argentina

  • 1.
  • 2. Agenda • Introducion a Big Data + Casos de Uso • Arquitetura Moderna de Data Lake • Coffee Break • Creando Metadata y Análisis de información • Almuerzo • Transformación de Datos y Creación de procesos • Análisis y Consumo de información
  • 3. Introducion a Big Data + Casos de Uso
  • 4. Las organizaciones que lograron generar valor de negocio a partir de sus datos hoy superan a la competencia. Una encuesta de Aberdeem indica que las organizaciones que implementaron un data lake crecieron un 9% más que sus pares en sus ingresos . 24% 15% Líderes Seguidores Crecimiento orgánico de los ingresos *Aberdeen: Angling for Insight in Today’s Data Lake, Michael Lock, SVP Analytics and Business Intelligence Cuál es el valor del dato?
  • 5. ¿Cómo almaceno y analizo los datos? Arquitectura de Big Data Arquitetura para almacenar y analizar volúmenes masivos de datos de diversos tipos Separando el Almacenamiento del Procesamiento. Esclando cada componente de manera necesaria en forma independiente. "¿Cómo puedo escalar cuandos los volúmenes de datos aumentan exponencialmente?"
  • 6. Beneficios de separar el Procesamiento del Almacenamiento • Almacenamiento de todos los datos sin pagar por "CPUs" no utilizados • Costo independiente por "Dataset" • Posibilidad de elegir la herramienta más apropiada para cada análisis, y utilizarla en el momento adecuado • Aumento de la resistencia sin operaciones excesivas • Modelo de datos compartidos, sin especificar un método de acceso
  • 7. “Schema on Read” – Esquema definido en la lectura Múltiples herramientas analíticas y frameworks de procesamiento para el mismo dato El Data Lake permite realizar consultas ad-hoc aplicando “schemas” en la lectura, no en la escritura
  • 8. Beneficios del Data Lake Almacenamiento y análisis de datos de clientes en forma centralizada Una única fuente de Verdad Mayor velocidad durante la ingesta de datos de clientes sin necesidad de forzar un esquema predefinido Recolección y almacenamiento de datos de múltiples fuentes de manera ágil
  • 9. Construcción del Data Lake en AWS Kinesis Firehose Catálogo y búsqueda Control de Acceso Procesamiento y Análisis Ingestión de datos Almacenamiento Centralizado Athena Query Service Seguridad
  • 11. “For our market surveillance systems, we are looking at about 40% [savings with AWS], but the real benefits are the business benefits: We can do things that we physically weren’t able to do before, and that is priceless.” - Steve Randich, CIO Lo que FINRA necesitaba Infraestructura para su plataforma de supervisión del mercado Soporte para análisis y almacenamiento de aproximadamente 75 mil millones de eventos diarios del mercado Por qué eligieron AWS Cumplimiento de los requisitos de seguridad de FINRA Posibilidad de crear una plataforma flexible utilizando clústeres dinámicos (Hadoop, Hive y HBase), Amazon EMR y Amazon S3 Beneficios Mayor agilidad, velocidad y ahorro de costos Ahorros estimados en $ 10-20 millones anuales
  • 12. FINRA utiliza Amazon EMR y Amazon S3 para procesar hasta 75 mil millones de eventos comerciales por día y almacenar de forma segura más de 5 petabytes de datos, con un ahorro annual de $ 10-20 M. Detección de Fraude
  • 13. S3 Netflix usa S3 para respaldar sus clusters
  • 14. NASDAQ LISTS 3 , 6 0 0 G L O B A L C O M P A N I E S IN MARKET CAP REPRESENTING WORTH $9.6TRILLION DIVERSE INDUSTRIES AND MANY OF THE WORLD’S MOST WELL-KNOWN AND INNOVATIVE BRANDSMORE THAN U.S. 1 TRILLIONNATIONAL VALUE IS TIED TO OUR LIBRARY OF MORE THAN 41,000 GLOBAL INDEXES N A S D A Q T E C H N O L O G Y IS USED TO POWER MORE THAN IN 50 COUNTRIES 100 MARKETPLACES OUR GLOBAL PLATFORM CAN HANDLE MORE THAN 1 MILLION MESSAGES/SECOND AT SUB-40 MICROSECONDS AV E R A G E S P E E D S 1 C L E A R I N G H O U S E WE OWN AND OPERATE 26 MARKETS 5 CENTRAL SECURITIES DEPOSITORIES INCLUDING AC RO S S A S S E T C L A S S ES & GEOGRAPHIES
  • 15. • Su datalake está compuesto principalmente por Redshift y S3. • Los datos más recientes, menores a dos años, se almacenan tanto en Redshift como en S3 para contingencia. • Los datos mayores a dos años y menores a cinco años se resguardan en S3. • Utilizan Presto (en EMR) para realizar consultas ad-hoc de sus datos en S3. • Una migración que implicó: • Más de 1,000 tablas • Más de 7B de filas • Siete meses de tiempo hombre de principio a fin • Una reducción del 43% de los costos para el mismo conjunto de datos
  • 16. Yelp utiliza Amazon S3 para almacenar registros diarios y fotos, que generan aproximadamente 1.2TB de información diaria. La compañía emplea Amazon EMR para ejecutar aproximadamente 20 scripts que procesan recurrentemente los registros. Algunos de los casos de uso que han implementado con Amazon EMR son: • Las personas que vieron esto también vieron • Reseña destacados • Autocompletar en la búsqueda • Sugerencias de ortografía • Top búsquedas • Anuncios
  • 19. Los datos y la capacidad análitica están cambiando Captura y almacenamiento de datos a gran escala, PBs-EBs. Nuevos tipos de análisis, de forma rentable: • Machine learning • Big data • Análisis Real-time • Búsqueda Full-text Nuevos tipos de capacidad analítica
  • 20. Visión tradicional de la arquitectura de datos OLTP ERP CRM LOB Data warehouse Business intelligence • Dato relacional • Escala de TBs–PBs • Esquema definido antes de la ingesta de datos • Informes operativos y ad-hoc • CAPEX inicial
  • 21. Data Lakes, una extension del enfoque tradicional Data warehouse Business intelligence OLTPERP CRM LOB • Dato relacional y no relacional • Escala de TBs–EBs • Variedad de motores analíticos • Almacenamiento y analítica a bajo costo Dispositivos Web Sensores Social Data lake Procesamiento big data, real-time, machine learning
  • 22. Data Lakes en AWS Analytics • Durabilidad y disponibilidad a escala de EBs • Capacidades de seguridad, cumplimiento normativo, y auditoria • Control granular de accesos a nivel de objeto • Máximo desempeño al recuperar subconjuntos de datos • Múltiples maneras de recuperar los datos • Integraciones con software de terceros • Análisis con un amplio conjunto de servicios Machine learning Datos Real-time Datos On-premises Data Lake en AWS
  • 23. Servicios manejados de ML Deep Learning AMIs Reconocimiento de video e imágen Interfaces conversacionales Cámara Deep-Learning Procesamiento de lenguaje natural Traducción Reconocimiento de voz Text-to-Speech Análisis interactivo Hadoop & Spark Data Warehousing Búsqueda Full-text Análisis Real-time Dashboards & Visualizaciones Conexión de red dedicada Herramientas de seguridad Migración de base de datos Dispositivos conectados a AWS Stream de datos Real-time Stream de video Real-time Data Lake en AWS Almacenamiento | Catálogo de dados AnalyticsMachine learning Datos Real-timeDatos On-premises Portfolio de Data Lakes integrado
  • 24. Creando Metadata y Análisis de información
  • 25. Data Lake en Amazon S3 con AWS Glue Datos on- premise Web app data Amazon RDS Otras Bases de Datos Streaming data Sus Datos AMAZON QUICKSIGHT
  • 26. Creación de JobsCatálogo de Datos Ejecución de Jobs Compatible Apache Hive Metastore Integrado con servicios AWS Crawling automático Descubrir Generar ETL automáticamente Python y Apache Spark Edición, debug, e intercambio Desarrollar Ejecución Serverless Programación flexible Monitoreo y alarmado Implementar AWS Glue
  • 27. Catálogo de datos - Metadata Index • Almacena los datos de los datos en Amazon S3 • Tamaño y recuento de objetos por prefijo, clasificación, periodicidad de refresco, versión • Los eventos en Amazon S3 se procesan con funciones Lambda • Tablas de metadatos en DynamoDB para almacenar los atributos requeridos
  • 28. Catálogo y estructura de búsqueda
  • 29. Amazon Athena Servicio de consulta interactiva que facilita el análisis de datos directamente de Amazon S3 utilizando una interfaz ANSI-SQL
  • 30. Hadoop/Spark Analytics en AWS YARN (Hadoop Resource Manager) NoSQLMachine learning Real-timeInteractiveScriptBatch Data Lake na AWS Amazon S3 Amazon EMR Hadoop/Spark Manejado Almacenamiento de Objetos
  • 31. EMR – Enterprise - Hadoop & Spark Versiones recientes de ambientes Hadoop / Spark • Diecinueve proyectos open- source: Apache Hadoop, Spark, HBase, Presto, y muchos más • Actualizado con los últimos frameworks open-source Hadoop Ganglia HBase Hive& Catalog Hue Mahout Oozie Phoenix Pig Presto Spark Tez Zeppelin Zookeeper Flink Livy MXNet Sqoop Emr-4.0.0 Julho2015 2.6.0 1.0.0 0.10.0 0.14.0 1.4.1 Emr-4.7.0 Junho2016 2.7.2 3.7.2 1.2.1 1.0.0 3.7.1 0.12.0 4.2.0 4.7.0 0.14.0 .147 1.6.1 1.4.6 0.8.3 0.5.6 3.4.8 Emr-5.3.0 Janeiro2017 2.7.3 3.7.2 1.2.3 + S3 2.1.1 3.11.0 0.12.2 4.3.0 4.7.0 0.16.0 0.157. 1 2.1.0 1.4.6 0.8.4 0.6.2 3.4.9 1.1.4 Emr-5.14.0 Junho2018 2.8.3 3.7.2 1.4.2 + S3 2.3.2 4.1.0 0.13.0 4.3.0 4.13.0 0.17.0 0.194 2.3.0 1.4.7 0.8.4 0.7.3 3.4.10 1.4.2 0.4.0 1.1.0 EMR lanzamientos
  • 32. Amazon S3 – Fuente de verdad Amazon S3 Interactive Spark Cluster Amazon EMR Amazon EMR HDFS EC2 Instance Memory Intermediates stored on local disk or HDFS Local HDFS EC2 Instance Memory Intermediates stored on local disk or HDFS Local Transient ETL Job Fuente de verdad HDFS HDFS Datos Intermedios Locales HDFS/Storage Datos Intermedios Locales HDFS/Storage HDFS HDFS
  • 33. Gestión de metadatos externos Amazon S3 Interactive Spark Cluster Amazon EMR Amazon EMR HDFS Transient ETL Job Fuente de verdad HDFS Descripción de los datos de S3 MySQL DB instance Glue Data Catalog
  • 34. Vision AWS Machine Learning Frameworks & Infra- estrutura GPU MobileCPU IoT (Greengrass) Platform Services Application Services Amazon SageMaker Rekognition Image Rekognition Video Speech Polly Transcribe Language Translate ComprehendLex TensorFlow GluonApache MXNet Cognitive Toolkit Caffe2 & Caffe PyTorch Keras
  • 35. Transformación de Datos y Creación de procesos
  • 36. Simplificando el procesamiento ingesta almacenamie nto procesamient o / análisis consumo datos respuestas Tempo de la respuesta (latencia)? Throughput? Costo?
  • 38. • Tipos de datos • Registros de bases de datos • Documentos (ej. logs) • Archivos • Mensajes (ej. eventos) • Devices / sensores / IoT stream Devices Sensors & IoT platforms AWS IoT STREAMS Stream storage IoT ingesta almacenamiento Mobile apps Web apps Data centers AWS Direct Connect RECORDS Database Applications AWS Import/Export Snowball Logging Amazon CloudWatch AWS CloudTrail DOCUMENT S FILES Search File store LoggingTransport Messaging Message MESSAGES Queue Messaging
  • 40. Amazon Kinesis Firehose Amazon Kinesis Streams Apache Kafka Amazon DynamoDB Streams Amazon SQS Amazon SQS • Servicio gestionado de mensajería Apache Kafka • Mensajería de alto rendimiento Amazon Kinesis Streams • Servicio getionado stream + processing Amazon Kinesis Firehose • Servicio gestionado de entrega de datos Amazon DynamoDB • NoSQL administrado • Capacidad para realizar streaming de las tablas Mensajes & Streaming Devices Sensors & IoT platforms AWS IoT STREAMS IoT ingesta almacenamiento Mobile apps Web apps Data centers AWS Direct Connect RECORDS DatabaseApplications AWS Import/Export Snowball Logging Amazon CloudWatch AWS CloudTrail DOCUMENT S FILES Search File store LoggingTransport Messaging Message MESSAGES Messaging Queue Stream
  • 41. ingesta almacenamiento Mobile apps Web apps Data centers AWS Direct Connect RECORD S Database AWS Import/Export Snowball Logging Amazon CloudWatch AWS CloudTrail DOCUMENT S FILES Search Messaging Message MESSAGES Devices Sensors & IoT platforms AWS IoT STREAMS Apache Kafka Amazon Kinesis Streams Amazon Kinesis Firehose Amazon DynamoDB Streams Hot Stream Amazon S3 Amazon SQS Message Amazon S3 File LoggingIoTApplicationsTransportMessaging
  • 42. almacenamiento de objetos escalable 1 byte a 5 TB de tamaño por objeto + número ilimitado de objetos 99.999999999% de durabilidad 99,99% de disponibilidad Servicio regional, sin punto único de falla Cifrado del lado del servidor / cliente Storage AWS Global Infrastructure App Services Deployment & Administration Networking Compute Database Analytics
  • 43. NoSQL, Cache y Búsqueda ingesta almacenamiento Mobile apps Web apps Data centers AWS Direct Connect RECORDS AWS Import/Export Snowball Logging Amazon CloudWatch AWS CloudTrail DOCUMENT S FILES Messaging Message MESSAGES Devices Sensors & IoT platforms AWS IoT STREAMS Apache Kafka Amazon Kinesis Streams Amazon Kinesis Firehose Amazon DynamoDB Streams Hot Stream Amazon SQS Message Amazon Elasticsearch Service Amazon DynamoDB Amazon S3 Amazon ElastiCache Amazon RDS SearchSQLNoSQLCacheFile LoggingIoTApplicationsTransportMessaging datos disponibles Baijísima Latencia
  • 44. Amazon ElastiCache Amazon DynamoDB Amazon RDS/Aurora Amazon Elasticsearch Amazon S3 Amazon Glacier Average latency ms ms ms, sec ms,sec ms,sec,min (~ size) hrs Typical data stored GB GB–TBs (no limit) GB–TB (64 TB max) GB–TB MB–PB (no limit) GB–PB (no limit) Typical item size B-KB KB (400 KB max) KB (64 KB max) KB (2 GB max) KB-TB (5 TB max) GB (40 TB max) Request Rate High – very high Very high (no limit) High High Low – high (no limit) Very low Storage cost GB/month $$ ¢¢ ¢¢ ¢¢ ¢ ¢/10 Durability Low - moderate Very high Very high High Very high Very high Availability High 2 AZ Very high 3 AZ Very high 3 AZ High 2 AZ Very high 3 AZ Very high 3 AZ Hot data Warm data Cold data Carácterísticas de las diferentes tecnologías de almacenamiento
  • 46. Amazon S3 Data Lake Batch Analytics Streaming/Real-time Analytics Amazon Kinesis Streams & Firehose AWS Lambda Apache Storm on EMR Apache Flink on EMR Spark Streaming on EMR Hadoop / Spark Streaming Analytics Tools Amazon Redshift Data Warehouse Amazon DynamoDB NoSQL DB & Graph DB Amazon Elasticsearch Service Relational Database Amazon EMR Amazon Aurora Amazon Machine Learning Machine Learning Open Source Tool of Choice on EC2 DataSources Arquitetura de Data Lake AWS Data Science Sandbox Visualization / Reporting Amazon Kinesis Analytics
  • 47. procesamiento / análisis • Batch - Minutos u horas de datos fríos • Informes diarios / semanales / mensuales • Interactivo - Segundos de datos tibios / fríos • Self-service dashboards • Mensajería - Milisegundos o segundos de datos calientes • Message / event buffering • Streaming - Milisegundos o segundos datos calientes • Facturación / fraude, métricas por minuto
  • 48. Predicciones como Aprendizaje de Máquina • Capacidad de aprender cómo ejecutar un programa que no está explícitamente programado, basado en datos históricos. • Interpretar el comportamiento y anticipar un comportamiento futuro, o algo posible y útil en relación a los clientes. • Ejemplos de algoritmos de máquina de aprendizaje: • Aprendizaje supervisado ← "teach" program • ¿Esta transacción es un fraude? (Sí No) • Regresion ← Valor del ciclo de vida de un cliente? • Aprendizaje no supervisado ← Let it learn by being • Clustering ← Segmentación de mercado
  • 49. Herramientas y Frameworks • Machine Learning • Amazon ML, Amazon EMR (Spark ML) • Interactivo • Amazon Redshift, Amazon EMR (Presto, Spark) • Batch • Amazon EMR (MapReduce, Hive, Pig, Spark) • Mensajeria • Aplicaciones con Amazon SQS en Amazon EC2 • Streaming • Micro-batch: Spark Streaming, KCL • Real-time: Amazon Kinesis Analytics, Storm, AWS Lambda, KCL Amazon SQS apps Streaming Amazon Kinesis Analytics Amazon KCL apps AWS Lambda Amazon Redshift procesamiento / análisis Amazon Machine Learning Presto Amazon EMR FastSlowFast BatchMessageInteractiveStreamML Amazon EC2 Amazon EC2
  • 50. Procesamiento y Análisis Real-time Batch AI & Predictive BI & Data Visualization Transactional & RDBMS AWS Lambda Apache Storm on EMR Apache Flink on EMR Spark Streaming on EMR Elasticsearch Service Kinesis Analytics, Kinesis Streams DynamoDB NoSQL DB Relational Database Aurora EMR Hadoop, Spark, Presto Redshift Data Warehouse Athena Query Service Amazon Lex Speech recognition Amazon Rekognition Amazon Polly Text to speech Machine Learning Predictive analytics Kinesis Streams & Firehose
  • 51. Amazon Kinesis Streams Crie seus próprios aplicativos personalizados que processam ou analisem dados de transmissão Amazon Kinesis Firehose Carregue facilmente volumes maciços de dados de transmissão em Amazon S3, Elasticsearch e Redshift Amazon Kinesis Analytics Analise facilmente fluxos de dados usando consultas SQL padrão Amazon Kinesis: Streaming de dados AWS Tiempo real na AWS
  • 52. Características de las tecnologías de streaming / procesamiento Spark Streaming Apache Storm Kinesis KCL Application AWS Lambda Amazon SQS Apps Scale ~ Nodes ~ Nodes ~ Nodes Automatic ~ Nodes Micro-batch or Real-time Micro-batch Real-time Near-real-time Near-real-time Near-real-time AWS managed service Yes (EMR) No (EC2) No (KCL + EC2 + Auto Scaling) Yes No (EC2 + Auto Scaling) Scalability No limits ~ nodes No limits ~ nodes No limits ~ nodes No limits No limits Availability Single AZ Configurable Multi-AZ Multi-AZ Multi-AZ Programming languages Java, Python, Scala Any language via Thrift Java, via MultiLang Daemon (.NET, Python, Ruby, Node.js) Node.js, Java, Python AWS SDK languages (Java, .NET, Python, …)
  • 53. Características de las tecnologías de consulta / análisis Amazon Redshift Amazon EMR Presto Spark Hive Query latency Low Low Low High Durability High High High High Data volume 1.6 PB max ~Nodes ~Nodes ~Nodes AWS managed Yes Yes Yes Yes Storage Native HDFS / S3 HDFS / S3 HDFS / S3 SQL compatibility High High Low (SparkSQL) Medium (HQL) Slow
  • 54. Amazon SQS apps Streaming Amazon Kinesis Analytics Amazon KCL apps AWS Lambda Amazon Redshift ingesta almacenamiento Consumo procesamiento / análisis Amazon Machine Learning Presto Amazon EMR Amazon Elasticsearch Service Apache Kafka Amazon SQS Amazon Kinesis Streams Amazon Kinesis Firehose Amazon DynamoDB Amazon S3 Amazon ElastiCache Amazon RDS Amazon DynamoDB Streams HotHotWarm FastSlowFast BatchMessageInteractiveStreamML SearchSQLNoSQLCacheFileMessage Stream Amazon EC2 Amazon EC2 Mobile apps Web apps Devices Messaging Message Sensors & IoT platforms AWS IoT Data centers AWS Direct Connect AWS Import/Export Snowball Logging Amazon CloudWatch AWS CloudTrail RECORDS DOCUMENT S FILES MESSAGES STREAMS LoggingIoTApplicationsTransportMessaging ETL
  • 56. almacenamiento Consumo procesamiento / análisis Amazon QuickSight Apps & Services Analysis&visualizationNotebooksIDEAPI Aplicaciones & API Visualización y Análisis Notebooks IDE Business users Data scientist, developers ingesta ETL
  • 57. Amazon SQS apps Streaming Amazon Kinesis Analytics Amazon KCL apps AWS Lambda Amazon Redshift ingesta almacenamiento Consumo procesamiento / análisis Amazon Machine Learning Presto Amazon EMR Amazon Elasticsearch Service Apache Kafka Amazon SQS Amazon Kinesis Streams Amazon Kinesis Firehose Amazon DynamoDB Amazon S3 Amazon ElastiCache Amazon RDS Amazon DynamoDB Streams HotHotWarm FastSlowFast BatchMessageInteractiveStreamML SearchSQLNoSQLCacheFileQueueStream Amazon EC2 Amazon EC2 Mobile apps Web apps Devices Messaging Message Sensors & IoT platforms AWS IoT Data centers AWS Direct Connect AWS Import/Export Snowball Logging Amazon CloudWatch AWS CloudTrail RECORDS DOCUMENT S FILES MESSAGES STREAMS Amazon QuickSight Apps & Services Analysis&visualizationNotebooksIDEAPI Reference architecture LoggingIoTApplicationsTransportMessaging ETL
  • 58. Encriptación ComplianceSeguridad § Identity and Access Management (IAM) policies § Bucket policies § Access Control Lists (ACLs) § Private VPC endpoints to Amazon S3 § SSL endpoints § Server Side Encryption (SSE-S3) § S3 Server Side Encryption with provided keys (SSE-C, SSE-KMS) § Client-side Encryption § Buckets access logs § Lifecycle Management Policies § Access Control Lists (ACLs) § Versioning & MFA deletes § Certifications – HIPAA, PCI, SOC 1/2/3 etc. Seguridad
  • 59. Federación IAM • IAM permite la federación con Active Directory y otros proveedores de OpenID (Amazon, Facebook, Google) • AWS Directory Service provee un conector de AD que automatiza la conexión con AD IAM Users AWS Directory Service AD Connector Direct Connect Hardware VPN
  • 60. Resumen de los Servicios Gestionados Amazon Redshift Enterprise Data Warehouse Amazon EMR Hadoop/Spark Amazon Athena Clusterless SQL Amazon Glue Clusterless ETL Amazon Aurora Managed Relational Database Amazon Machine Learning Predictive Analytics Amazon Quicksight Business Intelligence/Visualization Amazon ElasticSearch Service ElasticSearch Amazon ElastiCache Redis In-memory Datastore Amazon DynamoDB Managed NoSQL Database Amazon Rekognition Deep Learning-based Image Recognition Amazon Lex Voice or Text Chatbots
  • 61. Laboratorio! Explotación de nuestro caso eCommerce: iBeer Preguntas de negocio: ¿Cuál es mi canal de marketing más efectivo? ¿Cuál es el producto más buscado? ¿Cuál es el producto más vendido? ¿Cuál es el canal más efectivo para el producto más buscado? Desafío: ¿qué otras preguntas podemos responder?