SlideShare a Scribd company logo
1 of 48
Bogotá
Big Data en AWS
Damian Traverso - Solutions Architect
18/06/2015 | Bogotá
Agenda
• Desafíos de un proyecto de Big Data
• Visión simplificada del procesamiento Big Data
• ¿Cuáles tecnologías debo utilizar?
• Arquitectura de Referencia
• Patrones de Diseño
Desafíos de un proyecto de Big Data
Big Data: El volumen crece continuamente
De PB para ZB
GB
TB
PB
ZB
EB
1990 2000 2010 2020
Big Data Real-time Big Data
Big Data: Necesita responder más rápido
Una gran variedad de soluciones y
componentes
Glacier
S3 DynamoDB
RDS
EMR
Redshift
Data Pipeline
Kinesis
Cassandra CloudSearch
AML
Simplificando el procesamiento
de Big Data
Simplificando el procesamiento de Big Data
Ingestión
Persistencia /
Storage Procesamiento Visualización
Datos
Respuestas
Tiempo
¿Cuáles tecnologías debo
utilizar?
Glacier
S3
DynamoDB
RDS
Kinesis
Spark
Streaming
EMR
Ingestión Persistencia Proceso/Análisis Visualización
Data Pipeline
Storm
Kafka
Redshift
Cassandra
CloudSearch
Kinesis
Connector
Kinesis
enabled app
App Server
Web Server
Devices
AML
Ingestión
de
datos
Tipos de datos para ingestión
• Transaccionales
– RDBMS
lectura/escritura
• Archivos
– Click-stream logs
– Texto libre
• Stream
– IoT devices
– Tweets
Database
Cloud
Storage
Stream
Storage
Stream
Storage
Database
Cloud
Storage
✔
¿Por qué un Stream Storage?
• Convierte múltiples
streams en unos pocos,
persistentes y ordenados
secuencialmente
• Desconecta productores y
consumidores de datos
• Actúa como un buffer o
una cola
• Streams en secuencia son
más faciles de procesar
• Preserva el orden para los
consumidores
• Streaming MapReduce
• El consumidor puede
realizar un replay y
reprocesar
¿Cuál Stream Store debo utilizar?
• Amazon Kinesis y Apache Kafka tienen muchas
similitudes
– Múltiples consumidores
– Orden de los registros
– MapReduce de Streaming
– Baja latencia
– Alta durabilidad, disponibilidad y escalabilidad
• Diferencias
– Un registro dura 24 horas en Kinesis, en Kafka es configurable
– Tamaño de 50 Kb en Kinesis, en Kafka es configurable
– Kinesis es un servicio totalmente gestionado – fácil de provisionar,
monitorear y escalar.
Kafka exige un trabajo de administración de disponibilidad y escalamiento
como un proceso on-premise
Cloud Database &
Storage
✔
✔
Cloud Database and Storage Tier Anti-pattern
App/Web Tier
Client Tier
Database & Storage Tier
Database y Storage en la nube - Las herramientas correctas
App/Web Tier
Client Tier
Data Tier
Database & Storage Tier
Search
Hadoop/HDFS
Cache
Blob Store
SQL NoSQL
App/Web Tier
Client Tier
Data Tier
Database & Storage Tier
Amazon RDSAmazon
DynamoDB
Amazon
ElastiCache
Amazon S3
Amazon
Glacier
Amazon
CloudSearch
HDFS on Amazon EMR
Database y Storage en la nube - Las herramientas correctas
¿Que Storage debo utilizar?
• Nivel de estructuración de los datos
• Complejidad de las consultas
Grado de estructuración / complejidad de las queries
VS.
Storage
Structured – Simple Query
NoSQL
Amazon DynamoDB
Cache
Amazon ElastiCache
Structured – Complex Query
SQL
Amazon RDS
Search
Amazon CloudSearch
Unstructured – No Query
Cloud Storage
Amazon S3
Amazon Glacier
Unstructured – Custom Query
Hadoop/HDFS
Elastic MapReduce
Gradodeestructuración
Grado de complejidad de las queries
¿Cuál es la temperatura de sus datos?
Temperatura de los datos: Calientes, Tibios o Fríos
Caliente Tibio Frío
Volumen MB–GB GB–TB PB
Tamaño del registro B–KB KB–MB KB–TB
Latencia ms ms, seg min, horas
Durabilidad Baja - Alta Alta Muy Alta
Frecuencia de
requests Muy Alta Alta Baja
Costo/GB $$-$ $-¢¢ ¢
Amazon
RDS
Frecuencia de Requests
alta baja
Costo/GB
alta baja
Latencia
baja alta
Volumen
baja alta
Amazon
Glacier
Amazon
CloudSearch
Estructuración
baja
alta
Amazon
DynamoDB
Amazon
ElastiCache
Procesamiento
✔ ✔
AML
Procesamiento
• Análisis Descriptivo: BI, OLAP, SQL/data warehouse
• Análisis Predictivo: sistemas de recomendación,
previsión de page-views, subasta de anuncios on-line
• Clasificación: análisis de sentimiento, fraude, anti
spam, clustering de clientes para crear perfiles de
consumo
• Correlación: comparar lo que se sabe sobre el negocio
(BI) con las oscilaciones del mercado, tiempo y
temperatura, reputación en las redes sociales
Frameworks de procesamiento
Normalmente existen dos tipos:
• Batch
– Procesamiento regular (ex: ETL)
– Análisis exploratorio (ex:data science)
• Stream
– IoT, click-stream, social monitoring,
crawlers, etc
Procesamiento Batch
• Accede a un gran volumen de datos fríos
para interactuar en búsqueda de
correlaciones
• Generalmente necesita minutos o horas para
obtener una respuesta
Por ejemplo: Generar reportes por horas, días o
meses
Caso de uso: Procesamiento Batch para ETL
Amazon
EMR
Amazon
S3
Amazon
Glacier
Amazon
Redshift
Procesamiento de Stream
• Analisa datos en pequeños grupos
– CEP – Complex Event Processor (if/then/else)
– Machine Learning (fraude, recomendaciones, etc.)
• Responde en corto lapso de tiempo
– Real-time o Near Real-time dependiendo de cada
aplicación
Por ejemplo: análisis de 1min de
operaciones
Herramientas
• Batch processing/analytic
– Amazon Redshift
– Amazon EMR
• Hive, Pig, Spark, Impala, Presto, …
• Stream processing
– Apache Spark streaming
– Apache Storm (+ Trident)
– Amazon Kinesis client and
connector library
AML
¿Cuál herramienta de procesamiento batch debo usar?
Redshift Impala Presto Spark Hive
Latencia de
las queries
Baja Baja Baja Baja - Media Media - Alta
Durabilidad Alta Alta Alta Alta Alta
volumen 1.6PB Max ~Nodos ~Nodos ~Nodos ~Nodos
Managed Si EMR
bootstrap
EMR
bootstrap
EMR
bootstrap
Si (EMR)
Storage Nativo HDFS HDFS/S3 HDFS/S3 HDFS/S3
# of BI Tools Alta Media Alta Baja Alta
Latencia
de las
queries
Baja Alta
Spark Streaming Apache Storm
+ Trident
Kinesis Client
Library
Escalabilidad/Thro
ughput
~ Nodos ~ Nodos ~ Nodos
volumen ~ Nodos ~ Nodos ~ Nodos
Administración Si (EMR bootstrap) Hágalo usted
mismo
EC2 + Auto Scaling
Tolerencia a fallas Built-in Built-in KCL Check pointing
Lenguages de
programación / API
Java, Python, Scala Java, Scala,
Clojure
Java, Python
¿Cuál herramienta de procesamiento de Stream debo usar?
✔ ✔ ✔
AML
Colocando todo junto
Arquitectura desconectada
• Múltiples etapas
• Storage desconectado del procesamiento
Procesar Almacenar Procesar AlmacenarDatos Respuestas
Aplicaciones de Procesamiento (o conectores)
pueden escribir en múltiples Data Stores
Amazon
Kinesis
Amazon
Kinesis
Connectors
Amazon
S3
Datos Amazon
DynamoDB
Lambda Architecture
Análisis
Real Time
Análisis
Exploratório
Frameworks de Procesamiento (Storm, Hive,
Spark, etc) pueden leer de múltiples Data Stores
Amazon
Kinesis
Amazon
Kinesis
Connectors
Amazon
S3
Datos Amazon
DynamoDB
Hive Spark
Respuestas
Storm
Respuestas
Patrones de diseño
Spark
Streaming,
Apache
Storm
Amazon
Redshift Spark,
Impala,
Presto
Hive
Amazon
Redshift
Hive
Spark,
Presto
Amazon
Kinesis/
Kafka
Amazon
DynamoDB
Amazon S3Datos
Caliente FríoTemperatura de los datos
Latenciadelasqueries
Baja
Alta
Respuesstas
HDFS
Hive
Native
Client
Temperatura de los dados X Latencia de las queries
Spark
Streaming
Amazon Kinesis / KafkaDatos
Apache Storm Native Client
Procesamiento Real-time
Amazon
DynamoDB
Native
Client
Respuestas
Amazon
Redshift
Hive
Spark,
Presto
Amazon
Kinesis/
Kafka
Amazon S3Datos
Respuestas
Processamento en Batch
Spark,
Impala,
Presto
Redshift
Spark,
Presto
Kinesis/
Kafka
S3Datos HDFS
Análisis interactivos
Respuestas
AML
Resumen
• Etapas de procesamiento Big Data: ingestión,
almacenamiento, procesamiento y visualización
• Usar las herramientas correctas de acuerdo con
el trabajo a ser realizado
– Ingestión: Dados transaccionales, archivos, stream
– Almacenamiento: nivel de estructuración, complejidad de las
queries, datos calientes VS fríos, etc.
– Procesamiento: Latencia de las queries
• Arquitectura de referencia en Big Data y patrones
de diseño
¡Muchas Gracias!

More Related Content

What's hot

Servicios de Bases de Datos administradas en AWS
Servicios de Bases de Datos administradas en AWS Servicios de Bases de Datos administradas en AWS
Servicios de Bases de Datos administradas en AWS Amazon Web Services LATAM
 
AWS Summit Bogotá Track Básico: Arquitectura para alta disponibilidad en AWS
AWS Summit Bogotá Track Básico: Arquitectura para alta disponibilidad en AWSAWS Summit Bogotá Track Básico: Arquitectura para alta disponibilidad en AWS
AWS Summit Bogotá Track Básico: Arquitectura para alta disponibilidad en AWSAmazon Web Services
 
Webinar: Comenzando con los servicios de AWS
Webinar: Comenzando con los servicios de AWSWebinar: Comenzando con los servicios de AWS
Webinar: Comenzando con los servicios de AWSAmazon Web Services LATAM
 
AWS Summit Bogotá Track Básico: Bases de datos en AWS
AWS Summit Bogotá Track Básico: Bases de datos en AWSAWS Summit Bogotá Track Básico: Bases de datos en AWS
AWS Summit Bogotá Track Básico: Bases de datos en AWSAmazon Web Services
 
Migración de datos a la nube: 6 estrategias para llevar datos a AWS
Migración de datos a la nube: 6 estrategias para llevar datos a AWSMigración de datos a la nube: 6 estrategias para llevar datos a AWS
Migración de datos a la nube: 6 estrategias para llevar datos a AWSAmazon Web Services LATAM
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSAmazon Web Services LATAM
 
Comenzando con aplicaciones serverless en AWS
Comenzando con aplicaciones serverless en AWSComenzando con aplicaciones serverless en AWS
Comenzando con aplicaciones serverless en AWSAmazon Web Services LATAM
 
AWS Summit Bogotá 2015 Keynote "La Nube se ha convertido en estándar" Raul Fr...
AWS Summit Bogotá 2015 Keynote "La Nube se ha convertido en estándar" Raul Fr...AWS Summit Bogotá 2015 Keynote "La Nube se ha convertido en estándar" Raul Fr...
AWS Summit Bogotá 2015 Keynote "La Nube se ha convertido en estándar" Raul Fr...Amazon Web Services
 

What's hot (19)

Servicios de Bases de Datos administradas en AWS
Servicios de Bases de Datos administradas en AWS Servicios de Bases de Datos administradas en AWS
Servicios de Bases de Datos administradas en AWS
 
AWS Services Overview
AWS Services OverviewAWS Services Overview
AWS Services Overview
 
Servicios de storage de AWS
Servicios de storage de AWSServicios de storage de AWS
Servicios de storage de AWS
 
AWS Summit Bogotá Track Básico: Arquitectura para alta disponibilidad en AWS
AWS Summit Bogotá Track Básico: Arquitectura para alta disponibilidad en AWSAWS Summit Bogotá Track Básico: Arquitectura para alta disponibilidad en AWS
AWS Summit Bogotá Track Básico: Arquitectura para alta disponibilidad en AWS
 
Cómputo y Almacenamiento en la nube
Cómputo y Almacenamiento en la nubeCómputo y Almacenamiento en la nube
Cómputo y Almacenamiento en la nube
 
Servicios de Storage en AWS
Servicios de Storage en AWSServicios de Storage en AWS
Servicios de Storage en AWS
 
Comenzando con Arquitecturas sin servidores
Comenzando con Arquitecturas sin servidoresComenzando con Arquitecturas sin servidores
Comenzando con Arquitecturas sin servidores
 
Webinar: Comenzando con los servicios de AWS
Webinar: Comenzando con los servicios de AWSWebinar: Comenzando con los servicios de AWS
Webinar: Comenzando con los servicios de AWS
 
Comenzando con Docker en AWS
Comenzando con Docker en AWSComenzando con Docker en AWS
Comenzando con Docker en AWS
 
AWS Summit Bogotá Track Básico: Bases de datos en AWS
AWS Summit Bogotá Track Básico: Bases de datos en AWSAWS Summit Bogotá Track Básico: Bases de datos en AWS
AWS Summit Bogotá Track Básico: Bases de datos en AWS
 
EC2: Cómputo en la nube a profundidad
EC2: Cómputo en la nube a profundidad EC2: Cómputo en la nube a profundidad
EC2: Cómputo en la nube a profundidad
 
Migración de datos a la nube: 6 estrategias para llevar datos a AWS
Migración de datos a la nube: 6 estrategias para llevar datos a AWSMigración de datos a la nube: 6 estrategias para llevar datos a AWS
Migración de datos a la nube: 6 estrategias para llevar datos a AWS
 
Sistema de Bases de Datos AWS
Sistema de Bases de Datos AWSSistema de Bases de Datos AWS
Sistema de Bases de Datos AWS
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
Comenzando con Docker en AWS
Comenzando con Docker en AWSComenzando con Docker en AWS
Comenzando con Docker en AWS
 
Comenzando con aplicaciones serverless en AWS
Comenzando con aplicaciones serverless en AWSComenzando con aplicaciones serverless en AWS
Comenzando con aplicaciones serverless en AWS
 
Amazon EC2 Container Service a Profundidad
Amazon EC2 Container Service a ProfundidadAmazon EC2 Container Service a Profundidad
Amazon EC2 Container Service a Profundidad
 
AWS Summit Bogotá 2015 Keynote "La Nube se ha convertido en estándar" Raul Fr...
AWS Summit Bogotá 2015 Keynote "La Nube se ha convertido en estándar" Raul Fr...AWS Summit Bogotá 2015 Keynote "La Nube se ha convertido en estándar" Raul Fr...
AWS Summit Bogotá 2015 Keynote "La Nube se ha convertido en estándar" Raul Fr...
 
Construyendo aplicaciones para IoT con AWS
Construyendo aplicaciones para IoT con AWSConstruyendo aplicaciones para IoT con AWS
Construyendo aplicaciones para IoT con AWS
 

Viewers also liked

Big data: a data sicentist view
Big data: a data sicentist viewBig data: a data sicentist view
Big data: a data sicentist viewfernandocalle
 
Patricia Fernandez Zyncro
Patricia Fernandez ZyncroPatricia Fernandez Zyncro
Patricia Fernandez Zyncroe20biz
 
DER SPANISCHE ADEL UND SOS-KINDERDORF: FRAU IM SPIEGEL ÜBER NILS PETER SIEGER
DER SPANISCHE ADEL UND SOS-KINDERDORF: FRAU IM SPIEGEL ÜBER NILS PETER SIEGERDER SPANISCHE ADEL UND SOS-KINDERDORF: FRAU IM SPIEGEL ÜBER NILS PETER SIEGER
DER SPANISCHE ADEL UND SOS-KINDERDORF: FRAU IM SPIEGEL ÜBER NILS PETER SIEGERNils Peter Sieger
 
PetCare Leflet Greek&English
PetCare Leflet Greek&EnglishPetCare Leflet Greek&English
PetCare Leflet Greek&EnglishAndy Varoshiotis
 
Chaordic Mail | ES
Chaordic Mail | ESChaordic Mail | ES
Chaordic Mail | ESChaordic
 
Ves04 errv-management-guidelines-issue-4
Ves04 errv-management-guidelines-issue-4Ves04 errv-management-guidelines-issue-4
Ves04 errv-management-guidelines-issue-4hainguyenbk
 
Introducción a Apache Spark a través de un caso de uso cotidiano
Introducción a Apache Spark a través de un caso de uso cotidianoIntroducción a Apache Spark a través de un caso de uso cotidiano
Introducción a Apache Spark a través de un caso de uso cotidianoSocialmetrix
 
Trabajo parque gasset
Trabajo parque gassetTrabajo parque gasset
Trabajo parque gasset31ana1996
 
Introduction to streaming and messaging flume,kafka,SQS,kinesis
Introduction to streaming and messaging  flume,kafka,SQS,kinesis Introduction to streaming and messaging  flume,kafka,SQS,kinesis
Introduction to streaming and messaging flume,kafka,SQS,kinesis Omid Vahdaty
 
Git - Controle de Versões do Jeito Certo
Git - Controle de Versões do Jeito CertoGit - Controle de Versões do Jeito Certo
Git - Controle de Versões do Jeito CertoArthur Zapparoli
 
SQL Server 2012 DAX BI
SQL Server 2012 DAX BISQL Server 2012 DAX BI
SQL Server 2012 DAX BIEduardo Castro
 
Go to Study Group BoF at Security and Programming camp 2011
Go to Study Group BoF at Security and Programming camp 2011 Go to Study Group BoF at Security and Programming camp 2011
Go to Study Group BoF at Security and Programming camp 2011 Hiro Yoshioka
 
VI Estudio Redes Sociales IAB Spain 2015
VI Estudio Redes Sociales IAB Spain 2015VI Estudio Redes Sociales IAB Spain 2015
VI Estudio Redes Sociales IAB Spain 2015Elogia
 
Emailmarketingpresentation 1226233603040060-8
Emailmarketingpresentation 1226233603040060-8Emailmarketingpresentation 1226233603040060-8
Emailmarketingpresentation 1226233603040060-8vineet
 
Introducción a los sistemas de alarmas industriales
Introducción a los sistemas de alarmas industrialesIntroducción a los sistemas de alarmas industriales
Introducción a los sistemas de alarmas industrialesJorge Luis Román Lizárraga
 

Viewers also liked (20)

Big data: a data sicentist view
Big data: a data sicentist viewBig data: a data sicentist view
Big data: a data sicentist view
 
Patricia Fernandez Zyncro
Patricia Fernandez ZyncroPatricia Fernandez Zyncro
Patricia Fernandez Zyncro
 
Examendeorina
ExamendeorinaExamendeorina
Examendeorina
 
Tecnica de autoconocimiento tetraedro
Tecnica de autoconocimiento tetraedroTecnica de autoconocimiento tetraedro
Tecnica de autoconocimiento tetraedro
 
DER SPANISCHE ADEL UND SOS-KINDERDORF: FRAU IM SPIEGEL ÜBER NILS PETER SIEGER
DER SPANISCHE ADEL UND SOS-KINDERDORF: FRAU IM SPIEGEL ÜBER NILS PETER SIEGERDER SPANISCHE ADEL UND SOS-KINDERDORF: FRAU IM SPIEGEL ÜBER NILS PETER SIEGER
DER SPANISCHE ADEL UND SOS-KINDERDORF: FRAU IM SPIEGEL ÜBER NILS PETER SIEGER
 
PetCare Leflet Greek&English
PetCare Leflet Greek&EnglishPetCare Leflet Greek&English
PetCare Leflet Greek&English
 
Gamer pablo ayala berns charly
Gamer pablo ayala berns charlyGamer pablo ayala berns charly
Gamer pablo ayala berns charly
 
Chaordic Mail | ES
Chaordic Mail | ESChaordic Mail | ES
Chaordic Mail | ES
 
Ves04 errv-management-guidelines-issue-4
Ves04 errv-management-guidelines-issue-4Ves04 errv-management-guidelines-issue-4
Ves04 errv-management-guidelines-issue-4
 
Sistema Circulatorio
Sistema CirculatorioSistema Circulatorio
Sistema Circulatorio
 
Introducción a Apache Spark a través de un caso de uso cotidiano
Introducción a Apache Spark a través de un caso de uso cotidianoIntroducción a Apache Spark a través de un caso de uso cotidiano
Introducción a Apache Spark a través de un caso de uso cotidiano
 
Trabajo parque gasset
Trabajo parque gassetTrabajo parque gasset
Trabajo parque gasset
 
Introduction to streaming and messaging flume,kafka,SQS,kinesis
Introduction to streaming and messaging  flume,kafka,SQS,kinesis Introduction to streaming and messaging  flume,kafka,SQS,kinesis
Introduction to streaming and messaging flume,kafka,SQS,kinesis
 
Git - Controle de Versões do Jeito Certo
Git - Controle de Versões do Jeito CertoGit - Controle de Versões do Jeito Certo
Git - Controle de Versões do Jeito Certo
 
SQL Server 2012 DAX BI
SQL Server 2012 DAX BISQL Server 2012 DAX BI
SQL Server 2012 DAX BI
 
Go to Study Group BoF at Security and Programming camp 2011
Go to Study Group BoF at Security and Programming camp 2011 Go to Study Group BoF at Security and Programming camp 2011
Go to Study Group BoF at Security and Programming camp 2011
 
VI Estudio Redes Sociales IAB Spain 2015
VI Estudio Redes Sociales IAB Spain 2015VI Estudio Redes Sociales IAB Spain 2015
VI Estudio Redes Sociales IAB Spain 2015
 
Emailmarketingpresentation 1226233603040060-8
Emailmarketingpresentation 1226233603040060-8Emailmarketingpresentation 1226233603040060-8
Emailmarketingpresentation 1226233603040060-8
 
Introducción a los sistemas de alarmas industriales
Introducción a los sistemas de alarmas industrialesIntroducción a los sistemas de alarmas industriales
Introducción a los sistemas de alarmas industriales
 
ÖW Marketingkampagne Winter 2014/15 Tschechien
ÖW Marketingkampagne Winter 2014/15 TschechienÖW Marketingkampagne Winter 2014/15 Tschechien
ÖW Marketingkampagne Winter 2014/15 Tschechien
 

Similar to AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big data en AWS

Patrones de Arquitectura para Big Data en AWS
Patrones de Arquitectura para Big Data en AWSPatrones de Arquitectura para Big Data en AWS
Patrones de Arquitectura para Big Data en AWSAmazon Web Services LATAM
 
Big Data: Arquitecturas y mejores prácticas en AWS
Big Data: Arquitecturas y mejores prácticas en AWSBig Data: Arquitecturas y mejores prácticas en AWS
Big Data: Arquitecturas y mejores prácticas en AWSAmazon Web Services LATAM
 
Big Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSBig Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSAmazon Web Services LATAM
 
Big Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSBig Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSAmazon Web Services LATAM
 
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...Amazon Web Services
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSAmazon Web Services LATAM
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSAmazon Web Services LATAM
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSAmazon Web Services LATAM
 
AnalyticZ - De la A a la Z con Amazon Web Services
AnalyticZ - De la A a la Z con Amazon Web ServicesAnalyticZ - De la A a la Z con Amazon Web Services
AnalyticZ - De la A a la Z con Amazon Web ServicesAmazon Web Services LATAM
 
AnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web ServicAnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web ServicSoftware Guru
 
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City SummitGeneración de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City SummitAmazon Web Services
 
Servicios de bases de datos administradas en AWS
Servicios de bases de datos administradas en AWSServicios de bases de datos administradas en AWS
Servicios de bases de datos administradas en AWSAmazon Web Services LATAM
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosAmazon Web Services LATAM
 
Data Platform de BEEVA
Data Platform de BEEVAData Platform de BEEVA
Data Platform de BEEVABEEVA_es
 
Mejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSMejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSAmazon Web Services LATAM
 
Mejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSMejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSAmazon Web Services LATAM
 
Servicios de bases de datos administradas en AWS
Servicios de bases de datos administradas en AWSServicios de bases de datos administradas en AWS
Servicios de bases de datos administradas en AWSAmazon Web Services LATAM
 

Similar to AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big data en AWS (20)

Patrones de Arquitectura para Big Data en AWS
Patrones de Arquitectura para Big Data en AWSPatrones de Arquitectura para Big Data en AWS
Patrones de Arquitectura para Big Data en AWS
 
Big Data: Arquitecturas y mejores prácticas en AWS
Big Data: Arquitecturas y mejores prácticas en AWSBig Data: Arquitecturas y mejores prácticas en AWS
Big Data: Arquitecturas y mejores prácticas en AWS
 
Big Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSBig Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWS
 
Big Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSBig Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWS
 
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
AnalyticZ - De la A a la Z con Amazon Web Services
AnalyticZ - De la A a la Z con Amazon Web ServicesAnalyticZ - De la A a la Z con Amazon Web Services
AnalyticZ - De la A a la Z con Amazon Web Services
 
AWS Analytics Experience Argentina
AWS Analytics Experience Argentina AWS Analytics Experience Argentina
AWS Analytics Experience Argentina
 
Servicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWSServicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWS
 
AnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web ServicAnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web Servic
 
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City SummitGeneración de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
 
Servicios de bases de datos administradas en AWS
Servicios de bases de datos administradas en AWSServicios de bases de datos administradas en AWS
Servicios de bases de datos administradas en AWS
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuarios
 
Data Platform de BEEVA
Data Platform de BEEVAData Platform de BEEVA
Data Platform de BEEVA
 
Servicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWSServicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWS
 
Mejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSMejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWS
 
Mejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSMejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWS
 
Servicios de bases de datos administradas en AWS
Servicios de bases de datos administradas en AWSServicios de bases de datos administradas en AWS
Servicios de bases de datos administradas en AWS
 

More from Amazon Web Services

Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...Amazon Web Services
 
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...Amazon Web Services
 
Esegui pod serverless con Amazon EKS e AWS Fargate
Esegui pod serverless con Amazon EKS e AWS FargateEsegui pod serverless con Amazon EKS e AWS Fargate
Esegui pod serverless con Amazon EKS e AWS FargateAmazon Web Services
 
Costruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWSCostruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWSAmazon Web Services
 
Come spendere fino al 90% in meno con i container e le istanze spot
Come spendere fino al 90% in meno con i container e le istanze spot Come spendere fino al 90% in meno con i container e le istanze spot
Come spendere fino al 90% in meno con i container e le istanze spot Amazon Web Services
 
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...Amazon Web Services
 
OpsWorks Configuration Management: automatizza la gestione e i deployment del...
OpsWorks Configuration Management: automatizza la gestione e i deployment del...OpsWorks Configuration Management: automatizza la gestione e i deployment del...
OpsWorks Configuration Management: automatizza la gestione e i deployment del...Amazon Web Services
 
Microsoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows WorkloadsMicrosoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows WorkloadsAmazon Web Services
 
Database Oracle e VMware Cloud on AWS i miti da sfatare
Database Oracle e VMware Cloud on AWS i miti da sfatareDatabase Oracle e VMware Cloud on AWS i miti da sfatare
Database Oracle e VMware Cloud on AWS i miti da sfatareAmazon Web Services
 
Crea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJSCrea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJSAmazon Web Services
 
API moderne real-time per applicazioni mobili e web
API moderne real-time per applicazioni mobili e webAPI moderne real-time per applicazioni mobili e web
API moderne real-time per applicazioni mobili e webAmazon Web Services
 
Database Oracle e VMware Cloud™ on AWS: i miti da sfatare
Database Oracle e VMware Cloud™ on AWS: i miti da sfatareDatabase Oracle e VMware Cloud™ on AWS: i miti da sfatare
Database Oracle e VMware Cloud™ on AWS: i miti da sfatareAmazon Web Services
 
Tools for building your MVP on AWS
Tools for building your MVP on AWSTools for building your MVP on AWS
Tools for building your MVP on AWSAmazon Web Services
 
How to Build a Winning Pitch Deck
How to Build a Winning Pitch DeckHow to Build a Winning Pitch Deck
How to Build a Winning Pitch DeckAmazon Web Services
 
Building a web application without servers
Building a web application without serversBuilding a web application without servers
Building a web application without serversAmazon Web Services
 
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...Amazon Web Services
 
Introduzione a Amazon Elastic Container Service
Introduzione a Amazon Elastic Container ServiceIntroduzione a Amazon Elastic Container Service
Introduzione a Amazon Elastic Container ServiceAmazon Web Services
 

More from Amazon Web Services (20)

Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
 
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
 
Esegui pod serverless con Amazon EKS e AWS Fargate
Esegui pod serverless con Amazon EKS e AWS FargateEsegui pod serverless con Amazon EKS e AWS Fargate
Esegui pod serverless con Amazon EKS e AWS Fargate
 
Costruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWSCostruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWS
 
Come spendere fino al 90% in meno con i container e le istanze spot
Come spendere fino al 90% in meno con i container e le istanze spot Come spendere fino al 90% in meno con i container e le istanze spot
Come spendere fino al 90% in meno con i container e le istanze spot
 
Open banking as a service
Open banking as a serviceOpen banking as a service
Open banking as a service
 
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
 
OpsWorks Configuration Management: automatizza la gestione e i deployment del...
OpsWorks Configuration Management: automatizza la gestione e i deployment del...OpsWorks Configuration Management: automatizza la gestione e i deployment del...
OpsWorks Configuration Management: automatizza la gestione e i deployment del...
 
Microsoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows WorkloadsMicrosoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows Workloads
 
Computer Vision con AWS
Computer Vision con AWSComputer Vision con AWS
Computer Vision con AWS
 
Database Oracle e VMware Cloud on AWS i miti da sfatare
Database Oracle e VMware Cloud on AWS i miti da sfatareDatabase Oracle e VMware Cloud on AWS i miti da sfatare
Database Oracle e VMware Cloud on AWS i miti da sfatare
 
Crea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJSCrea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJS
 
API moderne real-time per applicazioni mobili e web
API moderne real-time per applicazioni mobili e webAPI moderne real-time per applicazioni mobili e web
API moderne real-time per applicazioni mobili e web
 
Database Oracle e VMware Cloud™ on AWS: i miti da sfatare
Database Oracle e VMware Cloud™ on AWS: i miti da sfatareDatabase Oracle e VMware Cloud™ on AWS: i miti da sfatare
Database Oracle e VMware Cloud™ on AWS: i miti da sfatare
 
Tools for building your MVP on AWS
Tools for building your MVP on AWSTools for building your MVP on AWS
Tools for building your MVP on AWS
 
How to Build a Winning Pitch Deck
How to Build a Winning Pitch DeckHow to Build a Winning Pitch Deck
How to Build a Winning Pitch Deck
 
Building a web application without servers
Building a web application without serversBuilding a web application without servers
Building a web application without servers
 
Fundraising Essentials
Fundraising EssentialsFundraising Essentials
Fundraising Essentials
 
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
 
Introduzione a Amazon Elastic Container Service
Introduzione a Amazon Elastic Container ServiceIntroduzione a Amazon Elastic Container Service
Introduzione a Amazon Elastic Container Service
 

Recently uploaded

Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfvladimiroflores1
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...JohnRamos830530
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfAnnimoUno1
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21mariacbr99
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.FlorenciaCattelani
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxMiguelAtencio10
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxAlan779941
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 

Recently uploaded (11)

Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 

AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big data en AWS

  • 2. Big Data en AWS Damian Traverso - Solutions Architect 18/06/2015 | Bogotá
  • 3. Agenda • Desafíos de un proyecto de Big Data • Visión simplificada del procesamiento Big Data • ¿Cuáles tecnologías debo utilizar? • Arquitectura de Referencia • Patrones de Diseño
  • 4. Desafíos de un proyecto de Big Data
  • 5. Big Data: El volumen crece continuamente De PB para ZB GB TB PB ZB EB 1990 2000 2010 2020
  • 6. Big Data Real-time Big Data Big Data: Necesita responder más rápido
  • 7. Una gran variedad de soluciones y componentes Glacier S3 DynamoDB RDS EMR Redshift Data Pipeline Kinesis Cassandra CloudSearch AML
  • 9. Simplificando el procesamiento de Big Data Ingestión Persistencia / Storage Procesamiento Visualización Datos Respuestas Tiempo
  • 11. Glacier S3 DynamoDB RDS Kinesis Spark Streaming EMR Ingestión Persistencia Proceso/Análisis Visualización Data Pipeline Storm Kafka Redshift Cassandra CloudSearch Kinesis Connector Kinesis enabled app App Server Web Server Devices AML
  • 13. Tipos de datos para ingestión • Transaccionales – RDBMS lectura/escritura • Archivos – Click-stream logs – Texto libre • Stream – IoT devices – Tweets Database Cloud Storage Stream Storage
  • 15. ¿Por qué un Stream Storage? • Convierte múltiples streams en unos pocos, persistentes y ordenados secuencialmente • Desconecta productores y consumidores de datos • Actúa como un buffer o una cola • Streams en secuencia son más faciles de procesar • Preserva el orden para los consumidores • Streaming MapReduce • El consumidor puede realizar un replay y reprocesar
  • 16. ¿Cuál Stream Store debo utilizar? • Amazon Kinesis y Apache Kafka tienen muchas similitudes – Múltiples consumidores – Orden de los registros – MapReduce de Streaming – Baja latencia – Alta durabilidad, disponibilidad y escalabilidad • Diferencias – Un registro dura 24 horas en Kinesis, en Kafka es configurable – Tamaño de 50 Kb en Kinesis, en Kafka es configurable – Kinesis es un servicio totalmente gestionado – fácil de provisionar, monitorear y escalar. Kafka exige un trabajo de administración de disponibilidad y escalamiento como un proceso on-premise
  • 18. Cloud Database and Storage Tier Anti-pattern App/Web Tier Client Tier Database & Storage Tier
  • 19. Database y Storage en la nube - Las herramientas correctas App/Web Tier Client Tier Data Tier Database & Storage Tier Search Hadoop/HDFS Cache Blob Store SQL NoSQL
  • 20. App/Web Tier Client Tier Data Tier Database & Storage Tier Amazon RDSAmazon DynamoDB Amazon ElastiCache Amazon S3 Amazon Glacier Amazon CloudSearch HDFS on Amazon EMR Database y Storage en la nube - Las herramientas correctas
  • 21. ¿Que Storage debo utilizar? • Nivel de estructuración de los datos • Complejidad de las consultas
  • 22. Grado de estructuración / complejidad de las queries VS. Storage Structured – Simple Query NoSQL Amazon DynamoDB Cache Amazon ElastiCache Structured – Complex Query SQL Amazon RDS Search Amazon CloudSearch Unstructured – No Query Cloud Storage Amazon S3 Amazon Glacier Unstructured – Custom Query Hadoop/HDFS Elastic MapReduce Gradodeestructuración Grado de complejidad de las queries
  • 23. ¿Cuál es la temperatura de sus datos?
  • 24. Temperatura de los datos: Calientes, Tibios o Fríos Caliente Tibio Frío Volumen MB–GB GB–TB PB Tamaño del registro B–KB KB–MB KB–TB Latencia ms ms, seg min, horas Durabilidad Baja - Alta Alta Muy Alta Frecuencia de requests Muy Alta Alta Baja Costo/GB $$-$ $-¢¢ ¢
  • 25. Amazon RDS Frecuencia de Requests alta baja Costo/GB alta baja Latencia baja alta Volumen baja alta Amazon Glacier Amazon CloudSearch Estructuración baja alta Amazon DynamoDB Amazon ElastiCache
  • 27. Procesamiento • Análisis Descriptivo: BI, OLAP, SQL/data warehouse • Análisis Predictivo: sistemas de recomendación, previsión de page-views, subasta de anuncios on-line • Clasificación: análisis de sentimiento, fraude, anti spam, clustering de clientes para crear perfiles de consumo • Correlación: comparar lo que se sabe sobre el negocio (BI) con las oscilaciones del mercado, tiempo y temperatura, reputación en las redes sociales
  • 28. Frameworks de procesamiento Normalmente existen dos tipos: • Batch – Procesamiento regular (ex: ETL) – Análisis exploratorio (ex:data science) • Stream – IoT, click-stream, social monitoring, crawlers, etc
  • 29. Procesamiento Batch • Accede a un gran volumen de datos fríos para interactuar en búsqueda de correlaciones • Generalmente necesita minutos o horas para obtener una respuesta Por ejemplo: Generar reportes por horas, días o meses
  • 30. Caso de uso: Procesamiento Batch para ETL Amazon EMR Amazon S3 Amazon Glacier Amazon Redshift
  • 31. Procesamiento de Stream • Analisa datos en pequeños grupos – CEP – Complex Event Processor (if/then/else) – Machine Learning (fraude, recomendaciones, etc.) • Responde en corto lapso de tiempo – Real-time o Near Real-time dependiendo de cada aplicación Por ejemplo: análisis de 1min de operaciones
  • 32.
  • 33. Herramientas • Batch processing/analytic – Amazon Redshift – Amazon EMR • Hive, Pig, Spark, Impala, Presto, … • Stream processing – Apache Spark streaming – Apache Storm (+ Trident) – Amazon Kinesis client and connector library AML
  • 34. ¿Cuál herramienta de procesamiento batch debo usar? Redshift Impala Presto Spark Hive Latencia de las queries Baja Baja Baja Baja - Media Media - Alta Durabilidad Alta Alta Alta Alta Alta volumen 1.6PB Max ~Nodos ~Nodos ~Nodos ~Nodos Managed Si EMR bootstrap EMR bootstrap EMR bootstrap Si (EMR) Storage Nativo HDFS HDFS/S3 HDFS/S3 HDFS/S3 # of BI Tools Alta Media Alta Baja Alta Latencia de las queries Baja Alta
  • 35. Spark Streaming Apache Storm + Trident Kinesis Client Library Escalabilidad/Thro ughput ~ Nodos ~ Nodos ~ Nodos volumen ~ Nodos ~ Nodos ~ Nodos Administración Si (EMR bootstrap) Hágalo usted mismo EC2 + Auto Scaling Tolerencia a fallas Built-in Built-in KCL Check pointing Lenguages de programación / API Java, Python, Scala Java, Scala, Clojure Java, Python ¿Cuál herramienta de procesamiento de Stream debo usar?
  • 38. Arquitectura desconectada • Múltiples etapas • Storage desconectado del procesamiento Procesar Almacenar Procesar AlmacenarDatos Respuestas
  • 39. Aplicaciones de Procesamiento (o conectores) pueden escribir en múltiples Data Stores Amazon Kinesis Amazon Kinesis Connectors Amazon S3 Datos Amazon DynamoDB Lambda Architecture Análisis Real Time Análisis Exploratório
  • 40. Frameworks de Procesamiento (Storm, Hive, Spark, etc) pueden leer de múltiples Data Stores Amazon Kinesis Amazon Kinesis Connectors Amazon S3 Datos Amazon DynamoDB Hive Spark Respuestas Storm Respuestas
  • 42. Spark Streaming, Apache Storm Amazon Redshift Spark, Impala, Presto Hive Amazon Redshift Hive Spark, Presto Amazon Kinesis/ Kafka Amazon DynamoDB Amazon S3Datos Caliente FríoTemperatura de los datos Latenciadelasqueries Baja Alta Respuesstas HDFS Hive Native Client Temperatura de los dados X Latencia de las queries
  • 43. Spark Streaming Amazon Kinesis / KafkaDatos Apache Storm Native Client Procesamiento Real-time Amazon DynamoDB Native Client Respuestas
  • 46. AML
  • 47. Resumen • Etapas de procesamiento Big Data: ingestión, almacenamiento, procesamiento y visualización • Usar las herramientas correctas de acuerdo con el trabajo a ser realizado – Ingestión: Dados transaccionales, archivos, stream – Almacenamiento: nivel de estructuración, complejidad de las queries, datos calientes VS fríos, etc. – Procesamiento: Latencia de las queries • Arquitectura de referencia en Big Data y patrones de diseño

Editor's Notes

  1. a alguns desafios de projetos Big Data Estabelcer uma visão Simplificada a concepção de um projeto de big data Identificar as tecnologias para cada caso de uso Apresentar uma arquitetura de referência Falar de alguns design patterns Melhores práticas
  2. Desafios que nossos clientens enfrentam
  3. Volume do universo de dados deve crescer vertiginosamente nos próximos anos Alguns estudos apontam que o volume de dados em 2020 será 10x maior que 2013 A convergencia de muitas tecnologias como cloud, mobile, social, avanços na área de genoma, IoT, pesquisa espacial pressionam o crescimento Due to the convergence of many technologies of cloud, mobile, social, and advancements in many field such as genomics, life sciences, space, the size of the digital universe is growing at an ever increasing rate. Customers have also found tremendous value in being able to mine this data to make better medicine, tailored purchasing recommendations, detect fraudulent financial transactions in real time, provide on-demand digital content such as movies and songs, predict weather forecasts, the list goes on and on.
  4. E que descobrimos ? Que quanto mais rápido criamos dados, mais rápido queremos respostas. As data creation is becoming more real-time and continuous so is the need to manage it
  5. Hive Spark Storm Kafka HBase Flume Impala Cascading EMR DynamoDB S3 Redshift Kinesis RDS Glacier
  6. Vamos começar elaborando uma visão simplificada do processamento de Big Data
  7. Um jeito de pensar em big data é ter em mente os ciclos do processo ou um pipeline onde os dados entram de um lado geram respostas do outro. Tudo isso dentro de um tempo aproprioado milisegundos para real time, minutos ou horas para outros tipos de necessidade. Tempo muda e baseado nele mudam também os tipos de componentes que v. deve usar no pipeline.
  8. Vamos começar alinhando alguns desses compontentes dentro das categorias Vamos fazer um map sem reduce Sei que há poucas empresas aqui mas o ecosistema de parceiros é bem maior. Isso não significa que o suporte da Aws se restija somente a essas empresas
  9. Vamos falar um pouco sobre a primeira fase, : a Ingestão
  10. Vamos receber dados de sistemas transacionais baseados em bancos relacionais Vamos receber arquivos de logs com formatação variada Vamos receber textos livre, imagens Vamos receber sinais de dispositivos de IoT Vamos receber streams de dados das redes sociais A próxima questão é que tipo de storage a gente tem que usar
  11. Dados formatados e relacionais podem ser gravados em Databases SQL e NoSQL Logs e textos pouco ou semi formatados podem ser gravados em Storage Streaming de dados precisa ser retidos em uma fila ou storage intermediario para que sejam analisados o mais rápido possivel (Kinesis, Kafa) Vamos falar um pouco mais sobre o tratamento de streaming de dados
  12. Converte múltiplos streams em poucos e persistentes ordenados sequencialmente  Streams em sequencia são mais fáceis de processar Desconecta produtores e consumidores de dados (essa desconexão é importante para escalar horizontamente) Atua como um buffer ou uma fila Preserva para o cliente a ordenação Você pode fazer um timpo de mapreduce para selecionar dados importantes e separar sinal de ruído -- Streaming “MapReduce” Consumidor pode dar um replay e reprocessar
  13. Leia o Slide Muitos dos clientes já familiarizados com o kafka não querem a complexidade de gestão, criar, escalar, monitorar e manter. O kinesis é bem fácil e não tem essa complexidade. http://blog.cloudera.com/blog/2014/09/apache-kafka-for-beginners/ https://engineering.linkedin.com/kafka/benchmarking-apache-kafka-2-million-writes-second-three-cheap-machines https://blogs.apache.org/flume/entry/flume_ng_architecture https://blogs.apache.org/flume/ https://blogs.apache.org/flume/ Use considerations Take all the undifferentiated heavy lifting Focus less on muck We want to offer choice Maintain update Keep in mind even thought Kafka is open source, Put a lot more efforts into kafka Lot of effort and smart engineering
  14. Passado o Streaming vamos falar dos outros formatos de storage
  15. Aqui o que não fazer Bancos de daods RELACIONAIS orientados a transações (OLTP) são ótimos para muitas coias mas encontram sérias restrições para escalar. Temos muitos casos de clientes que entenderam após a implementação que o RDBMS não atende necessidades e precisam migrar para NoSQL. 5.000 writes or reads/second em um dynamo v. só configura quantos righs/second v. quer em um OLTP isso vai dar muito trabalho exigir muita configuração e gestão.
  16. Banco relacional pode (e deve) ser substituido por outro banco ou storage no formato adequado a demanda e uso OLTP OLAP NoSQL
  17. As soluções AWS para cada caso de uso.
  18. Como eu escolho um deles? Vamos nos ater em algumas dimensões
  19. 2 x 2 Matrix Structured Level of query (from none to complex) Draw down the slide
  20. Agora vamos adicionar a dimensão tempo
  21. Temos aqui o EMR dando suporte a PRESTO IMPALA SPARK HIVE PIG MPP - Procesamento Paralelo Massivo em Redshift, Presto e Impala Hadoop – com MapReduce, Tez, Spark,
  22. Vamos falar sobre a dimensão da latência da query e como ela se contextualiza O Redshift é ótimo para agregar dados dada a sua arquitetura colunar e processamento MPP Outro aspecto importante dessa dimensão é a quantidade de ferramentas BI (ultima linha) com que o software se conecta Se v. usa um storage hdfs ou s3, pode processar com varias ferramentas usando clusters separados e transientes. Query Speed Redshift – Extremely fast SQL queries Spark, Impala – Extremely Fast to Fast Hive QL Hive, Tez – Moderately Fast to Slow Hive QL Data Volume? UDFs? Manageability? http://yahoodevelopers.tumblr.com/post/85930551108/yahoo-betting-on-apache-hive-tez-and-yarn https://amplab.cs.berkeley.edu/benchmark/
  23. Essas soluções são meio equivalentes O SPARK é interessante porque tem o seu ecosistema com o MLIB, Spark-SQL,
  24. Similar to multi-tier web-app-data architectures Concept of a “data bus” or “data pipeline”
  25. This is a summary of all six design patterns together. This summarizes all of the solutions available in the context of the temperature of the data and the data processing latency requirements. Hive – 1 year worth of click stream data Spark – 1 year of click stream data – what people are buying frequently together Redshift – reem ting, enterprise reporting tool – SQL Heavy Impala – same as redshift Preseto same league as Impala presto – Interactive SQL analytics – have a Hadoop installed base…. NoSQL – Analytics on NoSQL
  26. This is a summary of all six design patterns together. This summarizes all of the solutions available in the context of the temperature of the data and the data processing latency requirements. Hive – 1 year worth of click stream data Spark – 1 year of click stream data – what people are buying frequently together Redshift – reporting, enterprise reporting tool – SQL Heavy Impala – same as redshift Preseto same league as Impala presto – Interactive SQL analytics – have a Hadoop installed base…. NoSQL – Analytics on NoSQL
  27. This is a summary of all six design patterns together. This summarizes all of the solutions available in the context of the temperature of the data and the data processing latency requirements. Hive – 1 year worth of click stream data Spark – 1 year of click stream data – what people are buying frequently together Redshift – reporting, enterprise reporting tool – SQL Heavy Impala – same as redshift Preseto same league as Impala presto – Interactive SQL analytics – have a Hadoop installed base…. NoSQL – Analytics on NoSQL
  28. This is a summary of all six design patterns together. This summarizes all of the solutions available in the context of the temperature of the data and the data processing latency requirements. Hive – 1 year worth of click stream data Spark – 1 year of click stream data – what people are buying frequently together Redshift – reporting, enterprise reporting tool – SQL Heavy Impala – same as redshift Preseto same league as Impala presto – Interactive SQL analytics – have a Hadoop installed base…. NoSQL – Analytics on NoSQL
  29. The world is producing an ever increasing volume, velocity, and variety of big data. Consumers and businesses are demanding up-to-the-second (or even millisecond) analytics on their fast-moving data, in addition to classic batch processing. AWS delivers many technologies for solving big data problems. But what services should you use, why, when, and how? In this session, we simplify big data processing as a data bus comprising various stages: ingest, store, process, and visualize. Next, we discuss how to choose the right technology in each stage based on criteria such as data structure, query latency, cost, request rate, item size, data volume, durability, and so on. Finally, we provide reference architecture, design patterns, and best practices for assembling these technologies to solve your big data problems at the right cost.