0
José Papo - @josepapo
Thank you Sponsors!
The Roadshow
14:00 15:30

Key note - AWS e Parceiros AWS
Break

16:00 18:00

Key note - AWS

18:00 –
19:00

Coquetel Encer...
Apresentacoes e Videos
http://awshub.com.br

Pessoal
e totalmente transferivel
Vamos escrever juntos a historia do Cloud
Computing no Brasil
Resumo do Dia:
Benefícios da Nuvem da AWS
Casos de Uso da Nuvem AWS
Arquiteturas de Software para o
Século XXI (e demos!)
Resumo do Dia:
Benefícios da Nuvem da AWS
Casos de Uso da Nuvem AWS

Arquiteturas de Software para o
Século XXI
“Todos os mercados estão sendo transformados pela nova onda digital”

http://www.amazon.com.br/Digital-Disruption-Unleashi...
Internet Trends 2013 - http://www.kpcb.com/insights/2013-internet-trends
Internet Trends 2013 - http://www.kpcb.com/insights/2013-internet-trends
Internet Trends 2013 - http://www.kpcb.com/insights/2013-internet-trends
A Nuvem é o alavancador das novas tendências tecnológicas
“Para sobreviver no mercado, empresas precisam
continuamente realocar recursos de processos de
manutenção para processos d...
“Cloud is like a fertilizer that creates Startups”
Eric Ries
“Amazon Web Services is probably the most
important thing that has happened to mobile
and web app developers that the pres...
Acelerando o boom das startups e novos devices
Otimizando as Grandes Corporações
Dezenas de Milhares de Clientes na América Latina
Relational Database Service
Virtual Private Cloud
Elastic Map Reduce
Auto Scaling
Reserved Instances
Elastic Load Balancer...
Inovação Técnica rápida
e orientada aos clientes
“Queria muito enviar notificações
push para apps móveis de forma
simples ...
+
CredibiliT &
Amazon Web
Services
+ Caso de Sucesso: Rede Globo
TV Globo detém o título de uma das maiores redes de
televisão do mundo. Atualmente, a rede c...
+ Caso de Sucesso: Rede Globo


Simultâneo com o programa de TV



Responde à chamadas ao vivo do apresentador



Em mé...
Inovação #1
Hospedar website estático
no AWS S3
Elastic Load Balacing

Public VPC Subnet

Public VPC Subnet

Private VPC Subnet

Private VPC Subnet

Availability Zone A

...
Inovação #2
Banco de Dados No-SQL
DynamoDB
Elastic Load Balacing

Public VPC Subnet

Public VPC Subnet

Private VPC Subnet

Private VPC Subnet

Availability Zone A

...
Inovação #3
Elastic Transcoder
Elastic Load Balacing

Auto scaling Group

Public VPC Subnet

Public VPC Subnet

Private VPC Subnet

Private VPC Subnet

A...
+ Caso de Sucesso: Rede Globo

http://aws.amazon.com/pt/solutions/casestudies/redeglobo/

Apresentação do Case da TV Globo...
+

CSCs, o suporte “pay as you go”

“CSCs são créditos que
você utiliza para adquirir
qualquer serviço do
ecossistema Cred...
Gartner Magic Quadrant for Cloud Infrastructure as a Service
(August 19, 2013)

Gartner “Magic Quadrant for Cloud Infrastr...
Obrigado!
+

Daniel Galante
daniel.galante@credibilit.com

(11) 3509-4300
contato@credibilit.com
www.credibilit.com
Samsung reduziu drasticamente seus custos com a AWS

Economizou $34 Milhões

85% de economia versus modelo tradicional
Shell usa a AWS para aumentar significativamente sua agilidade

Time Interno

Recursos Extras

Time de Outsourcing

Time R...
Aumentando a
agilidade, a TI deixa
de ser vista como…
E passa a ser vista como tendo…
Nasdaq usa AWS para criar um novo serviço para hedge funds
Inovação: Experimentação Rápida com Custo e Risco Baixo

On-Premises

$ Milhões

Menos Experimentos

Centenas
ou Milhares
...
Resumo do Dia:
Benefícios da Nuvem da AWS
Casos de Uso da Nuvem AWS

Arquiteturas de Software para o
Século XXI
Big Data
Analysis of Data Can Transform Society

Enhance scientific
understanding, drive
innovation, and
accelerate medical cures.
...
Democratizing Analytics gets Value out of Big Data

Unlock Value in
Silicon

Support Open
Platforms

Deliver Software Valu...
Reinventing Supercomputing
On Demand
Scale-Out Platform Optimizations for Big Data

Cost-effective performance
•Intel® Advanced Vector Extension Technology
•In...
Power of the Platform built by Intel
TeraSort for
1TB sort

50%

Richer
user
experiences

Reduction

4HRS

80%
Reduction

...
Virtuous Cycle of Data-Driven Experience

Clients
Cloud

Intelligent Systems
BIG DATA
ANALYTICS
ON AWS
Michel Pereira
LET’S TALK
ABOUT DATA
Data-Obese,
Digital-Fast
DATA SUPPLY CHAIN
BIG
The data is too big, moves
too fast, or doesn’t fit the
strictures of your database
architectures
27 TB per day
Large Hadron Collider – CERN
LET’S TALK
ABOUT TOOLS
Generation

Collection & storage

Analytics & computation

Collaboration & sharing
Generation

Collection & storage
AWS Data Pipeline

S3, Glacier,
Storage Gateway,
DynamoDB,
Redshift, RDS,
HBase

Analytic...
AMAZON EMR
HADOOP + AWS
Hadoop-as-a-service
Map-Reduce engine

Integrated with tools

What is EMR?
Massively parallel

Integrated to AWS services
...
2 million+ Hadoop clusters last year
Amazon EMR is the #1 Enterprise Hadoop Solution
AWS is “the most prominent
Hadoop cloud service provider”
and “leads the p...
LET’S TAKE A DIP
HADOOP
HDFS
HIVE
AWS Elastic MapReduce
Start an EMR
cluster using
console or cli tools

EMR cluster
Master instance
group created that
controls the
cluster

EMR cluster
Master instance group
Core instance
group created for
life of cluster

EMR cluster
Master instance group

Core instance group
Core instances run
DataNode and
TaskTracker
daemons

EMR cluster
Master instance group

HDFS

HDFS

Core instance group
Optional task
instances can be
added or
subtracted to
perform work

EMR cluster
Master instance group

HDFS

HDFS

Core in...
S3 can be used as
underlying ‘file
system’ for
input/output data

EMR cluster
Master instance group

HDFS

HDFS

Core inst...
Master node
coordinates
distribution of
work and manages
cluster state

EMR cluster
Master instance group

HDFS

HDFS

Cor...
Core and Task
instances readwrite to S3

EMR cluster
Master instance group

HDFS

HDFS

Core instance group

Task instance...
Working with EMR
THE BIGGER
THE BETTER
KILOBYTES

MEGABYTES

GIGABYTES AND TERABYTES

PETABYTES AND EVEN EXABYTES
Amazon Redshift
Design Objectives
A petabyte-scale data warehouse service that was…
A Lot Faster
Amazon
Redshift

A Lot Cheaper
A Whole Lo...
Redshift Dramatically Reduces I/O
• Direct-attached storage
• Large data block sizes
• Columnar storage

Id

Age

State

1...
Redshift Runs on Optimized Hardware
HS1.8XL: 128GB RAM, 16 Cores, 24 Spindles, 16TB Storage, 2GB/sec scan rate

HS1.XL: 16...
Redshift Parallelizes and Distributes Everything

Load
Query
Resize
Backup
Restore

JDBC/ODBC

10 GigE
(HPC)

Ingestion
Ba...
Resize your cluster while remaining online

New target provisioned in the background
Only charged for source cluster
Resize your cluster while remaining online
• Fully automated


Data automatically redistributed

• Read only mode during ...
Amazon Redshift has security built-in
Customer VPC

• SSL to secure data in transit

JDBC/ODBC

• Encryption to secure dat...
Continuous Backup, Automated Recovery
• Replication within the cluster and backup to Amazon S3 to
maintain multiple copies...
Redshift is Priced to Analyze All Your Data
$0.85 per hour for on-demand (2TB)
$999 per TB per year (3-yr reservation)
CASE STUDY

HAPYRUS
Data
We use 5 tables to run a query which join tables and creates a report.
Imp_log

click_log

1) 300GB / 300M record
2) ...
Sample Query
The query generates a basic report for ad campaigns performance, imp, click numbers,
advertiser spending, CTR...
1. Query Speed

Processing Time (seconds)

Here, we are comparing Hadoop and Redshift servers of the same cost. (Hadoop: c...
2. Total Cost

Cost Per Day (US$)

Here, we are comparing Hadoop and Redshift servers running the same query for the same ...
Redshift Query Result
Data Size Instance Type

Number of
Instances

300GB

dw.hs1.xlarge

1

1.2TB

dw.hs1.xlarge

1

Tria...
Hadoop Query Result
Data Size
300GB

1.2TB

Instance Type
c1.xlarge
c1.medium
c1.xlarge
m1.xlarge
c1.medium
c1.xlarge
c1.x...
Elastic MapReduce
and/or
Redshift
EMR for Exploratory Analytics
• Used by analysts and data scientists to explore raw data before some, all, or none of it i...
Structured Data and Redshift
reporting
warehouse
Reporting and
BI

OLTP
ERP
RDS

(Relational)

Data
Pipeline

S3

Redshift
Structured Data and Redshift
live
archive
Reporting and
BI

OLTP
Web Apps
DynamoDB
(NoSQL)

Data
Pipeline

Redshift
Unstructured Data and Redshift
transform
and enrich

logs / files

S3

Data
Pipeline

Reporting and
BI

S3

EMR

explorato...
AWS Big Data Overview
Business Apps
RDS

CRM
ERP
Billing

Reporting
and BI

DynamoDB

OLTP
Web Apps

Ad Hoc
Analysis

Data...
Obtenha 600 Horas Gratuitas
de Tempo de Supercomputação!

Passe no Stand da
Intel para obter as 600
horas de computação
ww...
Segurança
Construída com altos padrões de segurança

Suas
Apps

Infraestrutura de Segurança AWS
SOC 1/SSAE 16/ISAE 3402,
ISO 27001, ...
Arquitetura Híbrida com a AWS
Data
Center

Zona de Disponibilidade 1
Link Dedicado
10G
Gateway

Subrede
privada

VPN Gatew...
Aberta, flexível e suportada pelos principais fornecedores
Sistemas Operacionais

Linguagens e Bibliotecas

Aplicações Cer...
Suporte a muitas linguagens e
ferramentas
Rico conjunto de APIs e kits de dev para as principais linguagens e plataformas
...
Aplicações Corporativas
Economia com SAP na Nuvem da AWS de até 69%

May 2012 “TCO Study for SAP on Amazon Web Services”
Economia com SAP na Nuvem da AWS de até 69%

May 2012 “TCO Study for SAP on Amazon Web Services”
Resumo do Dia:
Benefícios da Nuvem da AWS
Casos de Uso da Nuvem AWS

Arquiteturas de Software para o
Século XXI (e demos!)
Serviços e Automação = Foco!
Sua aplicação
Seu negócio e seu diferencial competitivo
Inovação, não gestão de hardware / da...
Com AWS, cresça de um servidor
…para milhares

Totalmente automatizado!
Infraestrutura Global
GovCloud

US West

US West

US East

(US ITAR
Region)

(Northern
California)

(Oregon)

(Northern
Vi...
Regiões da AWS e Zonas de Disponibilidade

Cliente pode decidir onde suas aplicações e dados residem
‘Cost Aware Architecture’
Reduza Custo de

…ao utilizar:
1. S3/CloudFront para Otimização de conteúdo estático

Compute

2...
O que isso significa em termos de custos?
Um Exemplo
Arquitetura Usual

Arquitetura Otimizada
Mês
Instancias EC2 Medium

1...
Volume de Storage no S3
Números de Horas de Servidores EC2
Fevereiro de 2013
48,7 milhões de usuários
Levantou $338M de capital
Valuation de $2.5B
Web Application
Servers

Internal
Web Services

Cache Servers

Sharded Database

File Storage
Servidores de Aplicação Python
150 instancias EC2 High-CPU
Web Application
Servers

Internal
Web Services

Cache Servers

...
Web Services em Python
35 instancias EC2 High-CPU
Web Application
Servers

Internal
Web Services

Cache Servers

Sharded D...
Caches Memcache e Redis
90 instancias EC2 High-Memory
Web Application
Servers

Internal
Web Services

Cache Servers

Shard...
Servidores de Bancos de Dados MySQL
70 Pares Master/Slave
Web Application
Servers

Internal
Web Services

Cache Servers

S...
Srorage no Amazon S3
8 Bilhões de Objetos • 410 Terabytes
Web Application
Servers

Internal
Web Services

Cache Servers

S...
Serviços Auxiliares
60 Instancias EC2
Asynchronous
Task Workers

Search

Logging

Data Analysis

Operational Tools

Develo...
• Maior parte do tráfego acontece à tarde e no início da noite, portanto reduzem o número
de servidores durante a madrugad...
Ambientes Dev / Test
Versão de Homologação
Versão Beta / MVP
Arquitetura de
Produção 1.0

3

2
1
Arquitetura de
Produção 2.0
Arquitetura de
Produção 3.0
Arquitetura de
Produção 4.0
"Startups are all about focus. AWS enables focus"
Ray Bradford, Kleiner Perkins, Caulfield & Byers
Automação = Foco!
Sua aplicação
Seu negócio e seu diferencial competitivo
Inovação, não gestão de hardware / data centers ...
…cresceu para 14 milhões de usuários em menos de um ano
…chegou a 150 milhões de fotos e terabytes de dados
…1 milhão de u...
Construa Aplicações, Não Infraestrutura
Automação
Total
Elastic
Beanstalk
“Só quero minha
aplicação funcionando,
com acess...
Elastic Beanstalk

EC2

RDS

Upload de sua aplicação

Beanstalk faz deploy

EBS

ELB

Você ainda tem controle
…Use serviços prontos quando possível
Não construa seu próprio… …mas use como serviço
1. Disparador de Emails

Amazon Simp...
DEMOS!!!
White Papers
4X Mais Confiável e até 1/4 do Custo de Infra Tradicional

http://media.amazonwebservices.com/idc_aws_business_value_repor...
Storage custa menos na Nuvem que dentro de casa
Relembrando:
Benefícios da Nuvem da AWS
Casos de Uso da Nuvem AWS

Arquiteturas de Software para o
Século XXI
OBRIGADO!
awshub.com.br
slideshare.net/AmazonWebServicesLATAM
José Papo
AWS Tech Evangelist
@josepapo
Keynote AWS RoadShow Recife 2013
Keynote AWS RoadShow Recife 2013
Keynote AWS RoadShow Recife 2013
Keynote AWS RoadShow Recife 2013
Keynote AWS RoadShow Recife 2013
Keynote AWS RoadShow Recife 2013
Keynote AWS RoadShow Recife 2013
Keynote AWS RoadShow Recife 2013
Keynote AWS RoadShow Recife 2013
Keynote AWS RoadShow Recife 2013
Keynote AWS RoadShow Recife 2013
Keynote AWS RoadShow Recife 2013
Keynote AWS RoadShow Recife 2013
Upcoming SlideShare
Loading in...5
×

Keynote AWS RoadShow Recife 2013

1,561

Published on

Keynote AWS RoadShow Recife 2013

Published in: Technology, Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,561
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
37
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Keynote AWS RoadShow Recife 2013"

  1. 1. José Papo - @josepapo
  2. 2. Thank you Sponsors!
  3. 3. The Roadshow 14:00 15:30 Key note - AWS e Parceiros AWS Break 16:00 18:00 Key note - AWS 18:00 – 19:00 Coquetel Encerramento
  4. 4. Apresentacoes e Videos http://awshub.com.br Pessoal e totalmente transferivel
  5. 5. Vamos escrever juntos a historia do Cloud Computing no Brasil
  6. 6. Resumo do Dia: Benefícios da Nuvem da AWS Casos de Uso da Nuvem AWS Arquiteturas de Software para o Século XXI (e demos!)
  7. 7. Resumo do Dia: Benefícios da Nuvem da AWS Casos de Uso da Nuvem AWS Arquiteturas de Software para o Século XXI
  8. 8. “Todos os mercados estão sendo transformados pela nova onda digital” http://www.amazon.com.br/Digital-Disruption-Unleashing-Innovation-ebook/dp/B009L7QD1S/
  9. 9. Internet Trends 2013 - http://www.kpcb.com/insights/2013-internet-trends
  10. 10. Internet Trends 2013 - http://www.kpcb.com/insights/2013-internet-trends
  11. 11. Internet Trends 2013 - http://www.kpcb.com/insights/2013-internet-trends
  12. 12. A Nuvem é o alavancador das novas tendências tecnológicas
  13. 13. “Para sobreviver no mercado, empresas precisam continuamente realocar recursos de processos de manutenção para processos de inovação.”
  14. 14. “Cloud is like a fertilizer that creates Startups” Eric Ries
  15. 15. “Amazon Web Services is probably the most important thing that has happened to mobile and web app developers that the press just misses. Jeff Bezos has accidentally or maybe on purpose powered a whole generation of applications.” Steve Blank
  16. 16. Acelerando o boom das startups e novos devices
  17. 17. Otimizando as Grandes Corporações
  18. 18. Dezenas de Milhares de Clientes na América Latina
  19. 19. Relational Database Service Virtual Private Cloud Elastic Map Reduce Auto Scaling Reserved Instances Elastic Load Balancer Mais de 125 anúncios já feitos em 2013 2009 2010 48 2008 24 2007 SimpleDB CloudFront EBS Availability Zones Elastic IPs 9 Simple Notification Service Route 53 RDS Multi-AZ Singapore Region Identity Access Management 61 Elastic Beanstalk Simple Email Service CloudFormation RDS for Oracle ElastiCache 2012 2011 159 82 Amazon FPS Red Hat EC2 DynamoDB Simple Workflow CloudSearch Storage Gateway
  20. 20. Inovação Técnica rápida e orientada aos clientes “Queria muito enviar notificações push para apps móveis de forma simples e barata” Jul 28, 2013 Anunciando Amazon SNS for Mobile Push – 1 milhão de notificações gratuitas por mês e $1,00 para cada milhão adicional “Seria tão bom se no Beanstalk eu pudesse usar Node.js!” Mar 11, 2013 Anunciando AWS Elastic Beanstalk para Node.js “É difícil gerenciar minhas Chef recipes” Feb 18, 2013 Anunciando AWS OpsWorks “Seria bom se a AWS deixasse o processo de Transcoding mais fácil” Jan 28, 2013 Anunciando Amazon Elastic Transcoder
  21. 21. + CredibiliT & Amazon Web Services
  22. 22. + Caso de Sucesso: Rede Globo TV Globo detém o título de uma das maiores redes de televisão do mundo. Atualmente, a rede cobre 98,44% do território nacional, atingindo 5.482 municípios e 99,50% da população. “A CredibiliT realizou o projeto usando a camada de managed services ou seja, toda a arquitetura dos ambientes, setups da infraestrutura, suporte on-going, otimização de recursos e uso das funcionalidades da AWS. Como são ambientes críticos e que precisam de alta disponibilidade, implantaram o monitoramento e suporte no regime 24x7. Essa característica foi fundamental para o sucesso da parceira.” Marcelo Guerra – Gerente, TV Globo
  23. 23. + Caso de Sucesso: Rede Globo  Simultâneo com o programa de TV  Responde à chamadas ao vivo do apresentador  Em média 300K usuários por segundo  “De 10 a 300K nos primeiros 3 minutos…”  Audição online expectativa 100K vídeos
  24. 24. Inovação #1 Hospedar website estático no AWS S3
  25. 25. Elastic Load Balacing Public VPC Subnet Public VPC Subnet Private VPC Subnet Private VPC Subnet Availability Zone A Availability Zone B
  26. 26. Inovação #2 Banco de Dados No-SQL DynamoDB
  27. 27. Elastic Load Balacing Public VPC Subnet Public VPC Subnet Private VPC Subnet Private VPC Subnet Availability Zone A Availability Zone B
  28. 28. Inovação #3 Elastic Transcoder
  29. 29. Elastic Load Balacing Auto scaling Group Public VPC Subnet Public VPC Subnet Private VPC Subnet Private VPC Subnet Availability Zone A Availability Zone B
  30. 30. + Caso de Sucesso: Rede Globo http://aws.amazon.com/pt/solutions/casestudies/redeglobo/ Apresentação do Case da TV Globo Success Case pela AWS no AWS Summit 2013: http://www.youtube.com/watch?v=kO4fXEP9NBE
  31. 31. + CSCs, o suporte “pay as you go” “CSCs são créditos que você utiliza para adquirir qualquer serviço do ecossistema CredibiliT.”
  32. 32. Gartner Magic Quadrant for Cloud Infrastructure as a Service (August 19, 2013) Gartner “Magic Quadrant for Cloud Infrastructure as a Service,” Lydia Leong, Douglas Toombs, Bob Gill, Gregor Petri, Tiny Haynes, August 19, 2013. This Magic Quadrant graphic was published by Gartner, Inc. as part of a larger research note and should be evaluated in the context of the entire report.. The Gartner report is available upon request from Steven Armstrong (asteven@amazon.com). Gartner does not endorse any vendor, product or service depicted in its research publications, and does not advise technology users to select only those vendors with the highest ratings. Gartner research publications consist of the opinions of Gartner's research organization and should not be construed as statements of fact. Gartner disclaims all warranties, expressed or implied, with respect to this research, including any warranties of merchantability or fitness for a particular purpose.
  33. 33. Obrigado! + Daniel Galante daniel.galante@credibilit.com (11) 3509-4300 contato@credibilit.com www.credibilit.com
  34. 34. Samsung reduziu drasticamente seus custos com a AWS Economizou $34 Milhões 85% de economia versus modelo tradicional
  35. 35. Shell usa a AWS para aumentar significativamente sua agilidade Time Interno Recursos Extras Time de Outsourcing Time Remoto
  36. 36. Aumentando a agilidade, a TI deixa de ser vista como…
  37. 37. E passa a ser vista como tendo…
  38. 38. Nasdaq usa AWS para criar um novo serviço para hedge funds
  39. 39. Inovação: Experimentação Rápida com Custo e Risco Baixo On-Premises $ Milhões Menos Experimentos Centenas ou Milhares Experimenta mais Falhar é caro Falha rápido com custo baixo Menos Inovação Mais Inovação
  40. 40. Resumo do Dia: Benefícios da Nuvem da AWS Casos de Uso da Nuvem AWS Arquiteturas de Software para o Século XXI
  41. 41. Big Data
  42. 42. Analysis of Data Can Transform Society Enhance scientific understanding, drive innovation, and accelerate medical cures. Create new business models and improve organizational processes. Increase public safety and improve energy efficiency with smart grids.
  43. 43. Democratizing Analytics gets Value out of Big Data Unlock Value in Silicon Support Open Platforms Deliver Software Value
  44. 44. Reinventing Supercomputing On Demand
  45. 45. Scale-Out Platform Optimizations for Big Data Cost-effective performance •Intel® Advanced Vector Extension Technology •Intel® Turbo Boost Technology 2.0 •Intel® Advanced Encryption Standard New Instructions Technology
  46. 46. Power of the Platform built by Intel TeraSort for 1TB sort 50% Richer user experiences Reduction 4HRS 80% Reduction 50% Reduction 40% Reduction Previous Intel® Xeon® Processor Intel® Xeon® Solid-State Processor Drive E5 2600 10MIN 10G Ethernet Intel® Apache Hadoop
  47. 47. Virtuous Cycle of Data-Driven Experience Clients Cloud Intelligent Systems
  48. 48. BIG DATA ANALYTICS ON AWS Michel Pereira
  49. 49. LET’S TALK ABOUT DATA
  50. 50. Data-Obese, Digital-Fast
  51. 51. DATA SUPPLY CHAIN
  52. 52. BIG
  53. 53. The data is too big, moves too fast, or doesn’t fit the strictures of your database architectures
  54. 54. 27 TB per day Large Hadron Collider – CERN
  55. 55. LET’S TALK ABOUT TOOLS
  56. 56. Generation Collection & storage Analytics & computation Collaboration & sharing
  57. 57. Generation Collection & storage AWS Data Pipeline S3, Glacier, Storage Gateway, DynamoDB, Redshift, RDS, HBase Analytics & computation EC2, Elastic MapReduce & Redshift Collaboration & sharing EC2 & S3, CloudFormation, Elastic MapReduce, RDS, DynamoDB, Redshift
  58. 58. AMAZON EMR HADOOP + AWS
  59. 59. Hadoop-as-a-service Map-Reduce engine Integrated with tools What is EMR? Massively parallel Integrated to AWS services Cost effective AWS wrapper
  60. 60. 2 million+ Hadoop clusters last year
  61. 61. Amazon EMR is the #1 Enterprise Hadoop Solution AWS is “the most prominent Hadoop cloud service provider” and “leads the pack (of Leaders) due to its proven, feature-rich Elastic MapReduce service…” -The Forrester Wave™: Enterprise Hadoop Solutions Q1 2012
  62. 62. LET’S TAKE A DIP
  63. 63. HADOOP HDFS
  64. 64. HIVE
  65. 65. AWS Elastic MapReduce
  66. 66. Start an EMR cluster using console or cli tools EMR cluster
  67. 67. Master instance group created that controls the cluster EMR cluster Master instance group
  68. 68. Core instance group created for life of cluster EMR cluster Master instance group Core instance group
  69. 69. Core instances run DataNode and TaskTracker daemons EMR cluster Master instance group HDFS HDFS Core instance group
  70. 70. Optional task instances can be added or subtracted to perform work EMR cluster Master instance group HDFS HDFS Core instance group Task instance group
  71. 71. S3 can be used as underlying ‘file system’ for input/output data EMR cluster Master instance group HDFS HDFS Core instance group Task instance group Amazon S3
  72. 72. Master node coordinates distribution of work and manages cluster state EMR cluster Master instance group HDFS HDFS Core instance group Task instance group Amazon S3
  73. 73. Core and Task instances readwrite to S3 EMR cluster Master instance group HDFS HDFS Core instance group Task instance group Amazon S3
  74. 74. Working with EMR
  75. 75. THE BIGGER THE BETTER
  76. 76. KILOBYTES MEGABYTES GIGABYTES AND TERABYTES PETABYTES AND EVEN EXABYTES
  77. 77. Amazon Redshift
  78. 78. Design Objectives A petabyte-scale data warehouse service that was… A Lot Faster Amazon Redshift A Lot Cheaper A Whole Lot Simpler
  79. 79. Redshift Dramatically Reduces I/O • Direct-attached storage • Large data block sizes • Columnar storage Id Age State 123 20 CA 345 25 WA 678 40 FL • Data compression • Zone maps Row storage Column storage
  80. 80. Redshift Runs on Optimized Hardware HS1.8XL: 128GB RAM, 16 Cores, 24 Spindles, 16TB Storage, 2GB/sec scan rate HS1.XL: 16GB RAM, 2 Cores, 3 Spindles, 2TB Storage • • • • Optimized for I/O intensive workloads HS1.8XL available on Amazon EC2 Runs in HPC - fast network High disk density Click to grow …to 1.6PB
  81. 81. Redshift Parallelizes and Distributes Everything Load Query Resize Backup Restore JDBC/ODBC 10 GigE (HPC) Ingestion Backup Restore
  82. 82. Resize your cluster while remaining online New target provisioned in the background Only charged for source cluster
  83. 83. Resize your cluster while remaining online • Fully automated  Data automatically redistributed • Read only mode during resize • Parallel node-to-node data copy • Automatic DNS-based endpoint cut-over • Only charged for one cluster
  84. 84. Amazon Redshift has security built-in Customer VPC • SSL to secure data in transit JDBC/ODBC • Encryption to secure data at rest   AES-256; hardware accelerated All blocks on disks and in Amazon S3 encrypted • No direct access to compute nodes • Amazon VPC support Ingestion Backup Restore Internal VPC 10 GigE (HPC)
  85. 85. Continuous Backup, Automated Recovery • Replication within the cluster and backup to Amazon S3 to maintain multiple copies of data at all times • Backups to Amazon S3 are continuous, automatic, and incremental  Designed for 99.999999999% durability • Continuous monitoring and automated recovery from failures of drives and nodes • Able to restore snapshots to any Availability Zone within a region
  86. 86. Redshift is Priced to Analyze All Your Data $0.85 per hour for on-demand (2TB) $999 per TB per year (3-yr reservation)
  87. 87. CASE STUDY HAPYRUS
  88. 88. Data We use 5 tables to run a query which join tables and creates a report. Imp_log click_log 1) 300GB / 300M record 2) 1.2TB / 1.2B record date publisher_id ad_campaign_id country attr1-4 datetime integer integer varchar(30) varchar(255) 1) 1.4GB / 1.5M record 2) 5.6GB / 6M record date publisher_id ad_campaign_id bid_price country attr1-4 1) for 1 month 2) for 4 months TSV files, gzip compressed datetime integer integer real varchar(30) varchar(255) ad_campaign 100MB / 100k record publisher 10MB / 10k record advertiser 10MB / 10k record
  89. 89. Sample Query The query generates a basic report for ad campaigns performance, imp, click numbers, advertiser spending, CTR, CPC and CPM. select ac.ad_campaign_id as ad_campaign_id, adv.advertiser_id as advertiser_id, cs.spending as spending, ims.imp_total as imp_total, cs.click_total as click_total, click_total/imp_total as CTR, spending/click_total as CPC, spending/(imp_total/1000) as CPM from ad_campaigns ac join advertisers adv on (ac.advertiser_id = adv.advertiser_id) join (select il.ad_campaign_id, count(*) as imp_total from imp_logs il group by il.ad_campaign_id ) ims on (ims.ad_campaign_id = ac.ad_campaign_id) join (select cl.ad_campaign_id, sum(cl.bid_price) as spending, count(*) as click_total from click_logs cl group by cl.ad_campaign_id ) cs on (cs.ad_campaign_id = ac.ad_campaign_id);
  90. 90. 1. Query Speed Processing Time (seconds) Here, we are comparing Hadoop and Redshift servers of the same cost. (Hadoop: c1.xlarge vs Redshift: dw.hs1.xlarge). 2000 • Redshift takes 155 seconds to complete our query for 1.2TB • Hadoop takes 1491 seconds to complete our query for 1.2TB • Query Speed Redshift is about 10 times faster than Hadoop for this query 1491sec Redshift 1500 1000 672sec 500 0 38sec 300GB 155sec Data Size 1.2TB * The query used can be referenced in our Appendix
  91. 91. 2. Total Cost Cost Per Day (US$) Here, we are comparing Hadoop and Redshift servers running the same query for the same duration of time. • Hadoop costs $210 per month to run queries every 30 minutes • $400 $350 $300 $250 $200 $150 $100 $50 $0 Redshift costs $20 per month to run queries every 30 minutes • Cost Per Day (query for 300GB data size) Redshift is about 10 times cheaper than Hadoop to run this job Redshift Hadoop 0 50 100 150 Query Per Day 200 250
  92. 92. Redshift Query Result Data Size Instance Type Number of Instances 300GB dw.hs1.xlarge 1 1.2TB dw.hs1.xlarge 1 Trial 1 2 3 4 5 1 2 3 4 5 Processing Time 58s 43s 31s 30s 30s 164s 149s 158s 156s 150s Average Server Cost Per Day 38s $20.40 155s $20.40
  93. 93. Hadoop Query Result Data Size 300GB 1.2TB Instance Type c1.xlarge c1.medium c1.xlarge m1.xlarge c1.medium c1.xlarge c1.xlarge Instance Number 1 10 10 1 4 10 20 Processing Time 1h 23m 2s 37m 48s 11m 12s 6h 43m 24s 5h 14m 0s 37m 7s 24m 51s Server Cost Per Day $0.80 $0.89 $1.06 $3.22 $3.04 $3.58 $4.64
  94. 94. Elastic MapReduce and/or Redshift
  95. 95. EMR for Exploratory Analytics • Used by analysts and data scientists to explore raw data before some, all, or none of it is added to the data warehouse • Structured OR Unstructured Data All data fed into EMR data store analytic sandbox EMR Exploratory Analytic Environment
  96. 96. Structured Data and Redshift reporting warehouse Reporting and BI OLTP ERP RDS (Relational) Data Pipeline S3 Redshift
  97. 97. Structured Data and Redshift live archive Reporting and BI OLTP Web Apps DynamoDB (NoSQL) Data Pipeline Redshift
  98. 98. Unstructured Data and Redshift transform and enrich logs / files S3 Data Pipeline Reporting and BI S3 EMR exploratory analytics Redshift
  99. 99. AWS Big Data Overview Business Apps RDS CRM ERP Billing Reporting and BI DynamoDB OLTP Web Apps Ad Hoc Analysis Data Pipeline EMR EBS S3 Redshift Dashboarding
  100. 100. Obtenha 600 Horas Gratuitas de Tempo de Supercomputação! Passe no Stand da Intel para obter as 600 horas de computação www.powerof60.com
  101. 101. Segurança
  102. 102. Construída com altos padrões de segurança Suas Apps Infraestrutura de Segurança AWS SOC 1/SSAE 16/ISAE 3402, ISO 27001, PCI DSS, HIPAA, ITAR, FISMA Moderate, FIPS 140-2, FedRAMP
  103. 103. Arquitetura Híbrida com a AWS Data Center Zona de Disponibilidade 1 Link Dedicado 10G Gateway Subrede privada VPN Gateway Matriz Internet Gateway Subrede pública Amazon VPC Zona de disponibilidade 2 Subsidiárias “Nuvem Privada não precisa ser dentro de casa” - Gartner Amazon S3 Amazon SimpleDB Amazon SES Região AWS Amazon SQS
  104. 104. Aberta, flexível e suportada pelos principais fornecedores Sistemas Operacionais Linguagens e Bibliotecas Aplicações Certificadas
  105. 105. Suporte a muitas linguagens e ferramentas Rico conjunto de APIs e kits de dev para as principais linguagens e plataformas Android iOS Java nodeJS .NET PHP Python E ferramentas e plugins integrados ao seu ambiente de desenvolvimento Eclipse Visual Studio CLI Powershell Ruby
  106. 106. Aplicações Corporativas
  107. 107. Economia com SAP na Nuvem da AWS de até 69% May 2012 “TCO Study for SAP on Amazon Web Services”
  108. 108. Economia com SAP na Nuvem da AWS de até 69% May 2012 “TCO Study for SAP on Amazon Web Services”
  109. 109. Resumo do Dia: Benefícios da Nuvem da AWS Casos de Uso da Nuvem AWS Arquiteturas de Software para o Século XXI (e demos!)
  110. 110. Serviços e Automação = Foco! Sua aplicação Seu negócio e seu diferencial competitivo Inovação, não gestão de hardware / data centers / software Investir tempo dos profissionais de TI no que importa Automatizar o máximo que puder (Insight profundo: Tempo do Profissional de TI = Muito Dinheiro!)
  111. 111. Com AWS, cresça de um servidor
  112. 112. …para milhares Totalmente automatizado!
  113. 113. Infraestrutura Global GovCloud US West US West US East (US ITAR Region) (Northern California) (Oregon) (Northern Virginia) Regiões AWS Pontos Edge AWS South America (Sao Paulo) EU (Ireland) Asia Asia Pacific Pacific (Singapore) (Tokyo) Asia Pacific (Australia)
  114. 114. Regiões da AWS e Zonas de Disponibilidade Cliente pode decidir onde suas aplicações e dados residem
  115. 115. ‘Cost Aware Architecture’ Reduza Custo de …ao utilizar: 1. S3/CloudFront para Otimização de conteúdo estático Compute 2. Load Balancing e Auto-Scaling desde o início 3. Modelos de Preços On-Demand, Reservado e Spot Storage Banco de Dados Dev & Test 4. Armazenar objetos derivados no S3 ‘Reduced Redundancy’ e usar Glacier sempre que possível 5. Read Replicas e/ou ElastiCache para performance e redução de custos dos bancos de dados 6. Ambientes Dev/Test/CI criados/desligados sob demanda 7. A/B Testing e Testes de Carga mais baratos
  116. 116. O que isso significa em termos de custos? Um Exemplo Arquitetura Usual Arquitetura Otimizada Mês Instancias EC2 Medium 1 $ 121 Mês CloudFront Data Transfer Out 1Tb $ 168 Instancias EC2 Medium 4 $ 485 AWS Data Transfer Out 1Tb $ 194 Requisições CloudFront $1.89 TOTAL TOTAL $ 291 $ 679 Custo 57% menor - Até 6 x mais rápido
  117. 117. Volume de Storage no S3
  118. 118. Números de Horas de Servidores EC2
  119. 119. Fevereiro de 2013 48,7 milhões de usuários Levantou $338M de capital Valuation de $2.5B
  120. 120. Web Application Servers Internal Web Services Cache Servers Sharded Database File Storage
  121. 121. Servidores de Aplicação Python 150 instancias EC2 High-CPU Web Application Servers Internal Web Services Cache Servers Sharded Database File Storage
  122. 122. Web Services em Python 35 instancias EC2 High-CPU Web Application Servers Internal Web Services Cache Servers Sharded Database File Storage
  123. 123. Caches Memcache e Redis 90 instancias EC2 High-Memory Web Application Servers Internal Web Services Cache Servers Sharded Database File Storage
  124. 124. Servidores de Bancos de Dados MySQL 70 Pares Master/Slave Web Application Servers Internal Web Services Cache Servers Sharded Database File Storage
  125. 125. Srorage no Amazon S3 8 Bilhões de Objetos • 410 Terabytes Web Application Servers Internal Web Services Cache Servers Sharded Database File Storage
  126. 126. Serviços Auxiliares 60 Instancias EC2 Asynchronous Task Workers Search Logging Data Analysis Operational Tools Development Elastic MapReduce Continuous Integration
  127. 127. • Maior parte do tráfego acontece à tarde e no início da noite, portanto reduzem o número de servidores durante a madrugada em 40%. • No pico gastam $52 por hora com EC2 e à noite, for a do pico, o gasto é de $15 por hora. Economias de até 71%
  128. 128. Ambientes Dev / Test
  129. 129. Versão de Homologação
  130. 130. Versão Beta / MVP
  131. 131. Arquitetura de Produção 1.0 3 2 1
  132. 132. Arquitetura de Produção 2.0
  133. 133. Arquitetura de Produção 3.0
  134. 134. Arquitetura de Produção 4.0
  135. 135. "Startups are all about focus. AWS enables focus" Ray Bradford, Kleiner Perkins, Caulfield & Byers
  136. 136. Automação = Foco! Sua aplicação Seu negócio e seu diferencial competitivo Inovação, não gestão de hardware / data centers / software Investir tempo dos profissionais de TI no que importa Automatizar o máximo que puder (Insight profundo: Tempo do Profissional de TI = Muito Dinheiro!)
  137. 137. …cresceu para 14 milhões de usuários em menos de um ano …chegou a 150 milhões de fotos e terabytes de dados …1 milhão de usuários em 12 horas após lançar versão Android …mais de 100 milhões de usuários ativos em Janeiro de 2013 na Nuvem da AWS… com 3 engenheiros
  138. 138. Construa Aplicações, Não Infraestrutura Automação Total Elastic Beanstalk “Só quero minha aplicação funcionando, com acesso a servidores só se necessário” Controle Total AWS OpsWorks CloudFormation “Quero usar o Chef com simplicidade e orquestração de recipes” “Eu quero colocar no controle de versões toda a definição do meu data center”
  139. 139. Elastic Beanstalk EC2 RDS Upload de sua aplicação Beanstalk faz deploy EBS ELB Você ainda tem controle
  140. 140. …Use serviços prontos quando possível Não construa seu próprio… …mas use como serviço 1. Disparador de Emails Amazon Simple Email Service 2. Fila de Mensagens Amazon Simple Queuing Service 3. Notificações Amazon Simple Notification Service 4. Transcoding Amazon Elastic Transcoder 5. Busca Amazon CloudSearch 6. Monitoração Amazon CloudWatch 7. Gestão de Workflow Amazon Simple Work Flow
  141. 141. DEMOS!!!
  142. 142. White Papers
  143. 143. 4X Mais Confiável e até 1/4 do Custo de Infra Tradicional http://media.amazonwebservices.com/idc_aws_business_value_report_2012.pdf
  144. 144. Storage custa menos na Nuvem que dentro de casa
  145. 145. Relembrando: Benefícios da Nuvem da AWS Casos de Uso da Nuvem AWS Arquiteturas de Software para o Século XXI
  146. 146. OBRIGADO! awshub.com.br slideshare.net/AmazonWebServicesLATAM José Papo AWS Tech Evangelist @josepapo
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×