1. Redshift was able to analyze Hapyrus' large log data that totaled over 2 TB much faster than their Hadoop cluster. The same query that took Hadoop over 30 minutes took Redshift only 30 seconds, a 50x performance improvement.
2. Redshift was able to easily scale to handle Hapyrus' growing amount of log data as it increased from 1 month to 4 months worth of data, without requiring changes to their query or process.
3. Redshift provided a fully managed data warehouse experience at a lower cost than what Hapyrus could
6. Resumo do Dia:
Benefícios da Nuvem da AWS
Casos de Uso da Nuvem AWS
Arquiteturas de Software para o
Século XXI (e demos!)
7. Resumo do Dia:
Benefícios da Nuvem da AWS
Casos de Uso da Nuvem AWS
Arquiteturas de Software para o
Século XXI
8.
9. “Todos os mercados estão sendo transformados pela nova onda digital”
http://www.amazon.com.br/Digital-Disruption-Unleashing-Innovation-ebook/dp/B009L7QD1S/
13. A Nuvem é o alavancador das novas tendências tecnológicas
14. “Para sobreviver no mercado, empresas precisam
continuamente realocar recursos de processos de
manutenção para processos de inovação.”
15. “Cloud is like a fertilizer that creates Startups”
Eric Ries
16. “Amazon Web Services is probably the most
important thing that has happened to mobile
and web app developers that the press just
misses. Jeff Bezos has accidentally or maybe
on purpose powered a whole generation of
applications.”
Steve Blank
21. Relational Database Service
Virtual Private Cloud
Elastic Map Reduce
Auto Scaling
Reserved Instances
Elastic Load Balancer
Mais de 125 anúncios já feitos em 2013
2009
2010
48
2008
24
2007
SimpleDB
CloudFront
EBS
Availability Zones
Elastic IPs
9
Simple Notification Service
Route 53
RDS Multi-AZ
Singapore Region
Identity Access Management
61
Elastic Beanstalk
Simple Email Service
CloudFormation
RDS for Oracle
ElastiCache
2012
2011
159
82
Amazon FPS
Red Hat EC2
DynamoDB
Simple Workflow
CloudSearch
Storage Gateway
22. Inovação Técnica rápida
e orientada aos clientes
“Queria muito enviar notificações
push para apps móveis de forma
simples e barata”
Jul 28, 2013
Anunciando Amazon SNS for Mobile Push
– 1 milhão de notificações gratuitas por
mês e $1,00 para cada milhão adicional
“Seria tão bom se no Beanstalk eu
pudesse usar Node.js!”
Mar 11, 2013
Anunciando AWS Elastic Beanstalk para
Node.js
“É difícil gerenciar minhas Chef recipes”
Feb 18, 2013
Anunciando AWS OpsWorks
“Seria bom se a AWS deixasse o
processo de Transcoding mais fácil”
Jan 28, 2013
Anunciando Amazon Elastic Transcoder
24. + Caso de Sucesso: Rede Globo
TV Globo detém o título de uma das maiores redes de
televisão do mundo. Atualmente, a rede cobre 98,44%
do território nacional, atingindo 5.482 municípios e
99,50% da população.
“A CredibiliT realizou o projeto usando a camada de managed services ou seja, toda a
arquitetura dos ambientes, setups da infraestrutura, suporte on-going, otimização de
recursos e uso das funcionalidades da AWS. Como são ambientes críticos e que precisam de
alta disponibilidade, implantaram o monitoramento e suporte no regime 24x7. Essa
característica foi fundamental para o sucesso da parceira.”
Marcelo Guerra – Gerente, TV Globo
25. + Caso de Sucesso: Rede Globo
Simultâneo com o programa de TV
Responde à chamadas ao vivo do apresentador
Em média 300K usuários por segundo
“De 10 a 300K nos primeiros 3 minutos…”
Audição online expectativa 100K vídeos
31. Elastic Load Balacing
Auto scaling Group
Public VPC Subnet
Public VPC Subnet
Private VPC Subnet
Private VPC Subnet
Availability Zone A
Availability Zone B
32. + Caso de Sucesso: Rede Globo
http://aws.amazon.com/pt/solutions/casestudies/redeglobo/
Apresentação do Case da TV Globo Success
Case pela AWS no AWS Summit 2013:
http://www.youtube.com/watch?v=kO4fXEP9NBE
33. +
CSCs, o suporte “pay as you go”
“CSCs são créditos que
você utiliza para adquirir
qualquer serviço do
ecossistema CredibiliT.”
34. Gartner Magic Quadrant for Cloud Infrastructure as a Service
(August 19, 2013)
Gartner “Magic Quadrant for Cloud Infrastructure as a Service,” Lydia Leong, Douglas Toombs, Bob Gill, Gregor Petri, Tiny Haynes, August 19, 2013. This Magic Quadrant graphic was published by Gartner, Inc. as part of a larger research note and should be evaluated in the context of the entire report.. The
Gartner report is available upon request from Steven Armstrong (asteven@amazon.com). Gartner does not endorse any vendor, product or service depicted in its research publications, and does not advise technology users to select only those vendors with the highest ratings. Gartner research publications
consist of the opinions of Gartner's research organization and should not be construed as statements of fact. Gartner disclaims all warranties, expressed or implied, with respect to this research, including any warranties of merchantability or fitness for a particular purpose.
40. Nasdaq usa AWS para criar um novo serviço para hedge funds
41. Inovação: Experimentação Rápida com Custo e Risco Baixo
On-Premises
$ Milhões
Menos Experimentos
Centenas
ou Milhares
Experimenta mais
Falhar é caro
Falha rápido com custo baixo
Menos Inovação
Mais Inovação
42. Resumo do Dia:
Benefícios da Nuvem da AWS
Casos de Uso da Nuvem AWS
Arquiteturas de Software para o
Século XXI
44. Analysis of Data Can Transform Society
Enhance scientific
understanding, drive
innovation, and
accelerate medical cures.
Create new business
models and improve
organizational
processes.
Increase public safety
and improve
energy efficiency with
smart grids.
45. Democratizing Analytics gets Value out of Big Data
Unlock Value in
Silicon
Support Open
Platforms
Deliver Software Value
65. Amazon EMR is the #1 Enterprise Hadoop Solution
AWS is “the most prominent
Hadoop cloud service provider”
and “leads the pack (of Leaders)
due to its proven, feature-rich
Elastic MapReduce service…”
-The Forrester Wave™: Enterprise
Hadoop Solutions Q1 2012
74. Core instances run
DataNode and
TaskTracker
daemons
EMR cluster
Master instance group
HDFS
HDFS
Core instance group
75. Optional task
instances can be
added or
subtracted to
perform work
EMR cluster
Master instance group
HDFS
HDFS
Core instance group
Task instance group
76. S3 can be used as
underlying ‘file
system’ for
input/output data
EMR cluster
Master instance group
HDFS
HDFS
Core instance group
Task instance group
Amazon S3
84. Redshift Dramatically Reduces I/O
• Direct-attached storage
• Large data block sizes
• Columnar storage
Id
Age
State
123
20
CA
345
25
WA
678
40
FL
• Data compression
• Zone maps
Row storage
Column storage
85. Redshift Runs on Optimized Hardware
HS1.8XL: 128GB RAM, 16 Cores, 24 Spindles, 16TB Storage, 2GB/sec scan rate
HS1.XL: 16GB RAM, 2 Cores, 3 Spindles, 2TB Storage
•
•
•
•
Optimized for I/O intensive workloads
HS1.8XL available on Amazon EC2
Runs in HPC - fast network
High disk density
Click to grow
…to 1.6PB
87. Resize your cluster while remaining online
New target provisioned in the background
Only charged for source cluster
88. Resize your cluster while remaining online
• Fully automated
Data automatically redistributed
• Read only mode during resize
• Parallel node-to-node data copy
• Automatic DNS-based endpoint
cut-over
• Only charged for one cluster
89. Amazon Redshift has security built-in
Customer VPC
• SSL to secure data in transit
JDBC/ODBC
• Encryption to secure data at rest
AES-256; hardware accelerated
All blocks on disks and in Amazon S3
encrypted
• No direct access to compute nodes
• Amazon VPC support
Ingestion
Backup
Restore
Internal
VPC
10 GigE
(HPC)
90. Continuous Backup, Automated Recovery
• Replication within the cluster and backup to Amazon S3 to
maintain multiple copies of data at all times
• Backups to Amazon S3 are continuous, automatic, and
incremental
Designed for 99.999999999% durability
• Continuous monitoring and automated recovery from failures of
drives and nodes
• Able to restore snapshots to any Availability Zone within a region
91. Redshift is Priced to Analyze All Your Data
$0.85 per hour for on-demand (2TB)
$999 per TB per year (3-yr reservation)
94. Data
We use 5 tables to run a query which join tables and creates a report.
Imp_log
click_log
1) 300GB / 300M record
2) 1.2TB / 1.2B record
date
publisher_id
ad_campaign_id
country
attr1-4
datetime
integer
integer
varchar(30)
varchar(255)
1) 1.4GB / 1.5M record
2) 5.6GB / 6M record
date
publisher_id
ad_campaign_id
bid_price
country
attr1-4
1) for 1 month
2) for 4 months
TSV files, gzip compressed
datetime
integer
integer
real
varchar(30)
varchar(255)
ad_campaign
100MB / 100k record
publisher
10MB / 10k record
advertiser
10MB / 10k record
95. Sample Query
The query generates a basic report for ad campaigns performance, imp, click numbers,
advertiser spending, CTR, CPC and CPM.
select
ac.ad_campaign_id as ad_campaign_id,
adv.advertiser_id as advertiser_id,
cs.spending as spending,
ims.imp_total as imp_total,
cs.click_total as click_total,
click_total/imp_total as CTR,
spending/click_total as CPC,
spending/(imp_total/1000) as CPM
from
ad_campaigns ac
join
advertisers adv
on (ac.advertiser_id = adv.advertiser_id)
join
(select
il.ad_campaign_id,
count(*) as imp_total
from
imp_logs il
group by
il.ad_campaign_id
) ims on (ims.ad_campaign_id = ac.ad_campaign_id)
join
(select
cl.ad_campaign_id,
sum(cl.bid_price) as spending,
count(*) as click_total
from
click_logs cl
group by
cl.ad_campaign_id
) cs on (cs.ad_campaign_id = ac.ad_campaign_id);
96. 1. Query Speed
Processing Time (seconds)
Here, we are comparing Hadoop and Redshift servers of the same cost. (Hadoop: c1.xlarge vs Redshift: dw.hs1.xlarge).
2000
•
Redshift takes 155
seconds to complete
our query for 1.2TB
•
Hadoop takes 1491
seconds to complete
our query for 1.2TB
•
Query Speed
Redshift is about 10
times faster than
Hadoop for this query
1491sec
Redshift
1500
1000
672sec
500
0
38sec
300GB
155sec
Data Size
1.2TB
* The query used can be referenced in our Appendix
97. 2. Total Cost
Cost Per Day (US$)
Here, we are comparing Hadoop and Redshift servers running the same query for the same duration of time.
•
Hadoop costs $210 per
month to run queries
every 30 minutes
•
$400
$350
$300
$250
$200
$150
$100
$50
$0
Redshift costs $20 per
month to run queries
every 30 minutes
•
Cost Per Day (query for 300GB data size)
Redshift is about 10
times cheaper than
Hadoop to run this job
Redshift
Hadoop
0
50
100
150
Query Per Day
200
250
98. Redshift Query Result
Data Size Instance Type
Number of
Instances
300GB
dw.hs1.xlarge
1
1.2TB
dw.hs1.xlarge
1
Trial
1
2
3
4
5
1
2
3
4
5
Processing
Time
58s
43s
31s
30s
30s
164s
149s
158s
156s
150s
Average
Server Cost Per
Day
38s
$20.40
155s
$20.40
99. Hadoop Query Result
Data Size
300GB
1.2TB
Instance Type
c1.xlarge
c1.medium
c1.xlarge
m1.xlarge
c1.medium
c1.xlarge
c1.xlarge
Instance
Number
1
10
10
1
4
10
20
Processing
Time
1h 23m 2s
37m 48s
11m 12s
6h 43m 24s
5h 14m 0s
37m 7s
24m 51s
Server Cost Per
Day
$0.80
$0.89
$1.06
$3.22
$3.04
$3.58
$4.64
101. EMR for Exploratory Analytics
• Used by analysts and data scientists to explore raw data before some, all, or none of it is added to the
data warehouse
• Structured OR Unstructured Data
All data fed into
EMR data store
analytic
sandbox
EMR
Exploratory Analytic
Environment
102. Structured Data and Redshift
reporting
warehouse
Reporting and
BI
OLTP
ERP
RDS
(Relational)
Data
Pipeline
S3
Redshift
103. Structured Data and Redshift
live
archive
Reporting and
BI
OLTP
Web Apps
DynamoDB
(NoSQL)
Data
Pipeline
Redshift
104. Unstructured Data and Redshift
transform
and enrich
logs / files
S3
Data
Pipeline
Reporting and
BI
S3
EMR
exploratory
analytics
Redshift
105. AWS Big Data Overview
Business Apps
RDS
CRM
ERP
Billing
Reporting
and BI
DynamoDB
OLTP
Web Apps
Ad Hoc
Analysis
Data
Pipeline
EMR
EBS
S3
Redshift
Dashboarding
106. Obtenha 600 Horas Gratuitas
de Tempo de Supercomputação!
Passe no Stand da
Intel para obter as 600
horas de computação
www.powerof60.com
108. Construída com altos padrões de segurança
Suas
Apps
Infraestrutura de Segurança AWS
SOC 1/SSAE 16/ISAE 3402,
ISO 27001, PCI DSS, HIPAA, ITAR,
FISMA Moderate, FIPS 140-2, FedRAMP
109. Arquitetura Híbrida com a AWS
Data
Center
Zona de Disponibilidade 1
Link Dedicado
10G
Gateway
Subrede
privada
VPN Gateway
Matriz
Internet
Gateway
Subrede pública
Amazon VPC
Zona de disponibilidade 2
Subsidiárias
“Nuvem Privada não precisa ser
dentro de casa” - Gartner
Amazon S3
Amazon SimpleDB Amazon SES
Região AWS
Amazon SQS
110. Aberta, flexível e suportada pelos principais fornecedores
Sistemas Operacionais
Linguagens e Bibliotecas
Aplicações Certificadas
111. Suporte a muitas linguagens e
ferramentas
Rico conjunto de APIs e kits de dev para as principais linguagens e plataformas
Android
iOS
Java
nodeJS
.NET
PHP
Python
E ferramentas e plugins integrados ao seu ambiente de desenvolvimento
Eclipse
Visual Studio
CLI
Powershell
Ruby
114. Economia com SAP na Nuvem da AWS de até 69%
May 2012 “TCO Study for SAP on Amazon Web Services”
115. Economia com SAP na Nuvem da AWS de até 69%
May 2012 “TCO Study for SAP on Amazon Web Services”
116. Resumo do Dia:
Benefícios da Nuvem da AWS
Casos de Uso da Nuvem AWS
Arquiteturas de Software para o
Século XXI (e demos!)
117.
118. Serviços e Automação = Foco!
Sua aplicação
Seu negócio e seu diferencial competitivo
Inovação, não gestão de hardware / data centers / software
Investir tempo dos profissionais de TI no que importa
Automatizar o máximo que puder
(Insight profundo: Tempo do Profissional de TI = Muito Dinheiro!)
122. Infraestrutura Global
GovCloud
US West
US West
US East
(US ITAR
Region)
(Northern
California)
(Oregon)
(Northern
Virginia)
Regiões AWS
Pontos Edge AWS
South
America
(Sao Paulo)
EU
(Ireland)
Asia
Asia
Pacific Pacific
(Singapore)
(Tokyo)
Asia
Pacific
(Australia)
123. Regiões da AWS e Zonas de Disponibilidade
Cliente pode decidir onde suas aplicações e dados residem
124.
125. ‘Cost Aware Architecture’
Reduza Custo de
…ao utilizar:
1. S3/CloudFront para Otimização de conteúdo estático
Compute
2. Load Balancing e Auto-Scaling desde o início
3. Modelos de Preços On-Demand, Reservado e Spot
Storage
Banco de Dados
Dev & Test
4. Armazenar objetos derivados no S3 ‘Reduced
Redundancy’ e usar Glacier sempre que possível
5. Read Replicas e/ou ElastiCache para performance
e redução de custos dos bancos de dados
6. Ambientes Dev/Test/CI criados/desligados sob demanda
7. A/B Testing e Testes de Carga mais baratos
126. O que isso significa em termos de custos?
Um Exemplo
Arquitetura Usual
Arquitetura Otimizada
Mês
Instancias EC2 Medium
1
$ 121
Mês
CloudFront Data Transfer Out 1Tb $ 168
Instancias EC2 Medium 4
$ 485
AWS Data Transfer Out 1Tb $ 194
Requisições CloudFront
$1.89
TOTAL
TOTAL
$ 291
$ 679
Custo 57% menor - Até 6 x mais rápido
133. Servidores de Aplicação Python
150 instancias EC2 High-CPU
Web Application
Servers
Internal
Web Services
Cache Servers
Sharded Database
File Storage
134. Web Services em Python
35 instancias EC2 High-CPU
Web Application
Servers
Internal
Web Services
Cache Servers
Sharded Database
File Storage
135. Caches Memcache e Redis
90 instancias EC2 High-Memory
Web Application
Servers
Internal
Web Services
Cache Servers
Sharded Database
File Storage
136. Servidores de Bancos de Dados MySQL
70 Pares Master/Slave
Web Application
Servers
Internal
Web Services
Cache Servers
Sharded Database
File Storage
137. Srorage no Amazon S3
8 Bilhões de Objetos • 410 Terabytes
Web Application
Servers
Internal
Web Services
Cache Servers
Sharded Database
File Storage
138. Serviços Auxiliares
60 Instancias EC2
Asynchronous
Task Workers
Search
Logging
Data Analysis
Operational Tools
Development
Elastic MapReduce
Continuous Integration
139. • Maior parte do tráfego acontece à tarde e no início da noite, portanto reduzem o número
de servidores durante a madrugada em 40%.
• No pico gastam $52 por hora com EC2 e à noite, for a do pico, o gasto é de $15 por hora.
Economias de até 71%
147. "Startups are all about focus. AWS enables focus"
Ray Bradford, Kleiner Perkins, Caulfield & Byers
148. Automação = Foco!
Sua aplicação
Seu negócio e seu diferencial competitivo
Inovação, não gestão de hardware / data centers / software
Investir tempo dos profissionais de TI no que importa
Automatizar o máximo que puder
(Insight profundo: Tempo do Profissional de TI = Muito Dinheiro!)
149. …cresceu para 14 milhões de usuários em menos de um ano
…chegou a 150 milhões de fotos e terabytes de dados
…1 milhão de usuários em 12 horas após lançar versão Android
…mais de 100 milhões de usuários ativos em Janeiro de 2013
na Nuvem da AWS… com 3 engenheiros
150. Construa Aplicações, Não Infraestrutura
Automação
Total
Elastic
Beanstalk
“Só quero minha
aplicação funcionando,
com acesso a servidores
só se necessário”
Controle
Total
AWS
OpsWorks
CloudFormation
“Quero usar o Chef com
simplicidade e
orquestração de recipes”
“Eu quero colocar no
controle de versões
toda a definição do meu
data center”
152. …Use serviços prontos quando possível
Não construa seu próprio… …mas use como serviço
1. Disparador de Emails
Amazon Simple Email Service
2. Fila de Mensagens
Amazon Simple Queuing Service
3. Notificações
Amazon Simple Notification Service
4. Transcoding
Amazon Elastic Transcoder
5. Busca
Amazon CloudSearch
6. Monitoração
Amazon CloudWatch
7. Gestão de Workflow
Amazon Simple Work Flow