Cloud computing e big data

Cloud Computing e Big Data
Rodolpho Ugolini - @rugolini
Amazon Web Services

O que é Computação em Nuvem

Sem despesas de Baixo custo Pague apenas
capital antecipadas pelo que usa

Escalabilidade Agilidade e Time
Infraestrutura
simples e to Market
Self-Service
automática
Deploy

Como a Amazon…
About Amazon
Web Services

Deep experience in
building and
?
operating global web
scale systems

…passou a oferecer Cloud Computing?

Trafego do mês de Novembro da amazon.com

Quanto de capacidade devemos provisionar?

Infrestrutura Tradicional não é mais suficiente
Desperdício

Ambientes de Testes Volume de Dados

Picos de Demanda Eventos Sazonais

Insatisfação do cliente

Infraestrutura de computação tradicional é cara e
complexa

Precisamos de capacidade ajustável!

... e torça para que tudo dê certo...

Plataforma de Computação AWS

Serviços Básicos
Amazon

Compute Storage Database Networking

Zonas de
Disponibilidade Pontos de
Infraestrutura Distribuição CDN
Global Regiões

Disponivel Globalmente

Region

US-WEST (N. California) EU-WEST (Ireland)

GOV CLOUD ASIA PAC
(Tokyo)

US-EAST (Virginia)

US-WEST (Oregon)

ASIA PAC
(Singapore)
SOUTH AMERICA (Sao
Paulo)

Apoiando-se nos ombros do gigante…

Dados
Você

Sua Aplicação

Sistema Operacional

Serviços Básicos
Amazon

Compute Storage Database Networking

Zonas de
Disponibilidade Pontos de
Infraestrutura Distribuição CDN
Global Regiões

A cada dia, a AWS adiciona o
equivalente em capacidade
computacional, ao que era
necessário para manter a
Amazon.com de 2000

Automação
Escale capacidade automaticamente

Utility computing

Compute
Scaling
Security
CDN Backup
DNS Database
Storage Load Balancing
Workflow Monitoring
Networking
Messaging

40 a 5000 em 3 dias
Pico de 5000
instancias
Numero de Instancias EC2

Divulagação
Viral
Lançamento da
Integração com
Facebook

40 instancias

4/12/2008 4/13/2008 4/14/2008 4/15/2008 4/16/2008 4/17/2008 4/18/2008 4/19/2008 4/20/2008

Objetos armazenados no S3

1 Trilhão
1000,000

750,000

500,000

250,000

0,000

Pico de 750 mil transações por segundo

A análise de grandes
volumes de dados
está se tornando a
grande barreira para
inovação, competição
e produtividade.

O que é Big Data?
Gerados por computador –
estruturados, semi-estruturados ou
não-estruturados
 Logs (web sites, jogos)
 Sensores (tempo, água)
 Imagens/vídeos (cameras, segurança)

Gerados por pessoas
 Blogs/Resenhas/Emails/Fotos

Redes Sociais
 Facebook, Linkedin, Twitter

Big Data está ficando cada vez maior

2.7 Zetabytes em 2012
Mais de 90% não estruturada
Dados espalhados em diversos
silos

Precisamos de ferramentas para
lidar com Big Data!

Onde se vê Big Data
Marketing e
Mídia/ Instituições Jogos
Óleo e Gás Varejo Telecom Segurança
Propaganda Financeiras (sobretudo
social)

Analise
Anti-virus Comporta-
Anuncios Simulações mental
Recomen-
dações de Monte
Dirigidos Carlo
Cobrança

Log de
Análise Detecção Análise de
Ligações
Sismica de Fraudes Uso

Uso dos
Processa- Produtos
mento de Análise de Análise de
vídeos e Transações Riscos Reconheci-
imagens mento de
Métricas
Imagens “In-game”

O que é Hadoop?
Apache Hadoop
 Sistema de storage distribuído e tolerante a falhas
(HDFS)
 Usa um algoritmo chamado MapReduce para realizar
análises estatísticas exaustivas sobre um grande
conjunto de dados distribuídos

Benefícios-chave
 Custo mais baixo – Escala linearmente
 Provado em escala– Petabytes em milhares de nós
 Flexível – Dados podem ser armazenados com ou sem schema

"Hadoop é um storage confiável e um sistema analítico"

HDFS MapReduce

RDBMS MapReduce (Hadoop)

Schema definido Schema não requerido
Explora índices para Análises rápidas de dados e
recuperação rápida performance uniforme de
queries
SQL apenas Suporta SQL + outras
linguagens
Não escala linearmente Escalabilidade linear para
reads + writes

Implantar um cluster hadoop é difícil

http://eddie.niese.net/20090313/dont-pity-incompetence/

Big Data requer infraestrutura flexível

Infraestrutura física leva a
hardware e software estático e
planejado para atender picos…

…e muitas vezes acaba
gerando longas filas de
processamento

Data Warehouse Elástico

Data Warehouse
(Processo Batch)
Data Warehouse Data Warehouse
(Estável) (Estável)

Diminui
Aumenta para
para 25 9
instancias instancias

S3

Input data

Code Elastic
MapReduce

S3

Input data

Code Elastic Name
MapReduce node

S3

Input data

Code Elastic Name
MapReduce node

Elastic
cluster

S3

Input data

Code Elastic Name
MapReduce node

HDFS

Elastic
cluster

S3

Input data

Code Elastic Name
MapReduce node

Queries
HDFS
+ BI
Via JDBC, Pig, Hive
Elastic
cluster

S3

Input data

Code Elastic Name Output
MapReduce node S3 + SimpleDB

Queries
HDFS
+ BI
Via JDBC, Pig, Hive
Elastic
cluster

S3

Input data

Output
S3 + SimpleDB

OBRIGADO!
aws.amazon.com
Rodolpho Ugolini
Amazon Web Services
@rugolini

Cloud computing e big data

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (9)

Semelhante a Cloud computing e big data

Semelhante a Cloud computing e big data (20)

Mais de PET Computação

Mais de PET Computação (20)

Último

Último (20)

Cloud computing e big data