0
Cloud Computing e Big Data            Rodolpho Ugolini - @rugolini                 Amazon Web Services
O que é Computação em Nuvem  Sem despesas de       Baixo custo      Pague apenas capital antecipadas                      ...
Como a Amazon… About Amazon Web Services  Deep experience in     building and                    ? operating global web   ...
Trafego do mês de Novembro da amazon.com
Quanto de capacidade devemos provisionar?
Infrestrutura Tradicional não é mais suficiente                                               Desperdício     Ambientes de...
Infraestrutura de computação tradicional é cara e                    complexa
Precisamos de capacidade ajustável!
... e torça para que tudo dê certo...
Existe um outro jeito!
Plataforma de Computação AWS          Serviços Básicos Amazon             Compute         Storage             Database    ...
Disponivel Globalmente                                                Region US-WEST (N. California)                      ...
Apoiando-se nos ombros do gigante…                                       Dados Você                                 Sua Ap...
A cada dia, a AWS adiciona o equivalente em capacidade computacional, ao que era  necessário para manter a    Amazon.com d...
APIs e Automação
AutomaçãoEscale capacidade automaticamente
Utility computing
Utility computing                Compute                          Scaling             Security                        CDN ...
6 am
10 am
10 am
10 am
7 pm
7 pm
7 pm
40 a 5000 em 3 dias                                                                                 Pico de 5000          ...
Seu “Data Center” pessoal
Objetos armazenados no S3                                 1 Trilhão 1000,000  750,000  500,000  250,000    0,000     Pico ...
A análise de grandes  volumes de dados  está se tornando a grande barreira parainovação, competição   e produtividade.
O que é Big Data? Gerados por computador – estruturados, semi-estruturados ou não-estruturados   Logs (web sites, jogos) ...
Big Data está ficando cada vez maior                     2.7 Zetabytes em 2012                     Mais de 90% não estrutu...
Onde se vê Big Data                                                                                 Marketing e   Mídia/  ...
O que é Hadoop?Apache Hadoop  Sistema de storage distribuído e tolerante a falhas   (HDFS)  Usa um algoritmo chamado Map...
"Hadoop é um storage confiável e um sistema analítico"               HDFS                MapReduce
RDBMS               MapReduce (Hadoop)   Schema definido         Schema não requerido Explora índices para    Análises ráp...
Implantar um cluster hadoop é difícilhttp://eddie.niese.net/20090313/dont-pity-incompetence/
Big Data requer infraestrutura flexível  Infraestrutura física leva a  hardware e software estático e  planejado para aten...
+
Data Warehouse Elástico                               Data Warehouse                               (Processo Batch) Data W...
S3Input data
S3        Input dataCode   Elastic       MapReduce
S3        Input dataCode   Elastic       Name       MapReduce     node
S3        Input dataCode   Elastic       Name       MapReduce     node                            Elastic                 ...
S3        Input dataCode   Elastic       Name       MapReduce     node                                      HDFS          ...
S3        Input dataCode   Elastic                Name       MapReduce              node                         Queries  ...
S3        Input dataCode   Elastic                Name                            Output       MapReduce              node...
S3Input data                    Output                  S3 + SimpleDB
OBRIGADO!         aws.amazon.comRodolpho UgoliniAmazon Web Services@rugolini
Cloud computing e big data
Cloud computing e big data
Cloud computing e big data
Cloud computing e big data
Cloud computing e big data
Cloud computing e big data
Cloud computing e big data
Cloud computing e big data
Cloud computing e big data
Upcoming SlideShare
Loading in...5
×

Cloud computing e big data

288

Published on

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
288
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
22
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Transcript of "Cloud computing e big data"

  1. 1. Cloud Computing e Big Data Rodolpho Ugolini - @rugolini Amazon Web Services
  2. 2. O que é Computação em Nuvem Sem despesas de Baixo custo Pague apenas capital antecipadas pelo que usa Escalabilidade Agilidade e Time Infraestrutura simples e to Market Self-Service automática Deploy
  3. 3. Como a Amazon… About Amazon Web Services Deep experience in building and ? operating global web scale systems …passou a oferecer Cloud Computing?
  4. 4. Trafego do mês de Novembro da amazon.com
  5. 5. Quanto de capacidade devemos provisionar?
  6. 6. Infrestrutura Tradicional não é mais suficiente Desperdício Ambientes de Testes Volume de Dados Picos de Demanda Eventos Sazonais Insatisfação do cliente
  7. 7. Infraestrutura de computação tradicional é cara e complexa
  8. 8. Precisamos de capacidade ajustável!
  9. 9. ... e torça para que tudo dê certo...
  10. 10. Existe um outro jeito!
  11. 11. Plataforma de Computação AWS Serviços Básicos Amazon Compute Storage Database Networking Zonas de Disponibilidade Pontos de Infraestrutura Distribuição CDN Global Regiões
  12. 12. Disponivel Globalmente Region US-WEST (N. California) EU-WEST (Ireland) GOV CLOUD ASIA PAC (Tokyo) US-EAST (Virginia)US-WEST (Oregon) ASIA PAC (Singapore) SOUTH AMERICA (Sao Paulo)
  13. 13. Apoiando-se nos ombros do gigante… Dados Você Sua Aplicação Sistema Operacional Serviços Básicos Amazon Compute Storage Database Networking Zonas de Disponibilidade Pontos de Infraestrutura Distribuição CDN Global Regiões
  14. 14. A cada dia, a AWS adiciona o equivalente em capacidade computacional, ao que era necessário para manter a Amazon.com de 2000
  15. 15. APIs e Automação
  16. 16. AutomaçãoEscale capacidade automaticamente
  17. 17. Utility computing
  18. 18. Utility computing Compute Scaling Security CDN Backup DNS Database Storage Load Balancing Workflow Monitoring Networking Messaging
  19. 19. 6 am
  20. 20. 10 am
  21. 21. 10 am
  22. 22. 10 am
  23. 23. 7 pm
  24. 24. 7 pm
  25. 25. 7 pm
  26. 26. 40 a 5000 em 3 dias Pico de 5000 instancias Numero de Instancias EC2 Divulagação Viral Lançamento da Integração com Facebook 40 instancias 4/12/2008 4/13/2008 4/14/2008 4/15/2008 4/16/2008 4/17/2008 4/18/2008 4/19/2008 4/20/2008
  27. 27. Seu “Data Center” pessoal
  28. 28. Objetos armazenados no S3 1 Trilhão 1000,000 750,000 500,000 250,000 0,000 Pico de 750 mil transações por segundo
  29. 29. A análise de grandes volumes de dados está se tornando a grande barreira parainovação, competição e produtividade.
  30. 30. O que é Big Data? Gerados por computador – estruturados, semi-estruturados ou não-estruturados  Logs (web sites, jogos)  Sensores (tempo, água)  Imagens/vídeos (cameras, segurança) Gerados por pessoas  Blogs/Resenhas/Emails/Fotos Redes Sociais  Facebook, Linkedin, Twitter
  31. 31. Big Data está ficando cada vez maior 2.7 Zetabytes em 2012 Mais de 90% não estruturada Dados espalhados em diversos silos Precisamos de ferramentas para lidar com Big Data!
  32. 32. Onde se vê Big Data Marketing e Mídia/ Instituições Jogos Óleo e Gás Varejo Telecom SegurançaPropaganda Financeiras (sobretudo social) Analise Anti-virus Comporta- Anuncios Simulações mental Recomen- dações de Monte Dirigidos Carlo Cobrança Log de Análise Detecção Análise de Ligações Sismica de Fraudes Uso Uso dos Processa- Produtos mento de Análise de Análise de vídeos e Transações Riscos Reconheci- imagens mento de Métricas Imagens “In-game”
  33. 33. O que é Hadoop?Apache Hadoop  Sistema de storage distribuído e tolerante a falhas (HDFS)  Usa um algoritmo chamado MapReduce para realizar análises estatísticas exaustivas sobre um grande conjunto de dados distribuídosBenefícios-chave Custo mais baixo – Escala linearmente Provado em escala– Petabytes em milhares de nós Flexível – Dados podem ser armazenados com ou sem schema
  34. 34. "Hadoop é um storage confiável e um sistema analítico" HDFS MapReduce
  35. 35. RDBMS MapReduce (Hadoop) Schema definido Schema não requerido Explora índices para Análises rápidas de dados e recuperação rápida performance uniforme de queries SQL apenas Suporta SQL + outras linguagensNão escala linearmente Escalabilidade linear para reads + writes
  36. 36. Implantar um cluster hadoop é difícilhttp://eddie.niese.net/20090313/dont-pity-incompetence/
  37. 37. Big Data requer infraestrutura flexível Infraestrutura física leva a hardware e software estático e planejado para atender picos… …e muitas vezes acaba gerando longas filas de processamento
  38. 38. +
  39. 39. Data Warehouse Elástico Data Warehouse (Processo Batch) Data Warehouse Data Warehouse (Estável) (Estável) Diminui Aumenta para para 25 9 instancias instancias
  40. 40. S3Input data
  41. 41. S3 Input dataCode Elastic MapReduce
  42. 42. S3 Input dataCode Elastic Name MapReduce node
  43. 43. S3 Input dataCode Elastic Name MapReduce node Elastic cluster
  44. 44. S3 Input dataCode Elastic Name MapReduce node HDFS Elastic cluster
  45. 45. S3 Input dataCode Elastic Name MapReduce node Queries HDFS + BI Via JDBC, Pig, Hive Elastic cluster
  46. 46. S3 Input dataCode Elastic Name Output MapReduce node S3 + SimpleDB Queries HDFS + BI Via JDBC, Pig, Hive Elastic cluster
  47. 47. S3Input data Output S3 + SimpleDB
  48. 48. OBRIGADO! aws.amazon.comRodolpho UgoliniAmazon Web Services@rugolini
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×