Cloud computing e big data

494 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
494
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
30
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Cloud computing e big data

  1. 1. Cloud Computing e Big Data Rodolpho Ugolini - @rugolini Amazon Web Services
  2. 2. O que é Computação em Nuvem Sem despesas de Baixo custo Pague apenas capital antecipadas pelo que usa Escalabilidade Agilidade e Time Infraestrutura simples e to Market Self-Service automática Deploy
  3. 3. Como a Amazon… About Amazon Web Services Deep experience in building and ? operating global web scale systems …passou a oferecer Cloud Computing?
  4. 4. Trafego do mês de Novembro da amazon.com
  5. 5. Quanto de capacidade devemos provisionar?
  6. 6. Infrestrutura Tradicional não é mais suficiente Desperdício Ambientes de Testes Volume de Dados Picos de Demanda Eventos Sazonais Insatisfação do cliente
  7. 7. Infraestrutura de computação tradicional é cara e complexa
  8. 8. Precisamos de capacidade ajustável!
  9. 9. ... e torça para que tudo dê certo...
  10. 10. Existe um outro jeito!
  11. 11. Plataforma de Computação AWS Serviços Básicos Amazon Compute Storage Database Networking Zonas de Disponibilidade Pontos de Infraestrutura Distribuição CDN Global Regiões
  12. 12. Disponivel Globalmente Region US-WEST (N. California) EU-WEST (Ireland) GOV CLOUD ASIA PAC (Tokyo) US-EAST (Virginia)US-WEST (Oregon) ASIA PAC (Singapore) SOUTH AMERICA (Sao Paulo)
  13. 13. Apoiando-se nos ombros do gigante… Dados Você Sua Aplicação Sistema Operacional Serviços Básicos Amazon Compute Storage Database Networking Zonas de Disponibilidade Pontos de Infraestrutura Distribuição CDN Global Regiões
  14. 14. A cada dia, a AWS adiciona o equivalente em capacidade computacional, ao que era necessário para manter a Amazon.com de 2000
  15. 15. APIs e Automação
  16. 16. AutomaçãoEscale capacidade automaticamente
  17. 17. Utility computing
  18. 18. Utility computing Compute Scaling Security CDN Backup DNS Database Storage Load Balancing Workflow Monitoring Networking Messaging
  19. 19. 6 am
  20. 20. 10 am
  21. 21. 10 am
  22. 22. 10 am
  23. 23. 7 pm
  24. 24. 7 pm
  25. 25. 7 pm
  26. 26. 40 a 5000 em 3 dias Pico de 5000 instancias Numero de Instancias EC2 Divulagação Viral Lançamento da Integração com Facebook 40 instancias 4/12/2008 4/13/2008 4/14/2008 4/15/2008 4/16/2008 4/17/2008 4/18/2008 4/19/2008 4/20/2008
  27. 27. Seu “Data Center” pessoal
  28. 28. Objetos armazenados no S3 1 Trilhão 1000,000 750,000 500,000 250,000 0,000 Pico de 750 mil transações por segundo
  29. 29. A análise de grandes volumes de dados está se tornando a grande barreira parainovação, competição e produtividade.
  30. 30. O que é Big Data? Gerados por computador – estruturados, semi-estruturados ou não-estruturados  Logs (web sites, jogos)  Sensores (tempo, água)  Imagens/vídeos (cameras, segurança) Gerados por pessoas  Blogs/Resenhas/Emails/Fotos Redes Sociais  Facebook, Linkedin, Twitter
  31. 31. Big Data está ficando cada vez maior 2.7 Zetabytes em 2012 Mais de 90% não estruturada Dados espalhados em diversos silos Precisamos de ferramentas para lidar com Big Data!
  32. 32. Onde se vê Big Data Marketing e Mídia/ Instituições Jogos Óleo e Gás Varejo Telecom SegurançaPropaganda Financeiras (sobretudo social) Analise Anti-virus Comporta- Anuncios Simulações mental Recomen- dações de Monte Dirigidos Carlo Cobrança Log de Análise Detecção Análise de Ligações Sismica de Fraudes Uso Uso dos Processa- Produtos mento de Análise de Análise de vídeos e Transações Riscos Reconheci- imagens mento de Métricas Imagens “In-game”
  33. 33. O que é Hadoop?Apache Hadoop  Sistema de storage distribuído e tolerante a falhas (HDFS)  Usa um algoritmo chamado MapReduce para realizar análises estatísticas exaustivas sobre um grande conjunto de dados distribuídosBenefícios-chave Custo mais baixo – Escala linearmente Provado em escala– Petabytes em milhares de nós Flexível – Dados podem ser armazenados com ou sem schema
  34. 34. "Hadoop é um storage confiável e um sistema analítico" HDFS MapReduce
  35. 35. RDBMS MapReduce (Hadoop) Schema definido Schema não requerido Explora índices para Análises rápidas de dados e recuperação rápida performance uniforme de queries SQL apenas Suporta SQL + outras linguagensNão escala linearmente Escalabilidade linear para reads + writes
  36. 36. Implantar um cluster hadoop é difícilhttp://eddie.niese.net/20090313/dont-pity-incompetence/
  37. 37. Big Data requer infraestrutura flexível Infraestrutura física leva a hardware e software estático e planejado para atender picos… …e muitas vezes acaba gerando longas filas de processamento
  38. 38. +
  39. 39. Data Warehouse Elástico Data Warehouse (Processo Batch) Data Warehouse Data Warehouse (Estável) (Estável) Diminui Aumenta para para 25 9 instancias instancias
  40. 40. S3Input data
  41. 41. S3 Input dataCode Elastic MapReduce
  42. 42. S3 Input dataCode Elastic Name MapReduce node
  43. 43. S3 Input dataCode Elastic Name MapReduce node Elastic cluster
  44. 44. S3 Input dataCode Elastic Name MapReduce node HDFS Elastic cluster
  45. 45. S3 Input dataCode Elastic Name MapReduce node Queries HDFS + BI Via JDBC, Pig, Hive Elastic cluster
  46. 46. S3 Input dataCode Elastic Name Output MapReduce node S3 + SimpleDB Queries HDFS + BI Via JDBC, Pig, Hive Elastic cluster
  47. 47. S3Input data Output S3 + SimpleDB
  48. 48. OBRIGADO! aws.amazon.comRodolpho UgoliniAmazon Web Services@rugolini

×