Your SlideShare is downloading. ×
Cloud computing e big data
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Cloud computing e big data

282

Published on

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
282
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
22
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Cloud Computing e Big Data Rodolpho Ugolini - @rugolini Amazon Web Services
  • 2. O que é Computação em Nuvem Sem despesas de Baixo custo Pague apenas capital antecipadas pelo que usa Escalabilidade Agilidade e Time Infraestrutura simples e to Market Self-Service automática Deploy
  • 3. Como a Amazon… About Amazon Web Services Deep experience in building and ? operating global web scale systems …passou a oferecer Cloud Computing?
  • 4. Trafego do mês de Novembro da amazon.com
  • 5. Quanto de capacidade devemos provisionar?
  • 6. Infrestrutura Tradicional não é mais suficiente Desperdício Ambientes de Testes Volume de Dados Picos de Demanda Eventos Sazonais Insatisfação do cliente
  • 7. Infraestrutura de computação tradicional é cara e complexa
  • 8. Precisamos de capacidade ajustável!
  • 9. ... e torça para que tudo dê certo...
  • 10. Existe um outro jeito!
  • 11. Plataforma de Computação AWS Serviços Básicos Amazon Compute Storage Database Networking Zonas de Disponibilidade Pontos de Infraestrutura Distribuição CDN Global Regiões
  • 12. Disponivel Globalmente Region US-WEST (N. California) EU-WEST (Ireland) GOV CLOUD ASIA PAC (Tokyo) US-EAST (Virginia)US-WEST (Oregon) ASIA PAC (Singapore) SOUTH AMERICA (Sao Paulo)
  • 13. Apoiando-se nos ombros do gigante… Dados Você Sua Aplicação Sistema Operacional Serviços Básicos Amazon Compute Storage Database Networking Zonas de Disponibilidade Pontos de Infraestrutura Distribuição CDN Global Regiões
  • 14. A cada dia, a AWS adiciona o equivalente em capacidade computacional, ao que era necessário para manter a Amazon.com de 2000
  • 15. APIs e Automação
  • 16. AutomaçãoEscale capacidade automaticamente
  • 17. Utility computing
  • 18. Utility computing Compute Scaling Security CDN Backup DNS Database Storage Load Balancing Workflow Monitoring Networking Messaging
  • 19. 6 am
  • 20. 10 am
  • 21. 10 am
  • 22. 10 am
  • 23. 7 pm
  • 24. 7 pm
  • 25. 7 pm
  • 26. 40 a 5000 em 3 dias Pico de 5000 instancias Numero de Instancias EC2 Divulagação Viral Lançamento da Integração com Facebook 40 instancias 4/12/2008 4/13/2008 4/14/2008 4/15/2008 4/16/2008 4/17/2008 4/18/2008 4/19/2008 4/20/2008
  • 27. Seu “Data Center” pessoal
  • 28. Objetos armazenados no S3 1 Trilhão 1000,000 750,000 500,000 250,000 0,000 Pico de 750 mil transações por segundo
  • 29. A análise de grandes volumes de dados está se tornando a grande barreira parainovação, competição e produtividade.
  • 30. O que é Big Data? Gerados por computador – estruturados, semi-estruturados ou não-estruturados  Logs (web sites, jogos)  Sensores (tempo, água)  Imagens/vídeos (cameras, segurança) Gerados por pessoas  Blogs/Resenhas/Emails/Fotos Redes Sociais  Facebook, Linkedin, Twitter
  • 31. Big Data está ficando cada vez maior 2.7 Zetabytes em 2012 Mais de 90% não estruturada Dados espalhados em diversos silos Precisamos de ferramentas para lidar com Big Data!
  • 32. Onde se vê Big Data Marketing e Mídia/ Instituições Jogos Óleo e Gás Varejo Telecom SegurançaPropaganda Financeiras (sobretudo social) Analise Anti-virus Comporta- Anuncios Simulações mental Recomen- dações de Monte Dirigidos Carlo Cobrança Log de Análise Detecção Análise de Ligações Sismica de Fraudes Uso Uso dos Processa- Produtos mento de Análise de Análise de vídeos e Transações Riscos Reconheci- imagens mento de Métricas Imagens “In-game”
  • 33. O que é Hadoop?Apache Hadoop  Sistema de storage distribuído e tolerante a falhas (HDFS)  Usa um algoritmo chamado MapReduce para realizar análises estatísticas exaustivas sobre um grande conjunto de dados distribuídosBenefícios-chave Custo mais baixo – Escala linearmente Provado em escala– Petabytes em milhares de nós Flexível – Dados podem ser armazenados com ou sem schema
  • 34. "Hadoop é um storage confiável e um sistema analítico" HDFS MapReduce
  • 35. RDBMS MapReduce (Hadoop) Schema definido Schema não requerido Explora índices para Análises rápidas de dados e recuperação rápida performance uniforme de queries SQL apenas Suporta SQL + outras linguagensNão escala linearmente Escalabilidade linear para reads + writes
  • 36. Implantar um cluster hadoop é difícilhttp://eddie.niese.net/20090313/dont-pity-incompetence/
  • 37. Big Data requer infraestrutura flexível Infraestrutura física leva a hardware e software estático e planejado para atender picos… …e muitas vezes acaba gerando longas filas de processamento
  • 38. +
  • 39. Data Warehouse Elástico Data Warehouse (Processo Batch) Data Warehouse Data Warehouse (Estável) (Estável) Diminui Aumenta para para 25 9 instancias instancias
  • 40. S3Input data
  • 41. S3 Input dataCode Elastic MapReduce
  • 42. S3 Input dataCode Elastic Name MapReduce node
  • 43. S3 Input dataCode Elastic Name MapReduce node Elastic cluster
  • 44. S3 Input dataCode Elastic Name MapReduce node HDFS Elastic cluster
  • 45. S3 Input dataCode Elastic Name MapReduce node Queries HDFS + BI Via JDBC, Pig, Hive Elastic cluster
  • 46. S3 Input dataCode Elastic Name Output MapReduce node S3 + SimpleDB Queries HDFS + BI Via JDBC, Pig, Hive Elastic cluster
  • 47. S3Input data Output S3 + SimpleDB
  • 48. OBRIGADO! aws.amazon.comRodolpho UgoliniAmazon Web Services@rugolini

×