Big Data na Nuvem

2,228 views

Published on

Big Data na Nuvem da AWS

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,228
On SlideShare
0
From Embeds
0
Number of Embeds
180
Actions
Shares
0
Downloads
127
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Big Data na Nuvem

  1. 1. Big Data na AWS Eduardo Horai AWS Solutions Architect
  2. 2. Vários Tutoriais , treinamentos e mentoria em português Inscreva-se agora !! http://awshub.com.br
  3. 3. Agenda 1. Introdução a Big Data 2. Transformando dado em informação 3. Analítico e Computação nas nuvens 4. Ecossistema Big Data 5. Infraestrutura tecnológica para Big Data
  4. 4. Introdução a Big Data 1
  5. 5. Uma das definições de Big Data Quando a quantidade de dados começa a ficar tão grande que você tem que começar a inovar no jeito de coletar, armazenar, organizar, analisar e compartilhar a informação.
  6. 6. Geração Coleta e Armazenamento Análise e processamento Compartilhamento
  7. 7. O custo da geração de dados está caindo…
  8. 8. Geração Coleta e Armazenamento Análise e processamento Compartilhamento custo baixo, alta transferência
  9. 9. Geração Coleta e Armazenamento Análise e processamento Compartilhamento custo baixo, alta transferência extremamente limitado
  10. 10. Dados gerados Disponivel para análise Volume de dados Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011 IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares
  11. 11. Elasticidade e alta escalabilidade + Sem capital adiantado + Paga apenas por uso + Disponível por demanda Remove todos os limites =
  12. 12. Geração Coleta e Armazenamento Análise e processamento Compartilhamento custo baixo, alta transferência extremamente limitado
  13. 13. Geração Coleta e Armazenamento Análise e processamento Compartilhamento Acelerado
  14. 14. Big Data Tecnologias e técnicas para trabalhar de forma produtiva com dados, em qualquer escala
  15. 15. Transformando dado em informação 2
  16. 16. Operador Nacional do Sistema Elétrico Sérgio Mafra Gerente de Inovação em TI
  17. 17. • O Operador Nacional do Sistema Elétrico (ONS) é uma empresa privada, responsável pelo planejamento e operação da geração e transmissão de energia elétrica no Sistema Interligado Nacional (SIN). • Com cerca de 800 funcionários, em 5 localidades (Rio de Janeiro, Recife, Florianópolis e Brasília), o ONS é uma empresa intensiva em informações com uso contínuo de modelos matemáticos que requer HPC (High Performance Computing e Big Data) “A Amazon Web Services permitiu provisionar clusters de alto desempenho em minutos, rodando em paralelo, reduzindo significantemente o tempo total de processamento”. “Com isso, percebemos que a AWSé magicamente, muito mais rápida, elástica e barata que nossos blades atuais” - Sérgio Mafra
  18. 18. • Prover ao ONS uma plataforma de maior capacidade de processamento, permitindo obter uma redução no tempo de solução dos modelos matemáticos, com custo adequado ao tempo de utilização, de fácil gestão do ambiente em cluster e que fosse transparente para a organização. • Permitir o “time-to-market” para a área de TI, detendo o conhecimento e a responsividade às demandas inesperadas provenientes das áreas da organização. O Desafio “Scotty, We Need More Power”
  19. 19. • Redução de cerca de 40% no tempo de resolução dos modelos matemáticos de planejamento eletro-energéticos, com custo 30% inferior. • Condição de analisar 5 estratégias de utilização dos modelos Newave/Decomp em prazo recorde (1 semana), com a execução de 600 casos. O prazo on-premises seria de 3 semanas, incompatível com o compromisso acordado com o MME. Sobre a o Papel da AWS e Benefícios alcançados
  20. 20. Big Data Corp. Thoran Rodrigues CEO
  21. 21. • MercadoPago é a plataforma de pagamentos do Mercado Livre, utilizada em mais de cem mil sites de toda a América Latina. • O MercadoPago precisava de uma visão real do e-commerce no Brasil, tanto no âmbito estratégico quanto no tático. Para alcançar essa visão, a tecnologia tem um papel fundamental. “Com o AWS, conseguimos montar uma visão inédita do e-commerce brasileiro”. “Sem o AWS, teria sido financeiramente inviável executar esse projeto”
  22. 22. O Desafio • O mercado de e-commerce no Brasil sofre da falta de informação. Não existem números precisos sobre a quantidade de sites, muito menos da participação de mercado dos diferentes prestadores de serviço (plataformas, meios de pagamento, etc.) • Para se obter essas informações de maneira efetiva, é necessário um processo massivo de coleta e processamento de informações.
  23. 23. Sobre o Papel da AWS e Benefícios alcançados PARAGRAFO RESUMO CASO _ KEY WORDS de BENEFICIO, DESAFIO VENCIDO – RESUMO DO CASO EM UM PARAGRAFO • Com o AWS, foi possível montar um processo escalável que visita quase todos os sites da internet brasileira (2.5 Milhões) 1x por semana. • Do ínico do projeto até hoje, já foram mais de 16 bilhões de páginas visitadas, mais de 700TB de dados processados, e já poupamos mais de R$ 250 mil com a AWS. • Montamos o 1º mapa compreensivo da web brasileira.
  24. 24. Analítico e computação nas nuvens 3
  25. 25. Geração Coleta e Armazenamento Análise e processamento Compartilhamento
  26. 26. Geração Coleta e Armazenamento Análise e processamento Compartilhamento S3, Glacier, Storage Gateway, DynamoDB, Redshift, RDS, HBase
  27. 27. Geração Coleta e Armazenamento Análise e processamento Compartilhamento EC2 & Elastic MapReduce
  28. 28. Geração Coleta e Armazenamento Análise e processamento EC2 & S3, CloudFormation, Elastic MapReduce, RDS, DynamoDB, Redshift Compartilhamento
  29. 29. Geração Coleta e Armazenamento Análise e processamento AWS Data Pipeline EC2 & S3, CloudFormation, Elastic MapReduce, RDS, DynamoDB, Redshift EC2 & Elastic MapReduce S3, Glacier, Storage Gateway, DynamoDB, Redshift, RDS, HBase Compartilhamento
  30. 30. Geração Coleta e Armazenamento Análise e processamento AWS Data Pipeline EC2 & S3, CloudFormation, Elastic MapReduce, RDS, DynamoDB, Redshift EC2 & Elastic MapReduce S3, Glacier, Storage Gateway, DynamoDB, Redshift, RDS, HBase Compartilhamento
  31. 31. Elastic Map Reduce Hadoop gerenciado, processamento analítico
  32. 32. Input data S3, DynamoDB, Redshift
  33. 33. Elastic MapReduce Código Input data S3, DynamoDB, Redshift
  34. 34. Elastic MapReduce Código Name node Input data S3, DynamoDB, Redshift
  35. 35. Elastic MapReduce Código Name node Input data Elastic cluster S3, DynamoDB, Redshift S3/HDFS
  36. 36. Elastic MapReduce Código Name node Input data S3/HDFS Queries + BI Via JDBC, Pig, Hive S3, DynamoDB, Redshift Elastic cluster
  37. 37. Elastic MapReduce Código Name node Output Input data Queries + BI Via JDBC, Pig, Hive S3, DynamoDB, Redshift Elastic cluster S3/HDFS
  38. 38. Output Input data S3, DynamoDB, Redshift
  39. 39. 1. Clusters elásticos
  40. 40. 10 horas
  41. 41. 6 horas
  42. 42. Capacidade máxima
  43. 43. 2. Rápido, provisionamento dinâmico
  44. 44. (muito) fácil.
  45. 45. Parte pesada e difícil é removida...
  46. 46. 3. E ainda o mesmo Hadoop
  47. 47. Ecosystem robusto. Databases, machine learning, segmentation, clustering, analytics, metadata stores, exchange formats, and so on...
  48. 48. 4. Agilidade para experimentos
  49. 49. Tipos de instâncias Flexibilidade no tipo da instância & número.
  50. 50. 5. Otimização de custo
  51. 51. Feito para Spot. Computação baseada no seu preço.
  52. 52. 1. Clusters elásticos 2. Rápido, provisionamento dinâmico 3. Mesmo Hadoop 4. Agilidade para experimentos 5. Otimização de custos
  53. 53. Ecossistema Big Data 4
  54. 54. Dados, dados, (espalhados) em todo lugar... dados em silos (isolados)
  55. 55. S3 DynamoDB EMR HBase on EMR RDS Redshift On-premisesLogs de App
  56. 56. “Como eu transfiro meus dados para a nuvem?”
  57. 57. Mobilidade dos dados Gerados e armazenados na AWS Transferência de dados entrante é gratuito Multipart upload para S3 Media física (EUA apenas) AWS Direct Connect Replicação de AMIs e snapshots
  58. 58. “Como eu integro meus dados para melhores resultados?”
  59. 59. S3 DynamoDB EMR HBase on EMR RDS Redshift On-premisesLogs de App
  60. 60. S3 DynamoDB EMR HBase on EMR RDS Redshift On-premisesLogs de App
  61. 61. S3 DynamoDB EMR HBase on EMR RDS Redshift On-premisesLogs de App
  62. 62. S3 DynamoDB EMR HBase on EMR RDS Redshift On premisesLogs de App
  63. 63. S3 DynamoDB EMR HBase on EMR RDS Redshift On premisesLogs de App
  64. 64. S3 DynamoDB EMR HBase on EMR RDS Redshift On premisesLogs de App
  65. 65. S3 DynamoDB EMR HBase on EMR RDS Redshift On premisesLogs de App Pedidos do dia Acesso do usuário ERP/Prod utos Histórico de compras Recomendações de compra Analítico de recomendação
  66. 66. AWS Data Pipeline Orquestração de muitos dados
  67. 67. Esqueleto de um pipeline
  68. 68. Pipelines complexos
  69. 69. aws.amazon.com/datapipeline
  70. 70. aws.amazon.com/big-data
  71. 71. Infraestrutura tecnológica para Big Data 5 Bruno Domingues Arquiteto de Soluções Senior, Intel
  72. 72. Analysis of Data Can Transform Society Create new business models and improve organizational processes. Enhance scientific understanding, drive innovation, and accelerate medical cures. Increase public safety and improve energy efficiency with smart grids.
  73. 73. Democratizing Analytics gets Value out of Big Data Unlock Value in Silicon Support Open Platforms Deliver Software Value
  74. 74. Intel at the Intersection of Big Data Enabling exascale computing on massive data sets Helping enterprises build open interoperable clouds Contributing code and fostering ecosystem HPC Cloud Open Source
  75. 75. Intel at the Heart of the Cloud Server Storage Network
  76. 76. Reinventing Supercomputing On Demand
  77. 77. Scale-Out Platform Optimizations for Big Data Cost-effective performance •Intel® Advanced Vector Extension Technology •Intel® Turbo Boost Technology 2.0 •Intel® Advanced Encryption Standard New Instructions Technology
  78. 78. Intel® Advanced Vector Extensions Technology 1 : Performance comparison using Linpack benchmark. See backup for configuration details. For more legal information on performance forecasts go to http://www.intel.com/performance 81 • Newest in a long line of processor instruction innovations • Increases floating point operations per clock up to 2X1 performance Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products.
  79. 79. Intel® Turbo Boost Technology 2.0 More Performance Higher turbo speeds maximize performance for single and multi-threaded applications
  80. 80. Intel® Advanced Encryption Standard New Instructions • Processor assistance for performing AES encryption 7 new instructions • Makes enabled encryption software faster and stronger
  81. 81. Power of the Platform built by Intel Richer user experiences 4HRS 50% Reduction 10MIN 80% Reduction 50% Reduction 40% Reduction TeraSort for 1TB sort Intel® Xeon® Processor E5 2600 Solid-State Drive 10G Ethernet Intel® Apache Hadoop Previous Intel® Xeon® Processor
  82. 82. Cloud Intelligent Systems Clients Virtuous Cycle of Data-Driven Experience
  83. 83. Get 600 Hours of Free Supercomputing Time! www.powerof60.com What can you do in 60 minutes?
  84. 84. Resumo 1. Introdução a Big Data 2. Transformando dado em informação 3. Analítico e Computação nas nuvens 4. Ecossistema Big Data 5. Infraestrutura tecnológica para Big Data
  85. 85. Obrigado! ehorai@amazon.com aws.amazon.com/elasticmapreduce aws.amazon.com/datapipeline aws.amazon.com/big-data

×