• Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,527
On Slideshare
0
From Embeds
0
Number of Embeds
4

Actions

Shares
Downloads
93
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Big Data na AWS Eduardo Horai AWS Solutions Architect
  • 2. Vários Tutoriais , treinamentos e mentoria em português Inscreva-se agora !! http://awshub.com.br
  • 3. Agenda 1. Introdução a Big Data 2. Transformando dado em informação 3. Analítico e Computação nas nuvens 4. Ecossistema Big Data 5. Infraestrutura tecnológica para Big Data
  • 4. Introdução a Big Data 1
  • 5. Uma das definições de Big Data Quando a quantidade de dados começa a ficar tão grande que você tem que começar a inovar no jeito de coletar, armazenar, organizar, analisar e compartilhar a informação.
  • 6. Geração Coleta e Armazenamento Análise e processamento Compartilhamento
  • 7. O custo da geração de dados está caindo…
  • 8. Geração Coleta e Armazenamento Análise e processamento Compartilhamento custo baixo, alta transferência
  • 9. Geração Coleta e Armazenamento Análise e processamento Compartilhamento custo baixo, alta transferência extremamente limitado
  • 10. Dados gerados Disponivel para análise Volume de dados Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011 IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares
  • 11. Elasticidade e alta escalabilidade + Sem capital adiantado + Paga apenas por uso + Disponível por demanda Remove todos os limites =
  • 12. Geração Coleta e Armazenamento Análise e processamento Compartilhamento custo baixo, alta transferência extremamente limitado
  • 13. Geração Coleta e Armazenamento Análise e processamento Compartilhamento Acelerado
  • 14. Big Data Tecnologias e técnicas para trabalhar de forma produtiva com dados, em qualquer escala
  • 15. Transformando dado em informação 2
  • 16. Operador Nacional do Sistema Elétrico Sérgio Mafra Gerente de Inovação em TI
  • 17. • O Operador Nacional do Sistema Elétrico (ONS) é uma empresa privada, responsável pelo planejamento e operação da geração e transmissão de energia elétrica no Sistema Interligado Nacional (SIN). • Com cerca de 800 funcionários, em 5 localidades (Rio de Janeiro, Recife, Florianópolis e Brasília), o ONS é uma empresa intensiva em informações com uso contínuo de modelos matemáticos que requer HPC (High Performance Computing e Big Data) “A Amazon Web Services permitiu provisionar clusters de alto desempenho em minutos, rodando em paralelo, reduzindo significantemente o tempo total de processamento”. “Com isso, percebemos que a AWSé magicamente, muito mais rápida, elástica e barata que nossos blades atuais” - Sérgio Mafra
  • 18. • Prover ao ONS uma plataforma de maior capacidade de processamento, permitindo obter uma redução no tempo de solução dos modelos matemáticos, com custo adequado ao tempo de utilização, de fácil gestão do ambiente em cluster e que fosse transparente para a organização. • Permitir o “time-to-market” para a área de TI, detendo o conhecimento e a responsividade às demandas inesperadas provenientes das áreas da organização. O Desafio “Scotty, We Need More Power”
  • 19. • Redução de cerca de 40% no tempo de resolução dos modelos matemáticos de planejamento eletro-energéticos, com custo 30% inferior. • Condição de analisar 5 estratégias de utilização dos modelos Newave/Decomp em prazo recorde (1 semana), com a execução de 600 casos. O prazo on-premises seria de 3 semanas, incompatível com o compromisso acordado com o MME. Sobre a o Papel da AWS e Benefícios alcançados
  • 20. Big Data Corp. Thoran Rodrigues CEO
  • 21. • MercadoPago é a plataforma de pagamentos do Mercado Livre, utilizada em mais de cem mil sites de toda a América Latina. • O MercadoPago precisava de uma visão real do e-commerce no Brasil, tanto no âmbito estratégico quanto no tático. Para alcançar essa visão, a tecnologia tem um papel fundamental. “Com o AWS, conseguimos montar uma visão inédita do e-commerce brasileiro”. “Sem o AWS, teria sido financeiramente inviável executar esse projeto”
  • 22. O Desafio • O mercado de e-commerce no Brasil sofre da falta de informação. Não existem números precisos sobre a quantidade de sites, muito menos da participação de mercado dos diferentes prestadores de serviço (plataformas, meios de pagamento, etc.) • Para se obter essas informações de maneira efetiva, é necessário um processo massivo de coleta e processamento de informações.
  • 23. Sobre o Papel da AWS e Benefícios alcançados PARAGRAFO RESUMO CASO _ KEY WORDS de BENEFICIO, DESAFIO VENCIDO – RESUMO DO CASO EM UM PARAGRAFO • Com o AWS, foi possível montar um processo escalável que visita quase todos os sites da internet brasileira (2.5 Milhões) 1x por semana. • Do ínico do projeto até hoje, já foram mais de 16 bilhões de páginas visitadas, mais de 700TB de dados processados, e já poupamos mais de R$ 250 mil com a AWS. • Montamos o 1º mapa compreensivo da web brasileira.
  • 24. Analítico e computação nas nuvens 3
  • 25. Geração Coleta e Armazenamento Análise e processamento Compartilhamento
  • 26. Geração Coleta e Armazenamento Análise e processamento Compartilhamento S3, Glacier, Storage Gateway, DynamoDB, Redshift, RDS, HBase
  • 27. Geração Coleta e Armazenamento Análise e processamento Compartilhamento EC2 & Elastic MapReduce
  • 28. Geração Coleta e Armazenamento Análise e processamento EC2 & S3, CloudFormation, Elastic MapReduce, RDS, DynamoDB, Redshift Compartilhamento
  • 29. Geração Coleta e Armazenamento Análise e processamento AWS Data Pipeline EC2 & S3, CloudFormation, Elastic MapReduce, RDS, DynamoDB, Redshift EC2 & Elastic MapReduce S3, Glacier, Storage Gateway, DynamoDB, Redshift, RDS, HBase Compartilhamento
  • 30. Geração Coleta e Armazenamento Análise e processamento AWS Data Pipeline EC2 & S3, CloudFormation, Elastic MapReduce, RDS, DynamoDB, Redshift EC2 & Elastic MapReduce S3, Glacier, Storage Gateway, DynamoDB, Redshift, RDS, HBase Compartilhamento
  • 31. Elastic Map Reduce Hadoop gerenciado, processamento analítico
  • 32. Input data S3, DynamoDB, Redshift
  • 33. Elastic MapReduce Código Input data S3, DynamoDB, Redshift
  • 34. Elastic MapReduce Código Name node Input data S3, DynamoDB, Redshift
  • 35. Elastic MapReduce Código Name node Input data Elastic cluster S3, DynamoDB, Redshift S3/HDFS
  • 36. Elastic MapReduce Código Name node Input data S3/HDFS Queries + BI Via JDBC, Pig, Hive S3, DynamoDB, Redshift Elastic cluster
  • 37. Elastic MapReduce Código Name node Output Input data Queries + BI Via JDBC, Pig, Hive S3, DynamoDB, Redshift Elastic cluster S3/HDFS
  • 38. Output Input data S3, DynamoDB, Redshift
  • 39. 1. Clusters elásticos
  • 40. 10 horas
  • 41. 6 horas
  • 42. Capacidade máxima
  • 43. 2. Rápido, provisionamento dinâmico
  • 44. (muito) fácil.
  • 45. Parte pesada e difícil é removida...
  • 46. 3. E ainda o mesmo Hadoop
  • 47. Ecosystem robusto. Databases, machine learning, segmentation, clustering, analytics, metadata stores, exchange formats, and so on...
  • 48. 4. Agilidade para experimentos
  • 49. Tipos de instâncias Flexibilidade no tipo da instância & número.
  • 50. 5. Otimização de custo
  • 51. Feito para Spot. Computação baseada no seu preço.
  • 52. 1. Clusters elásticos 2. Rápido, provisionamento dinâmico 3. Mesmo Hadoop 4. Agilidade para experimentos 5. Otimização de custos
  • 53. Ecossistema Big Data 4
  • 54. Dados, dados, (espalhados) em todo lugar... dados em silos (isolados)
  • 55. S3 DynamoDB EMR HBase on EMR RDS Redshift On-premisesLogs de App
  • 56. “Como eu transfiro meus dados para a nuvem?”
  • 57. Mobilidade dos dados Gerados e armazenados na AWS Transferência de dados entrante é gratuito Multipart upload para S3 Media física (EUA apenas) AWS Direct Connect Replicação de AMIs e snapshots
  • 58. “Como eu integro meus dados para melhores resultados?”
  • 59. S3 DynamoDB EMR HBase on EMR RDS Redshift On-premisesLogs de App
  • 60. S3 DynamoDB EMR HBase on EMR RDS Redshift On-premisesLogs de App
  • 61. S3 DynamoDB EMR HBase on EMR RDS Redshift On-premisesLogs de App
  • 62. S3 DynamoDB EMR HBase on EMR RDS Redshift On premisesLogs de App
  • 63. S3 DynamoDB EMR HBase on EMR RDS Redshift On premisesLogs de App
  • 64. S3 DynamoDB EMR HBase on EMR RDS Redshift On premisesLogs de App
  • 65. S3 DynamoDB EMR HBase on EMR RDS Redshift On premisesLogs de App Pedidos do dia Acesso do usuário ERP/Prod utos Histórico de compras Recomendações de compra Analítico de recomendação
  • 66. AWS Data Pipeline Orquestração de muitos dados
  • 67. Esqueleto de um pipeline
  • 68. Pipelines complexos
  • 69. aws.amazon.com/datapipeline
  • 70. aws.amazon.com/big-data
  • 71. Infraestrutura tecnológica para Big Data 5 Bruno Domingues Arquiteto de Soluções Senior, Intel
  • 72. Analysis of Data Can Transform Society Create new business models and improve organizational processes. Enhance scientific understanding, drive innovation, and accelerate medical cures. Increase public safety and improve energy efficiency with smart grids.
  • 73. Democratizing Analytics gets Value out of Big Data Unlock Value in Silicon Support Open Platforms Deliver Software Value
  • 74. Intel at the Intersection of Big Data Enabling exascale computing on massive data sets Helping enterprises build open interoperable clouds Contributing code and fostering ecosystem HPC Cloud Open Source
  • 75. Intel at the Heart of the Cloud Server Storage Network
  • 76. Reinventing Supercomputing On Demand
  • 77. Scale-Out Platform Optimizations for Big Data Cost-effective performance •Intel® Advanced Vector Extension Technology •Intel® Turbo Boost Technology 2.0 •Intel® Advanced Encryption Standard New Instructions Technology
  • 78. Intel® Advanced Vector Extensions Technology 1 : Performance comparison using Linpack benchmark. See backup for configuration details. For more legal information on performance forecasts go to http://www.intel.com/performance 81 • Newest in a long line of processor instruction innovations • Increases floating point operations per clock up to 2X1 performance Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products.
  • 79. Intel® Turbo Boost Technology 2.0 More Performance Higher turbo speeds maximize performance for single and multi-threaded applications
  • 80. Intel® Advanced Encryption Standard New Instructions • Processor assistance for performing AES encryption 7 new instructions • Makes enabled encryption software faster and stronger
  • 81. Power of the Platform built by Intel Richer user experiences 4HRS 50% Reduction 10MIN 80% Reduction 50% Reduction 40% Reduction TeraSort for 1TB sort Intel® Xeon® Processor E5 2600 Solid-State Drive 10G Ethernet Intel® Apache Hadoop Previous Intel® Xeon® Processor
  • 82. Cloud Intelligent Systems Clients Virtuous Cycle of Data-Driven Experience
  • 83. Get 600 Hours of Free Supercomputing Time! www.powerof60.com What can you do in 60 minutes?
  • 84. Resumo 1. Introdução a Big Data 2. Transformando dado em informação 3. Analítico e Computação nas nuvens 4. Ecossistema Big Data 5. Infraestrutura tecnológica para Big Data
  • 85. Obrigado! ehorai@amazon.com aws.amazon.com/elasticmapreduce aws.amazon.com/datapipeline aws.amazon.com/big-data