Hadoop, Big Data e Cloud Computing

2,614 views

Published on

Hadoop, Big Data e Cloud Computing . Palestra realizada no Hadoop Users Group São Paulo

Published in: Technology

Hadoop, Big Data e Cloud Computing

  1. 1. Hadoop, Big Data e Cloud Computing Hadoop Users Group SP José Papo AWS Tech Evangelist @josepapo
  2. 2. 4 bytes x 1.000.000 domicílios x 1 medição/mês x 10 anos 480 MBytes
  3. 3. 4 bytes x 1.000.000 domicílios x 1 medição/min x 10 anos 220 TBytes
  4. 4. Onde se vê Big Data Mídia/ Propaganda Anuncios Dirigidos Processa- mento de vídeos e imagens Óleo e Gás Análise Sismica Varejo Recomen- dações Análise de Transações Telecom Cobrança Log de Ligações Uso dos Produtos Instituições Financeiras Simulações de Monte Carlo Análise de Riscos Segurança Anti-virus Detecção de Fraudes Reconheci- mento de Imagens Marketing e Jogos (sobretudo social) Analise Comporta- mental Análise de Uso Métricas “In-game”
  5. 5. “Running 30 Hadoop machines on-premises costs less than $500,000 vs. at least $7 million for an appliance. No wonder everyone is looking out for Hadoop talent… It’s a no-brainer when you plug in real numbers”. Por que novas soluções para Big Data?
  6. 6. Amazon Elastic MapReduce: Clusters já criados por clientes 5.5 M clusters desde Maio de 2010
  7. 7. Alguns clientes do Elastic MapReduce
  8. 8. Sobre o Papel da AWS e Benefícios alcançados • 4 bilhões de requisições por mês; • +300 mil requisições por minuto; • +200 milhões de recomendações todos os dias; • Spot instances: -20% custo aws.
  9. 9. Apontador e MapLink e AWS Apoio:
  10. 10. • Hive (~ 40 instancias spot m3.large) 90% - Utilidades diárias • Streaming 10% - Solr, MapReduces mais complexos (MCMC, FastFourier, e.g.) • Estrutura usada Hive ( ~ 40 instancias spot m3.large), Elastic MapReduce S3 (aproximadamente 7 Tb de dados estruturados em diversos buckets) RDS (dados de organização dos dados do S3) O QUE usam?
  11. 11. Coleta e Storage Processamento e ETL Buscas e Machine Learning Visualização e Relatórios
  12. 12. Coleta e Storage Processamento e ETL Buscas e Machine Learning Visualização e Relatórios
  13. 13. Relacional NoSQL
  14. 14. Como Cloud facilita Coleta e Storage?
  15. 15. Amazon S3: Mais de 2 Trilhões de Objetos 1.1M requisições por segundo
  16. 16. 288 servidores com Cassandra 1.100.000 transações / segundo Benchmarking Cassandra Scalability on AWS - Over a million writes per second 41 dólares / hora (Instâncias Reservadas)
  17. 17. DynamoDB é um Banco de Dados NoSQL “as a service” sem complexidades Armazene e recupere qualquer quantidade de dados Sirva níveis gigantescos de tráfego e requisições Sem instalações de software Não é necessário configurar clusters Custos mínimos de administração
  18. 18. Coleta e Storage Processamento e ETL Buscas e Machine Learning Visualização e Relatórios
  19. 19. "Hadoop é um storage confiável e um sistema analítico" HDFS MapReduce
  20. 20. Como Cloud facilita Processamento e ETL?
  21. 21. Implantar um cluster hadoop é difícil
  22. 22. Reduz complexidade/custo da gestão do Hadoop Integra diretamente com Serviços AWS (EC2, S3, DynamoDB, etc) Facilita a elasticidade para Big Data AMAZON ELASTIC MAPREDUCE
  23. 23. Elasticidade Aumenta para 25 instancias Data Warehouse (Estável) Data Warehouse (Processo Batch) Diminui para 9 instancias Data Warehouse (Estável)
  24. 24. AWS Elastic MapReduce Map reduce HDFS
  25. 25. Input data S3, DynamoDB, Redshift
  26. 26. Elastic MapReduce Code Input data S3, DynamoDB, Redshift
  27. 27. Elastic MapReduce Code Name node Input data S3, DynamoDB, Redshift
  28. 28. Elastic MapReduce Code Name node Input data Elastic cluster S3, DynamoDB, Redshift S3/HDFS
  29. 29. Elastic MapReduce Code Name node Input data S3/HDFS Queries + BI Via JDBC, Pig, Hive S3, DynamoDB, Redshift Elastic cluster
  30. 30. Elastic MapReduce Code Name node Output Input data Queries + BI Via JDBC, Pig, Hive S3, DynamoDB, Redshift Elastic cluster S3/HDFS
  31. 31. Output Input data S3, DynamoDB, Redshift
  32. 32. • Retailer came to Razorfish  3.5 billion records, 71 million unique cookies, 1.7 million targeted ads required per day Targeted Ad User recently purchased a sports movie and is searching for video games (1.7 Million per day) Leveraged Elastic MapReduce to analyze billions of customer clicks and impressions
  33. 33. DEMOS
  34. 34. FERRAMENTAS DE APOIO PARA HADOOP E EMR
  35. 35. Amazon S3 logs Custom Precondition EMR usage-by-geo job Amazon EC2 report generation Amazon DynamoDB event data Amazon RDS demographics Amazon Redshift DW table Amazon Redshift DW table Hive script
  36. 36. Elastic MapReduce, DynamoDB e Hive http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.html
  37. 37. Clusters Elásticos Provisiona rápido Stack Hadoop completo e com diversas opções Sem o peso da gestão de hardware e clusters Otimizações de custos com instancias on-demand, reservadas e spot Benefícios do Elastic MapReduce
  38. 38. Coleta e Storage Processamento e ETL Buscas e Machine Learning Visualização e Relatórios
  39. 39. Como Cloud facilita Buscas e Machine Learning?
  40. 40. Coleta e Storage Processamento e ETL Buscas e Machine Learning Visualização e Relatórios
  41. 41. Como Cloud facilita Visualização e Relatórios?
  42. 42. Soluções SaaS interessantes para Big Data que rodam na Nuvem da AWS
  43. 43. RECURSOS TÉCNICOS awshub.com.br www.bigdatahpc.com aws.amazon.com/pt/big-data
  44. 44. OBRIGADO! aws.typepad.com/brasil slideshare.net/AmazonWebServicesLATAM José Papo AWS Tech Evangelist @josepapo

×