Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

TDC2018SP | Trilha BigData - O que nao te falam sobre ir de uma pipeline de dados de batch para streaming

33 views

Published on

TDC2018SP | Trilha BigData - O que nao te falam sobre ir de uma pipeline de dados de batch para streaming

Published in: Education
  • Be the first to comment

  • Be the first to like this

TDC2018SP | Trilha BigData - O que nao te falam sobre ir de uma pipeline de dados de batch para streaming

  1. 1. Coisas interessantes para saber quando começar a processar dados em streaming algumas vivências de projeto
  2. 2. Quem sou eu?
  3. 3. Expectativas? Temos!!
  4. 4. vamos falar! ✔ domínio de negócio ✔ valor de negócio ✔ soluções possíveis (não únicas) ✔ monitoramento ✔ recuperação de dados ✔ serviços da AWS ✔ alternativas para deploy não vamos falar ✖ segurança ✖ performance ✖ Spark ou Flink? ✖ código
  5. 5. Processamento de dados de sensores. Como fazemos?
  6. 6. em batch Pipeline de Detecção de Falhas Serviços Auxiliares ETL S3 Bucket Serviços Auxiliares
  7. 7. Era uma vez o tão esperado "vê se rola" (MVP)
  8. 8. em batch e streaming Serviços Auxiliares ETL S3 Bucket Serviços Auxiliares Streaming Pipeline S3 Bucket Pipeline de Detecção de Falhas
  9. 9. Mas e se a gente falhar?
  10. 10. Pipeline de Dados Resiliente ✔ escalabilidade ✔ disponibilidade ✔ rápida recuperação de falhas
  11. 11. Cenários: 1. reprocessamento de dados 2. estratégia de deploy fonte: https://i.gifer.com/3vwT.gif
  12. 12. Reprocessamento de dados Contexto Contexto: ● streaming dados que são enviados atualmente de uma em uma hora; Pontos de Atenção: ● restrição de escalabilidade no Kinesis; ● limite de leitura de dados do Kinesis;
  13. 13. Reprocessamento de dados Solução Atual ● mecanismo de reprocessamento das Lambdas ● backup dos dados puros ● monitoramento via Splunk e CloudWatch ● reprocessamento dos dados via postagem Streaming Pipeline
  14. 14. Reprocessamento de dados Outras Soluções ● Dead Letter Queues (DLQ) fonte: https://cdn-images-1.medium.com/max/1600/1*RrSXb7Kiep3OX5KIMVoqBg.png
  15. 15. Estratégia de Deploy Contexto ● todas as Lambdas se encontram em um mesmo projeto; ● pipeline de dados principal em um cluster Spark
  16. 16. Estratégia de Deploy Solução Atual ● monitoramento
  17. 17. Estratégia de Deploy Soluções Futuras ● Blue Green deployment ● Spark checkpoint fonte: https://martinfowler.com/bliki/images/blueGreenDeployment/blue_green_deployments.png
  18. 18. Pontos de Atenção ● Arquitetura evolutiva ● Logs, logs e mais logs ● Engenharia do Caos
  19. 19. Lições Aprendidas ✓ MVP é MVP ✓ entenda as necessidades do contexto atual ✓ entenda as limitações da equipe ✓ irão ser geradas dívidas técnicas, mas tudo bem
  20. 20. Literaturas
  21. 21. Referências gerador de ppt: http://lulapptgenerator.top implantação blue green: https://martinfowler.com/bliki/BlueGreenD eployment.html atualizando aplicações spark: https://spark.apache.org/docs/latest/strea ming-programming- guide.html#upgrading-application-code ícones AWS: https://aws.amazon.com/architecture/i cons/ resiliência em microserviços: https://www.infoq.com/br/presentation s/resiliencia-com-microservices-cache- distribuido-feedback-e-tuning 3 Pro Tips for Developers using AWS Lambda with Kinesis Streams: https://read.acloud.guru/aws-lambda- 3-pro-tips-for-working-with-kinesis- streams-8f6182a03113 The world beyond batch: Streaming 101 https://www.oreilly.com/ideas/the- world-beyond-batch-streaming-101
  22. 22. Referências Understanding Retry Behavior: https://docs.aws.amazon.com/lambda/late st/dg/retries-on-errors.html Building Microservices: Designing Fine- Grained Systems: https://samnewman.io/books/building_mic roservices/ Dead letter queue: https://en.wikipedia.org/wiki/Dead_letter_ queue Building Reliable Reprocessing and Dead Letter Queues with Kafka https://eng.uber.com/reliable- reprocessing/ Splunk e Jenkins ícone ic8.link/49188 ; ic8.link/49188 Princípios do caos https://principlesofchaos.org/ Data Pipeline Design Considerations https://bostata.com/post/data_pipeline _design_considerations/ Radar Tecnológico https://www.thoughtworks.com/pt/rad ar https://www.facebook.com/TWTechTal ksRecife/
  23. 23. Obrigada :) Para sugestões, feedbacks e dúvidas: mirelythaisa@gmail.com nas internets: Twitter: @thaisa_mirely

×