Successfully reported this slideshow.
Your SlideShare is downloading. ×

TDC2018SP | Trilha BigData - Processando dados de acidentes de transito em streaming com PySpark

Ad

1

Ad

● Ciclista
● Recifense
● Filmes
● Desenvolvedora

Ad

Consultoria de Software
Engajamento em Justiça Social e Econômica
Excelência de Software

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Loading in …3
×

Check these out next

1 of 28 Ad
1 of 28 Ad

More Related Content

More from tdc-globalcode (20)

TDC2018SP | Trilha BigData - Processando dados de acidentes de transito em streaming com PySpark

  1. 1. 1
  2. 2. ● Ciclista ● Recifense ● Filmes ● Desenvolvedora
  3. 3. Consultoria de Software Engajamento em Justiça Social e Econômica Excelência de Software
  4. 4. E estamos contratando! https://www.thoughtworks.com/pt/careers/jobs
  5. 5. Roteiro ● Problema ● De onde vieram os dados? ● Spark ● Streaming ● Alguns Conceitos ● Código ● Informações extraídas dos dados ● Novas tendências ● Considerações Finais
  6. 6. Problema
  7. 7. De onde vieram os dados? Dados abertos da Prefeitura de Recife Acidentes de trânsito em Recife de 2015 a 2018 http://dados.recife.pe.gov.br/dataset/acidentes-de-transito-com-e-sem-viti mas
  8. 8. Spark ● Framework open source para computação distribuída ● Criado em 2009 na Universidade da Califórnia em Berkeley ● 10-20x mais rápido que o MapReduce para certos jobs ● Predição de congestionamentos no trânsito na Bay Area de San Francisco ● Spark Streaming surgiu apenas 2011
  9. 9. Spark ● Rápido ○ In-memory caching ○ Não persiste o dataset de uma operação para outra ○ JVMs ficam rodando em cada nó do cluster ● Propósito Geral ○ É possível desenvolver aplicações compondo vários operadores como mappers, reducers, joins, group-bys e filters
  10. 10. Spark Vários componentes
  11. 11. Spark Vários componentes
  12. 12. Spark Quais as aplicações do Spark? ● Engenharia de dados ● Ciência de dados
  13. 13. Streaming ● Definição ● Batch vs Streaming
  14. 14. Streaming Exemplos ● Coordenadas de GPS ● Mensagens de log ● Tweets ● Exibir informações sobre acidentes de trânsito
  15. 15. Streaming
  16. 16. Alguns Conceitos Abstrações do Spark Streaming ● RDD (Resilient Distributed Dataset) ● DStream (Discretized Stream)
  17. 17. Alguns Conceitos RDD ● Particionado ● Imutável ● Resiliente
  18. 18. Alguns Conceitos RDD import sys from pyspark import SparkContext from pyspark.streaming import StreamingContext sc = SparkContext(appName='RecifeCarAccidentsCount') rdd = sc.textFile('file:///acidentes2018.csv')
  19. 19. Código tipo, situacao, data, hora, bairro, endereco, numero|complemento|natureza|descricao|auto|moto| ciclom|ciclista|pedestre|onibus|caminhao|viatura|outros|vitimas|vitima sfatais "COM VÍTIMA"|"FINALIZADA"|09/01/18|12:31:00|"APIPUCOS"|"RUA DE APIPUCOS"|261|"EM FRENTE AO EDIFICIO ENGENHO APIPUCOS"|"COLISÃO COM CICLISTA"|"COLISÃO COM VÍTIMA"|2|||1||||||1|0 Como estão estruturados os dados
  20. 20. Código Examplo com RDD e DStream usando socketTextStream
  21. 21. Código <live coding>
  22. 22. Informações extraídas dos dados ● Ciclistas que sofreram acidentes de janeiro a abril de 2018 34 ● Ciclistas acidentados em cada mês ○ Janeiro 10 ○ Fevereiro 8 ○ Março 16
  23. 23. Informações extraídas dos dados ● Ciclistas que foram vítimas fatais nesses 3 meses 0 (segundo os dados)
  24. 24. Análises https://github.com/isabarros/recife-traffic-accidents examples/src/main/python/streaming/recife_traffic_accidents_rdd.py
  25. 25. Novas tendências ● Streaming SQL ● RDD vs Dataframe vs Dataset ● https://databricks.com/blog/2016/01/04/introducing-apache-spark-data sets.html
  26. 26. Novas tendências
  27. 27. Considerações Finais ● Vantagens do Spark ● Quando processar dados em Streaming ● Structured Streaming ● GitHub
  28. 28. OBRIGADA

×