Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big Data Analytics em Governo

196 views

Published on

Introdução a ciência de
dados com aplicações em
dados educacionais

Published in: Education
  • Be the first to comment

  • Be the first to like this

Big Data Analytics em Governo

  1. 1. Big Data Analytics em Governo Seminário: Aplicação de Ciência de Dados e Big Data nas Empresas Sérgio M. Dias 29/04/17
  2. 2. Agenda Big Data Analytics Ciência de dados • Cientista de dados • Processo em ciência de dados Governo e dados • Algumas soluções de TI para governo • Necessidades e tecnologias
  3. 3. Big Data Analytics!!! Big Data – Quando volume, velocidade ou variedade de dados excede a capacidade de armazenamento e/ou computação – Big Data é relativo, não absoluto Analytics – Aprendizado de máquinas – Mercado • “Relatórios”, painéis, etc
  4. 4. Big Data A cada segundo1 : – 100.000 tweets circulam – 547 websites são criados – mais de 2 milhões de pesquisas (Google) – 48h de vídeos são baixadas no YouTube – 684.478 itens são compartilhados no Facebook... Em governo (Brasil)2 : – Mais de 7 milhões de notas fiscais eletrônicas (NFe) por dia – Mais de 16 bilhões de NFe autorizadas... 1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/
  5. 5. Big Data A cada segundo1 : – 100.000 tweets circulam – 547 websites são criados – mais de 2 milhões de pesquisas (Google) – 48h de vídeos são baixadas no YouTube – 684.478 itens são compartilhados no Facebook... Em governo (Brasil)2 : – Mais de 7 milhões de notas fiscais eletrônicas (NFe) por dia – Mais de 16 bilhões de NFe autorizadas... 1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/ Big Data X Big User
  6. 6. Como lidar com este “dilúvio” de dados? A palavra mais importante no termo “ciência de dados” não é “dados”, mas ciência. Fonte (2010): http://www.economist.com/node/15579717
  7. 7. Ciência de Dados A partir da necessidade de análise desse emaranhado de dados surgiu uma “nova” área da ciência, a chamada ciência de dados – O “quarto paradigma” da ciência1 – A profissão mais “sexy” do século 212 – Uma nova buzzy word! As atividades executadas pelo “cientista de dados”, em menor escala em relação ao volume de dados, são bastante antigas3 1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. 2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century 3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
  8. 8. Ciência de Dados A partir da necessidade de análise desse emaranhado de dados surgiu uma “nova” área da ciência, a chamada ciência de dados – O “quarto paradigma” da ciência1 – A profissão mais “sexy” do século 212 – Uma nova buzzy word! As atividades executadas pelo “cientista de dados”, em menor escala em relação ao volume de dados, são bastante antigas3 1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. 2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century 3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/ Ciência de Dados X Mineração de Dados
  9. 9. Cientista de Dados   – – Fonte (2014): https://www.wired.com/insights/2014/06/tell-kids-data-scientists-doctors/
  10. 10. Cientista de Dados
  11. 11. Cientista de Dados
  12. 12. O que os cientistas de dados fazem? Definem hipóteses e perguntas Definem os conjuntos de dados ideais Determinam que dados podem ser acessados Adquirem os dados Preprocessam os dados Realizam análise de dados exploratória Realizam modelagem estatística dos dados Interpretam resultados de análises Escrevem relatórios sobre os resultados Criam modelos/componentes/códigos reusáveis Compartilham modelos e resultados com outras pessoas Considerando: ● Processos ● Ambientes ● Projetos
  13. 13. O que os cientistas de dados fazem? Informação com alto valor agregado!
  14. 14. Processo em ciência de dados CRISP-DM (CRoss Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)
  15. 15. Processo em ciência de dados
  16. 16. Processo em ciência de dados
  17. 17. Processo em ciência de dados
  18. 18. Big Data Analytics em Governo!!!  Governo é um grande produtor e consumidor de dados  Existe um movimento global de governos e autoridades para publicar dados – O principal objetivo é aumentar a transparência, democracia e proporcionar a criação de serviços públicos
  19. 19. Governo e Dados  Efeitos dos dados (aberto) governamentais sobre as políticas públicas – Inclusão: permite que qualquer cidadão utilize qualquer ferramenta de software para adaptá-los às suas necessidades – Transparência: as partes interessadas podem usá-las da maneira mais adequada ao seu propósito – Responsabilidade: oferecer vários pontos de vista sobre o desempenho do governo no cumprimento de suas metas em políticas públicas
  20. 20. SERPRO e Governo Serviço Federal de Processamento de Dados (SERPRO) – Empresa pública de serviços de governo eletrônico – Vinculada ao Ministério da Fazenda – Criada em 1º de dezembro de 1964 – Sede em Brasília, conta com 11 Projeções Regionais – Mais de 10 mil colaboradores Fornece soluções de TI para o governo
  21. 21. Algumas Soluções de TI para Governo Sistema Público de Escrituração Digital (SPED) – NF-e – EFD ICMS IPI – E-Financeira – Esocial – CT-e – ... Receita Federal do Brasil – Imposto de Renda Certificação Digital
  22. 22. Algumas Soluções de TI para Governo Sistema Público de Escrituração Digital (SPED) – NF-e – EFD ICMS IPI – E-Financeira – Esocial – CT-e – ... Receita Federal do Brasil – Imposto de Renda Certificação Digital
  23. 23. Nota Fiscal Eletrônica (NFe) Modelo nacional de documento fiscal eletrônico que substitui a sistemática de emissão do documento fiscal em papel Mais de 200 milhões de NFe por mês Potencialidade para: – Acompanhamento em tempo real do cenário econômico nacional – Adoção de medidas estratégicas de impacto imediato
  24. 24. Nota Fiscal Eletrônica (NFe) XML Mais de 400 tags Complexo Diferentes versões (estruturas)
  25. 25. Nota Fiscal Eletrônica (NFe)
  26. 26. Escrituração Fiscal Digital (EFD) A Escrituração Fiscal Digital - EFD é um arquivo digital, que se constitui de um conjunto de escriturações de documentos fiscais e de outras informações de interesse dos fiscos das unidades federadas e da Receita Federal do Brasil, bem como de registros de apuração de impostos referentes às operações e prestações praticadas pelo contribuinte.
  27. 27. Escrituração Fiscal Digital (EFD) Mais de 100 mil escriturações por mês Arquivos grandes - Gigas  Arquivo hierárquico – Blocos: 0000, ..., C100, C170, … H010, … Milhões de registros por arquivo Regras de negócio incluídas na estrutura Diferentes versões (estruturas)
  28. 28. Alguns Exemplos de Sistemas Legados Processamento batch e real time
  29. 29. Necessidades Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  30. 30. Necessidades Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados … Lago de dados (data lake): metafora para um repositório que contém uma grande quantidade de dados brutos em formato nativo
  31. 31. Tecnologias: Lago de Dados Soluções baseadas no Ecossistema Apache Soluções empacotadas Grandes fornecedores  ...
  32. 32. Arquitetura Cloudera
  33. 33. Necessidades Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados … Desenvolvimento massivamente paralelo – Multi thread – Multi máquina
  34. 34. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  35. 35. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados XML em formato AVRO
  36. 36. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados Escriturações – Desnormalizada – Diferentes formatos
  37. 37. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  38. 38. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  39. 39. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  40. 40. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ... Uma imagem vale mais do que mil palavras...
  41. 41. Tecnologias: Lago de Dados Integração de grandes volumes de dados Acesso e consulta eficiênte (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  42. 42. Análise de Dados Aplicar algoritmos para: – Descrição: Os dados utilizados em uma análise podem descrever um comportamento ou tendência – Classificação: A tarefa de classificação consiste em determinar a classe de um registro – Regressão: Predizer o valor númerico de um registro a partir de um modelo gerado através de dados conhecidos
  43. 43. Análise de Dados Aplicar algoritmos para: – Agrupamento: Identificação de registros similares – Associação: Identificar atributos relacionados – Análise de Redes Sociais: Modelar relações por meio de análise social e teória dos grafos. – ...
  44. 44. Análise de Dados: Arquiteturas
  45. 45. Análise de Dados: Arquiteturas
  46. 46. Análise de Dados: Tecnológias
  47. 47. Análise de Dados: Tecnológias Ciência de dadas não é ferramenta. É ciência!
  48. 48. Análise de Dados: Programação X Fluxo De Dados
  49. 49. Dúvidas? Perguntas? Grato pela atenção! Sérgio M. Dias | www.sergiomdias.com – Pós-doutorando em Ciência de Dados | PUC Minas • http://www.icei.pucminas.br/projetos/dsrgroup/ – Doutor em Ciência da Computação | UFMG • www.dcc.ufmg.br – Analista Sênior – Cientista de dados | SERPRO • www.serpro.gov.br Contato – sergiomariano@gmail.com – mariano@dcc.ufmg.br – sergio.dias@serpro.gov.br

×