Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Data analysis open data

149 views

Published on

Apresentação realizada na IV Conferência sobre Tecnologia Cultura e Memória (CTCM-2017).

Palestrante: Batista, Conceição; Macêdo, Roberta
Palestra: Data analysis open data.

Facebook:
https://www.facebook.com/pg/CTCMUFPE/
https://www.facebook.com/liberufpe/

Published in: Education
  • Be the first to comment

Data analysis open data

  1. 1. 1 Data Analysis Open Data Professoras: Ceça e Roberta Estudantes: Jonathan e Lisandra Departamento de Estatística e Informática (DEINFO) Universidade Federal Rural de Pernambuco (UFRPE)
  2. 2. ABCdas TIC
  3. 3. Analytics ABCdas TIC DaaS  Database as a Service AaaS  Analytics as a Service
  4. 4. BD Relacional Data Warehouse OLAP e Data Mining: Inteligência da Empresa Memória da Empresa
  5. 5. BIG DATA DATA WAREHOUSE DATA MINING MACHINE LEARNING A mina de ouro dos bits! Competência
  6. 6. Open Data
  7. 7. Big Data é um tsunami (ainda) em alto mar Data Mining Lifecycle
  8. 8. Explosão de Dados Source: International Data Corporation (IDC) - https://www.idc.com Web 2.0 e IoT 10 20 30 40 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2011  1,7 ZB 2017  14 ZB 2020  40 ZB The measure of all digital data created, replicated and consumed The Digital Universe
  9. 9. Fonte: IBM - http://www.ibm.com/midmarket/br/pt/infografico_bigdata.html 15 petabytes de dados estruturados (10%) e não estruturados (90%) são gerados todos os dias!
  10. 10. Big Data can be characterised as amount of digital data that is uncomfortable to store, transport or analyse.
  11. 11. Seleção
  12. 12. Pré-Processamento
  13. 13. Transformação Estratificação Discretização Cenários
  14. 14. Mineração e Interpretação dos Resultados
  15. 15. BIG DATAcharacterised using 4V’s
  16. 16. The amount of data generated on planet earth is growing exponentially
  17. 17. How much of the vast amounts of data do we analyse?
  18. 18. 0,5%Just imagine the potential here! Source: https://www.forbes.com/sites/bernardmarr
  19. 19. 3% dos dados potencialmente úteis é identificado, menos ainda é analisado.
  20. 20. Se você não está pagando pelo produto/software, você é o produto!Produto = dados que você gera
  21. 21. Deseja conhecer o perfil de clientes/estudantes/pacientes? Deseja encontrar tendências úteis, tais como o comportamento dos consumidores? Pretende agregar valor (R$) com as técnicas de análise de dados? Almeja tornar o marketing mais eficiente, fazendo sua instituição prosperar? Quer descobrir do governo a fim de fiscalizar e cobrar a aplicação das políticas públicas em benefício dos cidadãos? Então, prepare-se para seus dados!
  22. 22. Previsão Descrição
  23. 23. Aplicações Potenciais de DM Áreas de Aplicações Vendas e Marketing Redes Sociais Bancos e Finanças Política Saúde Educação (MDE) Entre outras...
  24. 24. Exemplo clássico de DM O que cerveja tem a ver com fraldas? Suposições: – Tem o mesmo número de letras? – Cerveja no presente, fraldas no futuro? – ???
  25. 25. • Constatou-se que muitos homens casados, entre 25 e 35 anos, compravam fraldas e cervejas às sextas-feiras à tarde/noite (provavelmente no caminho do trabalho para casa). • Walmart otimizou as prateleiras nos pontos de vendas, colocando as fraldas ao lado das cervejas. • Resultado: o consumo cresceu ainda mais. 30%
  26. 26. Exemplo 2 (caso verídico em 2012) Grande rede de varejo dos EUA descobre gravidez de adolescente antes dos pais. TARGET
  27. 27. http://www.forbes.com/sites/kashmirhill/2012/02/16/how- target-figured-out-a-teen-girl-was-pregnant-before-her-father- did/ http://www.nytimes.com/2012/02/19/magazine/shopping- habits.html?pagewanted=all&module=Search&mabReward= relbias%3As&_r=0 Exemplo 2
  28. 28. Exemplo 3 - Banco Itaú Enviava mais de 1 milhão de malas diretas, para todos os correntistas. – No máximo 2% deles respondiam às promoções. Hoje, com a mineração dos dados, as cartas são enviadas apenas a quem tem maior chance de responder. – A taxa de retorno subiu para 30%. – A conta do correio foi reduzida a 1/5.
  29. 29. Exemplo 4 - SERPRO Investiu milhões no seu projeto de DW e DM, desenvolvido em parceria com a Oracle. Consolidou 5% de suas informações, mas atualmente já é possível fazer em 5 minutos cruzamentos de dados que antes demandavam dias de trabalho.
  30. 30. PROJETOS
  31. 31. Projeto de Pesquisa Processo de Descoberta de Conhecimento em Ambientes Virtuais de Aprendizagem da Educação a Distância (FACEPE/CNPq) OBJETIVO: traçar perfil de estudantes e cursos da EaD (PE, PB e Nacional), visando investigar obstáculos enfrentados pelos docentes, discentes e instituições que ofertam cursos na modalidade a distância. DADOS: Sistemas de gestão acadêmica (SIG@ e SIGAA) de duas IES: 2007 a 2014
  32. 32. Projeto de Pesquisa Processo de Descoberta de Conhecimento em Ambientes Virtuais de Aprendizagem da Educação a Distância (FACEPE/CNPq) Deu origem a dois novos projetos: 1. Data Mining em Ambientes Virtuais de Aprendizagem para Educação a Distância (PIBITI/CNPq) – 2014 a 2015. 2. Mineração de Dados Educacionais em Ambientes B-learning de Instituições Federais de Ensino Superior (PIBIC/PIC/UFRPE) – 2015 a 2016
  33. 33. Projeto de Pesquisa Algoritmos do Aprendizado de Máquina Aplicados na Mineração de Dados Educacionais Abertos do INEP OBJETIVO: implementar um ambiente computacional analítico visando analisar o perfil de estudantes e instituições brasileiras de ensino fundamental, médio e superior. DADOS: Censo Escolar Censo da Educação Superior 2014 e 2015
  34. 34. Projeto de Pesquisa Algoritmos do Aprendizado de Máquina Aplicados na Mineração de Dados Educacionais Abertos do INEP Deu origem a dois novos projetos: 1. Algoritmos do Aprendizado de Máquina Aplicados na Mineração de Dados Educacionais do INEP (PIBIC/CNPq) – 2017. 2. Técnicas de Classificação e Associação Aplicadas em Dados Abertos dos Censos da Educação Básica e Superior (PIBITI/CNPq) – 2017.
  35. 35. Orientações TCCBacharelado em Sistemas de Informação
  36. 36. Orientações TCC 2014/2015 Comparação de Algoritmos do Aprendizado de Máquina Aplicados na Mineração de Dados Educacionais – Mirela. Descoberta de Conhecimento Utilizando Mineração de Dados Educacionais Abertos – Tancicleide. Implementação de SIG e Mapas de Kernel visando Acessibilidade na Educação Superior – Fernanda.
  37. 37. Orientações TCC 2016 Análise de desempenho de banco de dados não relacionais no cenário de dados abertos educacionais – Felipe. Processo de descoberta de conhecimento em Big Data educacional para implementação de um Sistema de Informação Geográfica – Rafaella. Análise de modelos de dados não relacionais e multidimensionais no contexto de Big Data – Maria Camila. Um framework multiplataforma para análise e monitoramento de dados governamentais – Geraldo.
  38. 38. Orientações TCC 2017 (em andamento...) Processo KDD de Decretos e Convênios: Estudo de Caso ALEPE – Gustavo. Mapas de Kernel para Análise de Dados Minerados Do Mercado – Anderson.
  39. 39. Pesquisas em Análises de Dados e Dados Abertos Obtenção (e limpeza) dos dados! Limitações
  40. 40. Big Data é um tsunami AINDA em alto mar Data Analyst Data Scientist
  41. 41. Portal Brasileiro de Dados Abertos Dados Abertos do Recife Convênios e Contratos da Administração Pública Federal Portal de Transparência dos Recursos Públicos Federais Portal de Transparência do Conselho Nacional de Justiça Portal de Transparência do Ministério Público Federal Portal de Transparência da Polícia Federal Instituto Brasileiro de Geografia e Estatística (IBGE) Dados Abertos Educacionais do INEP/MEC UCI Repository of Machine Learning Databases Kaggle Datasets Dados abertos da NASA Gapminder Google Public Data e Google Finance Freebase DataViva Bases de Dados Abertas (Diversos Domínios)
  42. 42. Fonte: http://youtu.be/tfaYKbbYnXU (vídeo)
  43. 43. Introdução ao Tema Cap. 28 - Conceitos de Mineração de Dados Cap. 29 - Visão Geral de Data Warehousing e OLAP Cap. 20 Depósito e Mineração de Dados
  44. 44. William H. Inmon Ian H. Witten Pang-Ning Tan Jiawei Han; Micheline Kamber; Jian Pei Matthew A. Russell Gordon S. Linoff Michael J. A. Berry Viktor Mayer-schonberger Bibliografias Indicadas Roland Bouman
  45. 45. 53 Data Analysis Open Data Professoras: Ceça e Roberta Estudantes: Jonathan e Lisandra Departamento de Estatística e Informática (DEINFO) Universidade Federal Rural de Pernambuco (UFRPE)

×