Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Flisol 2016 fidelis - Curitiba - PR - Brazil

378 views

Published on

Como Consumir e minerar dados abertos com Software Livre

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Flisol 2016 fidelis - Curitiba - PR - Brazil

  1. 1. Como consumir e minerar dados abertos com Software Livre Marcos Vinicius Fidelis
  2. 2. Palestrante Professor da UTFPR na graduação desde 1996, e Analista de Informática da UEPG desde 1991. Pesquisador e usuário do WEKA (atual Pentaho Data Mining) desde 1999. Entusiasta de Software Livre e Código Aberto desde 2007. Na UEPG é Coordenador de Projetos na Área de Gestão Acadêmica, e em 2009 implantou os Frameworks Grails e JasperReports utilizados no Sistema de Gestão Acadêmica. Na UTFPR, entre outros softwares, adota o PostgreSQL e Pentaho. Participou como palestrante nos seguintes eventos de Software Livre: FISL, Flisol, FTSL, Latinoware e PentahoDay.
  3. 3. Roadmap ● Open Data ● Internet of Things ● Data Mining ● Knowledge Database Discovery ● Classification ● Pentaho Data Mining – WEKA ● ARFF, Explorer, Experimenter ● Pentaho Data Integration – Kettle ● Hands on ● Conclusion
  4. 4. Uma revolução de dados para quem? ● A crescente disponibilidade de dados digitais e de tecnologias de dados levou muitos grupos da sociedade civil, governos e organizações internacionais a falar de uma “revolução de dados”. Mas que tipos de projetos políticos, modelos de cidadania e formas de ação irá a tal revolução de dados permitir? E a quem irá, em última análise, servir?
  5. 5. Dados Abertos Que são dados abertos? “Dados abertos são aqueles que podem ser usados, reutilizados e distribuídos livremente por qualquer pessoa – no máximo exigindo-se que a fonte seja citada ou que os dados sejam divulgados com a mesma licença.”
  6. 6. Quais tipos de Dados Abertos? ● Geográficos: dados utilizados na criação de mapas (desde a localização de estradas e construções até topografia e limites) ● Culturais: dados sobre obras culturais e artefatos (por exemplo títulos e autores – geralmente coletados e mantidos por galerias, bibliotecas, arquivos e museus) ● Científicos: dados produzidos como parte de pesquisas científicas, desde astronomia até zoologia. ● Financeiros: dados como contas governamentais (receitas e despesas) e informações sobre mercados financeiros (títulos ações, etc). ● Estatísticos: dados produzidos por serviços de estatísticas, como censo e indicadores socioeconômicos. ● Clima: os vários tipos de informações utilizadas para compreender e prever o clima e o tempo. ● Ambiente: Informações relacionadas ao meio ambiente, como presença e nível de poluentes, a qualidade dos rios e oceanos. ● Transporte: dados como horários, rotas e estatísticas pontuais.
  7. 7. Portais de Dados abertos
  8. 8. Internet of things - IoT
  9. 9. Por que Dados Abertos? ● Transparência ● Liberando valor social e comercial ● Participação e engajamento ● e ainda ...
  10. 10. Plataforma Pentaho
  11. 11. O que é Mineração de Dados? ● é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados. ● É formada por um conjunto de ferramentas e técnicas que através do uso de algoritmos de aprendizagem ou classificação baseados em redes neurais e estatística, são capazes de explorar um conjunto de dados, extraindo ou ajudando a evidenciar padrões nestes dados e auxiliando na descoberta de conhecimento. Esse conhecimento pode ser apresentado por essas ferramentas de diversas formas: agrupamentos, hipóteses, regras, árvores de decisão, grafos, etc.
  12. 12. Fases do Processo de Descoberta de Conhecimento (Knowledge Discovery in Databases)
  13. 13. KDD – Knowledge Database Discovery ● KDD inclui atividades multidisciplinares (IA, BD, Estatística e Visualização de Dados) ● Os padrões identificados nos dados devem ser válidos em dados novos e possuir o mesmo grau de confiança. Estes padrões são considerados conhecimento novo ● Um padrão para ser classificado como conhecimento deve ser novo, útil e compreensível, permitindo melhorar o entendimento de um problema ou um procedimento de tomada de decisão ● Torture os dados até confessarem!
  14. 14. WEKA - Histórico ● Existem três versões do Weka – Weka 3.4 - ramo estável que foi criado em 2003 para corresponder com o que está descrito na segunda edição do livro Witten e Frank Data Mining (publicado 2005) . Recebe apenas correções de bugs. – Weka 3.6 - ramo estável que foi criado em meados de 2008 para corresponder com o que está descrito na 3ª edição do Witten, Frank e Hall - livro Data Mining (publicado em janeiro de 2011) . Recebe apenas correções de bugs. – Weka 3.7 – versão de desenvolvimento . Esta é uma continuação da versão 3.6 Recebe correções de bugs e novos recursos. (última 3.7.12 mai/2015) ● Anteriormente – 1992 – submissão do projeto ao governo de NZ (Ian Witten) – 1993 – aprovado pelo governo – 1994 – Primeira versão (principalmente em C) – 1996 – Primeira versão pública – WEKA 2.1 – 1997 – Convertido para Java – 1998 – WEKA 3 (completamente Java) – 2006 – O projeto foi incorporado ao Pentaho
  15. 15. Tarefas mais comuns de DM • Classificação: aprendizado de uma função que mapeia um dado em uma de várias classes conhecidas. • Regressão (predição): aprendizado de uma função que mapeia um dado em um valor real. • Agrupamento (clustering): identificação de grupos de dados onde os dados tem características semelhantes entre si e os grupos tem características diferentes. • Sumarização: descrição do que caracteriza um conjunto de dados (ex. conjunto de regras). • Detecção de desvios ou outliers: identificação de dados que deveriam seguir um padrão mas não o fazem.
  16. 16. Construindo um modelo (classificador)
  17. 17. O que tenho disponível? ● 100+ algoritmos de classificação ● 75 para pré-processamento de dados ● 25 para apoiar o processo de Seleção de Atributos ● 20 para agrupamento, regras de associação, etc ● E muitas outras contribuições como AIS, AC e AG
  18. 18. Arquivo ARFF % 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov) % (c) Date: July, 1988 % @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa ● @relation <relation-name> ● @attribute <attribute-name> <datatype> – numeric – <nominal-specification> – string – date [<date-format>] – Ex: @ATTRIBUTE timestamp DATE "yyyy- MM-dd HH:mm:ss" ● Sparse ARFF files – @data – 0, X, 0, Y, "class A" 0, 0, W, 0, "class B" – @data – {1 X, 3 Y, 4 "class A"} {2 W, 4 "class B"}
  19. 19. Weka – Explorer
  20. 20. Classificador J48 (C4.5) – Árvore de Decisão
  21. 21. Output source code
  22. 22. Experimenter ● permite a comparação de diferentes estratégias de aprendizagem. ● Para problemas de classificação e regressão ● Resultados escritos em um arquivo ou base de dados ● Opções de avaliação: cross-validation, curva de aprendizagem, hold-out ● Pode ser executado com diferentes configurações de parâmetros ● Teste de significância acoplado
  23. 23. Experimenter
  24. 24. Experimenter
  25. 25. PDI & PDM
  26. 26. Onde utilizar DM? ● Quanto mais direcionados os anúncios, mais eficaz você pode ser ● Buscando padrões úteis em dados de vendas, políticas públicas, medicina, seguros, esportes e etc. ● Analisar os dados de sensores, internet das coisas.
  27. 27. Mudando o jeito de gerenciar o negócio ● Uma fase é o BI utilizando ETL e ferramentas analíticas para suporte a decisão ● Outra fase é utilizar o BI antes de acontecer os problemas, prever problemas, e/ou utilizar os sistemas de apoio a decisão baseados em aprendizagem de máquina junto aos sistemas transacionais.
  28. 28. Data Mining e privacidade ● Data Mining busca PADRÕES e não PESSOAS. ● Soluções técnicas podem limitar a invasão de privacidade – Substituir informações sigilosas com um id anônimo – Fornecer saídas aleatórias – Utilizar rótulos em instâncias que escondam o real significado.
  29. 29. Hands on with WEKA Vamos ver na prática como funciona!
  30. 30. Advanced Data Mining with Weka Aprendendo mais sobre Data Mining
  31. 31. Aprendendo mais sobre Data Mining ● http://weka.pentaho.com/ ● http://www.cs.waikato.ac.nz/ml/weka/ ● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka – http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf ● Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems) ● KDnuggets – news, software, jobs, courses,… – www.KDnuggets.com ● ACM SIGKDD – data mining association – www.acm.org/sigkdd
  32. 32. Contato Obrigado a todos! Prof. Marcos Vinicius Fidelis fidelis@utfpr.edu.br

×