Mineração de dados e novas oportunidadesde análise para sistemas de informação        Prof. Dalton Martins       dmartins@...
O que é mineração de dados?●    É uma tecnologia que combina métodos    tradicionais de análise de dados com    algoritmos...
Mineração e descoberta do                  conhecimentoEntrada     Pré-processamento       Mineração     Pós-processamento...
Desafios motivadores●   Escalabilidade: devido aos avanços na geração e    coleta, conjuntos de dados com tamanhos em giga...
4 principais tarefas da Mineração●   Modelagem de previsão: se refere à tarefa de    construir um modelo para a variável a...
4 principais tarefas da Mineração●   Análise de grupo: procura encontrar    grupos de observações intimamente    relaciona...
Conhecimentos de base do             minerador de dados●   Banco de dados: SQL e a estruturação de dados de sua análise em...
Alguns exemplos de aplicação●   Veremos dois exemplos de aplicação de    algumas técnicas de mineração    –   Análise de v...
Exemplo 1 – site  da tabela ao mapa                                   Média de        Média de       Estados Cidades Visit...
Exemplo 1 – site - conversações
Exemplo 1 – site       identificando padrões                   Grau médio                                                 ...
Exemplo 1 – site - RS
Exemplo 1 – site - SP
Exemplo 2 – EAD – padrões de        comunicação
Exemplo 2 – entendendo a rede       Nós com mais de 10 conexões.
Exemplo 2 – entendendo a rede       Nós com mais de 15 conexões.
Exemplo 2 – entendendo a rede       Nós com mais de 20 conexões.
Referências●   TAN, Pang-Ning, STEINBACH, Michel,    KUMAR, Vipin. Introdução ao Data Mining:    mineração de dados. Edito...
Obrigado!             Contato:       dmartins@gmail.comhttp://daltonmartins.blogspot.com
Upcoming SlideShare
Loading in …5
×

Mineração de dados e novas oportunidades de análise para sistemas de informação

1,057 views

Published on

14º Congresso de Tecnologia da FATEC São Paulo. São Paulo, 2012.

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,057
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
23
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Mineração de dados e novas oportunidades de análise para sistemas de informação

  1. 1. Mineração de dados e novas oportunidadesde análise para sistemas de informação Prof. Dalton Martins dmartins@gmail.com FATEC – São Paulo 14º Congresso de Tecnologia da Fatec São PauloDepto. de Tecnologia da Informação 17/10/2012
  2. 2. O que é mineração de dados?● É uma tecnologia que combina métodos tradicionais de análise de dados com algoritmos sofisticados para processar grandes volumes de dados;● É também um processo de descoberta de informações úteis em grandes depósitos de dados;● Também fornece capacidade de previsão do resultado em uma observação futura.
  3. 3. Mineração e descoberta do conhecimentoEntrada Pré-processamento Mineração Pós-processamento Informaçõesde dados de dados de dados de dados Seleção de recursos Redução de dimensionalidade Padrões de filtragem Normalização Visualização Criação de subconjuntos de dados Interpretação de padrões
  4. 4. Desafios motivadores● Escalabilidade: devido aos avanços na geração e coleta, conjuntos de dados com tamanhos em giga, tera e mesmo petabytes estão se tornando comuns;● Alta dimensionalidade: é comum encontrarmos conjuntos de dados com centenas ou milhares de atributos ao invés do punhado comum de uma década atrás;● Dados complexos e heterogêneos: diversificação de tipos de atributos e relacionamento entre eles;● Propriedade e distribuição dos dados: os dados utilizados para análise nem sempre estão mais num mesmo local e pertencem a múltiplas instâncias organizacionais;● Análises não tradicionais: novas técnicas para validação de hipóteses têm surgido atualmente.
  5. 5. 4 principais tarefas da Mineração● Modelagem de previsão: se refere à tarefa de construir um modelo para a variável alvo como uma função das variáveis explicativas. – Há dois tipos de tarefas de modelagem de previsão: ● Classificação: usada para variáveis discretas; ● Regressão: usada para variáveis contínuas.● Análise de associação: é usada para descobrir padrões que descrevam características altamente associadas dentro dos dados. – Os padrões descobertos são normalmente representados na forma de regras de implicação ou subconjuntos de características.
  6. 6. 4 principais tarefas da Mineração● Análise de grupo: procura encontrar grupos de observações intimamente relacionadas de modo que observações que pertençam ao mesmo grupo sejam mais semelhantes entre si do que com as que pertençam a outros grupos;● Detecção de anomalias: é a tarefa de identificar observações cujas características sejam significativamente diferentes do resto dos dados. Tais observações são conhecidas como anomalias ou fatores estranhos.
  7. 7. Conhecimentos de base do minerador de dados● Banco de dados: SQL e a estruturação de dados de sua análise em bancos facilitam a tarefa e o esforço envolvido na mineração● Linguagem de scripts: nem sempre conseguimos os dados no formato que precisamos. Muitas vezes, é preciso mexer e transformar as relações com dados. Linguagens como Python, Perl e PHP podem ajudar muito.● Planilhas: kit básico do minerador. Facilitam gerar gráficos facilmente e calcular dados de base para avaliação do trabalho;● Estatística: conhecimento fundamental para análise exploratória e testes de validação de hipóteses;● Softwares de análise: há muitos softwares hoje em dia que podem ajudar no trabalho, facilitando muitos processos de forma automática. Ex: Gephi, Pajek, R, SPSS, Visone, SciLab, etc....
  8. 8. Alguns exemplos de aplicação● Veremos dois exemplos de aplicação de algumas técnicas de mineração – Análise de visitações e uso de um site na Internet; – Análise de padrões de comunicação entre educandos num curso de ensino à distância.
  9. 9. Exemplo 1 – site da tabela ao mapa Média de Média de Estados Cidades Visitas páginas/visitas tempo/visita AC 2 143 1,29 124,62 AL 10 6370 1,47 157,44 AM 6 2466 0,65 128,16 AP 2 349 2,11 250,16 BA 34 19046 88,64 1948,3 CE 9 18486 2,46 4632,77 DF 2 13637 4,04 292,14 ES 14 7072 1,99 149,85 GO 12 6709 1,39 66,1 MA 6 4813 2 140,29 MG 54 35851 140,38 2896,88 MS 7 1008 304,82 210,5 MT 8 4366 2,2 145,97 PA 19 4959 1,13 262,06 PB 9 7331 1,31 220,72 PE 4 9313 1,78 230,99 PI 4 5732 2,12 155,19 PR 18 12839 2,7 243,79 RJ 30 27724 53,97 125,57 RN 14 20066 2,79 187,49 RO 4 2360 2,98 175,3 RS 46 22173 154,41 17959 SC 37 13816 2,03 172,01 SE 2 2162 2,27 132,24 SP 115 73544 40,01 3961,85 TO 5 758 3,08 155,2
  10. 10. Exemplo 1 – site - conversações
  11. 11. Exemplo 1 – site identificando padrões Grau médio das DistânciaEstados Nós Relações Densidade Centralidade relações geodésica AC 1 0 0 0 0 0 AL 4 0 0 0 0 0 AM 8 1 0,02 0,07 0,25 1,00 AP 1 0 0,00 0,00 0,00 0,00 BA 16 0 0,00 0,00 0,00 0,00 CE 37 98 0,07 0,25 5,30 3,00 DF 26 22 0,03 0,15 1,69 3,00 ES 13 0 0,00 0,00 0,00 0,00 GO 3 0 0,00 0,00 0,00 0,00 MA 6 0 0,00 0,00 0,00 0,00 MG 31 21 0,02 0,16 1,35 3,00 MS 18 10 0,03 0,14 1,11 2,00 MT 9 4 0,06 0,19 0,89 1,00 PA 7 0 0,00 0,00 0,00 0,00 PB 3 1 0,17 0,25 0,67 1,00 PE 6 0 0,00 0,00 0,00 0,00 PI 44 49 0,03 0,17 2,23 3,00 PR 30 3 0,00 0,05 0,20 2,00 RJ 22 1 0,00 0,02 0,09 1,00 RN 58 5 0,00 0,03 0,17 2,00 RS 138 368 0,02 0,18 5,33 6,00 SC 33 9 0,01 0,09 0,55 3,00 SP 138 84 0,00 0,10 1,22 5,00 RR 3 0 0,00 0,00 0,00 0,00
  12. 12. Exemplo 1 – site - RS
  13. 13. Exemplo 1 – site - SP
  14. 14. Exemplo 2 – EAD – padrões de comunicação
  15. 15. Exemplo 2 – entendendo a rede Nós com mais de 10 conexões.
  16. 16. Exemplo 2 – entendendo a rede Nós com mais de 15 conexões.
  17. 17. Exemplo 2 – entendendo a rede Nós com mais de 20 conexões.
  18. 18. Referências● TAN, Pang-Ning, STEINBACH, Michel, KUMAR, Vipin. Introdução ao Data Mining: mineração de dados. Editora Ciência Moderna. 2009. 900p.
  19. 19. Obrigado! Contato: dmartins@gmail.comhttp://daltonmartins.blogspot.com

×