Your SlideShare is downloading. ×
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Mineração de dados e novas oportunidades de análise para sistemas de informação

496

Published on

14º Congresso de Tecnologia da FATEC São Paulo. São Paulo, 2012.

14º Congresso de Tecnologia da FATEC São Paulo. São Paulo, 2012.

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
496
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
12
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Mineração de dados e novas oportunidadesde análise para sistemas de informação Prof. Dalton Martins dmartins@gmail.com FATEC – São Paulo 14º Congresso de Tecnologia da Fatec São PauloDepto. de Tecnologia da Informação 17/10/2012
  • 2. O que é mineração de dados?● É uma tecnologia que combina métodos tradicionais de análise de dados com algoritmos sofisticados para processar grandes volumes de dados;● É também um processo de descoberta de informações úteis em grandes depósitos de dados;● Também fornece capacidade de previsão do resultado em uma observação futura.
  • 3. Mineração e descoberta do conhecimentoEntrada Pré-processamento Mineração Pós-processamento Informaçõesde dados de dados de dados de dados Seleção de recursos Redução de dimensionalidade Padrões de filtragem Normalização Visualização Criação de subconjuntos de dados Interpretação de padrões
  • 4. Desafios motivadores● Escalabilidade: devido aos avanços na geração e coleta, conjuntos de dados com tamanhos em giga, tera e mesmo petabytes estão se tornando comuns;● Alta dimensionalidade: é comum encontrarmos conjuntos de dados com centenas ou milhares de atributos ao invés do punhado comum de uma década atrás;● Dados complexos e heterogêneos: diversificação de tipos de atributos e relacionamento entre eles;● Propriedade e distribuição dos dados: os dados utilizados para análise nem sempre estão mais num mesmo local e pertencem a múltiplas instâncias organizacionais;● Análises não tradicionais: novas técnicas para validação de hipóteses têm surgido atualmente.
  • 5. 4 principais tarefas da Mineração● Modelagem de previsão: se refere à tarefa de construir um modelo para a variável alvo como uma função das variáveis explicativas. – Há dois tipos de tarefas de modelagem de previsão: ● Classificação: usada para variáveis discretas; ● Regressão: usada para variáveis contínuas.● Análise de associação: é usada para descobrir padrões que descrevam características altamente associadas dentro dos dados. – Os padrões descobertos são normalmente representados na forma de regras de implicação ou subconjuntos de características.
  • 6. 4 principais tarefas da Mineração● Análise de grupo: procura encontrar grupos de observações intimamente relacionadas de modo que observações que pertençam ao mesmo grupo sejam mais semelhantes entre si do que com as que pertençam a outros grupos;● Detecção de anomalias: é a tarefa de identificar observações cujas características sejam significativamente diferentes do resto dos dados. Tais observações são conhecidas como anomalias ou fatores estranhos.
  • 7. Conhecimentos de base do minerador de dados● Banco de dados: SQL e a estruturação de dados de sua análise em bancos facilitam a tarefa e o esforço envolvido na mineração● Linguagem de scripts: nem sempre conseguimos os dados no formato que precisamos. Muitas vezes, é preciso mexer e transformar as relações com dados. Linguagens como Python, Perl e PHP podem ajudar muito.● Planilhas: kit básico do minerador. Facilitam gerar gráficos facilmente e calcular dados de base para avaliação do trabalho;● Estatística: conhecimento fundamental para análise exploratória e testes de validação de hipóteses;● Softwares de análise: há muitos softwares hoje em dia que podem ajudar no trabalho, facilitando muitos processos de forma automática. Ex: Gephi, Pajek, R, SPSS, Visone, SciLab, etc....
  • 8. Alguns exemplos de aplicação● Veremos dois exemplos de aplicação de algumas técnicas de mineração – Análise de visitações e uso de um site na Internet; – Análise de padrões de comunicação entre educandos num curso de ensino à distância.
  • 9. Exemplo 1 – site da tabela ao mapa Média de Média de Estados Cidades Visitas páginas/visitas tempo/visita AC 2 143 1,29 124,62 AL 10 6370 1,47 157,44 AM 6 2466 0,65 128,16 AP 2 349 2,11 250,16 BA 34 19046 88,64 1948,3 CE 9 18486 2,46 4632,77 DF 2 13637 4,04 292,14 ES 14 7072 1,99 149,85 GO 12 6709 1,39 66,1 MA 6 4813 2 140,29 MG 54 35851 140,38 2896,88 MS 7 1008 304,82 210,5 MT 8 4366 2,2 145,97 PA 19 4959 1,13 262,06 PB 9 7331 1,31 220,72 PE 4 9313 1,78 230,99 PI 4 5732 2,12 155,19 PR 18 12839 2,7 243,79 RJ 30 27724 53,97 125,57 RN 14 20066 2,79 187,49 RO 4 2360 2,98 175,3 RS 46 22173 154,41 17959 SC 37 13816 2,03 172,01 SE 2 2162 2,27 132,24 SP 115 73544 40,01 3961,85 TO 5 758 3,08 155,2
  • 10. Exemplo 1 – site - conversações
  • 11. Exemplo 1 – site identificando padrões Grau médio das DistânciaEstados Nós Relações Densidade Centralidade relações geodésica AC 1 0 0 0 0 0 AL 4 0 0 0 0 0 AM 8 1 0,02 0,07 0,25 1,00 AP 1 0 0,00 0,00 0,00 0,00 BA 16 0 0,00 0,00 0,00 0,00 CE 37 98 0,07 0,25 5,30 3,00 DF 26 22 0,03 0,15 1,69 3,00 ES 13 0 0,00 0,00 0,00 0,00 GO 3 0 0,00 0,00 0,00 0,00 MA 6 0 0,00 0,00 0,00 0,00 MG 31 21 0,02 0,16 1,35 3,00 MS 18 10 0,03 0,14 1,11 2,00 MT 9 4 0,06 0,19 0,89 1,00 PA 7 0 0,00 0,00 0,00 0,00 PB 3 1 0,17 0,25 0,67 1,00 PE 6 0 0,00 0,00 0,00 0,00 PI 44 49 0,03 0,17 2,23 3,00 PR 30 3 0,00 0,05 0,20 2,00 RJ 22 1 0,00 0,02 0,09 1,00 RN 58 5 0,00 0,03 0,17 2,00 RS 138 368 0,02 0,18 5,33 6,00 SC 33 9 0,01 0,09 0,55 3,00 SP 138 84 0,00 0,10 1,22 5,00 RR 3 0 0,00 0,00 0,00 0,00
  • 12. Exemplo 1 – site - RS
  • 13. Exemplo 1 – site - SP
  • 14. Exemplo 2 – EAD – padrões de comunicação
  • 15. Exemplo 2 – entendendo a rede Nós com mais de 10 conexões.
  • 16. Exemplo 2 – entendendo a rede Nós com mais de 15 conexões.
  • 17. Exemplo 2 – entendendo a rede Nós com mais de 20 conexões.
  • 18. Referências● TAN, Pang-Ning, STEINBACH, Michel, KUMAR, Vipin. Introdução ao Data Mining: mineração de dados. Editora Ciência Moderna. 2009. 900p.
  • 19. Obrigado! Contato: dmartins@gmail.comhttp://daltonmartins.blogspot.com

×