Data Mining<br />Ângelo Vidal de Negreiros<br />Eduardo de Lucena Falcão<br />Eduardo Farias Silva<br />
Introdução<br />Visão Geral<br />KDD, Data Mining, Data Warehouses<br />Histórico<br />Etapa para extrações das Informaçõe...
Custo de armazenamento<br />Poder de armazenamento<br />Bancos de dados <br />Grande quantidade de dados brutos (>>Terabyt...
Visão Geral<br />
KDD - Knowledge Discovery in Database<br />processo não trivial de identificar em grandes conjuntos de dados padrões que s...
Data Warehouses<br />sistema de computação utilizado para armazenar informações relativas às atividades de uma organização...
Histórico<br />Visão Geral<br />
Integrado<br />Não volátil<br />Variante no tempo<br />Granularidade<br />Etc.<br />Características de um DW<br />
Planejamento<br />Levantamento de necessidades<br />Modelagem Dimensional<br />Projeto Físico dos BDs<br />Projeto de ETC ...
Etapa para extrações das informações(KDD) <br />
Limpeza dos dados: <br />Dados incompletos ou inconsistentes  Dados completos e consistentes<br />Corrigir ou atenuar tai...
Seleção dos dados: <br />selecionar os dados que tem relevância para o negócio<br />Transformação dos dados:<br />os dados...
Etapas 1 – 4: <br />Limpeza + integração + seleção + transformação<br />Data WareHouse<br />Os dados estão a ponto de bala...
Mineração dos dados: são realizadas as tarefas de mineração de acordo com os objetivos definidos pelo usuário<br />Avaliaç...
Etapa para extrações das informações <br />
Tarefas de Mineração<br />
Tarefas de mineração<br />
Análise de Amostragem<br />Análise Descritiva<br />Análise de Prognóstico<br />Classificação das Tarefas<br />
Utilização de medidas estatísticas como esperança e desvio padrão<br />Encontrar dados fora do padrão<br />Aumentam a conf...
Classificação – categorizar dados em classes<br />Supermercado: frio, laticínios, higiene, etc<br />Consumidores: região, ...
Descrição textual de um conjunto de características frequentes para um evento<br />Utilizada para traçar perfis comportame...
Inferir comportamento futuro ou estimar valores desconhecidos<br />Baseia-se nas informações colhidas na análise descritiv...
Técnicas para Mineração<br />
Algoritmo<br />escolher um atributo;<br />estender a árvore adicionando um ramo para cada valor do atributo;<br />passar o...
C4.5 (árvore de decisão)<br />Gera um classificador na forma de árvore de decisão<br />
calcula a probabilidade de que um novo dado pertença a alguma classe previamente determinada <br />Ingênua: considera que ...
Apredizado de regras de associação<br />Aproximação “bottom-up”<br />Exige grande capacidade de processamento<br />Hiperte...
Redes Neurais<br />Metáfora do funcionamento docérebro humano<br />Conjunto de dados iniciais para treinar a rede<br />Pre...
Ferramentas de Mineração de Dados<br />
Ferramentas e aplicativos<br />Weka, Microsoft Analisis Server, SAS Enterprise Miner, IBM IntelligentMiner, Oracle Darwin ...
Exemplo Clássico<br />
O weka lê os dados no formato .arff<br />Uma lista de todas as instâncias, onde o valor dos atributos são separados por ví...
Algoritmo weka.classifier.j48.J48<br />Weka + Árvores de Decisão<br /> <=75<br /> >75<br />
Algoritmo weka.classifier.j48.J48<br />Weka + Árvores de Decisão<br />J48 prunedtree<br />------------------<br />outlook ...
Algoritmo para minerar regras de associação.<br />Weka + Apriori<br />	IF umidade = normal AND vento = não THEN jogar = si...
Weka - Apriori<br />Best rules found:<br /> 1.temperature=cool humidity=normal windy=FALSE<br />    ==> play=yes 		conf:(1...
Sequência: <br />ABCXYABCZKABDKCABCTUABEWLABCWO<br />Passo 1: A primeira etapa é perceber que existe uma seqüência de letr...
Sequência: <br />ABCXYABCZKABDKCABCTUABEWLABCWO<br />Passo 2: Após determinarmos as sequências "ABC" e "AB", verificamos q...
Sequência: <br />ABCXYABCZKABDKCABCTUABEWLABCWO<br />Passo 3: Fazem-se agora induções, que geram algumas representações ge...
Sequência: <br />ABCXYABCZKABDKCABCTUABEWLABCWO<br />Por exemplo, a letra 'A' poderia significar "aquisição de pão“<br />A...
Sequência: <br />ABCVYABCVKABDKCABCVUABEWLABCVO<br />Que padrão se observa?<br />Na prática que exemplos podemos dar?<br /...
Áreas de Aplicação<br />
Mercado de Negócios<br />Análise de crédito<br />Retenção de clientes<br />Análise de tendências<br />Medicina<br />Histór...
Conclusão<br />
Obrigado<br />Perguntas?<br />
Upcoming SlideShare
Loading in …5
×

Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados

2,499
-1

Published on

Slides do seminário sobre KDD e Data Mining, para a cadeira de Inteligência Artificial, da UFPB.

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,499
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
110
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados

  1. 1. Data Mining<br />Ângelo Vidal de Negreiros<br />Eduardo de Lucena Falcão<br />Eduardo Farias Silva<br />
  2. 2. Introdução<br />Visão Geral<br />KDD, Data Mining, Data Warehouses<br />Histórico<br />Etapa para extrações das Informações<br />Tarefas<br />Técnicas<br />Ferramentas<br />Conclusão<br />Sumário<br />
  3. 3. Custo de armazenamento<br />Poder de armazenamento<br />Bancos de dados <br />Grande quantidade de dados brutos (>>Terabytes)<br />Relações e associações entre dados<br />Informações relevantes através de reconhecimento de padrões<br />“Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados” [Viana 2004]. <br />Introdução<br />
  4. 4. Visão Geral<br />
  5. 5. KDD - Knowledge Discovery in Database<br />processo não trivial de identificar em grandes conjuntos de dados padrões que sejam válidos, novos, úteis e compreensíveis, buscando melhorar o entendimento de um problema ou um procedimento de tomada de decisão [Fayyadet al. 1996].<br />Data Mining<br />Mineração de Dados (ou Data Mining) é o passo dentro do KDD que consiste de um conjunto de técnicas que permitem extrair informações úteis para um determinado domínio a partir de grandes bases de dados [Fayyadet al. 1996].<br />Visão Geral<br />
  6. 6. Data Warehouses<br />sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada<br />Mineração de Dados – uma das formas de se extrair informação<br />Qualidade da análise é dependente da qualidade dos dados<br />Visão Geral<br />
  7. 7. Histórico<br />Visão Geral<br />
  8. 8. Integrado<br />Não volátil<br />Variante no tempo<br />Granularidade<br />Etc.<br />Características de um DW<br />
  9. 9. Planejamento<br />Levantamento de necessidades<br />Modelagem Dimensional<br />Projeto Físico dos BDs<br />Projeto de ETC (*)<br />Desenvolvimento de aplicações<br />Validação e Teste<br />Treinamento<br />Implantação<br />Projeto de um DW<br />
  10. 10. Etapa para extrações das informações(KDD) <br />
  11. 11. Limpeza dos dados: <br />Dados incompletos ou inconsistentes  Dados completos e consistentes<br />Corrigir ou atenuar tais problemas. <br />Integração dos dados: <br />Unificação de todas as fontes de dados em uma única e consolidada fonte. <br />Etapa para extrações das informações <br />
  12. 12. Seleção dos dados: <br />selecionar os dados que tem relevância para o negócio<br />Transformação dos dados:<br />os dados são transformados para facilitar a mineração<br />Etapa para extrações das informações <br />
  13. 13. Etapas 1 – 4: <br />Limpeza + integração + seleção + transformação<br />Data WareHouse<br />Os dados estão a ponto de bala<br />Pronto para serem minerados<br />Etapa para extrações das informações <br />
  14. 14. Mineração dos dados: são realizadas as tarefas de mineração de acordo com os objetivos definidos pelo usuário<br />Avaliação dos padrões: avaliação sobre os padrões, identificando aqueles que têm importância para o negócio e expressividade estatística<br />Apresentação dos conhecimentos: apresentação dos resultados para apresentados para apoiar a análise, tomada de decisão, etc.<br />Etapa para extrações das informações <br />
  15. 15. Etapa para extrações das informações <br />
  16. 16. Tarefas de Mineração<br />
  17. 17. Tarefas de mineração<br />
  18. 18. Análise de Amostragem<br />Análise Descritiva<br />Análise de Prognóstico<br />Classificação das Tarefas<br />
  19. 19. Utilização de medidas estatísticas como esperança e desvio padrão<br />Encontrar dados fora do padrão<br />Aumentam a confiabilidade<br />Identificação de fraude<br />Análise de Amostragem<br />
  20. 20. Classificação – categorizar dados em classes<br />Supermercado: frio, laticínios, higiene, etc<br />Consumidores: região, sexo, etc<br />Associação – identificar fatos que ocorrem em conjunto.<br />Principal utilização: área de vendas – rearranjo de prateleiras e venda pacotes conjunto<br />Análise Descritiva<br />
  21. 21. Descrição textual de um conjunto de características frequentes para um evento<br />Utilizada para traçar perfis comportamentais: p. ex. fraudes de cartão de crédito<br />Detecção de Sequências: estabelecimento de relações temporais entre os fatos<br />Ex. clássico: Notebook + Mouse<br />Análise Descritiva<br />
  22. 22. Inferir comportamento futuro ou estimar valores desconhecidos<br />Baseia-se nas informações colhidas na análise descritiva<br />Padrão de despesas + idade -> salário + nº de filhos<br />Formação escolar + emprego atual + ramo de atividade -> salário daqui a X anos<br />Análise de Prognóstico<br />
  23. 23. Técnicas para Mineração<br />
  24. 24. Algoritmo<br />escolher um atributo;<br />estender a árvore adicionando um ramo para cada valor do atributo;<br />passar os exemplos para as folhas (tendo em conta o valor do atributo escolhido);<br />para cada nó folha – se todos os exemplos são da mesma classe, associar esta classe ao nó folha, caso contrário, repetir os passos (a), (b) e (c).<br />C4.5 (árvore de decisão)<br />
  25. 25.
  26. 26. C4.5 (árvore de decisão)<br />Gera um classificador na forma de árvore de decisão<br />
  27. 27. calcula a probabilidade de que um novo dado pertença a alguma classe previamente determinada <br />Ingênua: considera que o efeito do valor de um atributo sobre uma determinada classe é independente<br />Classificação Bayesiana<br />
  28. 28. Apredizado de regras de associação<br />Aproximação “bottom-up”<br />Exige grande capacidade de processamento<br />Hipertensão na Coréia do Sul: índice de massa corpórea, proteína urinária, taxa de glicose e colesterol.<br />Apriori<br />
  29. 29. Redes Neurais<br />Metáfora do funcionamento docérebro humano<br />Conjunto de dados iniciais para treinar a rede<br />Predições sobre novos dados inseridos<br />Nossa Caixa: transações mais comuns, valores movimentados, endereços mais frequentes e canais utilizados<br />
  30. 30. Ferramentas de Mineração de Dados<br />
  31. 31. Ferramentas e aplicativos<br />Weka, Microsoft Analisis Server, SAS Enterprise Miner, IBM IntelligentMiner, Oracle Darwin Data Mining Software<br />Ferramentas de Mineração de Dados<br />
  32. 32. Exemplo Clássico<br />
  33. 33. O weka lê os dados no formato .arff<br />Uma lista de todas as instâncias, onde o valor dos atributos são separados por vírgula mais um cabeçalho<br />Ex(weather.arff):<br />@relationweather%Nome do arquivo<br /> @attributeoutlook {sunny, overcast, rainy}<br /> @attributetemperaturereal%Atributo e tipo<br /> @attributehumidity real<br /> @attributewindy {TRUE, FALSE}<br /> @attribute play {yes, no}<br /> @data%Início dos dados<br />sunny,85,85,FALSE,no<br />overcast,83,86,FALSE,yes<br />Weka<br />
  34. 34. Algoritmo weka.classifier.j48.J48<br />Weka + Árvores de Decisão<br /> <=75<br /> >75<br />
  35. 35. Algoritmo weka.classifier.j48.J48<br />Weka + Árvores de Decisão<br />J48 prunedtree<br />------------------<br />outlook = sunny<br />| humidity <= 75: yes (2.0)<br />| humidity > 75: no (3.0)<br />outlook = overcast: yes (4.0)<br />outlook = rainy<br />| windy = TRUE: no (2.0)<br />| windy = FALSE: yes (3.0)<br />NumberofLeaves : 5<br />Sizeofthetree : 8<br />
  36. 36. Algoritmo para minerar regras de associação.<br />Weka + Apriori<br /> IF umidade = normal AND vento = não THEN jogar = sim<br />IF umidade = normal AND jogar = sim THEN vento = não <br />IF vento = não AND jogar = sim THEN umidade = normal<br />IF umidade = normal THEN vento = não AND jogar = sim IF vento = não THEN umidade = normal AND jogar = sim<br />IF jogar = sim THEN vento = não AND umidade = normal<br />IF ? THEN vento = não AND umidade = normal AND jogar = sim <br />
  37. 37. Weka - Apriori<br />Best rules found:<br /> 1.temperature=cool humidity=normal windy=FALSE<br /> ==> play=yes conf:(1)<br /> 2. temperature=cool windy=FALSE play=yes <br /> ==> humidity=normal conf:(1)<br /> 3. outlook=overcast temperature=hot windy=FALSE ==> play=yes conf:(1)<br /> 4. temperature=cool windy=FALSE <br /> ==> humidity=normal play=yes conf:(1)<br /> 5. outlook=rainy temperature=mild windy=FALSE ==> play=yes conf:(1)<br />
  38. 38. Sequência: <br />ABCXYABCZKABDKCABCTUABEWLABCWO<br />Passo 1: A primeira etapa é perceber que existe uma seqüência de letras que se repete bastante. Encontramos as seqüência "AB" e "ABC" e observamos que elas ocorrem com freqüência superior à das outras seqüência.<br />Exemplo prático 1<br />
  39. 39. Sequência: <br />ABCXYABCZKABDKCABCTUABEWLABCWO<br />Passo 2: Após determinarmos as sequências "ABC" e "AB", verificamos que elas segmentam o padrão original em diversas unidades independentes:<br />"ABCXY"<br />"ABCZK"<br />"ABDKC"<br />"ABCTU"<br />"ABEWL"<br />"ABCWO"<br />Exemplo prático 1<br />
  40. 40. Sequência: <br />ABCXYABCZKABDKCABCTUABEWLABCWO<br />Passo 3: Fazem-se agora induções, que geram algumas representações genéricas dessas unidades:<br />"ABC??" "ABD??" "ABE??" e "AB???“, onde '?' representa qualquer letra<br />Exemplo prático 1<br />
  41. 41. Sequência: <br />ABCXYABCZKABDKCABCTUABEWLABCWO<br />Por exemplo, a letra 'A' poderia significar "aquisição de pão“<br />A letra 'B' poderia, por exemplo, significar "aquisição de leite“<br />A letra 'C' é um indicador de que o leite que foi adquirido é do tipo desnatado<br />Exemplo prático 1<br />
  42. 42. Sequência: <br />ABCVYABCVKABDKCABCVUABEWLABCVO<br />Que padrão se observa?<br />Na prática que exemplos podemos dar?<br />Exemplo prático 2<br />
  43. 43. Áreas de Aplicação<br />
  44. 44. Mercado de Negócios<br />Análise de crédito<br />Retenção de clientes<br />Análise de tendências<br />Medicina<br />Histórico de pacientes<br />Análise de epidemias<br />Outros<br />
  45. 45. Conclusão<br />
  46. 46. Obrigado<br />Perguntas?<br />
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×