KDD e Data Mining
Upcoming SlideShare
Loading in...5
×
 

KDD e Data Mining

on

  • 9,182 views

 

Statistics

Views

Total Views
9,182
Views on SlideShare
9,182
Embed Views
0

Actions

Likes
3
Downloads
192
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

KDD e Data Mining KDD e Data Mining Presentation Transcript

  • UNIVERSIDADE FEDERAL DA PARAÍBA CENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO CAMPUS IV – LITORAL NORTE DISCIPLINA: INTELIGÊNCIA ARTIFICIAL PROFESSOR: ANDREI FORMIGAKNOWLEDGE DISCOVERY DATABASE (KDD) E DATA MINING (DM)
  • EQUIPE• HERMANNY ALEXANDRE – hermannyfilho@hotmail.com• GEORGE LIMA – george.lima@dce.ufpb.br• THIAGO OLIVEIRA – thiago.oliveira@dce.ufpb.br – http://about.me/thiagooliveira
  • Agenda• Introdução• KDD – Visão Geral – Processo – Tarefas• Data Mining – Objetivos – Como implementar – Aplicações – Processos• Exemplos de Aplicações• Conclusões
  • Introdução
  • KDD Visão Geral• Knowledge Discovery Database (Descoberta de Conhecimento em Base de Dados ) é o processo de transformação de dados em conhecimento.  É empregado para descrever todo o processo de extração de conhecimentos dos dados, e possui varias etapas interligadas como: seleção, pré-processamento, transformação, Data-Mining e interpretação enquanto que data mining é empregado somente para o estagio de descoberta do processo de KDD. • O objetivo fundamental do KDD é descobrir conhecimento útil, válido, relevante e novo sobre uma determinada atividade através de algoritmos, tendo em conta as ordens de magnitude crescente nos dados .
  • KDD Visão Geral• A extração de conhecimento, além das informações empíricas, possui a capacidade de detectar e colher informação mais profundas e “escondidas” entre os bancos de dados. Na prática, se assemelha ao conceito do data-mining (mineração de dados).
  • Processo de KDD
  • 1. Compreensão do Domínio de Aplicação• Levantamento dos requisitos necessários;• Geralmente trabalham o especialista do domínio e o analista juntos.
  • 2. Seleção• Seleção ou segmentação dos dados apropriados para a análise de acordo com algum critério;• Exemplos: Todas as pessoas que possuem carro.
  • 3. Pré-processamento• Estágio de limpeza dos dados;• Reconfiguração dos dados para assegurar formatos consistentes; • Ex: sexo = “F” ou “M” sexo = “M” ou “H”
  • 4. Transformação• Padronizar os dados para suprir limitações das técnicas de Mineração de dados; • Exemplos: atributos de data e hora.• Disponibilizar os dados de maneira usável e navegável;
  • 5. Mineração de Dados• Aplica-se técnicas e algoritmos para descobrir novos conhecimentos; – Oriundas de diversas áreas: Aprendizado de Máquina, Estatística, Redes Neurais, Banco de Dados, etc.
  • 6. Interpretação e Avaliação do Conhecimento• Interpretar o conhecimento extraído através de ferramentas estatísticas e de visualização;• Caso seja irrelevante, refazer as etapas anteriores.
  • KDD Tarefas de KDD• As tarefas são dependentes da aplicação e do interesse do usuário. Assim cada tarefa de KDD extrai um tipo diferente de conhecimento do BD e requer um algoritmo diferente para a extração de conhecimento.• O KDD é dividido em 3 tarefas: • Regras de Associação • Classificação • Clustering.
  • Tarefas de KDD Regras de Associaçao• A transformação de uma tabela da base de dados para o formato binário é realizada substituindo um atributo de cardinalidade K por K atributos binários.• Uma regra de associação é um relacionamento da forma X => Y, onde X e Y sãoconjuntos de itens e a interseção deles, X ∩ Y, é o conjunto vazio.• Cada regra é associada a um fator suporte superior (Fsup), e a um fator de confidência (Fconf).• A definição desses fatores fornece uma medida capaz de distinguir associações interessantes, dado que as regras geradas em forma binária aumentam consideravelmente o espaço de busca de qualquer algoritmo minerador.
  • Tarefas de KDD Classificação• Na tarefa de classificação cada tupla ou registro pertence a uma classe dentre um conjunto pré-definido de classes. As tuplas compõe-se de atributos preditivos e um atributo objetivo, cujo valor definido pelo usuário indica a que classe essa tupla pertence.• O atributo objetivo pode ter valores discretos como SIM ou NÃO, um valor pertencente a um intervalo de números inteiros, etc.• O propósito da tarefa de classificação é descobrir algum tipo de relacionamento entre os atributos preditivos e o atributo objetivo que permita encontrar um conhecimento que possa ser utilizado para prever a classe de uma tupla ainda não classificada.
  • Tarefas de KDD Classificação• A análise de pequenos conjuntos de dados normalmente é realizada manualmente, mas para grandes conjuntos é mais eficiente realizar um processo automático de clustering por meio da tecnologia de mineração de dados.• Na clusterização, classes são criadas através da produção de partições do banco de dadosem conjuntos de tuplas com valores de atributos semelhantes. Após a criação das classes,emprega-se um algoritmo de classificação para produzir regras para cada uma delas.• A qualidade da clusterização depende da medida utilizada para aferir a similaridade das tuplas. Um bom agrupamento possui similaridade intra-classe alta e inter-classe baixa.  Mede-se também a qualidade do método pela sua habilidade para descobrir algum ou todos os padrões escondidos.
  • Data Mining“É o processo de busca por dados, porPADRÕES anteriormente desconhecidos e usofrequente desses padrões para predizerCONSEQUÊNCIAS futuras.” • Jeff Jonas e Jim Harper
  • Data Mining“É a concepção de modelos computacionaiscapazes de identificar e revelar padrõesdesconhecidos mas existentes entre dadospertencentes a uma ou mais bases de dados”
  • Objetivos da DM• Descobrir PADRÕES – Representar informações úteis para a empresa – Caso da Cerveja e da Fralda• Descrever – Explicar resultados ou valores obtidos em determinados dados ou negócios• Prever – Antecipar o comportamento ou valor futuro de algum fenômeno com base em conhecimento prévio.
  • Como implementar Data Mining• Algoritmos baseados em redes neurais – Processamento de dados de maneira semelhante ao cérebro humano – Decisões baseadas na aprendizagem• Algoritmos estatísticos – Utilizados na análise de dados, a fim de encontrar padrões e correlações entre eles• Algoritmos de Aprendizado – Extrair padrões a partir da interação com o ambiente
  • Aplicações de Data Mining• Cross-Selling – Identificar associação entre produtos• Up-Selling – Identificar potenciais clientes para determinados produtos• Fidelização – Descobrir fatores associados a perda de clientes
  • Processo de DM Entendimento Entendimento do Negócio dos Dados Preparação dos DadosAplicação Data Modelagem Avaliação
  • Exemplos Áreas de aplicações potenciais – Médica • Comportamento de pacientes • Identificar terapias de sucessos para diferentes tratamentos • Fraudes em planos de saúdes • Comportamento de usuários de planos de saúde
  • Exemplo 1• Fraldas e cervejas – O que as cervejas tem a ver com as fraldas ? – homens casados, entre 25 e 30 anos; – compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa; – Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; – Resultado: o consumo cresceu 30% .
  • Exemplo 2• Lojas Brasileiras (Info 03/98) – Aplicou 1 milhão de dólares em técnicas de data mining – Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. – Exemplo de anomalias detectadas: – Roupas de inverno e guarda chuvas encalhadas no nordeste – Batedeiras 110v a venda em SC onde a corrente elétrica é 220v
  • Exemplo 3 Bank of America (Info 03/98) – Selecionou entre seus 36 milhões de clientes • Aqueles com menor risco de dar calotes • Tinham filhos com idades entre 18 e 21 anos • Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos.
  • Concluindo...• Destaca-se Data Mining como parte de um processo maior, denominado KDD, e que se refere ao meio pelo qual padrões são extraídos e enumerados a partir dos dados;• O uso dessas técnicas proporciona meios para encontrar informações que permitam detectar tendências e características até então desconhecidas, reagir rapidamente a um evento que ainda pode estar por vir, entre outras coisas.
  • Referências• Conceitos e Aplicações de Data Mining – Universidade Metodista de Piracicaba – Heloisa & Angela;• Fayyad et al. (1996). Advances in knowledge discovery and data mining, AAAI Press/MIT Press;• http://www.infolink.com.br/~mpolito/mining/mining.html;• http://www.lci.ufrj.br/~labbd/semins/grupo1;• Redes Neurais – Uma ferramenta para KDD e Data Mining – Antonio Carlos.