INE 5644 – Mineração de Dados Aula 1 – O Processo e as  Tarefas de DM  Professor: José Leomar Todesco
Devido a junção de várias disciplinas em mineração de dados e a prática de múltiplo termos para referenciar a mesma coisa ...
Estimação –  mesmo que  Predição. Característica  – mesmo que  Preditor. Variável de entrada –  mesmo que  Preditor. Model...
Score –  refere-se ao valor valor encontrado ou classe. Score de um novo dado significa usar um modelo desenvolvido com da...
Exemplo:  um proprietário de uma pequena loja de vinhos conhece tudo sobre vinhos, por exemplo, o tipo de uva, a região on...
Qual a tendência nos dias atuais? Ter clientes leais, através de um relacionamento pessoal,  um-para-um , entre a empresa ...
Na pequena empresa, o proprietário com sua inteligência e memória aprende, conhece o cliente. Memória e Inteligência
Para criar relações um-para-um em uma grande empresa, o proprietário humano precisa ser substituído por uma máquina capaz ...
Dados armazenados Fonte de  informações preciosas para a empresa Memória da empresa
Para o aprendizado ocorrer, uma série de informações de diferentes formatos e fontes precisa ser organizada de maneira con...
Data Mining Na grande empresa, a memória é o  data warehouse , enquanto a  inteligência é o  data mining Data Warehouse
Data Mining and BI Aumento do potencial Para suportar decisões  negócios Usuário Final Analista de negócios Analista de da...
<ul><li>O primeiro passo no projeto de Mineração de Dados deverá  sempre  ser uma  análise   rústica do conjunto de dados ...
<ul><li>Uma boa maneira de iniciar o processo é extraindo algumas  informações   estatísticas   simples do conjunto de dad...
<ul><li>As  técnicas de visualização   são métodos muito úteis de  descoberta de padrões   num conjunto de dados, e devem ...
Exemplo: Visualização
<ul><li>O processo de  construir um modelo   para representar um  conjunto de dados   é comum para todas as tarefas, técni...
TIPOS DE  DATA MINING O USUÁRIO DETERMINA UM MODELO (QUESTÕES) E INVESTIGA A BASE DE DADOS 1 O SISTEMA DEVOLVE UMA RESPOST...
TAREFAS, TÉCNICAS E ALGORITMOS
TAREFAS, TÉCNICAS E ALGORITMOS
TAREFAS, TÉCNICAS E ALGORITMOS <ul><li>ESTATÍSTICA </li></ul><ul><li>MEMORY -  BASED  REASONING   </li></ul><ul><li>LINK A...
<ul><li>Cluster Analysis </li></ul><ul><li>Agrupar é simplesmente classificar uma massa de dados em classes desconhecidas ...
Uma tarefa é, dadas várias categorias ou classes conhecidas, dizer a qual delas um certo dado pertence; outra tarefa semel...
<ul><li>“  Classificar um objeto é determinar com que grupo de entidades, já classificadas anteriormente, esse objeto apre...
Uma base de dados relativa a empréstimos pessoais. O tipo de conhecimento que se deseja extrair desses dados é como identi...
Na figura tem-se uma partição simples dos dados em duas regiões distintas de classes. Caso o banco queira usar a região de...
A técnica de previsão resume-se na avaliação do valor futuro de algum índice, baseando-se em dados do comportamento passad...
(Market Basket Association Analysis) O exemplo mais fácil é o do carrinho do supermercado do qual se pode extrair muita in...
O  objetivo  da análise de afinidade é encontrar  quais produtos ou serviços os consumidores buscam conjuntamente. Um merc...
<ul><li>Outliers </li></ul><ul><li>Quando se detecta anomalias, desvios, definir os dados que estão fora do padrão. </li><...
APLICAÇÕES IDENTIFICA QUAIS PROSPECTS DEVERIAM SER INCLUÍDOS NA MALA DIRETA PARA OBTENÇÃO DE ALTA TAXA DE RETORNO MARKETIN...
COMPARATIVO DAS TÉCNICAS
Algumas aplicações de  data mining <ul><li>O governo dos EUA se utiliza do  data mining  já há bastante tempo para identif...
Pr óxima Aula O Processo KDD.
Upcoming SlideShare
Loading in …5
×

Aula1 tarefas

598 views

Published on

jjjjj

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
598
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
15
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Aula1 tarefas

  1. 1. INE 5644 – Mineração de Dados Aula 1 – O Processo e as Tarefas de DM Professor: José Leomar Todesco
  2. 2. Devido a junção de várias disciplinas em mineração de dados e a prática de múltiplo termos para referenciar a mesma coisa é importante ter um sumário. Algoritmo – refere-se a um procedimento específico usado para implementar uma técnica particular de MD (Ex. Árvore de decisão, agrupamento, …) Atributo – mesmo que Preditor. Caso – mesmo que Observação. Confiança – Tem significado específico em regras de associação do tipo “SE A e B são comprados ENTÃO C também é comprado”. Confiança é a probabilidade condicional que C seja comprado se A e B são comprados. Confiança também pode significar em estatística (intervalo de confiança), ou seja, o grau de erro em estimar os resultados da seleção de uma amostra em oposição a outra. Variável dependente – mesmo que Resposta. TERMINOLOGIA E NOTAÇÃO
  3. 3. Estimação – mesmo que Predição. Característica – mesmo que Preditor. Variável de entrada – mesmo que Preditor. Modelo – refere-se a um algoritmo aplicado a um conjunto de dados, completo com sua configuração (muitos algoritmos tem seus parâmetros que o usuário pode ajustar). Observação – é a unidade de análise pela qual a mensuração são feitas (um consumidor, uma transação, etc.) também chamado caso, registro, padrão ou linha . (cada linha tipicamente representa um registro; cada coluna uma variável.) Variável de saída – mesmo que Resposta. Padrão - é um conjunto de medidas em uma observação (ex. A altura, o peso, a idade de uma pessoa). Predição – siginifica a descoberta de um valor de uma variável de saída contínua; também chamada estimação. Preditor - geralmente denotado por X, é também chamado de caracteristica, variável de entrada, variável independente ou na perspectiva de uma base de dado, um campo . Registro – mesmo que Observação. TERMINOLOGIA E NOTAÇÃO
  4. 4. Score – refere-se ao valor valor encontrado ou classe. Score de um novo dado significa usar um modelo desenvolvido com dados de treinamento para predizer valores de saída em um novo dado. Classe sucesso - é a classe de interesse em uma saída binária. Aprendizado supervisionado – refere-se ao processo de prover um algoritmo com registros em que a variável de interesse é conhecida e o algoritmo aprende como predizer este valor para um novo registro onde a saída é desconhecida. Dados de teste – refere-se ao conjunto de dados que são utilizados no final do processo de seleção e construção do modelo para verificar o desempenho do modelo com dados adicionais. Dados de treinamento – refere-se a porção de dados usadas para ajustar o modelo. Aprendizado não-supervisionado - refere-se a análise de maneira a aprender algo sobre os dados ou predizer um valor de saída de interesse (se percente a um grupo, por exemplo). Dados de validação – refere-se a porção de dados de dados utilizados para verificar quão bem o modelo se comporta, ajustar algum modelo e selecionar o melhor modelo dentre os que tem sido tentado. Variável - é alguma medida no registro, incluindo tanto a variável de entrada X quanto a variável de saída Y. TERMINOLOGIA E NOTAÇÃO
  5. 5. Exemplo: um proprietário de uma pequena loja de vinhos conhece tudo sobre vinhos, por exemplo, o tipo de uva, a região onde a uva foi cultivada, o clima, o solo, a altitude dos parreirais, aroma, sabor, cor, o processo de fabricação. Os clientes gostam de visitar sua loja pois, também, aprendem muito sobre vinhos. Porém, só isto não basta, o proprietário precisa conhecê-los, como por exemplo, qual o tipo de vinho que o cliente gosta? Qual o poder aquisitivo? Assim, ele poderá dar um atendimento diferenciado (um a um) aos clientes. Temos, portanto, duas necessidades: conhecimento e aprendizado Uma pequena loja  poucos clientes  atendimento personalizado Uma grande empresa  milhares de clientes  dificuldade em dar um atendimento dedicado OBSERVANDO E APRENDENDO
  6. 6. Qual a tendência nos dias atuais? Ter clientes leais, através de um relacionamento pessoal, um-para-um , entre a empresa e o cliente. Dentro desta tendência, as empresas desejam identificar os clientes cujos valores e necessidades sejam compatíveis com o uso prolongado de seus produtos, e nos quais é válido o risco de investir em promoções com descontos, pacotes, brindes e outras formas de criar essa relação pessoal. Esta mudança de foco requer mudanças em toda a empresa, mas principalmente nos setores de marketing, vendas e atendimento ao cliente. OBSERVANDO E APRENDENDO
  7. 7. Na pequena empresa, o proprietário com sua inteligência e memória aprende, conhece o cliente. Memória e Inteligência
  8. 8. Para criar relações um-para-um em uma grande empresa, o proprietário humano precisa ser substituído por uma máquina capaz de tratar grandes números, o computador. A memória do proprietário é substituída por um grande banco de dados denominado de Data Warehouse, enquanto a capacidade de aprendizado é substituída por técnicas de inteligência artificial e estatística genericamente denominadas de Data Mining. Diariamente gera-se dados, por exemplo, considere que gera-se e armazena-se atributos tais como: o número do telefone, a duração da chamada telefônica, o número do cartão de crédito, o endereço da entrega, o produto escolhido, renda do consumidor, escolaridade do consumidor, gasto com lazer, etc. Certamente, só armazenar dados não significa aprender sobre o cliente. Data Warehouse: a memória da empresa
  9. 9. Dados armazenados Fonte de informações preciosas para a empresa Memória da empresa
  10. 10. Para o aprendizado ocorrer, uma série de informações de diferentes formatos e fontes precisa ser organizada de maneira consistente na grande memória empresarial. Após isto, métodos de análise estatística e inteligência artificial precisam ser aplicados sobre esses dados e relações novas e úteis à empresa devem ser descobertas, ou seja, os dados devem ser minerados. A mineração dos dados consiste mais especificamente em descobrir relações entre produtos, classificar consumidores, prever vendas, localizar áreas geográficas potencialmente lucrativas para novas filiais, inferir necessidades, entre outras. Data Mining: a inteligência da empresa
  11. 11. Data Mining Na grande empresa, a memória é o data warehouse , enquanto a inteligência é o data mining Data Warehouse
  12. 12. Data Mining and BI Aumento do potencial Para suportar decisões negócios Usuário Final Analista de negócios Analista de dados DBA Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration OLAP, MDA Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts Data Sources Papel, Arquivos, Provedores de informação, Database Systems, OLTP
  13. 13. <ul><li>O primeiro passo no projeto de Mineração de Dados deverá sempre ser uma análise rústica do conjunto de dados usando uma ferramenta tradicional de consulta, pois antes de aplicar um algoritmo de análise mais avançado nós necessitamos conhecer alguns aspectos básicos e as estruturas do conjunto de dados . </li></ul>O PROCESSO
  14. 14. <ul><li>Uma boa maneira de iniciar o processo é extraindo algumas informações estatísticas simples do conjunto de dados. </li></ul><ul><li>Estes números são muito importantes, pois eles nos dão uma norma para julgar o desempenho das tarefas de mineração utilizadas ( algoritmos de classificação, agrupamentos, associação, etc. ). </li></ul>Análise exploratória de dados
  15. 15. <ul><li>As técnicas de visualização são métodos muito úteis de descoberta de padrões num conjunto de dados, e devem ser usados no princípio do processo de mineração, para se ter um sentimento da qualidade do conjunto de dados e onde os padrões devem ser encontrados. </li></ul>Visualização
  16. 16. Exemplo: Visualização
  17. 17. <ul><li>O processo de construir um modelo para representar um conjunto de dados é comum para todas as tarefas, técnicas, algoritmos e ferramentas de Data Mining. </li></ul><ul><li>O que não é comum é a maneira na qual os modelos são construídos, utilizando diferentes alternativas. </li></ul>Modelos
  18. 18. TIPOS DE DATA MINING O USUÁRIO DETERMINA UM MODELO (QUESTÕES) E INVESTIGA A BASE DE DADOS 1 O SISTEMA DEVOLVE UMA RESPOSTA AO USUÁRIO, A QUAL CONFIRMA OU NÃO SUA HIPÓTESE ORIGINAL 2 O USUÁRIO SELECIONA VARIÁVEIS RELEVANTES 1 O SISTEMA ACIONA MECANISMOS DE ASSOCIAÇÃO E INVESTIGA A BASE DE DADOS 2 CONFIRMATÓRIO EXPLORATÓRIO É BASTANTE DIFÍCIL PARA O USUÁRIO DEFINIR, A PRIORI, HIPÓTESES SATISFATÓRIAS PROBLEMA ASSOCIAÇÕES IMPORTANTES PODEM NÃO SER DETECTADAS EM FUNÇÃO DE VARIÁVEIS MAL ESCOLHIDAS PROBLEMA
  19. 19. TAREFAS, TÉCNICAS E ALGORITMOS
  20. 20. TAREFAS, TÉCNICAS E ALGORITMOS
  21. 21. TAREFAS, TÉCNICAS E ALGORITMOS <ul><li>ESTATÍSTICA </li></ul><ul><li>MEMORY - BASED REASONING </li></ul><ul><li>LINK ANALYSIS </li></ul><ul><li>FERRAMENTAS DE MARKET BASKET ANALYSIS </li></ul><ul><li>ESTATÍSTICA </li></ul><ul><li>MEMORY - BASED REASONING </li></ul><ul><li>ALGORÍTIMO GENÉTICO </li></ul><ul><li>LINK ANALYSIS </li></ul><ul><li>REDE NEURAL PARA VARIÁVEIS NUMÉRICAS </li></ul><ul><li>ÁRVORE DE DECISÃO </li></ul><ul><li>ESTATÍSTICA </li></ul><ul><li>MEMORY - BASED REASONING </li></ul><ul><li>ALGORÍTIMO GENÉTICO </li></ul><ul><li>LINK ANALYSIS </li></ul><ul><li>REDE NEURAL </li></ul><ul><li>ÁRVORE DE DECISÃO </li></ul><ul><li>ESTATÍSTICA </li></ul><ul><li>MEMORY - BASED REASONING </li></ul><ul><li>REDE NEURAL </li></ul><ul><li>ÁRVORE DE DECISÃO </li></ul>IDENTIFICA E AGRUPA AS UNIDADES ENVOLVIDAS COM OS EVENTOS OCORRIDOS EM UMA MESMA UNIDADE DE TEMPO ANALISA CADA UNIDADE E A ENQUADRA EM UMA CLASSE PRÉ-DEFINIDA, ATRIBUINDO UMA ORDEM, DE ACORDO COM A SEQÜÊNCIA DE UMA MEDIDA NUMÉRICA ANALISA CADA UNIDADE E A ENQUADRA EM UMA CLASSE PRÉ-DEFINIDA ANALISA O TODO DIVIDINDO-O EM SUB-CONJUNTOS OCORRÊNCIA DE EVENTOS EM UM PERÍODO DE TEMPO VARIÁVEIS PRÉ-DEFINIDAS VARIÁVEIS PRÉ-DEFINIDAS VARIÁVEIS NÃO PRÉ-DEFINIDAS TÉCNICAS FORMA DE SELEÇÃO MEIO DE SELEÇÃO AGRUPAMENTO POR AFINIDADE ESTIMATIVA PREDIÇÃO CLASSIFICAÇÃO AGRUPAMENTO
  22. 22. <ul><li>Cluster Analysis </li></ul><ul><li>Agrupar é simplesmente classificar uma massa de dados em classes desconhecidas a priori em número ou forma. </li></ul><ul><li>Ex. : segmentar os clientes de minha empresa para oferecer um atendimento diferenciado. Apriori não conheço o número de classes. </li></ul><ul><li>Ferramentas mais utilizadas: </li></ul><ul><li>Redes neurais artificiais (Kohonen Networks), Estatística (Análise de conglomerados ( Cluster Analysis )) e Algoritmos genéticos. </li></ul>Tarefas: Agrupamentos
  23. 23. Uma tarefa é, dadas várias categorias ou classes conhecidas, dizer a qual delas um certo dado pertence; outra tarefa semelhante em objetivo, porém muito mais complexa, é, de posse de uma massa de dados, dizer em quantas classes esses dados se distribuem e como são essas classes. Dada uma massa de dados sobre o consumo no Brasil, determinar quantas classes ou padrões de comportamento consumista existem. Exemplo: agrupamento x x x x x x x Saldo conta corrente Empréstimo x x x x x Cluster 1- Ativo x x x x x x Cluster 2 - Moderado Cluster 3 - Passivo
  24. 24. <ul><li>“ Classificar um objeto é determinar com que grupo de entidades, já classificadas anteriormente, esse objeto apresenta mais semelhança” </li></ul><ul><li>A tarefa de classificação consiste em construir um modelo que possa ser aplicado a dados não classificados visando categorizá-los em classes. </li></ul><ul><li>Ferramentas (técnicas) mais utilizadas: </li></ul><ul><li>Redes Neurais artificiais, Árvores de decisão(CHAID, CART, C4.5, ID3) Estatística (Análise discriminante, Regressão logística) </li></ul>Tarefas: Classificação
  25. 25. Uma base de dados relativa a empréstimos pessoais. O tipo de conhecimento que se deseja extrair desses dados é como identificar os mutuários negligentes. Um especialista considerou que as variáveis (atributos) mais representativos do conhecimento desejado são: salário, débito e regularidade de pagamento. Veja figura composta de 14 mutuários. x x x x x x x x Salários Débitos Débito com pagamento Em dia Regressão Cluster Rede neural Exemplo: classificação
  26. 26. Na figura tem-se uma partição simples dos dados em duas regiões distintas de classes. Caso o banco queira usar a região de classificação para uma decisão automática de futuros empréstimos, a decisão linear não é considerada uma perfeita separação das classes. Classificar um objeto é determinar com que grupo de entidades, já classificados anteriormente, esse objeto apresenta mais semelhança Exemplo: classificação
  27. 27. A técnica de previsão resume-se na avaliação do valor futuro de algum índice, baseando-se em dados do comportamento passado deste índice ( Modelo de série temporal ). A técnica de predição resume-se na avaliação de um novo registro (para este particular registro), para uma variável de interesse, em função de várias outras variáveis de entrada. Exemplo: 1) determinar se o índice Bovespa subirá ou descerá amanhã; 2) qual será a população de uma cidade daqui a 5 anos; 3) predição de quais consumidores deixarão (abandonarão) dentro dos próximos seis meses; 4) Predizer a demanda do consumo de um novo produto em função da despesa feita. A previsão consiste na determinação do futuro de uma grandeza <ul><li>Ferramentas mais utilizadas: </li></ul><ul><li>Redes neurais artificiais para séries temporais, Árvores de decisão, Estatística (Regressão linear múltipla, Regressão logística binária). </li></ul>Tarefas: Estimação, predição (regressão)
  28. 28. (Market Basket Association Analysis) O exemplo mais fácil é o do carrinho do supermercado do qual se pode extrair muita informação sobre que produtos os consumidores compram em conjunto com grande chance. Dos modelos obtidos da análise de afinidade, podem-se extrair “ regras ” que regem o consumo de alguns itens. A análise de associação gera redes de interações e conexões presentes nos conjuntos de dados usando as associações item a item. Onde por associação item a item entende-se que a presença de um item implica necessariamente na presença de outro item na mesma transação. Considere um banco de dados de compras, onde cada compra (transação) consiste de vários artigos (itens) comprados por um consumidor. A aplicação de técnicas de análise de associação neste conjunto de transações pode revelar afinidades entre uma coleção de itens. Estas afinidades entre itens são representadas por regras de associação . Uma regra expõe, em forma textual, quais itens implicam a presença de outros itens. Tarefas: Análise de Afinidade (Associação)
  29. 29. O objetivo da análise de afinidade é encontrar quais produtos ou serviços os consumidores buscam conjuntamente. Um mercado de vendas à varejo pode dispor os produtos vendidos conjuntamente no mesmo corredor ou em localiza ções estratégicas ; Um comerciante da web pode usar a análise de afinidade para determinar o layout do seu catálogo; Bancos e companhias telefônicas podem usar análise de afinidade para determinar quais novos produtos oferecer para seus consumidores preferenciais. Em um sistema de informações médicas, poderia ser detectado que: determinados procedimentos médicos aparecem sempre associados entre si; determinados procedimentos aparecem associados exclusivamente a pessoas do sexo feminino. A análise de afinidade preocupa-se em descobrir que elementos dos eventos têm relações no tempo <ul><li>Ferramentas mais utilizadas: Regras de associação. </li></ul>Tarefas: Análise de Afinidade (Associação)
  30. 30. <ul><li>Outliers </li></ul><ul><li>Quando se detecta anomalias, desvios, definir os dados que estão fora do padrão. </li></ul><ul><li>Ex.: descobrir fraudes (ex. empresa sonegando impostos; uso do cartão de crédito fora do padrão do usuário). </li></ul>Tarefas: Detecção de Desvios
  31. 31. APLICAÇÕES IDENTIFICA QUAIS PROSPECTS DEVERIAM SER INCLUÍDOS NA MALA DIRETA PARA OBTENÇÃO DE ALTA TAXA DE RETORNO MARKETING DIRETO IDENTIFICA QUAIS TRANSAÇÕES ESTÃO MAIS SUJEITAS A FRAUDE DETECÇÃO DE FRAUDE PREDIZ QUAIS CLIENTES PROVAVELMENTE DEIXARÃO A EMPRESA PARA UM CONCORRENTE PERDA DE CLIENTES IDENTIFICA AS CARACTERÍSTICAS COMUNS DE CLIENTES QUE COMPRAM OS MESMOS PRODUTOS DE UMA EMPRESA SEGMENTAÇÃO DE MERCADO REVELA AS DIFERENÇAS ENTRE UM TÍPICO CLIENTE DE UM MÊS EM RELAÇÃO AOS MESES ANTERIORES ANÁLISE DE TENDÊNCIAS IDENTIFICA QUAIS PRODUTOS SÃO COMUMENTE COMPRADOS EM CONJUNTO ANÁLISE “MARKET BASKET” PREDIZ O QUE CADA INDIVÍDUO QUE ACESSA O SITE ESTÁ MAIS INTERESSADO EM VER MARKETING INTERATIVO
  32. 32. COMPARATIVO DAS TÉCNICAS
  33. 33. Algumas aplicações de data mining <ul><li>O governo dos EUA se utiliza do data mining já há bastante tempo para identificar padrões de transferências de fundos internacionais que se parecem com lavagem de dinheiro do narcotráfico. Data mining usado para identificar fraudes . </li></ul>
  34. 34. Pr óxima Aula O Processo KDD.

×