2011: Mineração de Dados - Conceitos Básicos e Aplicações
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

2011: Mineração de Dados - Conceitos Básicos e Aplicações

  • 1,863 views
Uploaded on

SBAI 2011 (Simpósio Brasileiro de Automação Inteligente), São João Del Rei, MG.

SBAI 2011 (Simpósio Brasileiro de Automação Inteligente), São João Del Rei, MG.

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,863
On Slideshare
1,863
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
67
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Mineração de Dados:Conceitos Básicos e Aplicações Leandro Nunes de Castro Lnunes@mackenzie.br @lndecastro Faculdade de Computação e Informática & Programa de Pós-Graduação em Engenharia Elétrica Laboratório de Computação Natural (LCoN) www.mackenzie.br/lcon.html SBAI 2011 (18/09/2011)
  • 2. Sumário• Sobre o Mini-Curso• Motivação• Introdução• Pré-Processamento• Credibilidade do Processo de Aprendizagem• Análise de Grupos• Predição: Classificação e Estimação• Detecção de Anomalias• ShiftHappens 2
  • 3. Quem Sou Eu• Formado em Engenharia Elétrica com ênfase em Computação, possui Mestrado, Doutorado e Pós- doutorado em Engenharia de Computação. Empresário, empreendedor, acadêmico, escritor e pai de família. É especialista em Computação Natural e transformação de bases de dados em conhecimentos para a tomada de decisão estratégica nos negócios. Possui cinco livros publicados, coordena o Laboratório de Computação Natural (LCoN) do Programa de Pós- Graduação em Engenharia Elétrica do Mackenzie e é sócio-diretor das empresas NATCOMP e TUILUX.
  • 4. Quem São Vocês• Idade• Redes Sociais• Interesses• Formação• Conhecimento
  • 5. Dinâmica do Mini-CursoAulas interativas e ilustradas com aplicações práticas, dinâmicas de grupo e sorteios do livro “Computação Natural: Uma Jornada Ilustrada”. Preparados?
  • 6. MotivaçãoUm Universo de Dados
  • 7. A Nova Realidade
  • 8. Sobre Dados e Informação
  • 9. Sobre Dados e Informação
  • 10. Sobre Dados e Informação Fonte: wikipedia.org
  • 11. IntroduçãoConceitos Básicos
  • 12. A Mineração de Dados http://tr.toonpool.com/cartoons/miner_29770
  • 13. O Processo de Mineração
  • 14. Multidisciplinaridade Estatística Bancos de Aprendizagem Dados de Máquina Mineração de Dados OutrasSistemas deInformação Disciplinas Inteligência Visualização Artificial
  • 15. Dicas para Uma Análise Efetiva• Estabelecer a significância prática e estatística da mineração.• Reconhecer que as características da base de dados influenciam todos os resultados.• Necessidade de conhecer os dados.• Busca pela parcimônia.• Verifique os erros.• Valide seus resultados.
  • 16. As Diferentes Nomenclaturas• Inteligência Artificial• Aprendizagem de Máquina• Computação Flexível• Inteligência Computacional• Computação Natural• Computação Bioinspirada
  • 17. Principais Tarefas• Descritivas: caracterizam as propriedades gerais dos dados; e• Preditivas: fazem inferência com os dados objetivando predições. Salário: Faixa IRRF 37 32 33 32 28 até R$ até R$ até R$ até R$ acima de R$ 1.434,59 2.150,00 2.866,70 3.582,00 3.582,01
  • 18. Principais Tarefas• Descrição de Classes e Conceitos• Agrupamento• Predição: Classificação e Estimação• Associação• Detecção de Anomalias
  • 19. Paradigmas de Aprendizagem• Supervisionada• Não-Supervisionada• Reforço
  • 20. Aprendizagem Supervisionada Vetor descrevendo o estado do ambiente Saída desejada Ambiente Supervisor + Saída atual Sistema em Aprendizagem Sinal de erro {(xi,di)}i = 1,...,N, onde xi e di i, são os vetores de entrada e as respectivas saídas desejadas.
  • 21. Aprendizagem Não-Supervisionada Vetor de estado do ambiente Sistema em Ambiente Aprendizagem
  • 22. Aprendizagem por Reforço Vetor de estado Reforço (entrada) primário Ambiente Crítico Reforço heurístico Sistema em Aprendizagem Ações
  • 23. Nomenclatura e Tipos de Dados Possui Financiamen CreditoSalário Estado Cartão de Nro de Idade Imóveis Veículos Cheque to R$ Civil Crédito Filhos Especial Pretendido Autorizado 350 21 Sol. 0 0 0 0 Sim 10.000 Não 3700 52 Cas. 1 1 2 2 Sim 7.000 Sim 1200 26 Cas. 1 0 1 1 Não 10.000 Não 700 25 Sol. 0 0 0 0 Não 5.000 Sim 8500 50 Cas. 2 1 2 2 Sim 40.000 Sim 1800 27 Sol. 1 0 1 0 Sim 20.000 Não 350 20 Sol. 0 0 0 0 Não 10.000 NãoObjetos x AtributosTipos de Dados: Nominais, Ordinais, Numéricos
  • 24. Pré-Processamento
  • 25. Problemas com Bases de Dados Duração 1 2 3 2 Aumento salarial ano 1 2% 4% 4.3% 4.5% Aumento salarial ano 2 ? 5% 4.4% 4.0% Aumento salarial ano 3 ? ? ? ? Ajuste de custo de vida Nenhum Tcf ? Nenhum Carga horária semanal 28 35 38 40 Aposentadoria Nenhum ? ? ? Pagamento por horas vagas ? 13% ? ? Horas extras ? 5% 4% 4 Adicional para educação Sim ? ? ? Feriados 11 15 12 12 Férias Avg Gen Gen Avg Assistência para ausência prolongada Não ? ? Sim Seguro odontológico Nenhum ? Full Full Seguro de vida Não ? ? Sim Seguro saúde Nenhum ? Full Half Aceitabilidade do contrato Ruim Boa Boa Boa
  • 26. Problemas com Bases de Dados
  • 27. Principais Tarefas• Limpeza: para remoção de ruídos e correção de inconsistências;• Integração: para unir dados de múltiplas fontes em um único local, como um armazém de dados (data warehouse);• Redução: para reduzir a dimensão da base de dados, por exemplo, agregando, agrupando ou eliminando atributos redundantes, ou sumarizando os dados;• Transformação: para deixar os dados em um formato passível de aplicação das diferentes técnicas de mineração;• Discretização: para permitir que métodos que trabalham apenas com atributos nominais possam ser empregados a um conjunto maior de problemas. Também faz com que a quantidade de valores para um dado atributo contínuo seja reduzida.
  • 28. Credibilidade do Processo de Aprendizagem
  • 29. Erros• Erro de Representação ou efeito bias.• Erro de Generalização ou variância.• Erro de Otimização. bias elevado variânciaelevada erro MSE nível ótimo de generalização
  • 30. Sobretreinamento 1.00.80.60.40.20.0-0.2-0.4-0.6-0.8-1.0 -3 -2 -1 0 1 2 3
  • 31. Validação Cruzada • Como critério de parada • Como metodologia de estimação de erro Teste TreinamentoPasso 1: 1 2 3 4 5 6 7 8 9 10Passo 2: 1 2 3 4 5 6 7 8 9 10 ...Passo 10: 1 2 3 4 5 6 7 8 9 10
  • 32. Medidas de Desempenho em Classificação Classe Predita Sim Não Classe Sim TP FN Correta Não FP TNTP: Verdadeiro Positivo TP TP TPRFP: Falso Positivo P TP FNTN: Verdadeiro Negativo FP FP FPRFN: Falso Negativo N FP TN TP TNACC TP FP TN FN
  • 33. Medidas de Desempenho em EstimaçãoN e2 j Soma dos Erros Quadráticosj 1 N1 e2 j Erro Quadrático MédicoN j 1 N 1 e 2 Raiz do Erro Quadrático Médio j N j 1 N1 | e j | Erro Absoluto MédioN j 1 N (d j d )( y j y) j 1 Coeficiente de CorrelaçãoN N 2 (d j d) . (yj y)2j 1 j 1
  • 34. Medidas de Desempenho em Agrupamento k i i 1 nr nrE(Sr ) log log k i 1 nr nr k nr G1Eglobal E (Sr ) r 1 n G2 1P( S r ) max(nri ) G3 nr i k nrPglobal P( S r ) r 1 n
  • 35. Desafio 01Avaliando a Taxa de Classificação
  • 36. Detecção de Spam• Considere o problema de detecção de Spams (SPAM). A classe alvo é Spam. Assuma que a base possui N = 1.500 objetos, sendo nspam = 32. Considere o seguinte resultado de um algoritmo de classificação aplicado a esta base de dados:• Spam classificados corretamente: 27.• E-mail normal classificado corretamente: 1.411.Pede-se:• Determine TPR, FPR, ACC.• Monte a matriz de confusão do classificador.
  • 37. Estudo de Caso 01Descrição de Classes e Conceitos Dados do Reclame Aqui
  • 38. Panorama Geral do Setor Status das Reclamações Nao Respondido 20% 7% 30% Respondido24% Replicas 19% Finalizada - Resolvido Média das Notas 5.3 3.9 2.6 0.5 Média Geral Média ">0" Finalizada - Resolvido Finalizada - Nao Resolvido
  • 39. Panorama Geral do Setor Construção Civil - Piores Atendimentos 17% 13% 10% 6% 5% 5% 5% 5% 5% 4% 4% 3%2% 2% 2% 2% 2% 2% 2% 3%
  • 40. Panorama Geral do Setor Construção Civil17% 13% 9% 6% 6% 6% 6% 4% 4% 4% 4% 3% 3% 2% 2% 2% 2% 2% 2% 2%
  • 41. Estudo de Caso 02Descrição de Classes e Conceitos Base de RH
  • 42. Base de Análise• 41.934 registros, com os seguintes atributos: Nome, Salário, Sexo, Cargo, Endereço, Bairro, CEP, Cidade, UF, Banco, Nome do Banco, Agência, Conta, Data de Nascimento, Escala, Grau de Instrução, Data de Admissão, Data de Demissão, Data de Afastamento, Data de Início de Férias, Situação Cadastral, Horas Trab. por Mês e Horas Trab. por Semana.
  • 43. Objetivos• Entender a base• Predizer demissões e período de trabalho• Segmentar a base
  • 44. Visão Geral Sexo Masculino 34%Feminino Situação Cadastral 66% 64% 33% 1% 2% Afastamento Férias Normal Rescisão
  • 45. Visão Geral Grau de InstruçãoOutros17.31% Ensino médio completo 82.69% Salário: Faixa IRRF 98.2% 1.3% 0.3% 0.1% 0.1% até R$ até R$ até R$ até R$ acima de 1.434,59 2.150,00 2.866,70 3.582,00 R$ 3.582,01
  • 46. Visão Geral Pirâmide Etária Cargos100 anos e mais 0.0% 0.0% PROMOTOR(A) DE VENDAS 23% 90 a 94 anos 0.0% SERVIÇOS GERAIS 13% 0.0% 7% ATENDENTE 80 a 84 anos 0.0% 0.0% AJUDANTE GERAL 6% 70 a 74 anos 0.0% AUXILIAR DE LOJA 5% 0.0% PROMOTOR(A) 4% 60 a 64 anos 0.3% DEMONSTRADOR(A) 4% 1.0% ATENDENTE DE CRÉDITO 3% 50 a 54 anos 2.2% 3.4% AUXILIAR DE VENDAS 2% 40 a 44 anos 4.9% AUXILIAR DE SERVIÇOS GERAIS 2% 7.3% AUXILIAR DE CAIXA 2% 30 a 34 anos 12.3% DEMONSTRADOR(A) I 2% 22.5% 20 a 24 anos 34.4% COLETOR(A) DE DADOS 2% 11.6% ASSISTENTE DE VENDAS 2% 10 a 14 anos 0.0% OUTROS CARGOS 23% 0.0% 0 a 4 anos 0.0%
  • 47. Visão Geral Grau de Instrução Analfabeto, ou não se alfabetizou R$ 624.74Até a 4ª série incompleta do ensino fundamental R$ 608.91 4ª série completa do ensino fun damental R$ 620.17 Da 5ª à 8ª série do ensino fundamental R$ 618.43 Ensino fundamental completo R$ 637.15 Ensino médio incompleto R$ 679.76 Ensino médio completo R$ 755.58 Segundo grau técnico incompleto R$ 628.36 Segundo grau técnico completo R$ 777.04 Educação superior incompleta R$ 903.56 Educação superior completa R$ 1,299.32 Pós-Graduação R$ 2,793.32
  • 48. Uma Análise Preditiva Instrução [1 2 3 4 7] Idade [5 6 8 9 10 11 12] [5] [1 2 3 4] Idade InstruçãoNormal [1 2 3] [4 5] [1 3 4] [2 7] Idade Idade Normal Rescisão [1 2] [3] [5] Rescisão Sexo Salário [4] [Feminino] [Masculino] [2 3] [1 4 5] Salário Rescisão Normal Rescisão [2 3] [1 4 5] Salário Normal Rescisão [1 4] [ 2 3 5] Rescisão Normal
  • 49. Análise de Grupos
  • 50. O Que São Grupos?Processo de particionar um conjunto de dados em subconjuntos(clusters) de forma que os dados em cada cluster (idealmente)compartilhem características comuns – normalmenteproximidade em relação a alguma medida de distância.
  • 51. Componentes da Tarefa de Agrupamento• Pré-processamento dos dados;• Definição da medida de proximidade;• Agrupamento;• Abstração dos dados;• Avaliação da saída. 0 x11  x1L d (2,1) 0    d (3,1) d (3,2) 0x N 1  x NL    0 d ( N ,1) d ( N ,2)  d ( N , N 1) 0
  • 52. Estudo de Caso 03 AgrupamentoBenchmarks e Base de Dados de Bioinformática
  • 53. ACA: Ant Clustering Algorithm
  • 54. ACA: Ant Clustering Algorithm 2 k1pp d (x i , x j ) k1 f 1 1 if f 0 2 f (x i ) s2 x j Neigh ( s s ) (r ) α f 0 otherwisepd k2 f Ver demos no LVCoN
  • 55. Base de Dados de Bioinformática C1 0 C1 C2 C4 C3
  • 56. PrediçãoClassificação e Estimação
  • 57. Classificação AstigmatismoIdade Prescrição TPL Lente recomendada (A)Jovem Miopia Não Reduzida NenhumaJovem Miopia Não Normal MaciaJovem Miopia Sim Reduzida NenhumaJovem Miopia Sim Normal RígidaJovem Hipermetropia Não Reduzida NenhumaPré-presbiótico Miopia Não Reduzida NenhumaPré-presbiótico Miopia Não Normal MaciaPré-presbiótico Hipermetropia Sim Reduzida NenhumaPré-presbiótico Hipermetropia Sim Normal NenhumaPresbiótico Miopia Não Reduzida NenhumaPresbiótico Miopia Não Normal NenhumaPresbiótico Hipermetropia Sim Reduzida NenhumaPresbiótico Hipermetropia Sim Normal Nenhuma
  • 58. Árvores de Decisão TPLReduzida Normal Nenhuma Astigmatismo Não Sim Macia Prescrição Miopia Hipermetropia Rígida Nenhuma
  • 59. Árvores de DecisãoDuração 1 2 3 2Aumento salarial ano 1 2% 4% 4.3% 4.5%Aumento salarial ano 2 ? 5% 4.4% 4.0%Aumento salarial ano 3 ? ? ? ?Ajuste de custo de vida Nenhum Tcf ? NenhumCarga horária semanal 28 35 38 40Aposentadoria Nenhum ? ? ?Pagamento por horas vagas ? 13% ? ?Horas extras ? 5% 4% 4Adicional para educação Sim ? ? ?Feriados 11 15 12 12Férias Avg Gen Gen AvgAssistência para ausência prolongada Não ? ? SimSeguro odontológico Nenhum ? Full FullSeguro de vida Não ? ? SimSeguro saúde Nenhum ? Full HalfAceitabilidade do contrato Ruim Boa Boa Boa
  • 60. Árvores de Decisão Aumento Ano 12.5% > 2.5% Ruim Feriados > 10 10 Bom Aumento Ano 1 4% > 4% Ruim Bom
  • 61. Árvores de Decisão Aumento Ano 1 2.5% > 2.5% Carga Horária Feriados 36 > 36 > 10 10 Seguro Saúde Bom Aumento Ano 1Ruim 4 >4 Nenhum Parcial Total Ruim Bom Ruim Ruim Bom
  • 62. Estudo de Caso 04Agrupamento e Predição Base de Dados de Veículos
  • 63. Aplicação em Agrupamento
  • 64. Aplicação em Classificação
  • 65. Aplicação em Estimação
  • 66. Estudo de Caso 05Análise de Sentimento em Tweets Dados da Rede Globo
  • 67. Base de Análise• Para realizar as análises a serem apresentadas foram utilizados 206.259 tweets de 127.945 usuários entre os dias 1 e 31 de dezembro de 2010.• Os atributos disponíveis para essa análise foram: Cliente, Avaliação, Termo, Usuário, Texto e Data.
  • 68. Domingão do Faustão Palavras mais comentadas - Domingão do Faustão11% 8% 8% 7% 7% 6% 6% 6% 6% 5% 4% 4% 4% 4% 3% 3% 3% 2% 2% 2% 2% 2% 2% 2% 2% 2% 2% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 0% 0% Total Top 20 Total Twitters
  • 69. Comentários Positivos Palavras mais comentadas - Tweets positivos13% 11% 10% 7% 7% 6% 6% 5% 5% 3% 3% 4% 3% 3% 3% 3% 3% 3% 3% 3% 2% 2% 2% 2% 2% 2% 2% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 0% Total Top 20 Total Twitters
  • 70. Comentários Negativos Palavras mais comentados - Tweets negativos27% 16% 8% 6% 5% 5% 3% 4% 4% 3% 3% 3% 3% 2% 1% 1% 1% 1% 1% 1% 1% 1% 2% 2% 2% 2% 2% 2% 2% 2% 2% 0% 0% 0% 0% 0% 0% 0% 0% 0% Total Top 20 Total Twitters
  • 71. Influenciadores Qtde de Percentual de Qtde de Qtde deId Usuários Tweets Tweets (%) Seguidores Seguidos 1 adnoticia 253 0,12% 175 219 2 annoticia 256 0,12% 271 350 3 comuniquebrinde 170 0,08% 1.211 1.967 4 feedrssreader 192 0,09% 350 245 5 g1 389 0,19% 467.484 21 6 mariana_viips 155 0,08% 694 67 7 news_mundo_ 224 0,11% 281 895 8 novinhabru 320 0,16% 2.992 1.963 9 romariontv 177 0,09% - -10 segundoplanobr 151 0,07% 347 711 siteg1 207 0,10% 60 -12 sjodiel_indica 262 0,13% 855 61513 standupbot 384 0,19% 386 -14 tudodoesporte 522 0,25% 894 36615 tweets24hs 158 0,08% 2.940 3.25816 vidasemglobo 147 0,07% 600 17717 waldeterossi 313 0,15% 70 1318 zocialtv_br 242 0,12% 338 11519 _invo 720 0,35% 342 22 TOTAL: 5.242 2,54%
  • 72. Segmentando os Influenciadores
  • 73. Segmentando os Influenciadores Grupo 1 Grupo 2 Grupo 3 adnoticia comuniquebrinde mariana_viips annoticia novinhabru feedrssreader g1 romariontv news_mundo_ segundoplanobr standupbot siteg1 tudonoesporte sjodiel_indica waldeterossi vidasemglobo _invo tweets24hs zocialtv_br
  • 74. Análise dos GruposGrupo Palavras Rio, Brasil, Paulo, chuva, lula, mundial, policia, governo, sul, natal, 1 pais, wikileaks, brasileiros, Dilma, feira, alemão, sudeste, estados, justiça, preso. Rio, Paulo, Brasil, chuva, insensato, pais, governo, natal, wikileaks, 2 Dilma, mundial, justiça, policia, brasileiros, segurança, temporais, projeto, risco, Cielo, prisão. Programa, gosta, assista, Faustão, cine, peça, hoje, ajuda, vídeo, 3 twitteado, amore, marcos, noticias, castro, Araguaia, Ana, comedy, zilza, vote, malhação.
  • 75. Regras de Associação
  • 76. Análise de Carrinho de Supermercado Leite Pão Cereais Leite Broa Manteiga Cereais Chocolate Pão Café Ovos Açúcar Pão Café Iogurte Adoçante
  • 77. Estudo de Caso 06Recomendação em Comércio Eletrônico Alguns Clientes TUILUX
  • 78. O Que é um Sistema de Recomendação Inteligente? 78
  • 79. “Para o usuário a recomendação significa um guia útil no processo de escolha de conteúdo... Para a loja a recomendação significa ofertar o item mais atraente alguns segundos antes da perda da atenção da audiência” ** Fonte: Comparative Rating of Five Recommendations Solutions, Patricia Seygold Group 79
  • 80. 80
  • 81. Visão Geral sobre Serviços de Recomendação1. Capturar informação sobreos produtos 2. Capturar informação sobre as interações dos usuários 3. Aplicar algoritmos de seleção de produtos 4. Mostrar o conteúdo selecionado 5. Monitorar e analisar a efetividade da recomendação 81
  • 82. Página de Produto: Exemplos Cross-sell O que nem os clientes sabiam que queriamRegras denegócio 82
  • 83. Detecção de Anomalias
  • 84. O Que é uma Anomalia?“Um outlier é um objeto que parece desviar fortemente de outros membros da amostra a qual ele pertence.” (Grubbs, F. E., 1969, “Procedures for detecting outlying observations in samples”, Technometrics, 11, pp. 1-21.)“Um outlier é um objeto ou subconjunto de objetos que parece inconsistente com o restante da base de dados.” (Barnett, V.; Lewis, T. 1994, Outliers in Statistical Data, 3rd ed., John Wiley & Sons)
  • 85. Exemplos• Detecção de fraudes: em transações de cartões de crédito, em uso de telefones celulares, em medição de consumo de energia, etc.• Análise de crédito: identificação de clientes potencialmente problemáticos ou fraudulentos, etc.• Detecção de intrusão: acesso não permitido a redes de computadores e ambientes diversos, etc;• Monitoramento de atividades: negociações suspeitas em mercados financeiros, comportamentos incomuns de usuários, etc;• Desempenho de rede: monitoramento do desempenho de redes de comunicação para identificação de gargalos;
  • 86. Exemplos• Diagnóstico de faltas: em motores, geradores, redes, instrumentos, etc;• Análise de imagens: identificação de novas características;• Monitoramento de séries temporais: em aplicações que envolvem séries temporais, por exemplo, consumo de energia elétrica de subestações, análise de batimentos cardíacos, etc.;• Análise de textos: identificação de novas estórias, análise de desempenho de commodities, etc.
  • 87. Adordagens• Tipo 1: aprendizagem não-supervisionada;• Tipo 2: aprendizagem supervisionada;• Tipo 3: aprendizagem semi-supervisionada.
  • 88. Estudo de Caso 07 Um Algoritmo Imunológico paraDetecção de Vírus em Computadores
  • 89. Algoritmo de Seleção Negativa Self strings (S) Monitoramento Detector Set Generate (R)random strings Match Detector (R0) No Set (R) Yes Reject Self Match No Strings (S) Sensoriamento Yes Non-self Detected
  • 90. Estudo de Caso 08Sistemas Imunológicos Artificiais
  • 91. Pattern Recognition• Classification and Clustering – CLONALG (de Castro & Von Zuben, 2002) (a) Input patterns (b) 0 generations (c) 50 generations (d) 100 generations (e) 200 generations
  • 92. Pattern Recognition• Classification and Clustering – aiNet (de Castro & Von Zuben, 2001) – Definition: • aiNet is an edge-weighted graph, not necessarily fully connected, composed of a set of nodes and sets of node pairs with a weight assigned specified to each connected edge. – Features: • knowledge distributed among cells • competitive learning (unsupervised) • constructive model with pruning phases • generation and maintenance of diversity 92
  • 93. Pattern Recognition• aiNet: – Growing: • clonal selection principle – Learning: • directed affinity maturation – Pruning: • immune network theory
  • 94. Pattern Recognition• aiNet at each generation: – For each Ag  Affinity with the antigen (Ai) Agi-Ab  Clonal selection (n cells) Ai  Cloning Ai  Directed maturation (mutation) 1/Ai  Re-selection ( %) Ai  Natural death ( d) 1/Ai  Affinity between the network cells (Dii) Ab-Ab  Clonal suppression ( s) Dii : (m - memory)  Mt [Mt;m] – Network suppression ( s) Dii : (M Mt) – M [M;meta]
  • 95. Pattern Recognition • Clustering 1 Training Patterns0.9 Final Network Structure0.8 1 100.7 6 12 2 7 30.6 0.8y0.5 10.4 0.6 14 80.3 0.40.20.1 0.2 9 4 0 13 11 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 5 x 0 0.2 0.4 0.6 0.8 1
  • 96. Pattern Recognition • Clustering1.5 10.5 0 Final Network Structure-0.5 1.5 -1 1-1.5 4 0.5 2 2 1 0 0 0 -1 -2 -2 -0.5 -1 3 2 1 1 0.5 0 0 -0.5 -1 -1
  • 97. Desafio 02Questões sobre o Processo de Mineração
  • 98. Questão Processo Mineração• Qual o fluxo (faça o gráfico) das principais etapas da mineração de dados e quais as principais tarefas?
  • 99. ShiftHappens
  • 100. ShiftHappens
  • 101. Questões ShiftHappens• Quantos e-mails e SMSs em média uma pessoa de 21 anos já enviou/recebeu?• Quanto tempo a Internet levou para atingir uma audiência de 50 milhões pessoas?
  • 102. LCoN• Programa de Pós-Graduação em Engenharia Elétrica do Mackenzie• Perfil do LCoN, Pesquisa, Equipe, etc. www.mackenzie.br/lcon.html
  • 103. Discussão
  • 104. ObrigadoLeandro Nunes de Castro lnunes@mackenzie.br @lndecastro 104