MineraçãoLivre de Dados
Agenda  Apresentação  Contexto e Motivação  KDD & Data Warehousing  Data Mining  Tarefas de Data Mining  Técnicas de Data ...
Apresentação
Mauricio C. Purificação    Bacharel em Ciência da Computação pela UFBA e Aluno do MBA em  Administração/Gestão de Negócios...
Adewale A. D’Alcântara   Bacharelando em Ciência da Computação pela Universidade Federal da  Bahia;   Sócio Fundador e Dir...
A OxenTISomos uma empresa de Tecnologia da Informaçãoespecializada no desenvolvimento de Soluções eSistemas para apoiar a ...
ServiçosImplantação  Sistemas Integrados de Gestão     ERP, CRMOxenTI Solutions
ServiçosDesenvolvimento  Soluções para Suporte a Decisão     BI, BA, Data MiningOxenTI Solutions
Contexto & Motivação
Ponto de                   Vista Comercial  Quantidades gigantescas de dados são  coletados e armazenados em empresas,  co...
Ponto de                   Vista Científico  Dados coletados e armazenados a  velocidades enormes (GB/hora)      Sensores ...
“Leis”,              Gigantes e Monstros  Lei de Moore: Capacidade de  processamento dobra a cada 18 meses  (CPU, memória,...
KDD – KnowledgeDiscovery in Databases
Conceito                             & Processo“O processo, não trivial, de extração de informações implícitas,previamente...
KDD       &Data Warehousing
Data Mining
ConceitoMineração de dados é o processo deproposição de várias consultas e extração deinformações úteis, padrões e tendênc...
Áreas de                   Aplicações PotenciaisVendas e Marketing   Identificar padrões de comportamento de consumidores ...
Data Mining                     & KDDKDD utiliza algoritmos de data mining paraextrair padrões classificados como“conhecim...
Cases
Exemplo (1)              Fraldas e CervejasO que as cervejas tem a ver com as fraldas ?homens casados, entre 25 e 30 anosc...
Exemplo (2)                   Lojas BrasileirasAplicou 1 milhão de dólares em técnicasde data miningReduziu de 51000 produ...
Exemplo (3)                Bank Of AmericaSelecionou entre seus 36 milhões declientes  Aqueles com menor risco de dar calo...
Tarefas de Data Mining
Análise de              Regras de AssociaçãoExemplo:  “Clientes que compram pão também compram  leite” representa uma regr...
Análise de              Padrões SequenciaisExemplo:  A sequência < {carro}, {pneu, toca-fitas} >  representa o padrão Clie...
Classificação                       e PrediçãoExemplo:  Suponha que o gerente do supermercado está  interessado em descobr...
Classificação                    e PrediçãoEm algumas aplicações, o usuário estámais interessado em predizer algunsvalores...
Análise de ClustersExemplo:  Poderíamos aplicar análise de clusters sobre o  banco de dados de um supermercado a fim de  i...
Análise de OutliersUm banco de dados pode conter dados quenão apresentam o comportamento geral damaioria. Estes dados são ...
Técnicas de Data Mining
Árvore de DecisãoTécnica que constrói um classificador utilizandouma estrutura de árvore onde os nós folhasrepresentam as ...
Redes Neurais Modelos matemáticos que permite aprendizado e generalização Esse aprendizado está associado a capacidade de ...
Redes NeuraisOxenTI Solutions
Waikato Environment forKnowledge Analysis - Weka
Weka   Software para data mining/machine learningescrito em Java (distribuído sob GNU Public License)   Utilizado em pesqu...
Formato de Entrada@relation heart-disease-simplified@attribute age numeric@attribute sex { female, male}@attribute chest_p...
InterfaceOxenTI Solutions
InterfaceOxenTI Solutions
Explorer              Pré ProcessamentoImportação dos dados em vários formatos: ARFF,CSV, C4.5, binaryDados também podem s...
Explorer                   ClassificadoresModelos para a previsão de classes(nominal ou númerica):Weka implementa:   Árvor...
Explorer                   Clustering Metódos para variáveis numéricas e nominais:    EM    k-Means    CobWebOxenTI Soluti...
Explorer                     Associações Identificar dependências estatísticas entre grupos de atributos 3 algorítimos par...
Explorer              Seleção de AtributosUsado para investigar quais atributos(subconjuntos deles) são mais preditivosAtt...
Explorer                   Visualização Ajuda a identificar a dificuldade na aprendizagem do problema Visualização 2D Dife...
Contatoadewale@oxenti.com.brmauricio@oxenti.com.br  www.oxenti.com.br
Upcoming SlideShare
Loading in …5
×

Mineração Livre de Dados

883 views

Published on

Palestra Realizada no 13° Fórum Internacional de Software Livre

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
883
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
48
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Mineração Livre de Dados

  1. 1. MineraçãoLivre de Dados
  2. 2. Agenda Apresentação Contexto e Motivação KDD & Data Warehousing Data Mining Tarefas de Data Mining Técnicas de Data Mining WekaOxenTI Solutions
  3. 3. Apresentação
  4. 4. Mauricio C. Purificação Bacharel em Ciência da Computação pela UFBA e Aluno do MBA em Administração/Gestão de Negócios na UNIFACS; Sócio Fundador e Diretor Administrativo Financeiro da OxenTI; Analista de Business Intelligence da Santa Casa de Misericórdia da Bahia; Colaborador do CEManTIKA – Grupo de Pesquisa em Sistemas Sensíveis ao Contexto LES-DCC-UFBA; Principais Interesses de Pesquisa: Business Intelligence, Business Analytics, Cloud Computing, Métodos Ágeis, Bancos de Dados Evolutivos. http://lattes.cnpq.br/3312807554334758
  5. 5. Adewale A. D’Alcântara Bacharelando em Ciência da Computação pela Universidade Federal da Bahia; Sócio Fundador e Diretor Executivo da OxenTI; Especialista no Desenvolvimento de Soluções em CakePHP; Principais Interesses de Pesquisa: Business Intelligence, Business Analytics, Data Warehousing e Data Mining. http://lattes.cnpq.br/5322217410560893
  6. 6. A OxenTISomos uma empresa de Tecnologia da Informaçãoespecializada no desenvolvimento de Soluções eSistemas para apoiar a Gestão eficaz dos ambientesde negócios.OxenTI Solutions
  7. 7. ServiçosImplantação Sistemas Integrados de Gestão ERP, CRMOxenTI Solutions
  8. 8. ServiçosDesenvolvimento Soluções para Suporte a Decisão BI, BA, Data MiningOxenTI Solutions
  9. 9. Contexto & Motivação
  10. 10. Ponto de Vista Comercial Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc... Dados de comércio eletrônico Dados de navegação na internet Dados de compras de clientes em grandes lojas de departamentos, supermercados Dados de transações bancárias, ou de cartão de crédito Computadores mais baratos e mais potentes Pressão da competiçãoOxenTI Solutions
  11. 11. Ponto de Vista Científico Dados coletados e armazenados a velocidades enormes (GB/hora) Sensores remotos em satélites Telescópios Microarrays gerando dados de expressões de genes Simulações científicas gerando terabytes de dados Técnicas tradicionais não apropriadas para analisar tais dados Ruídos e grande dimensionalidadeOxenTI Solutions
  12. 12. “Leis”, Gigantes e Monstros Lei de Moore: Capacidade de processamento dobra a cada 18 meses (CPU, memória, cache) Capacidade de armazenamento dobra a cada 10 meses O que estas duas “leis” combinadas produzem? Um gap crescente entre nossa habilidade de gerar dados e nossa habilidade de fazer uso deleOxenTI Solutions
  13. 13. KDD – KnowledgeDiscovery in Databases
  14. 14. Conceito & Processo“O processo, não trivial, de extração de informações implícitas,previamente desconhecidas e potencialmente úteis, a partir dosdados armazenados em um banco de dados.”
  15. 15. KDD &Data Warehousing
  16. 16. Data Mining
  17. 17. ConceitoMineração de dados é o processo deproposição de várias consultas e extração deinformações úteis, padrões e tendências,frequentemente desconhecidos, a partir degrande quantidade de dados armazenadaem bancos de dados [BT99]Mineração de dados, de forma simples, é oprocesso de extração ou mineração deconhecimento em grandes quantidades dedados [HK01]OxenTI Solutions
  18. 18. Áreas de Aplicações PotenciaisVendas e Marketing Identificar padrões de comportamento de consumidores Associar comportamentos à características demográficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores “leais”Bancos Identificar padrões de fraudes (cartões de crédito) Identificar características de correntistas Mercado Financeiro ($$$)Médica Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de saúdes Comportamento de usuários de planos de saúdeOxenTI Solutions
  19. 19. Data Mining & KDDKDD utiliza algoritmos de data mining paraextrair padrões classificados como“conhecimento”Incorpora tarefas como escolha doalgoritmo adequado, processamento eamostragem de dados e interpretação deresultadosOxenTI Solutions
  20. 20. Cases
  21. 21. Exemplo (1) Fraldas e CervejasO que as cervejas tem a ver com as fraldas ?homens casados, entre 25 e 30 anoscompravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho paracasaWal-Mart otimizou às gôndolas nos pontos devendas, colocando as fraldas ao lado dascervejasResultado: o consumo cresceu 30%OxenTI Solutions
  22. 22. Exemplo (2) Lojas BrasileirasAplicou 1 milhão de dólares em técnicasde data miningReduziu de 51000 produtos para 14000produtos oferecidos em suas lojasExemplo de anomalias detectadas: Roupas de inverno e guarda chuvas encalhadas no nordeste Batedeiras 110v a venda em SC onde a corrente é 220vOxenTI Solutions
  23. 23. Exemplo (3) Bank Of AmericaSelecionou entre seus 36 milhões declientes Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos.OxenTI Solutions
  24. 24. Tarefas de Data Mining
  25. 25. Análise de Regras de AssociaçãoExemplo: “Clientes que compram pão também compram leite” representa uma regra de associação que reflete um padrão de comportamento dos clientes do supermercado Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzi-lo a comprar maisOxenTI Solutions
  26. 26. Análise de Padrões SequenciaisExemplo: A sequência < {carro}, {pneu, toca-fitas} > representa o padrão Clientes que compram carro, tempos depois compram pneu e toca-fitas de carro Descobrir tais padrões sequenciais em dados temporais pode ser útil em campanhas de marketing, por exemploOxenTI Solutions
  27. 27. Classificação e PrediçãoExemplo: Suponha que o gerente do supermercado está interessado em descobrir que tipo de características de seus clientes os classificam em bom comprador ou mau comprador Um modelo de classificação poderia incluir a seguinte regra: Clientes da faixa econômica B, com idade entre 50 e 60 são maus compradoresOxenTI Solutions
  28. 28. Classificação e PrediçãoEm algumas aplicações, o usuário estámais interessado em predizer algunsvalores ausentes em seus dados, em vezde descobrir classes de objetos. Istoocorre sobretudo quando os valores quefaltam são numéricosNeste caso, a tarefa de mineração édenominada PrediçãoOxenTI Solutions
  29. 29. Análise de ClustersExemplo: Poderíamos aplicar análise de clusters sobre o banco de dados de um supermercado a fim de identificar grupos homogêneos de clientes Por exemplo, clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feiraOxenTI Solutions
  30. 30. Análise de OutliersUm banco de dados pode conter dados quenão apresentam o comportamento geral damaioria. Estes dados são denominadosoutliers(exceções)Muitos métodos de mineração descartamestes outliers como sendo ruído indesejadoEntretanto, em algumas aplicações, taiscomo detecção de fraudes, estes eventosraros podem ser mais interessantes do queeventos que ocorrem regularmenteOxenTI Solutions
  31. 31. Técnicas de Data Mining
  32. 32. Árvore de DecisãoTécnica que constrói um classificador utilizandouma estrutura de árvore onde os nós folhasrepresentam as classes e os nós internosrepresentam um teste sobre um atributo OxenTI Solutions
  33. 33. Redes Neurais Modelos matemáticos que permite aprendizado e generalização Esse aprendizado está associado a capacidade de adaptar seus parâmetros como consequência da sua iteração com o meio externo Estrutura similar as redes neurais biológicasOxenTI Solutions
  34. 34. Redes NeuraisOxenTI Solutions
  35. 35. Waikato Environment forKnowledge Analysis - Weka
  36. 36. Weka Software para data mining/machine learningescrito em Java (distribuído sob GNU Public License) Utilizado em pesquisa e educação Principais características: Extenso conjunto de rotinas para pré- processamento, esquemas de aprendizagem, além de métodos de avaliação GUIs (inclusive para visualização dos dados) Ambiente para comparação de algortimos de aprendizagem. OxenTI Solutions
  37. 37. Formato de Entrada@relation heart-disease-simplified@attribute age numeric@attribute sex { female, male}@attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina}@attribute cholesterol numeric@attribute exercise_induced_angina { no, yes}@attribute class { present, not_present}@data63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present... OxenTI Solutions
  38. 38. InterfaceOxenTI Solutions
  39. 39. InterfaceOxenTI Solutions
  40. 40. Explorer Pré ProcessamentoImportação dos dados em vários formatos: ARFF,CSV, C4.5, binaryDados também podem ser lidos de uma URL oude um banco de dados (utilizando o pacote JDBC)Rotinas de pré-processamento no Weka sãochamados de filtrosWeka tem filtros para: Discretização, normalização, amostragem, seleção de atributos, transformação e combinação de atributos, entre outros.OxenTI Solutions
  41. 41. Explorer ClassificadoresModelos para a previsão de classes(nominal ou númerica):Weka implementa: Árvore de decisão, listas, classificadores baseado em instâncias, multi-layer perceptrons, regressão, redes bayesianas, ...“Meta”-classificadores: Bagging, boosting, stacking, error-correcting output code, locally weighted learning, ...OxenTI Solutions
  42. 42. Explorer Clustering Metódos para variáveis numéricas e nominais: EM k-Means CobWebOxenTI Solutions
  43. 43. Explorer Associações Identificar dependências estatísticas entre grupos de atributos 3 algorítimos para aprender associações: Apriority; PredictiveApriori; Tertius; Trabalha somente com dados nominais; Computa regras que dêem um suporte mínimo e ultrapasse um nível de confiança.OxenTI Solutions
  44. 44. Explorer Seleção de AtributosUsado para investigar quais atributos(subconjuntos deles) são mais preditivosAttributeSelection em 2 etapas: Um método de busca Um método de avaliaçãoFlexibilidade: (quase) qualquer combinaçãode busca/avaliaçãoOxenTI Solutions
  45. 45. Explorer Visualização Ajuda a identificar a dificuldade na aprendizagem do problema Visualização 2D Difere as classes por corOxenTI Solutions
  46. 46. Contatoadewale@oxenti.com.brmauricio@oxenti.com.br www.oxenti.com.br

×