Mineração Livre de Dados

  • 583 views
Uploaded on

Palestra Realizada no 13° Fórum Internacional de Software Livre

Palestra Realizada no 13° Fórum Internacional de Software Livre

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
583
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
41
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. MineraçãoLivre de Dados
  • 2. Agenda Apresentação Contexto e Motivação KDD & Data Warehousing Data Mining Tarefas de Data Mining Técnicas de Data Mining WekaOxenTI Solutions
  • 3. Apresentação
  • 4. Mauricio C. Purificação Bacharel em Ciência da Computação pela UFBA e Aluno do MBA em Administração/Gestão de Negócios na UNIFACS; Sócio Fundador e Diretor Administrativo Financeiro da OxenTI; Analista de Business Intelligence da Santa Casa de Misericórdia da Bahia; Colaborador do CEManTIKA – Grupo de Pesquisa em Sistemas Sensíveis ao Contexto LES-DCC-UFBA; Principais Interesses de Pesquisa: Business Intelligence, Business Analytics, Cloud Computing, Métodos Ágeis, Bancos de Dados Evolutivos. http://lattes.cnpq.br/3312807554334758
  • 5. Adewale A. D’Alcântara Bacharelando em Ciência da Computação pela Universidade Federal da Bahia; Sócio Fundador e Diretor Executivo da OxenTI; Especialista no Desenvolvimento de Soluções em CakePHP; Principais Interesses de Pesquisa: Business Intelligence, Business Analytics, Data Warehousing e Data Mining. http://lattes.cnpq.br/5322217410560893
  • 6. A OxenTISomos uma empresa de Tecnologia da Informaçãoespecializada no desenvolvimento de Soluções eSistemas para apoiar a Gestão eficaz dos ambientesde negócios.OxenTI Solutions
  • 7. ServiçosImplantação Sistemas Integrados de Gestão ERP, CRMOxenTI Solutions
  • 8. ServiçosDesenvolvimento Soluções para Suporte a Decisão BI, BA, Data MiningOxenTI Solutions
  • 9. Contexto & Motivação
  • 10. Ponto de Vista Comercial Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc... Dados de comércio eletrônico Dados de navegação na internet Dados de compras de clientes em grandes lojas de departamentos, supermercados Dados de transações bancárias, ou de cartão de crédito Computadores mais baratos e mais potentes Pressão da competiçãoOxenTI Solutions
  • 11. Ponto de Vista Científico Dados coletados e armazenados a velocidades enormes (GB/hora) Sensores remotos em satélites Telescópios Microarrays gerando dados de expressões de genes Simulações científicas gerando terabytes de dados Técnicas tradicionais não apropriadas para analisar tais dados Ruídos e grande dimensionalidadeOxenTI Solutions
  • 12. “Leis”, Gigantes e Monstros Lei de Moore: Capacidade de processamento dobra a cada 18 meses (CPU, memória, cache) Capacidade de armazenamento dobra a cada 10 meses O que estas duas “leis” combinadas produzem? Um gap crescente entre nossa habilidade de gerar dados e nossa habilidade de fazer uso deleOxenTI Solutions
  • 13. KDD – KnowledgeDiscovery in Databases
  • 14. Conceito & Processo“O processo, não trivial, de extração de informações implícitas,previamente desconhecidas e potencialmente úteis, a partir dosdados armazenados em um banco de dados.”
  • 15. KDD &Data Warehousing
  • 16. Data Mining
  • 17. ConceitoMineração de dados é o processo deproposição de várias consultas e extração deinformações úteis, padrões e tendências,frequentemente desconhecidos, a partir degrande quantidade de dados armazenadaem bancos de dados [BT99]Mineração de dados, de forma simples, é oprocesso de extração ou mineração deconhecimento em grandes quantidades dedados [HK01]OxenTI Solutions
  • 18. Áreas de Aplicações PotenciaisVendas e Marketing Identificar padrões de comportamento de consumidores Associar comportamentos à características demográficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores “leais”Bancos Identificar padrões de fraudes (cartões de crédito) Identificar características de correntistas Mercado Financeiro ($$$)Médica Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de saúdes Comportamento de usuários de planos de saúdeOxenTI Solutions
  • 19. Data Mining & KDDKDD utiliza algoritmos de data mining paraextrair padrões classificados como“conhecimento”Incorpora tarefas como escolha doalgoritmo adequado, processamento eamostragem de dados e interpretação deresultadosOxenTI Solutions
  • 20. Cases
  • 21. Exemplo (1) Fraldas e CervejasO que as cervejas tem a ver com as fraldas ?homens casados, entre 25 e 30 anoscompravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho paracasaWal-Mart otimizou às gôndolas nos pontos devendas, colocando as fraldas ao lado dascervejasResultado: o consumo cresceu 30%OxenTI Solutions
  • 22. Exemplo (2) Lojas BrasileirasAplicou 1 milhão de dólares em técnicasde data miningReduziu de 51000 produtos para 14000produtos oferecidos em suas lojasExemplo de anomalias detectadas: Roupas de inverno e guarda chuvas encalhadas no nordeste Batedeiras 110v a venda em SC onde a corrente é 220vOxenTI Solutions
  • 23. Exemplo (3) Bank Of AmericaSelecionou entre seus 36 milhões declientes Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos.OxenTI Solutions
  • 24. Tarefas de Data Mining
  • 25. Análise de Regras de AssociaçãoExemplo: “Clientes que compram pão também compram leite” representa uma regra de associação que reflete um padrão de comportamento dos clientes do supermercado Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzi-lo a comprar maisOxenTI Solutions
  • 26. Análise de Padrões SequenciaisExemplo: A sequência < {carro}, {pneu, toca-fitas} > representa o padrão Clientes que compram carro, tempos depois compram pneu e toca-fitas de carro Descobrir tais padrões sequenciais em dados temporais pode ser útil em campanhas de marketing, por exemploOxenTI Solutions
  • 27. Classificação e PrediçãoExemplo: Suponha que o gerente do supermercado está interessado em descobrir que tipo de características de seus clientes os classificam em bom comprador ou mau comprador Um modelo de classificação poderia incluir a seguinte regra: Clientes da faixa econômica B, com idade entre 50 e 60 são maus compradoresOxenTI Solutions
  • 28. Classificação e PrediçãoEm algumas aplicações, o usuário estámais interessado em predizer algunsvalores ausentes em seus dados, em vezde descobrir classes de objetos. Istoocorre sobretudo quando os valores quefaltam são numéricosNeste caso, a tarefa de mineração édenominada PrediçãoOxenTI Solutions
  • 29. Análise de ClustersExemplo: Poderíamos aplicar análise de clusters sobre o banco de dados de um supermercado a fim de identificar grupos homogêneos de clientes Por exemplo, clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feiraOxenTI Solutions
  • 30. Análise de OutliersUm banco de dados pode conter dados quenão apresentam o comportamento geral damaioria. Estes dados são denominadosoutliers(exceções)Muitos métodos de mineração descartamestes outliers como sendo ruído indesejadoEntretanto, em algumas aplicações, taiscomo detecção de fraudes, estes eventosraros podem ser mais interessantes do queeventos que ocorrem regularmenteOxenTI Solutions
  • 31. Técnicas de Data Mining
  • 32. Árvore de DecisãoTécnica que constrói um classificador utilizandouma estrutura de árvore onde os nós folhasrepresentam as classes e os nós internosrepresentam um teste sobre um atributo OxenTI Solutions
  • 33. Redes Neurais Modelos matemáticos que permite aprendizado e generalização Esse aprendizado está associado a capacidade de adaptar seus parâmetros como consequência da sua iteração com o meio externo Estrutura similar as redes neurais biológicasOxenTI Solutions
  • 34. Redes NeuraisOxenTI Solutions
  • 35. Waikato Environment forKnowledge Analysis - Weka
  • 36. Weka Software para data mining/machine learningescrito em Java (distribuído sob GNU Public License) Utilizado em pesquisa e educação Principais características: Extenso conjunto de rotinas para pré- processamento, esquemas de aprendizagem, além de métodos de avaliação GUIs (inclusive para visualização dos dados) Ambiente para comparação de algortimos de aprendizagem. OxenTI Solutions
  • 37. Formato de Entrada@relation heart-disease-simplified@attribute age numeric@attribute sex { female, male}@attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina}@attribute cholesterol numeric@attribute exercise_induced_angina { no, yes}@attribute class { present, not_present}@data63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present... OxenTI Solutions
  • 38. InterfaceOxenTI Solutions
  • 39. InterfaceOxenTI Solutions
  • 40. Explorer Pré ProcessamentoImportação dos dados em vários formatos: ARFF,CSV, C4.5, binaryDados também podem ser lidos de uma URL oude um banco de dados (utilizando o pacote JDBC)Rotinas de pré-processamento no Weka sãochamados de filtrosWeka tem filtros para: Discretização, normalização, amostragem, seleção de atributos, transformação e combinação de atributos, entre outros.OxenTI Solutions
  • 41. Explorer ClassificadoresModelos para a previsão de classes(nominal ou númerica):Weka implementa: Árvore de decisão, listas, classificadores baseado em instâncias, multi-layer perceptrons, regressão, redes bayesianas, ...“Meta”-classificadores: Bagging, boosting, stacking, error-correcting output code, locally weighted learning, ...OxenTI Solutions
  • 42. Explorer Clustering Metódos para variáveis numéricas e nominais: EM k-Means CobWebOxenTI Solutions
  • 43. Explorer Associações Identificar dependências estatísticas entre grupos de atributos 3 algorítimos para aprender associações: Apriority; PredictiveApriori; Tertius; Trabalha somente com dados nominais; Computa regras que dêem um suporte mínimo e ultrapasse um nível de confiança.OxenTI Solutions
  • 44. Explorer Seleção de AtributosUsado para investigar quais atributos(subconjuntos deles) são mais preditivosAttributeSelection em 2 etapas: Um método de busca Um método de avaliaçãoFlexibilidade: (quase) qualquer combinaçãode busca/avaliaçãoOxenTI Solutions
  • 45. Explorer Visualização Ajuda a identificar a dificuldade na aprendizagem do problema Visualização 2D Difere as classes por corOxenTI Solutions
  • 46. Contatoadewale@oxenti.com.brmauricio@oxenti.com.br www.oxenti.com.br