Your SlideShare is downloading. ×
0
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
TechDays 2010 DAT202
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

TechDays 2010 DAT202

1,162

Published on

The volume of business data grows exponentially and the technology made the world evolve rapidly. Bad decisions may be the result of the world be evolving more rapidly than the decision maker’s …

The volume of business data grows exponentially and the technology made the world evolve rapidly. Bad decisions may be the result of the world be evolving more rapidly than the decision maker’s capability to analyze these data.

This session is intended to establish a first contact with multidimensional data structures (OLAP) and to recognize and to derive the exponential importance of knowledge discovery in databases through the data mining models in SQL Server 2008 R2

www.pedrocgd.blogspot.com

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,162
On Slideshare
0
From Embeds
0
Number of Embeds
20
Actions
Shares
0
Downloads
0
Comments
0
Likes
3
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Teoria à prática com Data Mining
  • 2. Apresentação • Pedro Perfeito, 33 anos, natural do Porto • Consultor BI Novabase • Licenciado em Informática Gestão pela UPT (Porto, 2001) • Mestre em Sistemas Integrados Apoio à Decisão ISCTE (Lisboa’09) • Co-fundador de comunidade BI Portugal www.BIResort.net • Certificado mundial em Business Intelligence pela www.TDWI.org • Professor convidado ISCTE-IUL (Mestrado BI) e UPT (Pós-Graduação) • Microsoft Most Valuable Professional (MVP) em SQL Server (BI) • A preparar doutoramento nesta área • Mais detalhes em www.pedrocgd.blogspot.com
  • 3. Agenda • Objectivos • Parte I - da teoria… • Introdução ao Data Mining • Metodologia CRISP-DM • Parte II – à prática… • Concepção de um modelo através do add-in do Excel • Concepção de um modelo através do SQL 2008 R2 • Conclusão
  • 4. Objectivos No final da sessão deverão: • Conhecer um pouco mais sobre o conceito de Data Mining, bem como o seu impacto em aplicações no “mundo real” • Compreender o processo de criação de um modelo preditivo de Data Mining, através do Excel e do SQL 2008 R2
  • 5. da teoria… Parte I
  • 6. 6
  • 7. Será que vem Será um cliente comprar algo cumpridor se ou virá apenas conceder passear? crédito? Será que já é Se já fez nosso compras nesta cliente? loja, terá ficado satisfeito?
  • 8. Sobrecarga de informação 8
  • 9. Explora os Procura Realiza Dados Padrões Previsões 9
  • 10. 10
  • 11. • Data mining é o processo de descoberta de novas correlações, padrões e tendências em grandes quantidades de dados, usando tecnologias de reconhecimento de padrões, bem como técnicas estatísticas e matemáticas. [Gartner] • Data Mining é também conhecido por ser um dos passos da descoberta de conhecimento em base de dados [Fayyad et al ’96] 12
  • 12. • Campanhas de marketing focadas (Direct mail marketing) • Personalização de web-sites • Análise do cesto de compras de um cliente (Ex: cervejas vs. fraldas) • Detecção de fraudes em cartões de crédito • Detecção de fraudes em bolsa • Previsão de movimentos de acções • Medicina (ex: prevenção de doenças) • (…) 13
  • 13. • Falta acreditar nos resultados dos seus modelos • Não existem dados ou têm pouca/nenhuma qualidade • Problemas éticos e legais começam a ser colocados com a Invasão de privacidade (Ex: Facebook, Hi5…) • Impacto na forma como os dados são utilizados e analisados • Cada vez é mais difícil autorização no uso de dados pessoais
  • 14. • Classificação: comprar/vender, baixo risco/alto risco, 1/0… • Segmentação: encontrar grupos com mesmas características nos dados • Associação: quando se compra A e B, existe probabilidade de compra de C • Visualização: para facilitar a descoberta • Previsão: valor das vendas no próximo mês • (…) 15
  • 15. Input Input input target • Aprendizagem supervisionada 0 1 1 1 Aprende baseando-se em exemplos 0 0 1 1 • Neural networks 1 0 0 0 • Decision trees • (…) • Aprendizagem não supervisionada Aprende baseando-se em observações e descobertas • Clustering Input Input input • Self organized maps 0 1 1 • (…) 0 0 1 1 0 0 16
  • 16. • Data Warehousing • Consultas SQL • Consultas Ad Hoc • Reporting • Um agente de Software • Uma ferramenta OLAP 17
  • 17. • Fidelização de clientes • • Gestão Stocks Detecção de fraudes Tarefas • • Redes Neuronais Artificiais Árvores de Decisão • Indução de regras • Risco concessão de crédito • Clustering • ... • Classificação • Nearest Neighbour • Previsão • Series Temporais … • Associação • Segmentação Aplicações • ... Técnicas 18
  • 18. • CRISP-DM (CRoss Industry Standard Process for Data Mining) é uma metodologia de desenvolvimento de projectos de Data Mining • É bastante compreensiva e fornece uma visão integrada e delimitada sobre as 6 fases que um projecto de Data Mining deverá seguir 19
  • 19. …à prática… Parte II
  • 20. • Cenário Instituição Financeira com concessão de créditos a clientes • Problema Incumprimento no pagamento de prestações de crédito pelos clientes 21
  • 21. • Objectivo Minimizar o risco de concessão de créditos a clientes incumpridores • Possível Solução Criando um modelo preditivo através de técnicas de Data Mining 22
  • 22. • Um modelo que a partir de informações do passado (inputs) faz previsões sobre o futuro (outputs) novos Base dados pedidos Clientes Cliente Idade alto risco Sexo Rendimento Modelo Nr. Filhos Cliente (…) baixo risco
  • 23. Algoritmos mais comuns Arvores Decisão Segmentação Séries Temporais Sequence Clustering Regras Associação Regra Bayes + Regressão linear Regressão Logística Redes Neuronais 24
  • 24. 25
  • 25. Criar/treinar modelo com algoritmo escolhido Testar avaliar modelo
  • 26. Créditos Concedidos Hipotecas Base Dados Utilizadores Multidimensional Negócio (OLAP) Pagamentos Recebidos Dados Clientes (…) Sistema Operacional
  • 27. Data Mining no Excel Demo
  • 28. Alto Risco Baixo Risco (Actual) (Actual) Alto Risco 214 90 (previsto) Baixo Risco 44 165 (previsto) Inocente Culpado (Actual) (Actual) Inocente 214 90 (previsto) Culpado 44 165 (previsto)
  • 29. Créditos Concedidos Hipotecas Base Dados Utilizadores Multidimensional Negócio (Creditos_OLAP) Pagamentos Recebidos Dados Clientes (…) BD (Creditos_FLAT) Sistema Operacional
  • 30. Data Mining SQL 2008 R2 Demo
  • 31. Créditos Concedidos Hipotecas Data Base Dados Utilizadores Warehouse Multidimensional Negócio (Creditos_DW) (Creditos_OLAP) Pagamentos Recebidos Dados Clientes (…) BD (Creditos_FLAT) Sistema Operacional
  • 32. Sistema Operacional Sistema Analítico (OLTP) (OLAP)
  • 33. Quem DimEmpregado vendeu? empregado_dimkey empregado_id Quando foi outros atributos realizada a venda? O que foi vendido? DimData DimProduto data_dimkey produto_dimkey produto_dimkey FactVendas ano produto_id mês data_dimkey data_dimkey outros atributos outros atributos empregado_dimkey geografia_dimkey produto_dimkey cliente_dimkey chave factos Chaves externas fornecedor_dimkey valor_venda (€) unidades Métricas Quem forneceu? . . DimFornecedor DimCliente cliente_dimkey Quem fornecedor_dimkey cliente_dimkey fornecedor_id cliente_id comprou? outros atributos cliente_nome outros atributos
  • 34. DimGeografia AV LIS DimProduto PT PT Produto A 1097 Unidade Produto B Produto B €28 k Vendas “Mostra-me o valor das vendas (€) Produto C e unidades vendidas do Produto Produto D B, no Porto (PT) no ano de 2004 Produto E ? 2001 2002 2003 2004 DimData
  • 35. • Habilitações académicas • Profissão • Antiguidade do Cliente em meses • Numero de Produtos que possui • valor patrimonial no banco (3/6/9/12 meses) • Valor total em divida • Total de transacções realizadas • saldo médio (3/6/9/12 meses) • (…)
  • 36. Volume enorme de informação 37
  • 37. Q&A
  • 38. És tu o guru do Business Intelligence? PROVA-O! Faz o teste de escolha múltipla e recebe livros BI Comunidade de Business Intelligence
  • 39. Soluções Microsoft para Business Intelligence 6 de Maio de 2010 | 9h-17h Auditório do Taguspark Neste seminário de um dia, Rafal Lukawiecki vai falar desde a criação à disponibilização de uma solução de BI utilizando a plataforma de BI da Microsoft, dando destaque ao Microsoft SQL Server 2008 R2 e o sistema Microsoft Office de 2010, nomeadamente o PowerPivot, SharePoint 2010 e os PerformancePoint Rafal Lukawiecki Services Inscrições em: http://www.microsoft.com/portugal/business/eventos/rafal/default.msp x
  • 40. A sua opinião é importante! Complete o questionário de avaliação e devolva-o à saida.

×