Mineração com sql server 2008 r2
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,402
On Slideshare
1,401
From Embeds
1
Number of Embeds
1

Actions

Shares
Downloads
35
Comments
0
Likes
0

Embeds 1

http://us-w1.rockmelt.com 1

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Mineração de Dados comSQL Server 2008 R2
  • 2. Rodrigo Ramos DornelMCP, MCTS, MCITP e MCTConsultor e Professor UniversitárioMestrando em Computação na UFPRTwitter: @rdornelSite/Blog: rdornel.comEmail: rodrigo@rdornel.com
  • 3. AgendaIntrodução: O que é Mineração de Dados.Conceitos de Mercado: Business Intelligence – BI ouBusiness Analytics – BA.Mineração de Dados com SQL Server.Mineração de Dados no Integration Services.Linguagem DMXMineração no Excel.Mineração no Visio.Demo
  • 4. Introdução: O que é Mineração de Dados?Mineração de dados é definido como um processo de análise de dadospor algoritmos e modelos matemáticos com o objetivo de encontrarpadrões e tendências nos dados de entrada.Importante frisar que nem sempre a saída é um modelo final, estemodelo poder ser usado em outras tarefas e passar por refinamentos atése chegar ao modelo desejado.Geralmente dividido em dois grupos de tarefas:• Descritivas (Agrupamento e Regras de Associação)• Preditivas (Classificação e Regressão)
  • 5. Introdução: O que é Mineração de Dados?Também temos outros grupos dentro dos grupos citadosanteriormente:• Supervisionado: Onde o aprendizado é assistido por um padrão, ou seja, você aprende baseado em algum conjunto de dados existente, geralmente chamado de base de treinamento. Neste caso você conhece o “label” das classes, e procura classificar os dados de entrada com base em alguma similaridade.• Não Supervisionado: você não conhece o “label” das classes, o algoritmos vai encontrar um meio de classificar os dados.
  • 6. Exemplo 1 Treinamento Altura Sexo Label Base de Testes Altura Sexo Label 1,80 0 Alto 1,75 0 ??? 1,50 0 Baixo ∑(1,80-1,75)+(0-0) = 0,05(Este será o responsável pelo Label do novo registro “Alto”)∑(1,50-1,75)+(0-0) = 0,25Exemplo baseado em distância.
  • 7. Exemplo 2 {2,4,6,3,7,9} Target Objetivo 2 Classes Somatório = 31 Média = 5,16 Grupo 1 < 5,16 = {2,3,4} Grupo 2 > 5,16 = {6,7,9}
  • 8. TerminologiaDados Contínuos: Altura, 1.76, 1.87 e 1.55Dados Discretos: > 1 & < 5, >5 & <10Confidência e confiança: representa a frequência de ocorrência doitem, ou seja, quantas vezes aquele caso ocorre. Indica aprobabilidade de um evento em decorrência do outro.Suporte: É a representação de quantas vezes determinado eventoocorre em relação a outro, neste caso deixa de ser probabilidade.Acurácia: O quanto algo está acurado, perfeito ou preciso.
  • 9. Conceitos de Mercado: BusinessIntelligence – BI ou Business Analytics - BA?Business Intelligence leva até a empresa a consolidação dosdados, já o Business Analytics (Mineração de Dados) visa explicara relação entre os números apresentados por essa consolidação.Business Analytics é o nome comercial para o conjunto detecnologias de análise de dados com objetivo de gerar tendênciase descrições do comportamento dos dados.
  • 10. Estrutura de um projeto• Fonte de Dados• Escolha da Tarefa• Processamento• Visualização
  • 11. Estrutura de um projeto
  • 12. Arquitetura Lógica Árvores de Decisão Clustering (Agrupamento) MSC MTS SaídaData Source Naive Bayes Microsoft Rede Neural Microsoft Regras de Associação Regressão Linear Regressão Logística
  • 13. Árvore de DecisãoO algoritmo Árvores de Decisão da Microsoft é um algoritmo declassificação e regressão para uso em modelagens de previsão deatributos discretos e contínuos.Por exemplo, em um cenário em que se deseja prever a tendênciados clientes em adquirir uma bicicleta, se 9 de 10 clientes jovenscomprarem uma bicicleta, mas apenas 2 de 10 clientes maisvelhos fizerem o mesmo, o algoritmo infere que idade é um bomindicador para a compra de bicicletas.
  • 14. Clustering (Agrupamento)O algoritmo Microsoft Clustering é um algoritmo de segmentação.O algoritmo usa técnicas iterativas para agrupar casos em umconjunto de dados em clusters que contenham característicassemelhantes.ErroRejeiçãoOutliers
  • 15. MSC - Microsoft Sequence Clustering: Algoritmo MSC é um híbridoque usa a análise de cadeia Markov para identificar seqüênciasordenadas e combina os resultados dessa análise com técnicas declusterização para gerar clusters com base nas seqüências eoutros atributos no modelo.MTS - Microsoft Time SeriesNaive Bayes MicrosoftO nome Naive Bayes foi atribuído pelo fato de o algoritmo usar oteorema de Bayes, mas não considerar dependências que possamexistir. Portanto, suas suposições são consideradas ingênuas.Rede Neural MicrosoftRede Neural da Microsoft combina cada estado possível doatributo de entrada com cada estado possível do atributo previsívele usa os dados de treinamento para calcular probabilidades.
  • 16. Regras de Associação: Um mecanismo de recomendação, querecomenda produtos aos clientes com base nos itens que eles jácompraram ou pelos quais mostraram interesse. O algoritmoAssociação da Microsoft também é útil para análise da cesta decompras.Regressão LinearO algoritmo Regressão Linear da Microsoft é uma variação doalgoritmo Árvores de Decisão da Microsoft que o ajuda a calcularuma relação linear entre uma variável dependente e umaindependente e, depois, a usar aquela relação para previsão.Regressão LogísticaO algoritmo Regressão Logística da Microsoft é uma variação doalgoritmo Rede Neural da Microsoft. A regressão logística é umatécnica estatística conhecida, usada para modelar resultadosbinários, como um resultado sim-não.
  • 17. Mineração de Dados com SQL ServerO SQL Server oferece suporte nativo à Business Intelligence eMineração de Dados desde a versão 2000 sem custo adicional.
  • 18. DMXCREATE MINING MODEL SELECT [Bike Buyer],SubcategoryAssociations PredictProbability([Bike Buyer],1), PredictHistogram([Bike Buyer])( FROM TargetMailDT NATURAL PREDICTION JOIN [Customer ID] LONG KEY, (SELECT 25 AS Age, [Subcategories] TABLE PREDICT 5-10 Miles AS [Commute Distance], M AS Gender, ( 1 AS [House Owner Flag], S AS [Marital Status], [Subcategory] TEXT KEY 1 AS [Number Cars Owned], ) 0 AS [Number Children At Home], Manual AS Occupation,) USING Microsoft_Association_Rules Pacific AS Region, 0 AS [Total Children], 45000 AS [Yearly Income] ) AS t
  • 19. Mineração no ExcelMicrosoft SQL Server 2008 Data Mining Add-ins for Microsoft Office.
  • 20. Mineração no VisioMicrosoft SQL Server 2008 Data Mining Add-ins for Microsoft Office.
  • 21. Mineração no SSIS
  • 22. Algoritmos de plug-inExemplo Codeplex: Support Vector Machine plug-in inAnalysis Services
  • 23. © 2009 Microsoft Corporation. Todos os direitos reservados.Microsoft, Active Directory, Windows e Windows Vista são marcas registradas ou comerciais da Microsoft Corporation nos Estados Unidos e/ou outros países. Osnomes de empresas e produtos reais aqui mencionados podem ser marcas comerciais de seus respectivos proprietários. As informações aqui contidas destinam-sea fins informativos apenas e representam a visão atual da Microsoft Corporation na data desta apresentação. Como a Microsoft deve responder às mudanças dascondições de mercado, este documento não deve ser interpretado como um compromisso da parte da Microsoft, e a Microsoft não pode assegurar a exatidão dequalquer informação fornecida após a data desta apresentação. A MICROSOFT NÃO DÁ NENHUMA GARANTIA, EXPRESSA, IMPLÍCITA OU ESTATUTÁRIA,QUANTO ÀS INFORMAÇÕES NESTA APRESENTAÇÃO.
  • 24. PREENCHA A FICHA DE AVALIAÇÃO DO EVENTOEntregue na saída do evento e ganhe brinde!Acesse o site da Comunidade:www.mcitpsc.com.brDúvidas ou Sugestões:E-mail: contato@mcitpsc.com.brQuer ser um Membro daComunidade?Acesse nosso site e cadastre-se! Twitter: @rdornel Site/Blog: rdornel.com Email: rodrigo@rdornel.com