SlideShare a Scribd company logo
1 of 25
Mineração de Dados com
SQL Server 2008 R2
Rodrigo Ramos Dornel

MCP, MCTS, MCITP e MCT
Consultor e Professor Universitário
Mestrando em Computação na UFPR


Twitter: @rdornel
Site/Blog: rdornel.com
Email: rodrigo@rdornel.com
Agenda

Introdução: O que é Mineração de Dados.
Conceitos de Mercado: Business Intelligence – BI ou
Business Analytics – BA.


Mineração de Dados com SQL Server.
Mineração de Dados no Integration Services.
Linguagem DMX
Mineração no Excel.
Mineração no Visio.
Demo
Introdução: O que é Mineração de Dados?

Mineração de dados é definido como um processo de análise de dados
por algoritmos e modelos matemáticos com o objetivo de encontrar
padrões e tendências nos dados de entrada.


Importante frisar que nem sempre a saída é um modelo final, este
modelo poder ser usado em outras tarefas e passar por refinamentos até
se chegar ao modelo desejado.


Geralmente dividido em dois grupos de tarefas:
• Descritivas (Agrupamento e Regras de Associação)
• Preditivas (Classificação e Regressão)
Introdução: O que é Mineração de Dados?

Também temos outros grupos dentro dos grupos citados
anteriormente:


• Supervisionado: Onde o aprendizado é assistido por um
  padrão, ou seja, você aprende baseado em algum conjunto de
  dados existente, geralmente chamado de base de treinamento.
  Neste caso você conhece o “label” das classes, e procura
  classificar os dados de entrada com base em alguma
  similaridade.


• Não Supervisionado: você não conhece o “label” das classes, o
  algoritmos vai encontrar um meio de classificar os dados.
Exemplo 1
 Treinamento
 Altura    Sexo      Label           Base de Testes
                                     Altura    Sexo    Label
 1,80      0         Alto
                                     1,75      0        ???
 1,50      0         Baixo




 ∑(1,80-1,75)+(0-0) = 0,05
(Este será o responsável pelo Label do novo registro “Alto”)

∑(1,50-1,75)+(0-0) = 0,25

Exemplo baseado em distância.
Exemplo 2

             {2,4,6,3,7,9}


      Target Objetivo 2 Classes
            Somatório = 31
             Média = 5,16


        Grupo 1 < 5,16 = {2,3,4}
       Grupo 2 > 5,16 = {6,7,9}
Terminologia
Dados Contínuos: Altura, 1.76, 1.87 e 1.55


Dados Discretos: > 1 & < 5, >5 & <10


Confidência e confiança: representa a frequência de ocorrência do
item, ou seja, quantas vezes aquele caso ocorre. Indica a
probabilidade de um evento em decorrência do outro.


Suporte: É a representação de quantas vezes determinado evento
ocorre em relação a outro, neste caso deixa de ser probabilidade.


Acurácia: O quanto algo está acurado, perfeito ou preciso.
Conceitos de Mercado: Business
Intelligence – BI ou Business Analytics - BA?

Business Intelligence leva até a empresa a consolidação dos
dados, já o Business Analytics (Mineração de Dados) visa explicar
a relação entre os números apresentados por essa consolidação.


Business Analytics é o nome comercial para o conjunto de
tecnologias de análise de dados com objetivo de gerar tendências
e descrições do comportamento dos dados.
Estrutura de um projeto

• Fonte de Dados
• Escolha da Tarefa
• Processamento
• Visualização
Estrutura de um projeto
Arquitetura Lógica

                     Árvores de Decisão
                Clustering (Agrupamento)
                           MSC
                           MTS
                                           Saída
Data Source      Naive Bayes Microsoft
                 Rede Neural Microsoft
                 Regras de Associação
                     Regressão Linear
                  Regressão Logística
Árvore de Decisão
O algoritmo Árvores de Decisão da Microsoft é um algoritmo de
classificação e regressão para uso em modelagens de previsão de
atributos discretos e contínuos.
Por exemplo, em um cenário em que se deseja prever a tendência
dos clientes em adquirir uma bicicleta, se 9 de 10 clientes jovens
comprarem uma bicicleta, mas apenas 2 de 10 clientes mais
velhos fizerem o mesmo, o algoritmo infere que idade é um bom
indicador para a compra de bicicletas.
Clustering (Agrupamento)


O algoritmo Microsoft Clustering é um algoritmo de segmentação.
O algoritmo usa técnicas iterativas para agrupar casos em um
conjunto de dados em clusters que contenham características
semelhantes.




Erro
Rejeição
Outliers
MSC - Microsoft Sequence Clustering: Algoritmo MSC é um híbrido
que usa a análise de cadeia Markov para identificar seqüências
ordenadas e combina os resultados dessa análise com técnicas de
clusterização para gerar clusters com base nas seqüências e
outros atributos no modelo.


MTS - Microsoft Time Series


Naive Bayes Microsoft
O nome Naive Bayes foi atribuído pelo fato de o algoritmo usar o
teorema de Bayes, mas não considerar dependências que possam
existir. Portanto, suas suposições são consideradas ingênuas.
Rede Neural Microsoft
Rede Neural da Microsoft combina cada estado possível do
atributo de entrada com cada estado possível do atributo previsível
e usa os dados de treinamento para calcular probabilidades.
Regras de Associação: Um mecanismo de recomendação, que
recomenda produtos aos clientes com base nos itens que eles já
compraram ou pelos quais mostraram interesse. O algoritmo
Associação da Microsoft também é útil para análise da cesta de
compras.


Regressão Linear
O algoritmo Regressão Linear da Microsoft é uma variação do
algoritmo Árvores de Decisão da Microsoft que o ajuda a calcular
uma relação linear entre uma variável dependente e uma
independente e, depois, a usar aquela relação para previsão.


Regressão Logística
O algoritmo Regressão Logística da Microsoft é uma variação do
algoritmo Rede Neural da Microsoft. A regressão logística é uma
técnica estatística conhecida, usada para modelar resultados
binários, como um resultado sim-não.
Mineração de Dados com SQL Server


O SQL Server oferece suporte nativo à Business Intelligence e
Mineração de Dados desde a versão 2000 sem custo adicional.
DMX


CREATE MINING MODEL                   SELECT [Bike Buyer],
SubcategoryAssociations                PredictProbability([Bike Buyer],1),
                                       PredictHistogram([Bike Buyer])
(                                     FROM TargetMailDT
                                      NATURAL PREDICTION JOIN
    [Customer ID] LONG KEY,
                                      (SELECT 25 AS Age,
    [Subcategories] TABLE PREDICT      '5-10 Miles' AS [Commute Distance],
                                       'M' AS Gender,
    (                                   1 AS [House Owner Flag],
                                        'S' AS [Marital Status],
        [Subcategory] TEXT KEY
                                        1 AS [Number Cars Owned],
    )                                   0 AS [Number Children At Home],
                                        'Manual' AS Occupation,
) USING Microsoft_Association_Rules     'Pacific' AS Region,
                                        0 AS [Total Children],
                                        45000 AS [Yearly Income]
                                        ) AS t
Mineração no Excel

Microsoft SQL Server 2008 Data Mining Add-ins for Microsoft Office.
Mineração no Visio

Microsoft SQL Server 2008 Data Mining Add-ins for Microsoft Office.
Mineração no SSIS
Algoritmos de plug-in
Exemplo Codeplex: Support Vector Machine plug-in in
Analysis Services
© 2009 Microsoft Corporation. Todos os direitos reservados.
Microsoft, Active Directory, Windows e Windows Vista são marcas registradas ou comerciais da Microsoft Corporation nos Estados Unidos e/ou outros países. Os
nomes de empresas e produtos reais aqui mencionados podem ser marcas comerciais de seus respectivos proprietários. As informações aqui contidas destinam-se
a fins informativos apenas e representam a visão atual da Microsoft Corporation na data desta apresentação. Como a Microsoft deve responder às mudanças das
condições de mercado, este documento não deve ser interpretado como um compromisso da parte da Microsoft, e a Microsoft não pode assegurar a exatidão de
qualquer informação fornecida após a data desta apresentação. A MICROSOFT NÃO DÁ NENHUMA GARANTIA, EXPRESSA, IMPLÍCITA OU ESTATUTÁRIA,
QUANTO ÀS INFORMAÇÕES NESTA APRESENTAÇÃO.
PREENCHA A FICHA DE AVALIAÇÃO DO EVENTO
Entregue na saída do evento e ganhe brinde!
Acesse o site da Comunidade:
www.mcitpsc.com.br
Dúvidas ou Sugestões:
E-mail: contato@mcitpsc.com.br

Quer ser um Membro da
Comunidade?
Acesse nosso site e cadastre-se!




                                   Twitter: @rdornel Site/Blog: rdornel.com
                                               Email: rodrigo@rdornel.com

More Related Content

Similar to Mineração com sql server 2008 r2

Governança de Dados para BI, em tempos de Self-Service BI
Governança de Dados para BI, em tempos de Self-Service BIGovernança de Dados para BI, em tempos de Self-Service BI
Governança de Dados para BI, em tempos de Self-Service BIClaudio Bonel
 
Power Tuning - Portfolio de BI
Power Tuning - Portfolio de BIPower Tuning - Portfolio de BI
Power Tuning - Portfolio de BIDirceu Resende
 
Governança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoGovernança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoClaudio Bonel
 
Modelagem Dimensional
Modelagem DimensionalModelagem Dimensional
Modelagem DimensionalMarco Garcia
 
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptxApresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptxdataRain
 
Senior BI - Business Intelligence
Senior BI - Business IntelligenceSenior BI - Business Intelligence
Senior BI - Business IntelligenceSenior Sistemas
 
Analise de SWOT - Parte 2
Analise de SWOT - Parte 2Analise de SWOT - Parte 2
Analise de SWOT - Parte 2Wilson Souza
 
Melhore seu conhecimento sobre analise de dados com a versao mais recente do ...
Melhore seu conhecimento sobre analise de dados com a versao mais recente do ...Melhore seu conhecimento sobre analise de dados com a versao mais recente do ...
Melhore seu conhecimento sobre analise de dados com a versao mais recente do ...Minitab, LLC
 
Palestra UNIBERO (SP) - SOA: Conceito e prática na implementação
Palestra UNIBERO (SP) - SOA: Conceito e prática na implementaçãoPalestra UNIBERO (SP) - SOA: Conceito e prática na implementação
Palestra UNIBERO (SP) - SOA: Conceito e prática na implementaçãoAndré Lima
 
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...Aislan Honorato
 
Por que o Microsoft Power BI? Um breve overview sobre BI
Por que o Microsoft Power BI? Um breve overview sobre BIPor que o Microsoft Power BI? Um breve overview sobre BI
Por que o Microsoft Power BI? Um breve overview sobre BILeonardo Karpinski
 
Apresentação Wiseminer Analytics
Apresentação Wiseminer AnalyticsApresentação Wiseminer Analytics
Apresentação Wiseminer AnalyticsLeonardo Couto
 
IT Concepts - Portuguese
IT Concepts - PortugueseIT Concepts - Portuguese
IT Concepts - Portugueseguest3379c1
 
ApresentaçãO Metodologia
ApresentaçãO MetodologiaApresentaçãO Metodologia
ApresentaçãO MetodologiaMarcos Yonamine
 
Projeto final v2 - Módulo Gerencial - Sistema de Recomendação
Projeto final v2 - Módulo Gerencial - Sistema de RecomendaçãoProjeto final v2 - Módulo Gerencial - Sistema de Recomendação
Projeto final v2 - Módulo Gerencial - Sistema de RecomendaçãoEdileusa Estéfani Prado
 
Wiseminer: Data Blending & Data Preparation
Wiseminer: Data Blending & Data PreparationWiseminer: Data Blending & Data Preparation
Wiseminer: Data Blending & Data PreparationLeonardo Couto
 

Similar to Mineração com sql server 2008 r2 (20)

Governança de Dados para BI, em tempos de Self-Service BI
Governança de Dados para BI, em tempos de Self-Service BIGovernança de Dados para BI, em tempos de Self-Service BI
Governança de Dados para BI, em tempos de Self-Service BI
 
Power Tuning - Portfolio de BI
Power Tuning - Portfolio de BIPower Tuning - Portfolio de BI
Power Tuning - Portfolio de BI
 
Governança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoGovernança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª Edição
 
Modelagem Dimensional
Modelagem DimensionalModelagem Dimensional
Modelagem Dimensional
 
AX4B - Dynamics AX
AX4B - Dynamics AX AX4B - Dynamics AX
AX4B - Dynamics AX
 
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptxApresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
 
Senior BI - Business Intelligence
Senior BI - Business IntelligenceSenior BI - Business Intelligence
Senior BI - Business Intelligence
 
Analise de SWOT - Parte 2
Analise de SWOT - Parte 2Analise de SWOT - Parte 2
Analise de SWOT - Parte 2
 
Melhore seu conhecimento sobre analise de dados com a versao mais recente do ...
Melhore seu conhecimento sobre analise de dados com a versao mais recente do ...Melhore seu conhecimento sobre analise de dados com a versao mais recente do ...
Melhore seu conhecimento sobre analise de dados com a versao mais recente do ...
 
IA/ML melhorando a saúde pública
IA/ML melhorando a saúde públicaIA/ML melhorando a saúde pública
IA/ML melhorando a saúde pública
 
Metastorm ProVision
Metastorm ProVisionMetastorm ProVision
Metastorm ProVision
 
Palestra UNIBERO (SP) - SOA: Conceito e prática na implementação
Palestra UNIBERO (SP) - SOA: Conceito e prática na implementaçãoPalestra UNIBERO (SP) - SOA: Conceito e prática na implementação
Palestra UNIBERO (SP) - SOA: Conceito e prática na implementação
 
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
 
A TOTVS
A TOTVS A TOTVS
A TOTVS
 
Por que o Microsoft Power BI? Um breve overview sobre BI
Por que o Microsoft Power BI? Um breve overview sobre BIPor que o Microsoft Power BI? Um breve overview sobre BI
Por que o Microsoft Power BI? Um breve overview sobre BI
 
Apresentação Wiseminer Analytics
Apresentação Wiseminer AnalyticsApresentação Wiseminer Analytics
Apresentação Wiseminer Analytics
 
IT Concepts - Portuguese
IT Concepts - PortugueseIT Concepts - Portuguese
IT Concepts - Portuguese
 
ApresentaçãO Metodologia
ApresentaçãO MetodologiaApresentaçãO Metodologia
ApresentaçãO Metodologia
 
Projeto final v2 - Módulo Gerencial - Sistema de Recomendação
Projeto final v2 - Módulo Gerencial - Sistema de RecomendaçãoProjeto final v2 - Módulo Gerencial - Sistema de Recomendação
Projeto final v2 - Módulo Gerencial - Sistema de Recomendação
 
Wiseminer: Data Blending & Data Preparation
Wiseminer: Data Blending & Data PreparationWiseminer: Data Blending & Data Preparation
Wiseminer: Data Blending & Data Preparation
 

More from Rodrigo Dornel

SQL Saturday 570 - São Paulo - 2016
SQL Saturday 570 - São Paulo - 2016SQL Saturday 570 - São Paulo - 2016
SQL Saturday 570 - São Paulo - 2016Rodrigo Dornel
 
Mentoring para prova MTA - Fundamento de Banco de Dados
Mentoring para prova MTA - Fundamento de Banco de DadosMentoring para prova MTA - Fundamento de Banco de Dados
Mentoring para prova MTA - Fundamento de Banco de DadosRodrigo Dornel
 
Power bi na prática 2016
Power bi na prática 2016Power bi na prática 2016
Power bi na prática 2016Rodrigo Dornel
 
SQL Server Heterogêneo: SQL Server + BigData
SQL Server Heterogêneo: SQL Server + BigDataSQL Server Heterogêneo: SQL Server + BigData
SQL Server Heterogêneo: SQL Server + BigDataRodrigo Dornel
 
Palestra sql saturday 361
Palestra sql saturday 361Palestra sql saturday 361
Palestra sql saturday 361Rodrigo Dornel
 
Reunião02 pass chapter - desenvolvimento
Reunião02 pass chapter - desenvolvimentoReunião02 pass chapter - desenvolvimento
Reunião02 pass chapter - desenvolvimentoRodrigo Dornel
 
Biweek Mineração de Dados com SQL Server
Biweek   Mineração de Dados com SQL ServerBiweek   Mineração de Dados com SQL Server
Biweek Mineração de Dados com SQL ServerRodrigo Dornel
 
Reunião #1 – 2015 – Overview
Reunião #1 – 2015 – OverviewReunião #1 – 2015 – Overview
Reunião #1 – 2015 – OverviewRodrigo Dornel
 
Mineração de dados com SQL Server - Datamining
Mineração de dados com SQL Server - DataminingMineração de dados com SQL Server - Datamining
Mineração de dados com SQL Server - DataminingRodrigo Dornel
 
Reunião 02 PASS Chapter MCITPSC
Reunião 02 PASS Chapter MCITPSCReunião 02 PASS Chapter MCITPSC
Reunião 02 PASS Chapter MCITPSCRodrigo Dornel
 
Reunião01 Pass Chapter - MCITPSC
Reunião01 Pass Chapter - MCITPSCReunião01 Pass Chapter - MCITPSC
Reunião01 Pass Chapter - MCITPSCRodrigo Dornel
 

More from Rodrigo Dornel (13)

SQL Saturday 570 - São Paulo - 2016
SQL Saturday 570 - São Paulo - 2016SQL Saturday 570 - São Paulo - 2016
SQL Saturday 570 - São Paulo - 2016
 
Mentoring para prova MTA - Fundamento de Banco de Dados
Mentoring para prova MTA - Fundamento de Banco de DadosMentoring para prova MTA - Fundamento de Banco de Dados
Mentoring para prova MTA - Fundamento de Banco de Dados
 
Power bi na prática 2016
Power bi na prática 2016Power bi na prática 2016
Power bi na prática 2016
 
SQL Server Heterogêneo: SQL Server + BigData
SQL Server Heterogêneo: SQL Server + BigDataSQL Server Heterogêneo: SQL Server + BigData
SQL Server Heterogêneo: SQL Server + BigData
 
Palestra sql saturday 361
Palestra sql saturday 361Palestra sql saturday 361
Palestra sql saturday 361
 
Reunião02 pass chapter - desenvolvimento
Reunião02 pass chapter - desenvolvimentoReunião02 pass chapter - desenvolvimento
Reunião02 pass chapter - desenvolvimento
 
Biweek Mineração de Dados com SQL Server
Biweek   Mineração de Dados com SQL ServerBiweek   Mineração de Dados com SQL Server
Biweek Mineração de Dados com SQL Server
 
Reunião #1 – 2015 – Overview
Reunião #1 – 2015 – OverviewReunião #1 – 2015 – Overview
Reunião #1 – 2015 – Overview
 
Mineração de dados com SQL Server - Datamining
Mineração de dados com SQL Server - DataminingMineração de dados com SQL Server - Datamining
Mineração de dados com SQL Server - Datamining
 
Reunião 02 PASS Chapter MCITPSC
Reunião 02 PASS Chapter MCITPSCReunião 02 PASS Chapter MCITPSC
Reunião 02 PASS Chapter MCITPSC
 
Reunião01 Pass Chapter - MCITPSC
Reunião01 Pass Chapter - MCITPSCReunião01 Pass Chapter - MCITPSC
Reunião01 Pass Chapter - MCITPSC
 
Data mining (Part II)
Data mining (Part II)Data mining (Part II)
Data mining (Part II)
 
Data mining (Part I)
Data mining (Part I)Data mining (Part I)
Data mining (Part I)
 

Recently uploaded

Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfSamaraLunas
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx2m Assessoria
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploDanilo Pinotti
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx2m Assessoria
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsDanilo Pinotti
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuisKitota
 

Recently uploaded (8)

Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 

Mineração com sql server 2008 r2

  • 1. Mineração de Dados com SQL Server 2008 R2
  • 2. Rodrigo Ramos Dornel MCP, MCTS, MCITP e MCT Consultor e Professor Universitário Mestrando em Computação na UFPR Twitter: @rdornel Site/Blog: rdornel.com Email: rodrigo@rdornel.com
  • 3. Agenda Introdução: O que é Mineração de Dados. Conceitos de Mercado: Business Intelligence – BI ou Business Analytics – BA. Mineração de Dados com SQL Server. Mineração de Dados no Integration Services. Linguagem DMX Mineração no Excel. Mineração no Visio. Demo
  • 4. Introdução: O que é Mineração de Dados? Mineração de dados é definido como um processo de análise de dados por algoritmos e modelos matemáticos com o objetivo de encontrar padrões e tendências nos dados de entrada. Importante frisar que nem sempre a saída é um modelo final, este modelo poder ser usado em outras tarefas e passar por refinamentos até se chegar ao modelo desejado. Geralmente dividido em dois grupos de tarefas: • Descritivas (Agrupamento e Regras de Associação) • Preditivas (Classificação e Regressão)
  • 5. Introdução: O que é Mineração de Dados? Também temos outros grupos dentro dos grupos citados anteriormente: • Supervisionado: Onde o aprendizado é assistido por um padrão, ou seja, você aprende baseado em algum conjunto de dados existente, geralmente chamado de base de treinamento. Neste caso você conhece o “label” das classes, e procura classificar os dados de entrada com base em alguma similaridade. • Não Supervisionado: você não conhece o “label” das classes, o algoritmos vai encontrar um meio de classificar os dados.
  • 6. Exemplo 1 Treinamento Altura Sexo Label Base de Testes Altura Sexo Label 1,80 0 Alto 1,75 0 ??? 1,50 0 Baixo ∑(1,80-1,75)+(0-0) = 0,05 (Este será o responsável pelo Label do novo registro “Alto”) ∑(1,50-1,75)+(0-0) = 0,25 Exemplo baseado em distância.
  • 7. Exemplo 2 {2,4,6,3,7,9} Target Objetivo 2 Classes Somatório = 31 Média = 5,16 Grupo 1 < 5,16 = {2,3,4} Grupo 2 > 5,16 = {6,7,9}
  • 8. Terminologia Dados Contínuos: Altura, 1.76, 1.87 e 1.55 Dados Discretos: > 1 & < 5, >5 & <10 Confidência e confiança: representa a frequência de ocorrência do item, ou seja, quantas vezes aquele caso ocorre. Indica a probabilidade de um evento em decorrência do outro. Suporte: É a representação de quantas vezes determinado evento ocorre em relação a outro, neste caso deixa de ser probabilidade. Acurácia: O quanto algo está acurado, perfeito ou preciso.
  • 9. Conceitos de Mercado: Business Intelligence – BI ou Business Analytics - BA? Business Intelligence leva até a empresa a consolidação dos dados, já o Business Analytics (Mineração de Dados) visa explicar a relação entre os números apresentados por essa consolidação. Business Analytics é o nome comercial para o conjunto de tecnologias de análise de dados com objetivo de gerar tendências e descrições do comportamento dos dados.
  • 10. Estrutura de um projeto • Fonte de Dados • Escolha da Tarefa • Processamento • Visualização
  • 11. Estrutura de um projeto
  • 12. Arquitetura Lógica Árvores de Decisão Clustering (Agrupamento) MSC MTS Saída Data Source Naive Bayes Microsoft Rede Neural Microsoft Regras de Associação Regressão Linear Regressão Logística
  • 13. Árvore de Decisão O algoritmo Árvores de Decisão da Microsoft é um algoritmo de classificação e regressão para uso em modelagens de previsão de atributos discretos e contínuos. Por exemplo, em um cenário em que se deseja prever a tendência dos clientes em adquirir uma bicicleta, se 9 de 10 clientes jovens comprarem uma bicicleta, mas apenas 2 de 10 clientes mais velhos fizerem o mesmo, o algoritmo infere que idade é um bom indicador para a compra de bicicletas.
  • 14. Clustering (Agrupamento) O algoritmo Microsoft Clustering é um algoritmo de segmentação. O algoritmo usa técnicas iterativas para agrupar casos em um conjunto de dados em clusters que contenham características semelhantes. Erro Rejeição Outliers
  • 15. MSC - Microsoft Sequence Clustering: Algoritmo MSC é um híbrido que usa a análise de cadeia Markov para identificar seqüências ordenadas e combina os resultados dessa análise com técnicas de clusterização para gerar clusters com base nas seqüências e outros atributos no modelo. MTS - Microsoft Time Series Naive Bayes Microsoft O nome Naive Bayes foi atribuído pelo fato de o algoritmo usar o teorema de Bayes, mas não considerar dependências que possam existir. Portanto, suas suposições são consideradas ingênuas. Rede Neural Microsoft Rede Neural da Microsoft combina cada estado possível do atributo de entrada com cada estado possível do atributo previsível e usa os dados de treinamento para calcular probabilidades.
  • 16. Regras de Associação: Um mecanismo de recomendação, que recomenda produtos aos clientes com base nos itens que eles já compraram ou pelos quais mostraram interesse. O algoritmo Associação da Microsoft também é útil para análise da cesta de compras. Regressão Linear O algoritmo Regressão Linear da Microsoft é uma variação do algoritmo Árvores de Decisão da Microsoft que o ajuda a calcular uma relação linear entre uma variável dependente e uma independente e, depois, a usar aquela relação para previsão. Regressão Logística O algoritmo Regressão Logística da Microsoft é uma variação do algoritmo Rede Neural da Microsoft. A regressão logística é uma técnica estatística conhecida, usada para modelar resultados binários, como um resultado sim-não.
  • 17. Mineração de Dados com SQL Server O SQL Server oferece suporte nativo à Business Intelligence e Mineração de Dados desde a versão 2000 sem custo adicional.
  • 18. DMX CREATE MINING MODEL SELECT [Bike Buyer], SubcategoryAssociations PredictProbability([Bike Buyer],1), PredictHistogram([Bike Buyer]) ( FROM TargetMailDT NATURAL PREDICTION JOIN [Customer ID] LONG KEY, (SELECT 25 AS Age, [Subcategories] TABLE PREDICT '5-10 Miles' AS [Commute Distance], 'M' AS Gender, ( 1 AS [House Owner Flag], 'S' AS [Marital Status], [Subcategory] TEXT KEY 1 AS [Number Cars Owned], ) 0 AS [Number Children At Home], 'Manual' AS Occupation, ) USING Microsoft_Association_Rules 'Pacific' AS Region, 0 AS [Total Children], 45000 AS [Yearly Income] ) AS t
  • 19. Mineração no Excel Microsoft SQL Server 2008 Data Mining Add-ins for Microsoft Office.
  • 20. Mineração no Visio Microsoft SQL Server 2008 Data Mining Add-ins for Microsoft Office.
  • 22. Algoritmos de plug-in Exemplo Codeplex: Support Vector Machine plug-in in Analysis Services
  • 23.
  • 24. © 2009 Microsoft Corporation. Todos os direitos reservados. Microsoft, Active Directory, Windows e Windows Vista são marcas registradas ou comerciais da Microsoft Corporation nos Estados Unidos e/ou outros países. Os nomes de empresas e produtos reais aqui mencionados podem ser marcas comerciais de seus respectivos proprietários. As informações aqui contidas destinam-se a fins informativos apenas e representam a visão atual da Microsoft Corporation na data desta apresentação. Como a Microsoft deve responder às mudanças das condições de mercado, este documento não deve ser interpretado como um compromisso da parte da Microsoft, e a Microsoft não pode assegurar a exatidão de qualquer informação fornecida após a data desta apresentação. A MICROSOFT NÃO DÁ NENHUMA GARANTIA, EXPRESSA, IMPLÍCITA OU ESTATUTÁRIA, QUANTO ÀS INFORMAÇÕES NESTA APRESENTAÇÃO.
  • 25. PREENCHA A FICHA DE AVALIAÇÃO DO EVENTO Entregue na saída do evento e ganhe brinde! Acesse o site da Comunidade: www.mcitpsc.com.br Dúvidas ou Sugestões: E-mail: contato@mcitpsc.com.br Quer ser um Membro da Comunidade? Acesse nosso site e cadastre-se! Twitter: @rdornel Site/Blog: rdornel.com Email: rodrigo@rdornel.com