Your SlideShare is downloading. ×
0
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Data Warehouse
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Data Warehouse

5,117

Published on

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
5,117
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
196
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. UNIVERSIDADE FEDERAL DA PARAÍBACENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO CAMPUS IV – LITORAL NORTE DISICPLINA: BANCO DE DADOS II PROFESSORA VANESSA DANTAS
  • 2. Data Warehouse & Data Mining Thiago Oliveira
  • 3. Agenda• Por que usar DW e DM?• Data Warehouse – Características de um Data Warehouse – Dados (OLTP x OLAP) – Operational Data Storage – ODS – Data Marts – Arquiteturas – Tipos de Implementação – Granularidade dos Dados – Estudo de Caso
  • 4. Agenda• Data Mining – Conceito – Dados, Informações e Conhecimento – Objetivos – Como implementar um DM – Aplicações de DM – Barreiras no uso de DM
  • 5. Por que usar DW e DM?• Business Inteligence – Apoio à tomada de Decisões• Customer Relationship Management (CRM) – Tratar clientes diferentes de forma diferente• Várias Plataformas de hardware e Software• Constantes alterações nos sistemas transacionais corporativos
  • 6. Data Warehouse
  • 7. Data Warehouse• Para se construir deve-se utilizar uma ferramenta ETL (Extraction, Transformation, Load)• Após a ETL, os dados são processados e armazenados no DW• Nem todos os dados devem ser transferidos para um DW• Os dados são organizados no DW de forma simples para o usuário final acessá-lo
  • 8. Características (1)• Extração de Dados de fontes heterogêneas• Transformação e integração de dados• Visualização de dados em diferentes níveis
  • 9. Características (2)• Orientação por Assunto Ambiente Transacional Data Warehouse Vendas Pedido, nota fiscal Ordem de produção, Produção máquina Falha, produto Qualidade
  • 10. Características (3)• Variação de Tempo – Precisão em relação ao tempo – Data é elemento essencial e componente-chave – Ao contrário de sistemas transacionais, DW tem espaços de tempo mais longos
  • 11. Características (4)• Não Volátil Bancos de Dados Bancos de Dados transacionais Data Warehouse Incluir Incluir ExcluirAcessar AcessarAlterar
  • 12. Características (5) • IntegraçãoSexo “Masculino”Sexo “Feminino” Extração Filtro Sexo “1” DW Sexo “2” Sexo “M” Sexo “F”
  • 13. Dados (OLTP x OLAP)OLTP: OLAP:(Online Transactional Processing) (Online Analytical Processing)• Do negócio • Sobre o Negócio• Transacional • Analítico• Operacional • Estratégico• Volátil • Não-Volátil• Não-padronizado • Padronizado • ROLAP (Relacional) • MOLAP (Multi) • DOLAP (Desktop)
  • 14. Operational Data Storage – ODS (1)• Objetivo – Criar um ambiente intermediário de armazenamento e processamento de dados vindos de diversas fontes para o processo de ETL, evitando problemas após a criação do DW.
  • 15. Operational Data Storage – ODS (2)• Também chamado de Dynamic Data Storage - DDS e Staging Area• Representa um armazenamento intermediário dos dados DW• Ideal quando se tem várias fontes de dados
  • 16. Operational Data Storage – ODS (3)Sistemas Legados DW ODS OLAP DW Data Mining FontesExternas Todos os dados são filtrados aqui!
  • 17. Operational Data Storage – ODS (4) Cliente João Num_001 Sistema Conta-Corrente Cliente João Num_579 ODS Sistema Aplicações Cliente João Num_351 João DW + inf. Conta-corrente Sistema + inf. Aplicações Poupança + inf. poupança
  • 18. Data Marts (1)• DW segmentado, por departamento, por exemplo.• Representa um subconjunto do DW• Pode ser feito de duas formas: – Capturando dados dos OLTPs • Mais rápido • Pode haver problemas com padronização de dados – Capturando dados do DW • Mais eficiente • Mais demorado
  • 19. Nós somosData Marts! Data Marts (2) Nós somos Data Marts!Nós somosData Marts!
  • 20. Arquiteturas de DW• Fatores que determinam a arquitetura: – Infra-estrutura – Recursos – Abrangência – Capacitação da equipe• Muitas vezes a arquitetura é uma combinação das arquiteturas disponíveis e as abordagens de implementação.
  • 21. Arquitetura GlobalGlobal = Por toda a empresa Arquitetura global distribuída Dados Operacionais e Externos Arquitetura global centralizada
  • 22. Arquitetura de DM independente DadosOperacionais e Externos Data Marts Stand Alone sem foco coorporativo nenhum
  • 23. Arquitetura de DM integrada DadosOperacionais e Externos
  • 24. Tipos de Implementação• A escolha por um tipo é influenciada por fatores como: – Infra-estrutura de TI – Arquitetura escolhida – Escopo – Recursos disponíveis ($) – Necessidade ou não de acesso corporativo dos dados – Velocidade de implementação
  • 25. Abordagem Top Down DM DM ODS DW . . . DM Data Mining OLAP
  • 26. • Vantagens • Desvantagens – Herança de - Implementação longa Arquitetura - Alta taxa de risco – Repositório - Expectativas Centralizado – Centralização de regras
  • 27. Abordagem Bottom Up DM 1 Data Warehouse SistemasOperacionais DM DM DM 2 DM . . . DM DM n
  • 28. • Vantagens • Desvantagens – Implementação - Perigo de Legamarts (Dificultam futuras rápida integrações) – Retorno rápido - Desafio de possuir – Herança incremental visão do empreendimento - A maldição do sucesso
  • 29. Granularidade dos Dados Alto nível de detalhes Baixo nível de detalhes Baixo nível de granularidade Alto nível de granularidadeExemplo ExemploDetalhe de cada transação Sumário das transações dede venda de um vendedor venda de um vendedorrealizada durante um mês realizadas durante um mês Data 50 registros Mês Hora Vendedor Vendedor por mês Valor Valor
  • 30. Modelagem Multidimensional• Fato – Representa um item, uma transação ou um evento de negócio. – Reflete a evolução dos negócios – Exemplo: “O índice de aprovação da cadeira de Cálculo I vem aumentando nos últimos dois anos”• Dimensões – Elementos que participam de um fato – Tempo, Localização, Clientes, Vendedores, etc.• Medidas (Variáveis) – Atributos numéricos que representam um fato – Valor de vendas, número de alunos aprovados, etc.
  • 31. Star Schema Dimensão DataDimensão Dimensão Cliente Região Fato de Vendas Dimensão Dimensão Vendedor Produto
  • 32. Snowflake Schema Dimensão CidadeDimensão Semana Dimensão Data Dimensão Dimensão Mês Estado Dimensão Dimensão Cliente Região Fato de Vendas Dimensão Tipo do Produto Dimensão Dimensão Vendedor Produto
  • 33. Estudo de Caso• Uma grande distribuidora de filmes possui um sistema para controle dos seus filmes• O sistema atual controla os filmes por salas de cinema onde são exibidos, tendo informações sobre capacidade da sala, localização regional, assim como a bilheteria de cada sessão.
  • 34. O sistema atual• O sistema controla os atores que participam dos filmes• Diretor do filme• Filmes são classificados por gênero e por origem• Quantidade de público e valor arrecadado pela bilheteria
  • 35. Necessidades Executivas (1)• Acompanhar a evolução do público e valor arrecadado por região do país, estado e cidade, classificados por gênero e sala de cinema• Também é necessário avaliar a evolução de filmes por ator e por diretor
  • 36. Necessidades Executivas (2)• Saber quais diretores atraem mais publico e em que gênero está esse público.• O tempo é fator fundamental de análise, pois é preciso saber quais períodos do ano possuem mais público por gênero, ator e diretor, e geograficamente.
  • 37. Modelo do DW solicitado
  • 38. Data Mining“É o processo de busca por dados, porPADRÕES anteriormente desconhecidos e usofrequente desses padrões para predizerCONSEQUÊNCIAS futuras.” • Jeff Jonas e Jim Harper
  • 39. Data Mining“É a concepção de modelos computacionaiscapazes de identificar e revelar padrõesdesconhecidos mas existentes entre dadospertencentes a uma ou mais bases de dados”
  • 40. Simplificando... • Torture os dados até eles confessarem ... Se você torturar o suficiente, eles irão confessar tudo
  • 41. Dados, Informações e Conhecimento• “…dados são puramente sintáticos enquanto informação contém, necessariamente, semântica. Conhecimento é uma abstração interior (…) relacionada a alguma coisa existente no mundo real e do qual temos uma experiência direta”. – Setzer
  • 42. Objetivos da DM• Descobrir PADRÕES – Representar informações úteis para a empresa – Caso da Cerveja e da Fralda• Descrever – Explicar resultados ou valores obtidos em determinados dados ou negócios• Prever – Antecipar o comportamento ou valor futuro de algum fenômeno com base em conhecimento prévio.
  • 43. Como implementar Data Mining• Algoritmos baseados em redes neurais – Processamento de dados de maneira semelhante ao cérebro humano – Decisões baseadas na aprendizagem• Algoritmos estatísticos – Utilizados na análise de dados, a fim de encontrar padrões e correlações entre eles• Algoritmos de Aprendizado – Extrair padrões a partir da interação com o ambiente
  • 44. Aplicações de Data Mining• Cross-Selling – Identificar associação entre produtos• Up-Selling – Identificar potenciais clientes para determinados produtos• Fidelização – Descobrir fatores associados a perda de clientes
  • 45. Barreiras do uso de DW e DM• Altos Custos• Ferramentas muito complexas• Preparação dos dados (80% do trabalho)• Dificuldade em estimar o retorno do investimento
  • 46. Concluindo...“Um projeto de Data Warehouse nuncatermina. As fontes de dados mudam, asnecessidades dos usuários também mudam, onúmero deles aumenta, as regras de mercadose alteram, os usuários demandarão maisinformações. Enfim, Data Warehousing não éo OBJETIVO; é o CAMINHO”
  • 47. Referências• Tecnologia e Projeto de Data Warehouse – Felipe Nery Rodrigues Machado• Tecnologia de Data Warehouse – Rafael Ramos Batista de Figueiredo• Um projeto de Data Warehouse – Angelo Luiz de Bortoli• Redes Neurais – Uma ferramenta para KDD e Data Mining – Antonio Carlos Gay Thomé
  • 48. Dúvidas?
  • 49. Obrigado!

×