Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Construindo um Data Warehouse - Vítor Resing Plentz - Tchelinux 2019 Rio Grande

19 views

Published on

Visa introduzir conceitos básicos envolvidos na criação de um Data Warehouse. A palestra aborda desde o que é um data warehouse, até conceitos de modelagem utilizados na construção do mesmo.

Vítor Resing Plentz está concluindo o curso de Ciência da Computação, já foi presidente da Hut8 (EJ da Computação na UFPel) e atualmente é fundador e Cientista de Dados na Elixir AI, participando também como organizador da comunidade Pelotas Data Science Meetup.

Para mais informações:
https://www.linkedin.com/in/v%C3%ADtor-resing-plentz-438681101

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Construindo um Data Warehouse - Vítor Resing Plentz - Tchelinux 2019 Rio Grande

  1. 1. DATAWAREHOUSES Vítor Resing Plentz, Cientista de Dados na Elixir AI
  2. 2. EDU IT Department 2020 ANALISES DE DADOS / VALIDAÇÃO DE HIPOTESES. CRIAÇÃO DE PRODUTOS DE DADOS - PIPELINES ETL; - CRIAÇÃO DE DASHBOARDS; - ALGORITMOS DE ML
  3. 3. SUMÁRIO DA APRESENTAÇÃO TÓPICOS Problemática O que é um Data Warehouse; OLAP vs OLTP Data pipeline; Normalização; Data Schemas; Tecnologias.
  4. 4. PROBLEMÁTICA “INFORMAÇÃO É O PETRÓLEO DO SÉCULO 21, E ANALYTICS É O MOTOR.” — PETER SONDERGAARD, SENIOR VICE PRESIDENT, GARTNER RESEARCH. “INFORMATION IS THE OIL OF THE 21ST CENTURY, AND ANALYTICS IS THE COMBUSTION ENGINE.” — PETER SONDERGAARD, SENIOR VICE PRESIDENT, GARTNER RESEARCH.
  5. 5. Data Driven Decisions SEGMENTAÇÃO DE CLIENTE EX: VAREJO SISTEMAS DE RECOMENDAÇÃO EX: E-COMMERCE PREVISÃO DE DEMANDA EX: HORTIFRUTTI DO MERCADO DASHBOARDS ANALITICOS
  6. 6. COMO ISSO SE CONECTA COM DW?
  7. 7. O QUE É UM DW? UM DATA WAREHOUSE É UMA FERRAMENTA QUE AJUDA GESTORES A ORGANIZAR, ANALISAR E USAR OS DADOS DE UMA ORGANIZAÇÃO PARA A TOMADA DE DECISÃO.
  8. 8. É UMA BASE DE DADOS INTEGRADO COM DIVERSAS FONTES DE DADOS TRADUZINDO GUARDA DADOS HISTÓRICOS DE UMA ORGANIZAÇÃO NÃO VOLÁTIL
  9. 9. TRADUZINDO NoSQL CSVs, JSONs, ETC RDBMS DATA WAREHOUSE Dados históricos Dados históricos Dados históricos
  10. 10. DWS SÃO OLAP!!!
  11. 11. OLAP ONLINE ANALYTICAL PROCESSING OLTP ONLINE TRANSACTIONAL PROCESSING EDU IT Department 2020
  12. 12. OLAP VS OLTP FIGHT!! DADOS HISTÓRICOS X DADOS DO DIA A DIA EDU IT Department 2020 ANALISE DO NEGOCIO X EXECUÇÃO DO NEGÓCIO MODELAGEM DIMENSIONAL X MODELAGEM ENTIDADE RELACIONAMENTO SAÍDA DE INFORMAÇÃO X ENTRADA DE DADOS FLEXIBILIDADE X PERFORMANCE 100GB TO 100 TB VS 100MB TO 100 GB
  13. 13. DATA PIPELINE NoSQL CSVs, JSONs, ETC RDBMS DATA WAREHOUSE
  14. 14. DATA PIPELINE NoSQL CSVs, JSONs, ETC RDBMS RAW DATA DW EXTRACT TRANSFORM LOAD EXEMPLO DE PIPELINE
  15. 15. ORGANIZAÇÃO DO DW DATA SCHEMAS
  16. 16. FACTS São tabelas que representam de forma atômica as principais operações de uma organização e devem estar normalizadas. DIMENSIONS São tabelas que descrevem aspectos dos FACTs 2 TIPOS DE TABELAS
  17. 17. NORMALIZAÇÃO PROCESSO DE ORGANIZAR OS DADOS NA BASE DE DADOS DE FORMA A EVITAR/DIMINUIR REDUNDÂNCIA DE DADOS E ANOMALIAS DE INSERÇÃO, ALTERAÇÃO E REMOÇÃO. 3NF
  18. 18. BANCO DE DADOS DE LOCAÇÕES Nome Completo | Endereço | Filmes alugados | Cumprimento | Categoria
  19. 19. 1NF LINHAS ÚNICAS E VALORES ATÔMICOS Nome Completo | Endereço | Filmes alugados | Cumprimento | Categoria
  20. 20. 1NF LINHAS ÚNICAS E VALORES ATÔMICOS Nome Completo | Endereço | Filmes alugados | Cumprimento
  21. 21. 1NF LINHAS ÚNICAS E VALORES ATÔMICOS Nome Completo | Endereço | Filmes alugados | Cumprimento
  22. 22. 2NF SER 1NF + NÃO POSSUIR CHAVES COMPOSTAS Nome Completo | Endereço | Filmes alugados | Cumprimento
  23. 23. 2NF SER 1NF + NÃO POSSUIR CHAVES COMPOSTAS Nome Completo | Endereço | Filmes alugados | Cumprimento
  24. 24. 2NF SER 1NF + NÃO POSSUIR CHAVES COMPOSTAS Cliente Aluguel ID MEMBRO | Nome Completo |Endereço | Cumprimento ID MEMBRO | Filme alugado
  25. 25. 3NF SER 2NF + NÃO POSSUIR DEPENDÊNCIAS TRANSITIVAS Cliente Aluguel ID MEMBRO | Filme alugado ID MEMBRO | Nome Completo |Endereço | Cumprimento
  26. 26. 3NF SER 2NF + NÃO POSSUIR DEPENDÊNCIAS TRANSITIVAS Cliente ID MEMBRO | Nome Completo |Endereço | Cumprimento
  27. 27. 3NF SER 2NF + NÃO POSSUIR DEPENDÊNCIAS TRANSITIVAS ID MEMBRO | Nome Completo |Endereço | ID Cumprimento ID CUMPRIMENTO | CUMPRIMENTO Cliente Cumprimento
  28. 28. 3NF SER 2NF + NÃO POSSUIR DEPENDÊNCIAS TRANSITIVAS ID MEMBRO | Nome Completo |Endereço | ID Cumprimento ID CUMPRIMENTO | CUMPRIMENTO Aluguel ID MEMBRO | Filme alugado Cliente Cliente
  29. 29. FACTS Aluguel ID MEMBRO | Filme alugado
  30. 30. DIMENSION ID MEMBRO | Nome Completo |Endereço | ID Cumprimento
  31. 31. SCHEMAS STAR SCHEMA SNOWFLAKE SCHEMA GALAXY SCHEMA/ FACT CONSTELLATION SCHEMA STAR CLUSTER SCHEMA
  32. 32. SCHEMAS
  33. 33. STAR CLUSTER SCHEMA INTERMEDIÁRIO ENTRE STAR SCHEMA E SNOWFLAKE SCHEMA Dimensões não são totalmente expandidas. EDU IT Department 2020
  34. 34. GALAXY SCHEMA CONSTELAÇÃO DE ESTRELAS Facts que compartilham dimenções
  35. 35. TECHS
  36. 36. ECOSSISTEMA HADOOP (OPEN SOURCE)
  37. 37. ECOSSISTEMA AMAZON
  38. 38. ECOSSISTEMA MICROSOFT ECOSSISTEMA GOOGLE
  39. 39. PIPELINES ALTERNATIVOS COLUMSTORE
  40. 40. CANDY VALLEY
  41. 41. CANDY VALLEY
  42. 42. VÍTOR RESING PLENTZ Cientista de Dados na Elixir AI OBRIGADO!!

×