Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Sql server 2019 big data cluster

18 views

Published on

Apresentação sobre o SQL Server 2019 Big Data Cluster. Conceito e Arquitetura

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Sql server 2019 big data cluster

  1. 1. SQL Server 2019 Big Data Cluster Luiz Henrique Garetti
  2. 2. sys.stdout.write (“Luiz") Bacharel em Ciências da Computação; MBA em Big Data; www.dataisbig.com.br www.Imasters.com.br ‘s “Ecossistema Big Data” “SQL Server” “Desenvolvimento”
  3. 3. Qual nossa missão para hoje ?
  4. 4. New SQL Server 2019
  5. 5. MS quebrando paradigmas SQL Server 2014: • AlwaysOn (desde o 2012) • In-Memory (desde o 2012) • Integração com Azure SQL Server 2016: • Polybase • Json • R Services SQL Server 2017: • Linux e Docker • Python https://www.sqlshack.com/history-sql-server-evolution-sql-server-features/ SQL Server 2019: • Spark • Kubernetes • Polybase (expansão) • Big Data Cluster
  6. 6. Mas antes…
  7. 7. Big Data 3 V’s 5 V’s “Big data são dados com maior variedade que chegam em volumes crescentes e com velocidade cada vez maior” Gartner
  8. 8. Ecossistema Big Data
  9. 9. Ecossistema Hadoop • Framework Open-source mantido pela Apache • Processamento e armazenamento massivo • Escalabilidade, “Desempenho”, Flexibilidade, Baixo Custo -> Hadoop Common, -> Hadoop HDFS, -> Hadoop YARN, -> Hadoop MapReduce
  10. 10. Hadoop HDFS (Hadoop Distributed File System) • Sistema de arquivos escalável e distribuído. • Projeto Apache, Subprojeto do Hadoop. • Baseado no GFS (Google File System). • Processamento Massivo Paralelo (MPP). Armazenamento e Blocos (64 mb) , múltiplas réplicas. MapReduce • Modelo de programação desenhado para processor grandes volumes de dados (Paralelo e Distribuído. • Map e Reduce
  11. 11. Hadoop – Infra Cluster
  12. 12. De onde veio o nome “Hadoop” ?
  13. 13. Docker e Kubernetes Docker • Empacota os binários, códigos, bibliotecas • Open-Source escrita em GO • Configure uma vez e replique N • Diminui tempo de Deploy • Ótimo para criação de Micro serviços • Escala Kubernetes • Orquestração e gerenciamento para Dockers • k8s (k + 8 caracteres + s) ou “kube” • Criado pelo Google e cedido para a Apache foundation • Elimina grande parte do processo manual, para implantar ou escalar container
  14. 14. Docker e Kubernetes Docker Kubernetes
  15. 15. Big Data Cluster SQL Server 2019
  16. 16. Proposito Big Data gera mais valor, quando somado a dados do mundo relacional. É justamente esse o objetivo do BDC.
  17. 17. SQL Server 2019 - Big Data Cluster (BDC) Conceitualmente: • O BDC com aprimoramentos no PolyBase atuam como um hub de dados para integrar dados estruturados e não estruturados - SQL Server, Oracle, Teradata, MongoDB, HDFS. • Permite implantar clusters escalonáveis de contêineres SQL Server, Spark e HDFS em execução no Kubernetes. • Os Clusters de Big Data do SQL Server unem o SQL Server às ferramentas de Big Data padrão do setor em um pacote suportado pela Microsoft.
  18. 18. Big Data Cluster (BDC) – Arquitetura - Polybase • PushDown – External Table • Escalabilidade (elasticidade) no processamento dos dados na camada “Compute Plane”.
  19. 19. Big Data Cluster (BDC) – Arquitetura - Data Mart • Scale-out Data Mart • Polybase + BDC, External Table, Data Pool • Combinando dados de vários origens
  20. 20. Big Data Cluster (BDC) - Arquitetura
  21. 21. Big Data Cluster (BDC) – Control Plane • Controla o gerenciamento, segurança para o Cluster. • Kubernetes Master • SQL Server Master • Hive Metadados • Driver’s • Grafana...
  22. 22. Big Data Cluster (BDC) – Compute Plane • Fornece poder/recurso computacional para o cluster • SQL Server em execução em Pods (Docker/Kubernetes) • Conjuntos de Pods para processamento específicos (ex: Polybase) • Scale-out para consultas distribuídas
  23. 23. Big Data Cluster (BDC) – Data Plane • Persistência de dados e armazenamento em cache: • SQL Data Pool: • Pods SQL Server Linux • Dados em Shared + Desempenho • Data Marts (Retorno dos Polybases) – Joins com o mundo Relacional • Storage Pool: • Pods (SQL + Spark + HDFS) • Ingestão de dados via Spark • Acesso a dados por meio de Endpoints do HDFS e SQL Server
  24. 24. Big Data Cluster (BDC)
  25. 25. Big Data Cluster (BDC) - Gerenciamento
  26. 26. Big Data Cluster (BDC)
  27. 27. Minha visão de Futuro BDC – Big Data
  28. 28. Big Data Cluster (BDC) – Links para estudo • https://key2consulting.com/sql-server-2019-big-data-review/ • https://xaviergeerinck.com/sql-server-2019-big-data-clusters • https://myignite.techcommunity.microsoft.com/sessions/65967?source=sessions • https://onlineitguru.com/blog/highlights-of-sql-server-2019 • https://cloudblogs.microsoft.com/sqlserver/2018/09/25/introducing-microsoft-sql-server-2019-big- data-clusters/ • https://github.com/Microsoft/sqlworkshops/blob/master/sqlserver2019bigdataclusters/SQL2019BDC /01%20-%20The%20Big%20Data%20Landscape.md • www.dataisbig.com.br https://sqlservervnexteap.azurewebsites.net/
  29. 29. Valeu Galera Luiz Henrique Garetti @luizhgaretti www.dataisbig.com.br luizhrosario@gmail.com.br Bom evento!!!

×