SlideShare a Scribd company logo
1 of 46
Download to read offline
Do Zero ao 100 no Big
Data
Aprenda sobre o tamanho, potencial
e possibilidades do seguimento
Patrocínio:
Formado em Análise e Desenvolvimento
pela universidade Metodista de São paulo.
Em sua experiência com tecnologia da
informação, Lucas teve a oportunidade de
trabalhar com grandes players de mercado
como Vivo telefônica, Ford Motors e
Santander Bank. Na Semantix desde 2017,
vem ocupando cargos de liderança e agora
gestão na área de engenharia de dados,
com foco recente no desenvolvimento da
nova plataforma de dados.
Lucas Fenelon
Responsável por plataforma e
coordenador de engenharia de
dados na Semantix
O paralelo
histórico 01
There and back again, Where?
Search Engine?
Mecanismo de
gestão de
arquivos e
eleição por
índice de
sorteamento.
Resume
Computação distribuída
Espelha
mento
Tradicional Novo
nó 1 nó 2 nó M nó 1 nó 2 nó N
Camada de processamento
Map & Reduce
Framework construído para
utilização da camada de
processamento de forma
distribuída, aproveitando o
Sort e imutabilidade para
redução e visão agregada do
dado.
Resume
Hadoop
Hadoop Distributed File System (HDFS)
Storage Storage Storage Storage
Processing
Linux (~) dfs:
Reconhecido como único filesystem que suporta comando
Linux como sistema operacional para gestão de arquivos
nó 1 nó 2 nó 3 nó N
● Implementação do
framework MapReduce
● Armazenamento distribuído
com fator de réplica 3.
● Sistema de gestão de
arquivos único suportando
comandos Linux.
● Não restrição para
formatação de arquivos.
● Tolerante a falhas
(máquinas mais simples)
Modelagem de dados ?
● Não existe !
● Seu dado se adapta a consulta.
● Baixa consistência, ganho por volume!
Resume
Bancos de dados NoSQL Valhalla
is here !
● Banco de dados
Chave/Valor (Key/Value)
capaz de produzir o
conceito família de coluna.
● Banco de dados orientado a
documentos (indexação).
● Banco de dados orientados
a grafos.
● Banco de dados Colunares
(time series).
O Teorema de CAP
Consistency &
Availability
Consistency &
Partitioning
Partitioning &
Availability
R
D
B
M
S
Valhalla
is here !
Resume
Resource Manager (Yarn)
Ferramenta implementada para
orquestração de todos os Job`s
que demandam processamento
distribuído via mecanismo
MapReduce.
Sai de cena o Job tracker e o Yarn
(ou Mesos) passa a ser o gestor
universal do cluster.
Ecossistema
● Ingestão de RDBMS
● Ingestão de filas
● Framework para consulta
SQL de dados estruturados
● Banco de dados Key/Value
● Banco de dados Search
Engine
● Framework de
processamento com cache
em memória
● Segurança de acesso
Resume
2005 2008 2009 (1960) 2010
1999
O mundo de dados
agora é Big 02
Conceitos
● Volume
● Variedade
● Velocidade
● Veracidade
● Valor
Os V`s
O que é um OLTP?
O que é um OLAP?
Massa de dados histórica Analytics / BI
Advanced
Analytics?
DataLake
➔ Sistema de gestão de arquivos
distribuídos de qualquer tipo
➔ Construção de aplicações que
demandam processamento de dados
➔ Relatórios gerenciais de BI
The Single Source of Truth
Armazenamento de Dados
Tradicional Novo
Data
Replicate space Data
Dado em formato
inacessível e
desconhecido
FileSystem ou Object Store Distribuído
../
../
../
../
Particionamento por
diretório de arquivos
v1 v2 v3
Particionamento por
versões de objeto
Formato de arquivos
Não
estruturado
Semi
estruturado Estruturado
Vídeo
Foto
PDF
Texto
.Json
.Xml
.Parquet
.Orc
.Avro
.CSV
Diversos ...
Nas categorias cabem infinitos tipos e
formatos de arquivos, foram descritos
os mais utilizados em cada e no
processo de transformação dos dados,
a depender do framework utilizado é
possível converter tudo para dados
estruturados, em detrimento do
conteúdo e eventualmente da
performance.
Processamento de dados
Storage Storage Storage Storage
nó 1 nó 2 nó 3 nó N
Storage
RAM +
CPU
g MapReduce Cache Streaming
Presto foi concebido dentro
do conceito de SQL
Federation como herdeiro
do Python, a diferença
substancial é que além de
utilizar o metadado do Hive,
ele é capaz de abstrair
outros SGBDs como
catálogos e fazer
intersecção entre esses.
Processamento Massivo Paralelo
● Fault tolerant distributed
dataset
● Lazy evaluation
● Caching
● In Memory Computation
● Immutability
● Partitioning
Broker
clustering
Producer Consumer
Designado para construção de pipeline e cenários de
processamento massivo com arquivos de tamanho micro
em Realtime ou NRT (Near Real Time), mais conhecido
como instâncias Micro batch.
Big Data = Artificial Intelligence ?
1. Papers Deep learning processamento distribuído.
2. Capacidade de cruzamento de dados não estruturados.
3. Volume disponível nunca antes alcançado.
4. Possibilidade do uso de programação e bibliotecas matemáticas.
Operacional Advanced
Analytics
Descriptive Prescriptive
Predictive Cognitive
Desafios
Cientista de
Dados
Engenheiro
de Dados
Profissional capaz de construir
aplicações que confecciona visões de
dados e consegue construir script
SQL com rotinas não ACID.
Engenheiro
de Software
Conhecimentos em
análises de dados
Analista de
BI
Conhecimentos em
programação e
para CD, estatística
As Big nuvens 03
Google (GCP)
Framework para
construção de BiG
Data Warehouse
Federation
Amazon (AWS)
Framework para
construção de
pipeline e catálogo
de dados
Federation
(Presto)
Microsoft (Azure)
Serviço Spark de
utilização de
instâncias sob
demanda
HDFS
Processamento as a Service
Big Data e AI em Cloud
Integration Data Warehouse AI platform
Tempestade no
Lago 04
Arquitetura de fluxo de dados
Arquitetura Lambda
Arquitetura Kappa
Ambas arquiteturas pressupõem complexo
processo e rotinas de expurgo, além fluxo de
batimento para consistência de versão, para
não desencontro de informações batch e
streaming.
DAMA (Data Governance)
Catálogo mais aplicações, desde ferramentas até
desenvolvidas "em casa"
Ferramentas e suporte DataLake (processo)
Processo
Aplicações
Aplicações
+ Processos
Processos
Governança
Dicionarização Catálogo e
Descoberta
Linhagem Qualidade Telemetria
Soluções
caseiras
Data Warehouse
● Silos de dados
● Relatórios gerenciais (BI)
● Problemas com queries
pesadas em ambientes de
transação
● Princípio da imutabilidade
Por quê?
Star
schema
Snowflake
schema
Modelagem
de dados
OLTP
OLAP
Tom
bam
ento
Dados sempre
estruturados
DataLake estrutura
● Silos de dados
● Relatórios gerenciais (BI)
● Problemas com queries
pesadas em ambientes de
transação
● Princípio da imutabilidade
● Construção de modelos de AI
● Aplicações de Streaming
processing
Por quê?
Modelagem de dados
OLAP (Qualquer tipo de dado)
RAW
A camada de dados
brutos é onde os
dados irão aterrissar
ao chegar no cluster,
essa área precisará
de diretórios (pastas),
databases e tabelas
para que data quality
possa aplicar todas as
rotinas necessárias
para permitir a
entrada do dado.
STAGE
Após a validação inicial
dos dados, todas as
informações já estarão
no padrão
estabelecido pelo
cliente. A partir desse
ponto os processos de
cross validation ,
consolidação de dados
e regras
de priorização
poderão ser
executados para gerar
os dados de serviço.
SERVICE
Essa camada
disponibilizará os
dados que serão
utilizados pelos
produtos do cliente.
Esses dados já estarão
tratados e prontos
para utilização, mas
precisarão de
processos de
monitoramento
de qualidade para
garantir que a
informação continue
consistente.
DataLake vs Data Warehouse
Resolve o modelo
ACID com
velocidade de
escrita e chave
estrangeira, mas
tabelas com
tamanho limitado.
Resolve o modelo
ACID com
velocidade de escrita
sem chave
estrangeira, acessível
para diversos
frameworks.
Resolve o modelo
ACID com
velocidade de escrita
sem chave
estrangeira,
otimizado para
Spark.
Base de dados Formato de arquivo Formato de arquivo
Lakehouse?
DEMO ...
https://github.com/LucasFenelon/Fakenexo
Curiosidades
DataOps Libs Spark Storage cache
Landscape
OBRIGADO!
Tem alguma dúvida?
lucasgfmoraes@gmail.com.br
lucas.moraes@semantix.com.br
instagram.com/lucasgfmoraes
linkedin.com/in/lucasgfmoraes

More Related Content

What's hot

Criando Indicadores de Negócios com o Pentaho na Globo.com
Criando Indicadores de Negócios com o Pentaho na Globo.comCriando Indicadores de Negócios com o Pentaho na Globo.com
Criando Indicadores de Negócios com o Pentaho na Globo.com
PentahoBrasil
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Final
jcaroso
 

What's hot (20)

Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Criando Indicadores de Negócios com o Pentaho na Globo.com
Criando Indicadores de Negócios com o Pentaho na Globo.comCriando Indicadores de Negócios com o Pentaho na Globo.com
Criando Indicadores de Negócios com o Pentaho na Globo.com
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Conceitos gerais de etl - Qlikview
Conceitos gerais de etl - QlikviewConceitos gerais de etl - Qlikview
Conceitos gerais de etl - Qlikview
 
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisBig Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
 
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
 
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
 
Metodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho DayMetodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho Day
 
Business Intelligence - Data Warehouse
Business Intelligence - Data WarehouseBusiness Intelligence - Data Warehouse
Business Intelligence - Data Warehouse
 
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Final
 
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
 
Data Warehouse - Modelagem
Data Warehouse - ModelagemData Warehouse - Modelagem
Data Warehouse - Modelagem
 
Introdução ao BI
Introdução ao BIIntrodução ao BI
Introdução ao BI
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
Carreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataCarreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big Data
 

Similar to [DTC21] Lucas Gomes - Do 0 ao 100 no Big Data

Tecnologias para sistemas distribuidos escalaveis
Tecnologias para sistemas distribuidos escalaveisTecnologias para sistemas distribuidos escalaveis
Tecnologias para sistemas distribuidos escalaveis
Luiz Bettega
 

Similar to [DTC21] Lucas Gomes - Do 0 ao 100 no Big Data (20)

Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
BIG DATA na UFSM
BIG DATA na UFSMBIG DATA na UFSM
BIG DATA na UFSM
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
Escalabilidade, as modas, (No)SQL
Escalabilidade, as modas, (No)SQLEscalabilidade, as modas, (No)SQL
Escalabilidade, as modas, (No)SQL
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
No sql o_que_e_isso.key
No sql o_que_e_isso.keyNo sql o_que_e_isso.key
No sql o_que_e_isso.key
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
 
Tecnologias para sistemas distribuidos escalaveis
Tecnologias para sistemas distribuidos escalaveisTecnologias para sistemas distribuidos escalaveis
Tecnologias para sistemas distribuidos escalaveis
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 

Recently uploaded

Recently uploaded (9)

ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docxATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 

[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data

  • 1. Do Zero ao 100 no Big Data Aprenda sobre o tamanho, potencial e possibilidades do seguimento
  • 3. Formado em Análise e Desenvolvimento pela universidade Metodista de São paulo. Em sua experiência com tecnologia da informação, Lucas teve a oportunidade de trabalhar com grandes players de mercado como Vivo telefônica, Ford Motors e Santander Bank. Na Semantix desde 2017, vem ocupando cargos de liderança e agora gestão na área de engenharia de dados, com foco recente no desenvolvimento da nova plataforma de dados. Lucas Fenelon Responsável por plataforma e coordenador de engenharia de dados na Semantix
  • 5. There and back again, Where?
  • 6. Search Engine? Mecanismo de gestão de arquivos e eleição por índice de sorteamento.
  • 8. Computação distribuída Espelha mento Tradicional Novo nó 1 nó 2 nó M nó 1 nó 2 nó N Camada de processamento
  • 9. Map & Reduce Framework construído para utilização da camada de processamento de forma distribuída, aproveitando o Sort e imutabilidade para redução e visão agregada do dado.
  • 11. Hadoop Hadoop Distributed File System (HDFS) Storage Storage Storage Storage Processing Linux (~) dfs: Reconhecido como único filesystem que suporta comando Linux como sistema operacional para gestão de arquivos nó 1 nó 2 nó 3 nó N ● Implementação do framework MapReduce ● Armazenamento distribuído com fator de réplica 3. ● Sistema de gestão de arquivos único suportando comandos Linux. ● Não restrição para formatação de arquivos. ● Tolerante a falhas (máquinas mais simples)
  • 12. Modelagem de dados ? ● Não existe ! ● Seu dado se adapta a consulta. ● Baixa consistência, ganho por volume!
  • 14. Bancos de dados NoSQL Valhalla is here ! ● Banco de dados Chave/Valor (Key/Value) capaz de produzir o conceito família de coluna. ● Banco de dados orientado a documentos (indexação). ● Banco de dados orientados a grafos. ● Banco de dados Colunares (time series).
  • 15. O Teorema de CAP Consistency & Availability Consistency & Partitioning Partitioning & Availability R D B M S Valhalla is here !
  • 17. Resource Manager (Yarn) Ferramenta implementada para orquestração de todos os Job`s que demandam processamento distribuído via mecanismo MapReduce. Sai de cena o Job tracker e o Yarn (ou Mesos) passa a ser o gestor universal do cluster.
  • 18. Ecossistema ● Ingestão de RDBMS ● Ingestão de filas ● Framework para consulta SQL de dados estruturados ● Banco de dados Key/Value ● Banco de dados Search Engine ● Framework de processamento com cache em memória ● Segurança de acesso
  • 19. Resume 2005 2008 2009 (1960) 2010 1999
  • 20. O mundo de dados agora é Big 02
  • 21. Conceitos ● Volume ● Variedade ● Velocidade ● Veracidade ● Valor Os V`s O que é um OLTP? O que é um OLAP? Massa de dados histórica Analytics / BI Advanced Analytics?
  • 22. DataLake ➔ Sistema de gestão de arquivos distribuídos de qualquer tipo ➔ Construção de aplicações que demandam processamento de dados ➔ Relatórios gerenciais de BI The Single Source of Truth
  • 23. Armazenamento de Dados Tradicional Novo Data Replicate space Data Dado em formato inacessível e desconhecido FileSystem ou Object Store Distribuído ../ ../ ../ ../ Particionamento por diretório de arquivos v1 v2 v3 Particionamento por versões de objeto
  • 24. Formato de arquivos Não estruturado Semi estruturado Estruturado Vídeo Foto PDF Texto .Json .Xml .Parquet .Orc .Avro .CSV Diversos ... Nas categorias cabem infinitos tipos e formatos de arquivos, foram descritos os mais utilizados em cada e no processo de transformação dos dados, a depender do framework utilizado é possível converter tudo para dados estruturados, em detrimento do conteúdo e eventualmente da performance.
  • 25. Processamento de dados Storage Storage Storage Storage nó 1 nó 2 nó 3 nó N Storage RAM + CPU g MapReduce Cache Streaming Presto foi concebido dentro do conceito de SQL Federation como herdeiro do Python, a diferença substancial é que além de utilizar o metadado do Hive, ele é capaz de abstrair outros SGBDs como catálogos e fazer intersecção entre esses.
  • 26. Processamento Massivo Paralelo ● Fault tolerant distributed dataset ● Lazy evaluation ● Caching ● In Memory Computation ● Immutability ● Partitioning Broker clustering Producer Consumer Designado para construção de pipeline e cenários de processamento massivo com arquivos de tamanho micro em Realtime ou NRT (Near Real Time), mais conhecido como instâncias Micro batch.
  • 27. Big Data = Artificial Intelligence ? 1. Papers Deep learning processamento distribuído. 2. Capacidade de cruzamento de dados não estruturados. 3. Volume disponível nunca antes alcançado. 4. Possibilidade do uso de programação e bibliotecas matemáticas. Operacional Advanced Analytics Descriptive Prescriptive Predictive Cognitive
  • 28. Desafios Cientista de Dados Engenheiro de Dados Profissional capaz de construir aplicações que confecciona visões de dados e consegue construir script SQL com rotinas não ACID. Engenheiro de Software Conhecimentos em análises de dados Analista de BI Conhecimentos em programação e para CD, estatística
  • 30. Google (GCP) Framework para construção de BiG Data Warehouse Federation
  • 31. Amazon (AWS) Framework para construção de pipeline e catálogo de dados Federation (Presto)
  • 32. Microsoft (Azure) Serviço Spark de utilização de instâncias sob demanda HDFS
  • 34. Big Data e AI em Cloud Integration Data Warehouse AI platform
  • 36. Arquitetura de fluxo de dados Arquitetura Lambda Arquitetura Kappa Ambas arquiteturas pressupõem complexo processo e rotinas de expurgo, além fluxo de batimento para consistência de versão, para não desencontro de informações batch e streaming.
  • 37. DAMA (Data Governance) Catálogo mais aplicações, desde ferramentas até desenvolvidas "em casa" Ferramentas e suporte DataLake (processo) Processo Aplicações Aplicações + Processos Processos
  • 38. Governança Dicionarização Catálogo e Descoberta Linhagem Qualidade Telemetria Soluções caseiras
  • 39. Data Warehouse ● Silos de dados ● Relatórios gerenciais (BI) ● Problemas com queries pesadas em ambientes de transação ● Princípio da imutabilidade Por quê? Star schema Snowflake schema Modelagem de dados OLTP OLAP Tom bam ento Dados sempre estruturados
  • 40. DataLake estrutura ● Silos de dados ● Relatórios gerenciais (BI) ● Problemas com queries pesadas em ambientes de transação ● Princípio da imutabilidade ● Construção de modelos de AI ● Aplicações de Streaming processing Por quê? Modelagem de dados OLAP (Qualquer tipo de dado) RAW A camada de dados brutos é onde os dados irão aterrissar ao chegar no cluster, essa área precisará de diretórios (pastas), databases e tabelas para que data quality possa aplicar todas as rotinas necessárias para permitir a entrada do dado. STAGE Após a validação inicial dos dados, todas as informações já estarão no padrão estabelecido pelo cliente. A partir desse ponto os processos de cross validation , consolidação de dados e regras de priorização poderão ser executados para gerar os dados de serviço. SERVICE Essa camada disponibilizará os dados que serão utilizados pelos produtos do cliente. Esses dados já estarão tratados e prontos para utilização, mas precisarão de processos de monitoramento de qualidade para garantir que a informação continue consistente.
  • 41. DataLake vs Data Warehouse Resolve o modelo ACID com velocidade de escrita e chave estrangeira, mas tabelas com tamanho limitado. Resolve o modelo ACID com velocidade de escrita sem chave estrangeira, acessível para diversos frameworks. Resolve o modelo ACID com velocidade de escrita sem chave estrangeira, otimizado para Spark. Base de dados Formato de arquivo Formato de arquivo