[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data

Do Zero ao 100 no Big
Data
Aprenda sobre o tamanho, potencial
e possibilidades do seguimento

Formado em Análise e Desenvolvimento
pela universidade Metodista de São paulo.
Em sua experiência com tecnologia da
informação, Lucas teve a oportunidade de
trabalhar com grandes players de mercado
como Vivo telefônica, Ford Motors e
Santander Bank. Na Semantix desde 2017,
vem ocupando cargos de liderança e agora
gestão na área de engenharia de dados,
com foco recente no desenvolvimento da
nova plataforma de dados.
Lucas Fenelon
Responsável por plataforma e
coordenador de engenharia de
dados na Semantix

Search Engine?
Mecanismo de
gestão de
arquivos e
eleição por
índice de
sorteamento.

Computação distribuída
Espelha
mento
Tradicional Novo
nó 1 nó 2 nó M nó 1 nó 2 nó N
Camada de processamento

Map & Reduce
Framework construído para
utilização da camada de
processamento de forma
distribuída, aproveitando o
Sort e imutabilidade para
redução e visão agregada do
dado.

Hadoop
Hadoop Distributed File System (HDFS)
Storage Storage Storage Storage
Processing
Linux (~) dfs:
Reconhecido como único ﬁlesystem que suporta comando
Linux como sistema operacional para gestão de arquivos
nó 1 nó 2 nó 3 nó N
● Implementação do
framework MapReduce
● Armazenamento distribuído
com fator de réplica 3.
● Sistema de gestão de
arquivos único suportando
comandos Linux.
● Não restrição para
formatação de arquivos.
● Tolerante a falhas
(máquinas mais simples)

Modelagem de dados ?
● Não existe !
● Seu dado se adapta a consulta.
● Baixa consistência, ganho por volume!

Bancos de dados NoSQL Valhalla
is here !
● Banco de dados
Chave/Valor (Key/Value)
capaz de produzir o
conceito família de coluna.
● Banco de dados orientado a
documentos (indexação).
● Banco de dados orientados
a grafos.
● Banco de dados Colunares
(time series).

O Teorema de CAP
Consistency &
Availability
Consistency &
Partitioning
Partitioning &
Availability
R
D
B
M
S
Valhalla
is here !

Resource Manager (Yarn)
Ferramenta implementada para
orquestração de todos os Job`s
que demandam processamento
distribuído via mecanismo
MapReduce.
Sai de cena o Job tracker e o Yarn
(ou Mesos) passa a ser o gestor
universal do cluster.

Ecossistema
● Ingestão de RDBMS
● Ingestão de ﬁlas
● Framework para consulta
SQL de dados estruturados
● Banco de dados Key/Value
● Banco de dados Search
Engine
● Framework de
processamento com cache
em memória
● Segurança de acesso

Resume
2005 2008 2009 (1960) 2010
1999

O mundo de dados
agora é Big 02

Conceitos
● Volume
● Variedade
● Velocidade
● Veracidade
● Valor
Os V`s
O que é um OLTP?
O que é um OLAP?
Massa de dados histórica Analytics / BI
Advanced
Analytics?

DataLake
➔ Sistema de gestão de arquivos
distribuídos de qualquer tipo
➔ Construção de aplicações que
demandam processamento de dados
➔ Relatórios gerenciais de BI
The Single Source of Truth

Armazenamento de Dados
Tradicional Novo
Data
Replicate space Data
Dado em formato
inacessível e
desconhecido
FileSystem ou Object Store Distribuído
../
../
../
../
Particionamento por
diretório de arquivos
v1 v2 v3
Particionamento por
versões de objeto

Formato de arquivos
Não
estruturado
Semi
estruturado Estruturado
Vídeo
Foto
PDF
Texto
.Json
.Xml
.Parquet
.Orc
.Avro
.CSV
Diversos ...
Nas categorias cabem inﬁnitos tipos e
formatos de arquivos, foram descritos
os mais utilizados em cada e no
processo de transformação dos dados,
a depender do framework utilizado é
possível converter tudo para dados
estruturados, em detrimento do
conteúdo e eventualmente da
performance.

Processamento de dados
Storage Storage Storage Storage
nó 1 nó 2 nó 3 nó N
Storage
RAM +
CPU
g MapReduce Cache Streaming
Presto foi concebido dentro
do conceito de SQL
Federation como herdeiro
do Python, a diferença
substancial é que além de
utilizar o metadado do Hive,
ele é capaz de abstrair
outros SGBDs como
catálogos e fazer
intersecção entre esses.

Processamento Massivo Paralelo
● Fault tolerant distributed
dataset
● Lazy evaluation
● Caching
● In Memory Computation
● Immutability
● Partitioning
Broker
clustering
Producer Consumer
Designado para construção de pipeline e cenários de
processamento massivo com arquivos de tamanho micro
em Realtime ou NRT (Near Real Time), mais conhecido
como instâncias Micro batch.

Big Data = Artiﬁcial Intelligence ?
1. Papers Deep learning processamento distribuído.
2. Capacidade de cruzamento de dados não estruturados.
3. Volume disponível nunca antes alcançado.
4. Possibilidade do uso de programação e bibliotecas matemáticas.
Operacional Advanced
Analytics
Descriptive Prescriptive
Predictive Cognitive

Desaﬁos
Cientista de
Dados
Engenheiro
de Dados
Proﬁssional capaz de construir
aplicações que confecciona visões de
dados e consegue construir script
SQL com rotinas não ACID.
Engenheiro
de Software
Conhecimentos em
análises de dados
Analista de
BI
Conhecimentos em
programação e
para CD, estatística

Google (GCP)
Framework para
construção de BiG
Data Warehouse
Federation

Amazon (AWS)
Framework para
construção de
pipeline e catálogo
de dados
Federation
(Presto)

Microsoft (Azure)
Serviço Spark de
utilização de
instâncias sob
demanda
HDFS

Big Data e AI em Cloud
Integration Data Warehouse AI platform

Arquitetura de ﬂuxo de dados
Arquitetura Lambda
Arquitetura Kappa
Ambas arquiteturas pressupõem complexo
processo e rotinas de expurgo, além ﬂuxo de
batimento para consistência de versão, para
não desencontro de informações batch e
streaming.

DAMA (Data Governance)
Catálogo mais aplicações, desde ferramentas até
desenvolvidas "em casa"
Ferramentas e suporte DataLake (processo)
Processo
Aplicações
Aplicações
+ Processos
Processos

Governança
Dicionarização Catálogo e
Descoberta
Linhagem Qualidade Telemetria
Soluções
caseiras

Data Warehouse
● Silos de dados
● Relatórios gerenciais (BI)
● Problemas com queries
pesadas em ambientes de
transação
● Princípio da imutabilidade
Por quê?
Star
schema
Snowﬂake
schema
Modelagem
de dados
OLTP
OLAP
Tom
bam
ento
Dados sempre
estruturados

DataLake estrutura
● Silos de dados
● Relatórios gerenciais (BI)
● Problemas com queries
pesadas em ambientes de
transação
● Princípio da imutabilidade
● Construção de modelos de AI
● Aplicações de Streaming
processing
Por quê?
Modelagem de dados
OLAP (Qualquer tipo de dado)
RAW
A camada de dados
brutos é onde os
dados irão aterrissar
ao chegar no cluster,
essa área precisará
de diretórios (pastas),
databases e tabelas
para que data quality
possa aplicar todas as
rotinas necessárias
para permitir a
entrada do dado.
STAGE
Após a validação inicial
dos dados, todas as
informações já estarão
no padrão
estabelecido pelo
cliente. A partir desse
ponto os processos de
cross validation ,
consolidação de dados
e regras
de priorização
poderão ser
executados para gerar
os dados de serviço.
SERVICE
Essa camada
disponibilizará os
dados que serão
utilizados pelos
produtos do cliente.
Esses dados já estarão
tratados e prontos
para utilização, mas
precisarão de
processos de
monitoramento
de qualidade para
garantir que a
informação continue
consistente.

DataLake vs Data Warehouse
Resolve o modelo
ACID com
velocidade de
escrita e chave
estrangeira, mas
tabelas com
tamanho limitado.
Resolve o modelo
ACID com
velocidade de escrita
sem chave
estrangeira, acessível
para diversos
frameworks.
Resolve o modelo
ACID com
velocidade de escrita
sem chave
estrangeira,
otimizado para
Spark.
Base de dados Formato de arquivo Formato de arquivo

DEMO ...
https://github.com/LucasFenelon/Fakenexo

Curiosidades
DataOps Libs Spark Storage cache

OBRIGADO!
Tem alguma dúvida?
lucasgfmoraes@gmail.com.br
lucas.moraes@semantix.com.br
instagram.com/lucasgfmoraes
linkedin.com/in/lucasgfmoraes

[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DTC21] Lucas Gomes - Do 0 ao 100 no Big Data

Similar to [DTC21] Lucas Gomes - Do 0 ao 100 no Big Data (20)

Recently uploaded

Recently uploaded (9)

[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data