O documento resume as principais tecnologias e conceitos relacionados ao Big Data, incluindo Hadoop, HDFS, MapReduce, bancos de dados NoSQL, Data Lake, processamento distribuído e arquiteturas de dados. O documento também discute conceitos como volume, variedade e velocidade de dados, além de apresentar as principais nuvens públicas para Big Data.
3. Formado em Análise e Desenvolvimento
pela universidade Metodista de São paulo.
Em sua experiência com tecnologia da
informação, Lucas teve a oportunidade de
trabalhar com grandes players de mercado
como Vivo telefônica, Ford Motors e
Santander Bank. Na Semantix desde 2017,
vem ocupando cargos de liderança e agora
gestão na área de engenharia de dados,
com foco recente no desenvolvimento da
nova plataforma de dados.
Lucas Fenelon
Responsável por plataforma e
coordenador de engenharia de
dados na Semantix
9. Map & Reduce
Framework construído para
utilização da camada de
processamento de forma
distribuída, aproveitando o
Sort e imutabilidade para
redução e visão agregada do
dado.
11. Hadoop
Hadoop Distributed File System (HDFS)
Storage Storage Storage Storage
Processing
Linux (~) dfs:
Reconhecido como único filesystem que suporta comando
Linux como sistema operacional para gestão de arquivos
nó 1 nó 2 nó 3 nó N
● Implementação do
framework MapReduce
● Armazenamento distribuído
com fator de réplica 3.
● Sistema de gestão de
arquivos único suportando
comandos Linux.
● Não restrição para
formatação de arquivos.
● Tolerante a falhas
(máquinas mais simples)
12. Modelagem de dados ?
● Não existe !
● Seu dado se adapta a consulta.
● Baixa consistência, ganho por volume!
14. Bancos de dados NoSQL Valhalla
is here !
● Banco de dados
Chave/Valor (Key/Value)
capaz de produzir o
conceito família de coluna.
● Banco de dados orientado a
documentos (indexação).
● Banco de dados orientados
a grafos.
● Banco de dados Colunares
(time series).
15. O Teorema de CAP
Consistency &
Availability
Consistency &
Partitioning
Partitioning &
Availability
R
D
B
M
S
Valhalla
is here !
17. Resource Manager (Yarn)
Ferramenta implementada para
orquestração de todos os Job`s
que demandam processamento
distribuído via mecanismo
MapReduce.
Sai de cena o Job tracker e o Yarn
(ou Mesos) passa a ser o gestor
universal do cluster.
18. Ecossistema
● Ingestão de RDBMS
● Ingestão de filas
● Framework para consulta
SQL de dados estruturados
● Banco de dados Key/Value
● Banco de dados Search
Engine
● Framework de
processamento com cache
em memória
● Segurança de acesso
21. Conceitos
● Volume
● Variedade
● Velocidade
● Veracidade
● Valor
Os V`s
O que é um OLTP?
O que é um OLAP?
Massa de dados histórica Analytics / BI
Advanced
Analytics?
22. DataLake
➔ Sistema de gestão de arquivos
distribuídos de qualquer tipo
➔ Construção de aplicações que
demandam processamento de dados
➔ Relatórios gerenciais de BI
The Single Source of Truth
23. Armazenamento de Dados
Tradicional Novo
Data
Replicate space Data
Dado em formato
inacessível e
desconhecido
FileSystem ou Object Store Distribuído
../
../
../
../
Particionamento por
diretório de arquivos
v1 v2 v3
Particionamento por
versões de objeto
24. Formato de arquivos
Não
estruturado
Semi
estruturado Estruturado
Vídeo
Foto
PDF
Texto
.Json
.Xml
.Parquet
.Orc
.Avro
.CSV
Diversos ...
Nas categorias cabem infinitos tipos e
formatos de arquivos, foram descritos
os mais utilizados em cada e no
processo de transformação dos dados,
a depender do framework utilizado é
possível converter tudo para dados
estruturados, em detrimento do
conteúdo e eventualmente da
performance.
25. Processamento de dados
Storage Storage Storage Storage
nó 1 nó 2 nó 3 nó N
Storage
RAM +
CPU
g MapReduce Cache Streaming
Presto foi concebido dentro
do conceito de SQL
Federation como herdeiro
do Python, a diferença
substancial é que além de
utilizar o metadado do Hive,
ele é capaz de abstrair
outros SGBDs como
catálogos e fazer
intersecção entre esses.
26. Processamento Massivo Paralelo
● Fault tolerant distributed
dataset
● Lazy evaluation
● Caching
● In Memory Computation
● Immutability
● Partitioning
Broker
clustering
Producer Consumer
Designado para construção de pipeline e cenários de
processamento massivo com arquivos de tamanho micro
em Realtime ou NRT (Near Real Time), mais conhecido
como instâncias Micro batch.
27. Big Data = Artificial Intelligence ?
1. Papers Deep learning processamento distribuído.
2. Capacidade de cruzamento de dados não estruturados.
3. Volume disponível nunca antes alcançado.
4. Possibilidade do uso de programação e bibliotecas matemáticas.
Operacional Advanced
Analytics
Descriptive Prescriptive
Predictive Cognitive
28. Desafios
Cientista de
Dados
Engenheiro
de Dados
Profissional capaz de construir
aplicações que confecciona visões de
dados e consegue construir script
SQL com rotinas não ACID.
Engenheiro
de Software
Conhecimentos em
análises de dados
Analista de
BI
Conhecimentos em
programação e
para CD, estatística
36. Arquitetura de fluxo de dados
Arquitetura Lambda
Arquitetura Kappa
Ambas arquiteturas pressupõem complexo
processo e rotinas de expurgo, além fluxo de
batimento para consistência de versão, para
não desencontro de informações batch e
streaming.
37. DAMA (Data Governance)
Catálogo mais aplicações, desde ferramentas até
desenvolvidas "em casa"
Ferramentas e suporte DataLake (processo)
Processo
Aplicações
Aplicações
+ Processos
Processos
39. Data Warehouse
● Silos de dados
● Relatórios gerenciais (BI)
● Problemas com queries
pesadas em ambientes de
transação
● Princípio da imutabilidade
Por quê?
Star
schema
Snowflake
schema
Modelagem
de dados
OLTP
OLAP
Tom
bam
ento
Dados sempre
estruturados
40. DataLake estrutura
● Silos de dados
● Relatórios gerenciais (BI)
● Problemas com queries
pesadas em ambientes de
transação
● Princípio da imutabilidade
● Construção de modelos de AI
● Aplicações de Streaming
processing
Por quê?
Modelagem de dados
OLAP (Qualquer tipo de dado)
RAW
A camada de dados
brutos é onde os
dados irão aterrissar
ao chegar no cluster,
essa área precisará
de diretórios (pastas),
databases e tabelas
para que data quality
possa aplicar todas as
rotinas necessárias
para permitir a
entrada do dado.
STAGE
Após a validação inicial
dos dados, todas as
informações já estarão
no padrão
estabelecido pelo
cliente. A partir desse
ponto os processos de
cross validation ,
consolidação de dados
e regras
de priorização
poderão ser
executados para gerar
os dados de serviço.
SERVICE
Essa camada
disponibilizará os
dados que serão
utilizados pelos
produtos do cliente.
Esses dados já estarão
tratados e prontos
para utilização, mas
precisarão de
processos de
monitoramento
de qualidade para
garantir que a
informação continue
consistente.
41. DataLake vs Data Warehouse
Resolve o modelo
ACID com
velocidade de
escrita e chave
estrangeira, mas
tabelas com
tamanho limitado.
Resolve o modelo
ACID com
velocidade de escrita
sem chave
estrangeira, acessível
para diversos
frameworks.
Resolve o modelo
ACID com
velocidade de escrita
sem chave
estrangeira,
otimizado para
Spark.
Base de dados Formato de arquivo Formato de arquivo