Visão única de cliente através da construção de um Data Lake

David Robert
VISÃO ÚNICA DE
CLIENTE ATRAVÉS
DA CONSTRUÇÃO
DE UM DATA LAKE

➔ Mestre em Inteligência Artificial - USP
➔ Business Strategy - La Verne, USA
➔ Graduado em Ciência da Computação -
PUC/SP
➔ Oficial da Arma de Comunicações - Exército
Brasileiro
➔ +17 anos trabalhando com desenvolvimento
de software
➔ Engineer Manager | CTO | Leader Expert
David Robert
linkedin.com/in/davidrobert
davidrobert@gmail.com

Construir uma visão unificada que
integre diferentes tecnologias de
banco de dados, múltiplos sistemas
transacionais, etc
Apresentando uma jornada no uso
de soluções de mercado para
construir uma estratégia baseada
em dados.

secor
S3
Flink
app
app
kibana
elasticsearch
Histórico

Contexto
➔ Necessidade de implementar um job para enviar as
informações ao ElasticSearch
➔ Design de código não-amigável da API do Flink (bad smell)
➔ Dados desagregados armazenados no ElasticSearch
➔ Leitura de outras fontes de dados também precisam ser
previamente implementadas no Flink
➔ O Kibana exibe apenas o que está no ElasticSearch!

secor
S3
Flink
app
app
kibana
elasticsearch
Contexto

É um repositório central de dados,
armazenando dados bruto, que permita
consultas complexas
Data Lake

Solução Inicial:
Utilizar o backup das mensagens do Kafka
armazenados no S3.
Dificuldades:
Como fazer querys em diferentes arquivos
(em diferentes formatos)?

Apache Hive
➔ Fornece acesso a diversos tipos de dados, abstraindo
os diferentes tipos de armazenamento como "tabelas"
➔ O acesso aos dados é feito com ≅ SQL
➔ Acesso somente a arquivos

Combinação de três componentes:
1. Arquivos de dados em diversos formatos, normalmente
armazenados no HDFS ou Amazon S3
2. Metadados sobre o mapeamento de arquivos para tabelas.
Armazenado em um banco relacional (Ex.: MySQL)
3. HiveQL: uma linguagem de consulta executada em um framework
de computação distribuída (MapReduce/Tez)
Apache Hive - Funcionamento

Apache Hive - Exemplo de Utilização
Mapeamento dos arquivos gerados pelo Secor, armazenados no
Amazon S3 (backup das mensagens do Kafka)
CREATE EXTERNAL TABLE IF NOT EXISTS my_schema.my_beautiful_table (
payload STRING
)
PARTITIONED BY (dt STRING)
STORED AS TEXTFILE
LOCATION 's3a://my-bucket-on-amazons-s3/folder_with_all_files';

secor
S3
Flink
app
app
Apache Hive

Como resolver a
visualização?
SQL é legal mas…

secor
S3
Flink
app
app
Redash.io
redash

Redash permite se
conectar no Hive e em
bancos relacionais!

Redash permite se
conectar no Hive e em
bancos relacionais!
Mas não permite JOIN entre
diferentes data source!

Presto
➔ Não é um banco de dados!
➔ Abstrai e centraliza o acesso à várias fontes de dados
(conector)
➔ Criado para análise exploratória e interativa
➔ Permite acesso usando comandos SQL à qualquer uma
das fontes de dados suportadas
➔ Criado e desenvolvido pelo Facebook

➔ É possível acessar o Hive diretamente, ou executar as mesmas
queries através do Presto
➔ As consultas executadas pelo Hive usam MapReduce, e utilizam
o disco (HDFS)
➔ O Presto não utiliza MapReduce, todas as queries são feitas em
memória, e são mais rápidas do que executadas diretamente no
Hive (porém, seu cluster precisa de mais recursos)
Presto & Hive

Debezium
➔ Plataforma de Change Data Capture (CDC). Exemplos de uso:
◆ replicação de dados para outros bancos de dados
◆ extração de microsserviços de monólitos
◆ invalidação de cache
➔ Faz a leitura do binlog do MySQL e envia no Kafka
➔ Captura somente às alterações do banco
➔ Usa o Kafka Connect, altamente escalável com conectores CDC para
vários bancos de dados, incluindo Postgres, Mysql e MongoDB

binlog debezium kafkaaplicação
banco de
dados

secor
presto
S3
debezium
Flink
app
app
app

David Robert
linkedin.com/in/davidrobert
davidrobert@gmail.com
Obrigado!

Visão única de cliente através da construção de um Data Lake

Recommended

Recommended

More Related Content

Similar to Visão única de cliente através da construção de um Data Lake

Similar to Visão única de cliente através da construção de um Data Lake (20)

More from E-Commerce Brasil

More from E-Commerce Brasil (20)

Recently uploaded

Recently uploaded (20)

Visão única de cliente através da construção de um Data Lake