Conversas sobre Big Data, Hadoop e elefantes amarelos

Hadoop
Conversas sobre bigdata e elefantes amarelos

Hadoop? WTF?!
● Primeira release em 2006, baseado no artigo
do Google sobre o GFS e Map/Reduce

● Não é em essência um banco de dados, mas
um framework de processamento e
armazenamento distribuído

● Feito para escalar horizontalmente com
facilidade

Bom pra quê?
● Volumes gigantescos de dados (acima dos
gigabytes)

● Dados semi-estruturados: arquivos de log,
CSVs, HTML, XML, etc;

● Dados sem estrutura: imagens, livros, textos,
tweets, etc;

Ruim pra quê?
● Dados transacionais e/ou estruturados:
formas normais, modelo dimensional, etc;

● Dados que sofrem alterações constantes

● Consultas para linhas específicas (e com alto
grau de redundância): "SELECT ... WHERE
ID = 1"

Powered by

○ 40000+ nós no total, com um único cluster usando
4500+ nós
○ Operação de ad e busca

○ 2400+ nós, mais de 100 petabytes de dados
○ Data mining e análise de logs de usuários

Powered by

○ 2 terabytes/dia (comprimido)
○ Análise de comportamento e navegação de usuários

○ 1TB+/dia (comprimido); 60 milhões tweets/dia
○ Tweets, arquivos de log, análise de usuários

Watson ganhou o Jeopardy! contra dois humanos usando
Hadoop

Cluster de Hadoop bate recorde Terasort (2008): 1 TB em
209 segundos com 910 nós

Hadoop é usado no CERN para processar dados dos
detectores

MySQL vs Hadoop - 0.07 bilhões de
linhas

MySQL vs Hadoop - 7.3 bilhões de
linhas

Benchmarking - Hadoop vs MySQL

Conversas sobre Big Data, Hadoop e elefantes amarelos

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (17)

Similar to Conversas sobre Big Data, Hadoop e elefantes amarelos

Similar to Conversas sobre Big Data, Hadoop e elefantes amarelos (20)

Conversas sobre Big Data, Hadoop e elefantes amarelos