Esta apresentação tem como objetivo demonstrar e discutir um dos pilares do Big Data, o Hadoop. São demonstrados os principais usos, para o que é bom e para o que não é, casos famosos, e uma comparação com o MySQL (Novembro/2009).
2. Hadoop? WTF?!
● Primeira release em 2006, baseado no artigo
do Google sobre o GFS e Map/Reduce
● Não é em essência um banco de dados, mas
um framework de processamento e
armazenamento distribuído
● Feito para escalar horizontalmente com
facilidade
3. Bom pra quê?
● Volumes gigantescos de dados (acima dos
gigabytes)
● Dados semi-estruturados: arquivos de log,
CSVs, HTML, XML, etc;
● Dados sem estrutura: imagens, livros, textos,
tweets, etc;
4. Ruim pra quê?
● Dados transacionais e/ou estruturados:
formas normais, modelo dimensional, etc;
● Dados que sofrem alterações constantes
● Consultas para linhas específicas (e com alto
grau de redundância): "SELECT ... WHERE
ID = 1"
5. Powered by
○ 40000+ nós no total, com um único cluster usando
4500+ nós
○ Operação de ad e busca
○ 2400+ nós, mais de 100 petabytes de dados
○ Data mining e análise de logs de usuários
6. Powered by
○ 2 terabytes/dia (comprimido)
○ Análise de comportamento e navegação de usuários
○ 1TB+/dia (comprimido); 60 milhões tweets/dia
○ Tweets, arquivos de log, análise de usuários