Conversas sobre Big Data, Hadoop e elefantes amarelos

  • 462 views
Uploaded on

Esta apresentação tem como objetivo demonstrar e discutir um dos pilares do Big Data, o Hadoop. São demonstrados os principais usos, para o que é bom e para o que não é, casos famosos, e uma …

Esta apresentação tem como objetivo demonstrar e discutir um dos pilares do Big Data, o Hadoop. São demonstrados os principais usos, para o que é bom e para o que não é, casos famosos, e uma comparação com o MySQL (Novembro/2009).

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
462
On Slideshare
0
From Embeds
0
Number of Embeds
2

Actions

Shares
Downloads
0
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. HadoopConversas sobre bigdata e elefantes amarelos
  • 2. Hadoop? WTF?!● Primeira release em 2006, baseado no artigo do Google sobre o GFS e Map/Reduce● Não é em essência um banco de dados, mas um framework de processamento e armazenamento distribuído● Feito para escalar horizontalmente com facilidade
  • 3. Bom pra quê?● Volumes gigantescos de dados (acima dos gigabytes)● Dados semi-estruturados: arquivos de log, CSVs, HTML, XML, etc;● Dados sem estrutura: imagens, livros, textos, tweets, etc;
  • 4. Ruim pra quê?● Dados transacionais e/ou estruturados: formas normais, modelo dimensional, etc;● Dados que sofrem alterações constantes● Consultas para linhas específicas (e com alto grau de redundância): "SELECT ... WHERE ID = 1"
  • 5. Powered by○ 40000+ nós no total, com um único cluster usando 4500+ nós○ Operação de ad e busca○ 2400+ nós, mais de 100 petabytes de dados○ Data mining e análise de logs de usuários
  • 6. Powered by○ 2 terabytes/dia (comprimido)○ Análise de comportamento e navegação de usuários○ 1TB+/dia (comprimido); 60 milhões tweets/dia○ Tweets, arquivos de log, análise de usuários
  • 7. Watson ganhou o Jeopardy! contra dois humanos usando Hadoop
  • 8. Cluster de Hadoop bate recorde Terasort (2008): 1 TB em 209 segundos com 910 nós
  • 9. Hadoop é usado no CERN para processar dados dos detectores
  • 10. Benchmarking - Clusters
  • 11. MySQL vs Hadoop - 0.07 bilhões delinhas
  • 12. MySQL vs Hadoop - 7.3 bilhões delinhas
  • 13. Benchmarking - Hadoop vs MySQL