• Save
Conversas sobre Big Data, Hadoop e elefantes amarelos
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Conversas sobre Big Data, Hadoop e elefantes amarelos

  • 927 views
Uploaded on

Esta apresentação tem como objetivo demonstrar e discutir um dos pilares do Big Data, o Hadoop. São demonstrados os principais usos, para o que é bom e para o que não é, casos famosos, e uma......

Esta apresentação tem como objetivo demonstrar e discutir um dos pilares do Big Data, o Hadoop. São demonstrados os principais usos, para o que é bom e para o que não é, casos famosos, e uma comparação com o MySQL (Novembro/2009).

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
927
On Slideshare
916
From Embeds
11
Number of Embeds
3

Actions

Shares
Downloads
0
Comments
0
Likes
1

Embeds 11

http://www.linkedin.com 7
https://www.linkedin.com 3
http://www.slashdocs.com 1

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. HadoopConversas sobre bigdata e elefantes amarelos
  • 2. Hadoop? WTF?!● Primeira release em 2006, baseado no artigo do Google sobre o GFS e Map/Reduce● Não é em essência um banco de dados, mas um framework de processamento e armazenamento distribuído● Feito para escalar horizontalmente com facilidade
  • 3. Bom pra quê?● Volumes gigantescos de dados (acima dos gigabytes)● Dados semi-estruturados: arquivos de log, CSVs, HTML, XML, etc;● Dados sem estrutura: imagens, livros, textos, tweets, etc;
  • 4. Ruim pra quê?● Dados transacionais e/ou estruturados: formas normais, modelo dimensional, etc;● Dados que sofrem alterações constantes● Consultas para linhas específicas (e com alto grau de redundância): "SELECT ... WHERE ID = 1"
  • 5. Powered by○ 40000+ nós no total, com um único cluster usando 4500+ nós○ Operação de ad e busca○ 2400+ nós, mais de 100 petabytes de dados○ Data mining e análise de logs de usuários
  • 6. Powered by○ 2 terabytes/dia (comprimido)○ Análise de comportamento e navegação de usuários○ 1TB+/dia (comprimido); 60 milhões tweets/dia○ Tweets, arquivos de log, análise de usuários
  • 7. Watson ganhou o Jeopardy! contra dois humanos usando Hadoop
  • 8. Cluster de Hadoop bate recorde Terasort (2008): 1 TB em 209 segundos com 910 nós
  • 9. Hadoop é usado no CERN para processar dados dos detectores
  • 10. Benchmarking - Clusters
  • 11. MySQL vs Hadoop - 0.07 bilhões delinhas
  • 12. MySQL vs Hadoop - 7.3 bilhões delinhas
  • 13. Benchmarking - Hadoop vs MySQL