SlideShare a Scribd company logo
1 of 13
Hadoop
Conversas sobre bigdata e elefantes amarelos
Hadoop? WTF?!
● Primeira release em 2006, baseado no artigo
  do Google sobre o GFS e Map/Reduce

● Não é em essência um banco de dados, mas
  um framework de processamento e
  armazenamento distribuído

● Feito para escalar horizontalmente com
  facilidade
Bom pra quê?
● Volumes gigantescos de dados (acima dos
  gigabytes)

● Dados semi-estruturados: arquivos de log,
  CSVs, HTML, XML, etc;

● Dados sem estrutura: imagens, livros, textos,
  tweets, etc;
Ruim pra quê?
● Dados transacionais e/ou estruturados:
  formas normais, modelo dimensional, etc;

● Dados que sofrem alterações constantes

● Consultas para linhas específicas (e com alto
  grau de redundância): "SELECT ... WHERE
  ID = 1"
Powered by

○ 40000+ nós no total, com um único cluster usando
  4500+ nós
○ Operação de ad e busca




○   2400+ nós, mais de 100 petabytes de dados
○   Data mining e análise de logs de usuários
Powered by

○   2 terabytes/dia (comprimido)
○   Análise de comportamento e navegação de usuários



○   1TB+/dia (comprimido); 60 milhões tweets/dia
○   Tweets, arquivos de log, análise de usuários
Watson ganhou o Jeopardy! contra dois humanos usando
                       Hadoop
Cluster de Hadoop bate recorde Terasort (2008): 1 TB em
                209 segundos com 910 nós
Hadoop é usado no CERN para processar dados dos
                    detectores
Benchmarking - Clusters
MySQL vs Hadoop - 0.07 bilhões de
linhas
MySQL vs Hadoop - 7.3 bilhões de
linhas
Benchmarking - Hadoop vs MySQL

More Related Content

Viewers also liked

Context of Planning Lecture - Theories and approaches [Compatibility Mode]
Context of Planning Lecture - Theories and approaches [Compatibility Mode]Context of Planning Lecture - Theories and approaches [Compatibility Mode]
Context of Planning Lecture - Theories and approaches [Compatibility Mode]Thabang Nare
 
Open Educational Resources (OER): An Alternative to the High Cost of Textbooks
Open Educational Resources (OER): An Alternative to the High Cost of TextbooksOpen Educational Resources (OER): An Alternative to the High Cost of Textbooks
Open Educational Resources (OER): An Alternative to the High Cost of TextbooksRegina Gong
 
Apply Its_Middle School Physical Science - Mastery Assess It_12
Apply Its_Middle School Physical Science - Mastery Assess It_12Apply Its_Middle School Physical Science - Mastery Assess It_12
Apply Its_Middle School Physical Science - Mastery Assess It_12Cindi Sjogren
 
Message Series - REBOOT - Part 1 - Reboot Your Faith - 01-08-17
Message Series - REBOOT - Part 1 - Reboot Your Faith - 01-08-17Message Series - REBOOT - Part 1 - Reboot Your Faith - 01-08-17
Message Series - REBOOT - Part 1 - Reboot Your Faith - 01-08-17LifePointe Church
 
Soluciones cli atec infraestructura_2016-01
Soluciones cli atec infraestructura_2016-01Soluciones cli atec infraestructura_2016-01
Soluciones cli atec infraestructura_2016-01CliAtec
 
Placement and induction
Placement and inductionPlacement and induction
Placement and inductionSajida Rehman
 
Comparison of Indian and Chinese Economy
Comparison of Indian and Chinese EconomyComparison of Indian and Chinese Economy
Comparison of Indian and Chinese EconomyAnkit Dabral
 

Viewers also liked (17)

Spanish dregee
Spanish dregeeSpanish dregee
Spanish dregee
 
Valores eticos
Valores eticosValores eticos
Valores eticos
 
BuzzFeed Attack* - SMWSP
BuzzFeed Attack* - SMWSP BuzzFeed Attack* - SMWSP
BuzzFeed Attack* - SMWSP
 
Point 2
Point 2Point 2
Point 2
 
RZM Holding Company
RZM Holding CompanyRZM Holding Company
RZM Holding Company
 
Maths9 taller no. 19
Maths9 taller no.  19Maths9 taller no.  19
Maths9 taller no. 19
 
Maths9 taller no. 16 a
Maths9 taller no.  16 aMaths9 taller no.  16 a
Maths9 taller no. 16 a
 
Context of Planning Lecture - Theories and approaches [Compatibility Mode]
Context of Planning Lecture - Theories and approaches [Compatibility Mode]Context of Planning Lecture - Theories and approaches [Compatibility Mode]
Context of Planning Lecture - Theories and approaches [Compatibility Mode]
 
Open Educational Resources (OER): An Alternative to the High Cost of Textbooks
Open Educational Resources (OER): An Alternative to the High Cost of TextbooksOpen Educational Resources (OER): An Alternative to the High Cost of Textbooks
Open Educational Resources (OER): An Alternative to the High Cost of Textbooks
 
Maths9 taller no. 17
Maths9 taller no.  17Maths9 taller no.  17
Maths9 taller no. 17
 
Redes neurais
Redes neuraisRedes neurais
Redes neurais
 
Apply Its_Middle School Physical Science - Mastery Assess It_12
Apply Its_Middle School Physical Science - Mastery Assess It_12Apply Its_Middle School Physical Science - Mastery Assess It_12
Apply Its_Middle School Physical Science - Mastery Assess It_12
 
Message Series - REBOOT - Part 1 - Reboot Your Faith - 01-08-17
Message Series - REBOOT - Part 1 - Reboot Your Faith - 01-08-17Message Series - REBOOT - Part 1 - Reboot Your Faith - 01-08-17
Message Series - REBOOT - Part 1 - Reboot Your Faith - 01-08-17
 
Soluciones cli atec infraestructura_2016-01
Soluciones cli atec infraestructura_2016-01Soluciones cli atec infraestructura_2016-01
Soluciones cli atec infraestructura_2016-01
 
Placement and induction
Placement and inductionPlacement and induction
Placement and induction
 
Sterilization Unit
Sterilization UnitSterilization Unit
Sterilization Unit
 
Comparison of Indian and Chinese Economy
Comparison of Indian and Chinese EconomyComparison of Indian and Chinese Economy
Comparison of Indian and Chinese Economy
 

Similar to Conversas sobre Big Data, Hadoop e elefantes amarelos

Sparsi big data
Sparsi big dataSparsi big data
Sparsi big datasparsi
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro WanderleyLeandro Couto
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big DataCarlos Barbieri
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Carlos Barbieri
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Thiago Santiago
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdfCyberboy11
 
Bigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à práticaBigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à práticaFabíola Fernandes
 

Similar to Conversas sobre Big Data, Hadoop e elefantes amarelos (20)

Hadoop
HadoopHadoop
Hadoop
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Aula BigData.pptx
Aula BigData.pptxAula BigData.pptx
Aula BigData.pptx
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro Wanderley
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
NoSQL & SQL
NoSQL & SQLNoSQL & SQL
NoSQL & SQL
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
MAC5855 - NoSQL
MAC5855 - NoSQLMAC5855 - NoSQL
MAC5855 - NoSQL
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
 
Big Data
Big DataBig Data
Big Data
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
 
Bigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à práticaBigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à prática
 
Persitência Poliglota TDC Recife 2019
Persitência Poliglota TDC Recife 2019Persitência Poliglota TDC Recife 2019
Persitência Poliglota TDC Recife 2019
 

Conversas sobre Big Data, Hadoop e elefantes amarelos

  • 1. Hadoop Conversas sobre bigdata e elefantes amarelos
  • 2. Hadoop? WTF?! ● Primeira release em 2006, baseado no artigo do Google sobre o GFS e Map/Reduce ● Não é em essência um banco de dados, mas um framework de processamento e armazenamento distribuído ● Feito para escalar horizontalmente com facilidade
  • 3. Bom pra quê? ● Volumes gigantescos de dados (acima dos gigabytes) ● Dados semi-estruturados: arquivos de log, CSVs, HTML, XML, etc; ● Dados sem estrutura: imagens, livros, textos, tweets, etc;
  • 4. Ruim pra quê? ● Dados transacionais e/ou estruturados: formas normais, modelo dimensional, etc; ● Dados que sofrem alterações constantes ● Consultas para linhas específicas (e com alto grau de redundância): "SELECT ... WHERE ID = 1"
  • 5. Powered by ○ 40000+ nós no total, com um único cluster usando 4500+ nós ○ Operação de ad e busca ○ 2400+ nós, mais de 100 petabytes de dados ○ Data mining e análise de logs de usuários
  • 6. Powered by ○ 2 terabytes/dia (comprimido) ○ Análise de comportamento e navegação de usuários ○ 1TB+/dia (comprimido); 60 milhões tweets/dia ○ Tweets, arquivos de log, análise de usuários
  • 7. Watson ganhou o Jeopardy! contra dois humanos usando Hadoop
  • 8. Cluster de Hadoop bate recorde Terasort (2008): 1 TB em 209 segundos com 910 nós
  • 9. Hadoop é usado no CERN para processar dados dos detectores
  • 11. MySQL vs Hadoop - 0.07 bilhões de linhas
  • 12. MySQL vs Hadoop - 7.3 bilhões de linhas