The good, the bad and the big... data
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

The good, the bad and the big... data

on

  • 868 views

Palestra sobre Big Data apresentada na Campus Party Brasil 2013, Parque Anhembi, São Paulo - 02/02/2013

Palestra sobre Big Data apresentada na Campus Party Brasil 2013, Parque Anhembi, São Paulo - 02/02/2013

Statistics

Views

Total Views
868
Views on SlideShare
845
Embed Views
23

Actions

Likes
2
Downloads
17
Comments
0

2 Embeds 23

http://www.bloglecom.com.br 22
https://twitter.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

The good, the bad and the big... data Presentation Transcript

  • 1. THE GOOD, THE BAD, THE BIG... DATA Processando Grandes Volumes de DadosRodrigo Camposrcampos@uolinc.com@xinu
  • 2. Agenda•Big what?•Tecnologias•Conclusões
  • 3. IBM 350 - 1956Discos 24”1.200 RPM8.800 CPS3,75 MbUSD 53.400 / Mb
  • 4. Kingston HyperXUSB 3.030.000.000 CPS1.000.000 MbUSD 0,0017 / Mb
  • 5. Fonte: http://www.jcmit.com/disk2012.htm
  • 6. 90% dos dados atualmente no mundo foram criados nos últimos dois anosFonte: http://ibm.co/WDPldm
  • 7. 1.800.000.000 Tb 1,8Zb foram criados ou replicados em 2011.Fonte: IDC iView - Extracting Value from Chaos - http://bit.ly/YwR8nb
  • 8. Não se trata apenas da quantidade de dados
  • 9. Os dados tradicionalmente eram organizados em esquemas conhecidos, rígidos e controlados
  • 10. SELECT vw_Subscriber.DisplayName,vw_CallHandler.DTMFAccessId AS Extension,vw_ContactRule.Extension AS Transfer StringFROM vw_Subscriber INNER JOIN vw_CallHandlerONvw_CallHandler.CallHandlerObjectId=vw_Subscriber.CallHandlerObjectIdINNER JOIN vw_ContactRuleONvw_ContactRule.ParentObjectId=vw_CallHandler.CallHandlerObjectIdWHERE vw_CallHandler.IsPrimary=1 ANDvw_Subscriber.SubscriberType IN (1,3) ANDvw_ContactRule.Alias=alternate ANDvw_ContactRule.Action=1
  • 11. Message Queues Extensible Markup Language Text Files Flat files Dados pouco uniformes Document Oriented Spatial Databases Comma Separated Values Hierarchical Model Graph Databases SpreadsheetsObject-relational SYSLOG Hypermedia DatabasesIn-Memory Databases Network Model Relational Model
  • 12. Os dados tradicionalmente eram gerados por computadores
  • 13. 0100100100101010010101010000101010110010100101011100101101010010010010010101001001010011101001001001010010010100101010001010101110010100101001010011111001010101010010010010010
  • 14. Fontes de dados são diversificadas
  • 15. O armazenamento eprocessamento dos dados tradicionalmente era centralizado
  • 16. 0100100100101010010101010000101010110010100101011100101101010010010010010101001001010011101001001001010010010100101010001010101110010100101001010011111001010101010010010010010
  • 17. Os volumes ultrapassam acapacidade individual dos bancos de dados
  • 18. Lead ION Collision - ALICE experiment at CERN25 Petabytes por anoLHC Computing Grid - 170 datacenters em 36 paíseshttp://wlcg.web.cern.ch/
  • 19. Precisamos de soluções e ferramentas novas para: Extração Armazenamento Processamento Visualização
  • 20. Extração Armazenamento Big DataVisualização Processamento
  • 21. Extração Data Scraping APIs
  • 22. Data Scraping
  • 23. API
  • 24. Armazenamento Sistemas distribuídos
  • 25. Sistemas distribuídos Desafios para o design: Escala Gerenciamento Segurança Tolerância a falhas
  • 26. Processamento A panacéia NoSQL
  • 27. Processamento Não existe bala de prata...
  • 28. Processamento Não existe bala de prata...
  • 29. ProcessamentoNunca existiu bala de prata... Existem soluções mais apropriadas para determinados problemas
  • 30. Processamento O modelo relacional dominou os últimos 30 anos
  • 31. Processamento Agora procuramos usar a solução mais adequada para o problema encontrado
  • 32. Bancos de dados de documentos Desenhados para ogerenciamento de informação semi-estruturada
  • 33. Bancos de dados de documentos { "Cats": [ { "Age": 5, "EyeColor": "Blue", "Name": "Agatha" }, { "Age": 4, "EyeColor": "Blue", "Name": "Frank" } ], "FirstName": "Rodrigo", "LastName": "Campos", "TwitterScreenName": "xinu" }
  • 34. Chave-valor Desenhados para armazenamento arbitrário de informações em pares
  • 35. Chave-valor userCount 1 user1_FirstName Rodrigo user1_LastName Campos user1_Twitter xinu user1_CatCount 2 user1_Cat1_Name Agatha user1_Cat1_Age 5 user1_Cat2_Name Frank user1_Cat2_Age 4
  • 36. Grafo Desenhados para estruturas baseadas em vértices e arestas com propriedades
  • 37. Id: 2 Name: Frank Eyes: BlueGrafo Age: 4 Id: 105 Type: cat Label: friends Id: 104 Label: friends Id: 100 Label: master Id: 101 Label: servant Id: 3 Name: Agatha Eyes: Blue Id: 102 Age: 5 Label: servant Type: cat Id: 103 Label: master Id: 1 FirstName: Rodrigo LastName: Campos Twitter: xinu Type: human
  • 38. Processamento Bancos de dados de Chave-Valor Grafo documentos•Cassandra •Cassandra •AllegroGraph•CouchDB •Riak •Neo4J•MongoDB •Memcached •FlockDB•Couchbase •Redis •InfiniteGraph•Lotus Notes •Kyoto Cabinet
  • 39. MapReduce Um modelo de programação distribuída para o processamento de grandes conjuntos de dados
  • 40. MapReduceProblema:Contar os elementosseparando pelas cores
  • 41. Dados originaisMapReduce Node 1 Node 2 MAP Resultado Master Node Node 3 x2 x4 REDUCE x3 x1 Node 4 x3 Node 5 x2 x5
  • 42. Processamento Atomic: toda a transação deve ser bem sucedida Consistent: o banco de dados deve permanecer consistente Isolated: uma transação não deve interferir nas demais Durable: transações completadas devem persistir
  • 43. Processamento Basic Availability: a camada de dados permanece (parcialmente) disponível mesmo que inconsistente Soft-state: os dados retornados para determinada transação podem ser aproximados ou estimados Eventual consistency: eventualmente os dados estarão homogêneos em todo o sistemaMais informações em http://bit.ly/14Bg7GD
  • 44. Teorema CAP - Escolha duas... ConsistencyAvailability Partition Tolerance
  • 45. VisualizaçãoFonte: http://bit.ly/14BhZz8
  • 46. VisualizaçãoFonte: http://inmaps.linkedinlabs.com
  • 47. VisualizaçãoFonte: http://bit.ly/YoJrM2
  • 48. VisualizaçãoFonte: http://bit.ly/UJZIeO
  • 49. Conclusões O volume e diversidade dos dados exigem novas abordagens tecnológicas
  • 50. Conclusões Novas ferramentas vem complementar soluções estabelecidas no mercado
  • 51. Conclusões As ferramentas ainda estão evoluindo para atender essa nova realide
  • 52. rcampos@uolinc.com@xinu