Big data Curs del Cibernarium de Barcelona 2013

376 views
264 views

Published on

Slides made by Marc Planagumà and Marc Pous for the course Big Data at Cibernàrium de Barcelona (2013).

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
376
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Big data Curs del Cibernarium de Barcelona 2013

  1. 1. Big Data: noves eines i estratègies per a la gestió de grans volums de dades Marc Planagumà i Marc Pous 10 / 5 / 2013
  2. 2. Marc Planagumà Enginyer Telecomunicacions i investigador
  3. 3. El vostre nom? Quin interès teniu amb el món Big Data?
  4. 4. Agenda 1. Quina és la tendència de les dades? 2. Què és el Big Data? 3. Quins són els reptes del Big Data? 4. Emmagatzematge massiu 5. Processament distribuït 6. Pràctica de Big Data
  5. 5. 1 Bit = Binary Digit 8 Bits = 1 Byte 1000 Bytes = 1 Kilobyte 1000 Kilobytes = 1 Megabyte 1000 Megabytes = 1 Gigabyte 1000 Gigabytes = 1 Terabyte 1000 Terabytes = 1 Petabyte 1000 Petabytes = 1 Exabyte 1000 Exabytes = 1 Zettabyte 1000 Zettabytes = 1 Yottabyte 1000 Yottabytes = 1 Brontobyte 1000 Brontobytes = 1 Geopbyte
  6. 6. Quina és la tendència de les dades?
  7. 7. Quina és la tendència de les dades? 2009 0.8 ZB 2010 1.2 ZB 2011 1.8 ZB 2012 2.7 ZB 2015 7.9 ZB 2020 35 ZB
  8. 8. 90% de les dades d'Internet dels últims 2 anys
  9. 9. 2.2 milions de TeraBytes es creen cada dia
  10. 10. Data vs Moore's Law Data Moore
  11. 11. ...i qui ho genera?
  12. 12. Nosaltres! ...i qui ho genera? ...però i els dipositius que generen dades? 100TB Dia 40TB Dia Wall-Mart 2.5PB 1MTps
  13. 13. 27TB Dia (estandard) 40TB Segon (rendiment complet)
  14. 14. Internet of Things, M2M, Samrt cities
  15. 15. Què és Big Data?
  16. 16. Què és Big Data? "Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making." Gartner, 2012
  17. 17. Què és Big Data?
  18. 18. Volum Terabytes, Petabytes, ZetaBytes... Les dimensions de les dades ha deixat obsoletes les tecnologies clàssiques
  19. 19. Varietat Les dades han passat de ser estructurades a ser semi-estructurades o completament desestructurades: ● Estructurades: BDRM, Taules ● Desesctruturades: Text, Imatges, Vídeo ● Semi-estructurades: XML, JSON Tendència: 10% estructurat - 90% desestructurat
  20. 20. Velocitat 1. Tenim una alta velocitat de generació de dades (Streaming Data) 2. i necessitem una alta velocitat de resposta per processar-les.
  21. 21. Quins són els seus reptes?
  22. 22. Quins són els seus reptes? Emmagatzematge Massiu i Processat Distribuït
  23. 23. Teorema CAP (Brewer's theorem) El teorema diu que és impossible per un sistema distribuït oferir simultàniament ninguna de les tres propietats següents: ● Consistència: tots els nodes amb la mateixa informació al mateix temps. ● Availability: una garantia de què cada Request rebrà un Response si s'ha realitzat bé o no. ● Partició o Tolerància a l'error: el sistema continua operant encara que hi hagi una caiguda del sistema o pèrdua de missatges. Quins són els seus reptes?
  24. 24. 10' break!
  25. 25. Quines són les propostes tecnològiques? NoSQL i Clustering
  26. 26. Emmagatzematge Massiu
  27. 27. Bases de Dades Relacionals ● Dades estructurades en taules utilitzant columnes per cada atribut. ● Relacions amb altres taules utilitzant claus de referència ● Esquema i Normalització ● SQL llenguatge query
  28. 28. Beneficis de les RDBMS Standarització SQL Transacionabilitat (ACID) ● Atomicitat: Una transacció o bé finalitza correctament i confirma o bé no deixa cap rastre de la seva execució. ● Consistència: La concurrència de transaccions no pot produir resultats anòmals. ● AÏllament (o Isolament): Cada transacció del sistema s'ha d'executar com si fos l'única que s'executa en aquell moment en el sistema. ● Definitivitat: Si es confirma una transacció, el resultat d'aquesta ha de ser definitiu i no es pot perdre.
  29. 29. Problemes de les RDBMS
  30. 30. NoSQL Not Only SQL
  31. 31. NoSQL Clau Valor Basades en Documents Basades en Columnes Basades en Graf
  32. 32. Clau Valor ● Model de dades: Parells de Claus i Valor { Clau : Valor } ● Basat en Amazon Dynamo paper ● Focus en la escalabilitat Dynamo: Amazon’s Highly Available Key-value Store http://www.read.seas.harvard.edu/~kohler/class/cs239-w08/decandia07dynamo.pdf
  33. 33. Clau Valor
  34. 34. Basats en documents ● Model de Dades: Clauç/Valor on el Valor són documents JSON o BSON {teachers: [ { name : "Marc" , surname : "Pous"}, { name : "Marc" , surname : "Planagumà"} ] } ● Basat en Lotus Notes ● Sense esquema
  35. 35. Basats en documents
  36. 36. Basats en columnes ● Model de Dades: Dades en columnes amb índex i timestamp. ● Basat en el paper de 2004 de la Google BigTable ● Sense esquema i1 i2 i3 i4 ts ts ts ts 1 0 0 0 0 1 0 0 1 1 1 0 0 0 1 1 1 1 0 1 1 1 0 0 1 1 Bigtable: A Distributed Storage System for Structured Data http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/es//archive/bigtable-osdi06.pdf
  37. 37. Basats en columnes
  38. 38. Grafs ● Model de dades: relacions entre nodes ● Basat en la teoria matemàtica de grafs ● Focus en el modelatge de dades
  39. 39. Grafs
  40. 40. Ho podem tenir tot? ● Rendiment ● Disponibilitat ● Exactitud ● Seguretat ● SQL
  41. 41. Com es fan les queries? ● APIs: REST, Thrift, Avro ● Sintaxis pròpies ● GQL - SQL-like per BigTable ● SPARQL - llenguatge query semàntic web ● Gremlin o Cypher - llenguatge per grafs
  42. 42. Comparació
  43. 43. Processat Distribuït
  44. 44. Motivació
  45. 45. Motivació 100MB / seg
  46. 46. Motivació 2TB més de 5 hores
  47. 47. 20.000 discs 2TB en 1 segon ?
  48. 48. Cal repensar el processament! Map Reduce
  49. 49. Què és el Map Reduce? Model de programació introduït per Google als voltants del 2000 per adaptar-se a la computació distribuïda que permeten els clústers d'ordinadors. MapReduce: Simplied Data Processing on Large Clusters http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/es//archive/mapreduce-osdi04.pdf
  50. 50. Què és el Map Reduce? Volem executar una query sobre un dataset molt gran. 1. Dividim aquest conjunt total de dades en moltes parts. 2. Executem en paral·lel el processat en vàries màquines. 3. Agreguem els resultats i els tornem.
  51. 51. Què és el Map Reduce? 2 fases: ● Map: les dades d'entrada són processades una a una i transformades en un dataset provisional de clau/valor. ● Reduce: aquestes dades preparades pel map són operades donant com a resultat un nou dataset clau/valor amb els resultats.
  52. 52. Què és el Map Reduce? Batch processing
  53. 53. Exemple Map Reduce Comptem paraules
  54. 54. Exemple Map Reduce Comptem paraules
  55. 55. Exemple Map Reduce Comptem paraules
  56. 56. Exemple Map Reduce Comptem paraules
  57. 57. Hadoop És una implementació OpenSource d'entorn d'execució Map Reduce. Implementat entre d'altres per:
  58. 58. Nou stack de tecnologies Queries RDBMS Hardware Monolític Map Reduce HadoopNoSQL Hardware distribuït Tradicional Big Data RDBMS distribuït
  59. 59. Comparació Dades Tradicionals Big Data Gigabytes / Terabytes Petabytes / Exabytes Centralitzat Distribuït Estructurat Semi estructurat o desestructurat Model de dades Dades planes Relacions complexes Relacions escasses
  60. 60. Dubtes i preguntes?
  61. 61. Pràctica Big Data
  62. 62. Pràctica de Big Data Combinació de la part teòrica amb 1 pràctica: Escolliu un problema que us agradaria resoldre. Penseu quines dades existeixen públiques o si tindríeu accés a les dades. ● Xarxa de transport públic ● El vostre ADN ● Les vostres pel·lícules preferides ● Sensors i actuadors ● Les lleis del país ● ...
  63. 63. Pràctica de Big Data ● Existeixen altres fonts de dades interessants associades a les dades que tenim? ● Quin tipus de dades són? Són grans volums de dades? Com s’haurien d’estructurar? ● Com adquiriu les dades? En temps real? Cada hora? Cada dia? ● Quines consultes haureu de fer sobre les vostres dades? ● Quins requisits CAP teniu? A quin problema ens enfrontem? Quina seria la millor estructura de dades per resoldre el problema?
  64. 64. Gràcies @djkram & @gy4nt mplanaguma@bdigital.org mpous@bdigital.org
  65. 65. 1 minut

×