• Save
Big data Curs del Cibernarium de Barcelona 2013
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Big data Curs del Cibernarium de Barcelona 2013

on

  • 377 views

Slides made by Marc Planagumà and Marc Pous for the course Big Data at Cibernàrium de Barcelona (2013).

Slides made by Marc Planagumà and Marc Pous for the course Big Data at Cibernàrium de Barcelona (2013).

Statistics

Views

Total Views
377
Views on SlideShare
377
Embed Views
0

Actions

Likes
1
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Big data Curs del Cibernarium de Barcelona 2013 Presentation Transcript

  • 1. Big Data: noves eines i estratègies per a la gestió de grans volums de dades Marc Planagumà i Marc Pous 10 / 5 / 2013
  • 2. Marc Planagumà Enginyer Telecomunicacions i investigador
  • 3. El vostre nom? Quin interès teniu amb el món Big Data?
  • 4. Agenda 1. Quina és la tendència de les dades? 2. Què és el Big Data? 3. Quins són els reptes del Big Data? 4. Emmagatzematge massiu 5. Processament distribuït 6. Pràctica de Big Data
  • 5. 1 Bit = Binary Digit 8 Bits = 1 Byte 1000 Bytes = 1 Kilobyte 1000 Kilobytes = 1 Megabyte 1000 Megabytes = 1 Gigabyte 1000 Gigabytes = 1 Terabyte 1000 Terabytes = 1 Petabyte 1000 Petabytes = 1 Exabyte 1000 Exabytes = 1 Zettabyte 1000 Zettabytes = 1 Yottabyte 1000 Yottabytes = 1 Brontobyte 1000 Brontobytes = 1 Geopbyte
  • 6. Quina és la tendència de les dades?
  • 7. Quina és la tendència de les dades? 2009 0.8 ZB 2010 1.2 ZB 2011 1.8 ZB 2012 2.7 ZB 2015 7.9 ZB 2020 35 ZB
  • 8. 90% de les dades d'Internet dels últims 2 anys
  • 9. 2.2 milions de TeraBytes es creen cada dia
  • 10. Data vs Moore's Law Data Moore
  • 11. ...i qui ho genera?
  • 12. Nosaltres! ...i qui ho genera? ...però i els dipositius que generen dades? 100TB Dia 40TB Dia Wall-Mart 2.5PB 1MTps
  • 13. 27TB Dia (estandard) 40TB Segon (rendiment complet)
  • 14. Internet of Things, M2M, Samrt cities
  • 15. Què és Big Data?
  • 16. Què és Big Data? "Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making." Gartner, 2012
  • 17. Què és Big Data?
  • 18. Volum Terabytes, Petabytes, ZetaBytes... Les dimensions de les dades ha deixat obsoletes les tecnologies clàssiques
  • 19. Varietat Les dades han passat de ser estructurades a ser semi-estructurades o completament desestructurades: ● Estructurades: BDRM, Taules ● Desesctruturades: Text, Imatges, Vídeo ● Semi-estructurades: XML, JSON Tendència: 10% estructurat - 90% desestructurat
  • 20. Velocitat 1. Tenim una alta velocitat de generació de dades (Streaming Data) 2. i necessitem una alta velocitat de resposta per processar-les.
  • 21. Quins són els seus reptes?
  • 22. Quins són els seus reptes? Emmagatzematge Massiu i Processat Distribuït
  • 23. Teorema CAP (Brewer's theorem) El teorema diu que és impossible per un sistema distribuït oferir simultàniament ninguna de les tres propietats següents: ● Consistència: tots els nodes amb la mateixa informació al mateix temps. ● Availability: una garantia de què cada Request rebrà un Response si s'ha realitzat bé o no. ● Partició o Tolerància a l'error: el sistema continua operant encara que hi hagi una caiguda del sistema o pèrdua de missatges. Quins són els seus reptes?
  • 24. 10' break!
  • 25. Quines són les propostes tecnològiques? NoSQL i Clustering
  • 26. Emmagatzematge Massiu
  • 27. Bases de Dades Relacionals ● Dades estructurades en taules utilitzant columnes per cada atribut. ● Relacions amb altres taules utilitzant claus de referència ● Esquema i Normalització ● SQL llenguatge query
  • 28. Beneficis de les RDBMS Standarització SQL Transacionabilitat (ACID) ● Atomicitat: Una transacció o bé finalitza correctament i confirma o bé no deixa cap rastre de la seva execució. ● Consistència: La concurrència de transaccions no pot produir resultats anòmals. ● AÏllament (o Isolament): Cada transacció del sistema s'ha d'executar com si fos l'única que s'executa en aquell moment en el sistema. ● Definitivitat: Si es confirma una transacció, el resultat d'aquesta ha de ser definitiu i no es pot perdre.
  • 29. Problemes de les RDBMS
  • 30. NoSQL Not Only SQL
  • 31. NoSQL Clau Valor Basades en Documents Basades en Columnes Basades en Graf
  • 32. Clau Valor ● Model de dades: Parells de Claus i Valor { Clau : Valor } ● Basat en Amazon Dynamo paper ● Focus en la escalabilitat Dynamo: Amazon’s Highly Available Key-value Store http://www.read.seas.harvard.edu/~kohler/class/cs239-w08/decandia07dynamo.pdf
  • 33. Clau Valor
  • 34. Basats en documents ● Model de Dades: Clauç/Valor on el Valor són documents JSON o BSON {teachers: [ { name : "Marc" , surname : "Pous"}, { name : "Marc" , surname : "Planagumà"} ] } ● Basat en Lotus Notes ● Sense esquema
  • 35. Basats en documents
  • 36. Basats en columnes ● Model de Dades: Dades en columnes amb índex i timestamp. ● Basat en el paper de 2004 de la Google BigTable ● Sense esquema i1 i2 i3 i4 ts ts ts ts 1 0 0 0 0 1 0 0 1 1 1 0 0 0 1 1 1 1 0 1 1 1 0 0 1 1 Bigtable: A Distributed Storage System for Structured Data http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/es//archive/bigtable-osdi06.pdf
  • 37. Basats en columnes
  • 38. Grafs ● Model de dades: relacions entre nodes ● Basat en la teoria matemàtica de grafs ● Focus en el modelatge de dades
  • 39. Grafs
  • 40. Ho podem tenir tot? ● Rendiment ● Disponibilitat ● Exactitud ● Seguretat ● SQL
  • 41. Com es fan les queries? ● APIs: REST, Thrift, Avro ● Sintaxis pròpies ● GQL - SQL-like per BigTable ● SPARQL - llenguatge query semàntic web ● Gremlin o Cypher - llenguatge per grafs
  • 42. Comparació
  • 43. Processat Distribuït
  • 44. Motivació
  • 45. Motivació 100MB / seg
  • 46. Motivació 2TB més de 5 hores
  • 47. 20.000 discs 2TB en 1 segon ?
  • 48. Cal repensar el processament! Map Reduce
  • 49. Què és el Map Reduce? Model de programació introduït per Google als voltants del 2000 per adaptar-se a la computació distribuïda que permeten els clústers d'ordinadors. MapReduce: Simplied Data Processing on Large Clusters http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/es//archive/mapreduce-osdi04.pdf
  • 50. Què és el Map Reduce? Volem executar una query sobre un dataset molt gran. 1. Dividim aquest conjunt total de dades en moltes parts. 2. Executem en paral·lel el processat en vàries màquines. 3. Agreguem els resultats i els tornem.
  • 51. Què és el Map Reduce? 2 fases: ● Map: les dades d'entrada són processades una a una i transformades en un dataset provisional de clau/valor. ● Reduce: aquestes dades preparades pel map són operades donant com a resultat un nou dataset clau/valor amb els resultats.
  • 52. Què és el Map Reduce? Batch processing
  • 53. Exemple Map Reduce Comptem paraules
  • 54. Exemple Map Reduce Comptem paraules
  • 55. Exemple Map Reduce Comptem paraules
  • 56. Exemple Map Reduce Comptem paraules
  • 57. Hadoop És una implementació OpenSource d'entorn d'execució Map Reduce. Implementat entre d'altres per:
  • 58. Nou stack de tecnologies Queries RDBMS Hardware Monolític Map Reduce HadoopNoSQL Hardware distribuït Tradicional Big Data RDBMS distribuït
  • 59. Comparació Dades Tradicionals Big Data Gigabytes / Terabytes Petabytes / Exabytes Centralitzat Distribuït Estructurat Semi estructurat o desestructurat Model de dades Dades planes Relacions complexes Relacions escasses
  • 60. Dubtes i preguntes?
  • 61. Pràctica Big Data
  • 62. Pràctica de Big Data Combinació de la part teòrica amb 1 pràctica: Escolliu un problema que us agradaria resoldre. Penseu quines dades existeixen públiques o si tindríeu accés a les dades. ● Xarxa de transport públic ● El vostre ADN ● Les vostres pel·lícules preferides ● Sensors i actuadors ● Les lleis del país ● ...
  • 63. Pràctica de Big Data ● Existeixen altres fonts de dades interessants associades a les dades que tenim? ● Quin tipus de dades són? Són grans volums de dades? Com s’haurien d’estructurar? ● Com adquiriu les dades? En temps real? Cada hora? Cada dia? ● Quines consultes haureu de fer sobre les vostres dades? ● Quins requisits CAP teniu? A quin problema ens enfrontem? Quina seria la millor estructura de dades per resoldre el problema?
  • 64. Gràcies @djkram & @gy4nt mplanaguma@bdigital.org mpous@bdigital.org
  • 65. 1 minut