SlideShare a Scribd company logo
1 of 86
Big Data: noves eines i
estratègies per a la gestió
de grans volums de
dades
Marc Planagumà i Marc Pous
10 / 5 / 2013
Marc Planagumà
Enginyer Telecomunicacions i investigador
El vostre nom?
Quin interès teniu amb el món Big Data?
Agenda
1. Quina és la tendència de les dades?
2. Què és el Big Data?
3. Quins són els reptes del Big Data?
4. Emmagatzematge massiu
5. Processament distribuït
6. Pràctica de Big Data
1 Bit = Binary Digit
8 Bits = 1 Byte
1000 Bytes = 1 Kilobyte
1000 Kilobytes = 1 Megabyte
1000 Megabytes = 1 Gigabyte
1000 Gigabytes = 1 Terabyte
1000 Terabytes = 1 Petabyte
1000 Petabytes = 1 Exabyte
1000 Exabytes = 1 Zettabyte
1000 Zettabytes = 1 Yottabyte
1000 Yottabytes = 1 Brontobyte
1000 Brontobytes = 1 Geopbyte
Quina és la tendència de les dades?
Quina és la tendència de les dades?
2009 0.8 ZB
2010 1.2 ZB
2011 1.8 ZB
2012 2.7 ZB
2015 7.9 ZB
2020 35 ZB
90% de les dades d'Internet
dels últims 2 anys
2.2
milions de
TeraBytes es creen
cada dia
Data vs Moore's Law
Data
Moore
...i qui ho genera?
Nosaltres!
...i qui ho genera?
...però i els dipositius que
generen dades?
100TB Dia
40TB Dia
Wall-Mart
2.5PB 1MTps
27TB Dia
(estandard)
40TB Segon
(rendiment complet)
Internet of Things, M2M, Samrt cities
Què és Big Data?
Què és Big Data?
"Big data is high-volume, high-velocity and
high-variety information assets that demand
cost-effective, innovative forms of information
processing for enhanced insight and decision
making."
Gartner, 2012
Què és Big Data?
Volum
Terabytes, Petabytes, ZetaBytes...
Les dimensions de les dades
ha deixat obsoletes les
tecnologies clàssiques
Varietat
Les dades han passat de ser estructurades a
ser semi-estructurades o completament
desestructurades:
● Estructurades: BDRM, Taules
● Desesctruturades: Text, Imatges, Vídeo
● Semi-estructurades: XML, JSON
Tendència: 10% estructurat - 90% desestructurat
Velocitat
1. Tenim una alta velocitat de generació de
dades (Streaming Data)
2. i necessitem una alta velocitat de resposta
per processar-les.
Quins són els seus reptes?
Quins són els seus reptes?
Emmagatzematge
Massiu
i
Processat Distribuït
Teorema CAP (Brewer's theorem)
El teorema diu que és impossible per un
sistema distribuït oferir simultàniament ninguna
de les tres propietats següents:
● Consistència: tots els nodes amb la mateixa informació
al mateix temps.
● Availability: una garantia de què cada Request rebrà
un Response si s'ha realitzat bé o no.
● Partició o Tolerància a l'error: el sistema continua
operant encara que hi hagi una caiguda del sistema o
pèrdua de missatges.
Quins són els seus reptes?
10' break!
Quines són les propostes tecnològiques?
NoSQL
i
Clustering
Emmagatzematge
Massiu
Bases de Dades Relacionals
● Dades estructurades en taules utilitzant
columnes per cada atribut.
● Relacions amb altres taules utilitzant claus
de referència
● Esquema i Normalització
● SQL llenguatge query
Beneficis de les RDBMS
Standarització SQL
Transacionabilitat (ACID)
● Atomicitat: Una transacció o bé finalitza correctament i
confirma o bé no deixa cap rastre de la seva execució.
● Consistència: La concurrència de transaccions no pot
produir resultats anòmals.
● AÏllament (o Isolament): Cada transacció del sistema
s'ha d'executar com si fos l'única que s'executa en
aquell moment en el sistema.
● Definitivitat: Si es confirma una transacció, el resultat
d'aquesta ha de ser definitiu i no es pot perdre.
Problemes de les RDBMS
NoSQL
Not Only SQL
NoSQL
Clau Valor
Basades en Documents
Basades en Columnes
Basades en Graf
Clau Valor
● Model de dades: Parells de Claus i Valor
{ Clau : Valor }
● Basat en Amazon Dynamo paper
● Focus en la escalabilitat
Dynamo: Amazon’s Highly Available Key-value Store
http://www.read.seas.harvard.edu/~kohler/class/cs239-w08/decandia07dynamo.pdf
Clau Valor
Basats en documents
● Model de Dades: Clauç/Valor on el Valor
són documents JSON o BSON
{teachers: [
{ name : "Marc" , surname : "Pous"},
{ name : "Marc" , surname : "Planagumà"}
] }
● Basat en Lotus Notes
● Sense esquema
Basats en documents
Basats en columnes
● Model de Dades: Dades en
columnes amb índex i
timestamp.
● Basat en el paper de 2004
de la Google BigTable
● Sense esquema
i1 i2 i3 i4
ts ts ts ts
1 0 0 0
0 1 0 0
1 1 1 0
0 0 1 1
1 1 0 1
1 1 0
0 1
1
Bigtable: A Distributed Storage System for Structured Data
http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/es//archive/bigtable-osdi06.pdf
Basats en columnes
Grafs
● Model de dades: relacions entre nodes
● Basat en la teoria matemàtica de grafs
● Focus en el modelatge de dades
Grafs
Ho podem tenir tot?
● Rendiment
● Disponibilitat
● Exactitud
● Seguretat
● SQL
Com es fan les queries?
● APIs: REST, Thrift, Avro
● Sintaxis pròpies
● GQL - SQL-like per BigTable
● SPARQL - llenguatge query semàntic web
● Gremlin o Cypher - llenguatge per grafs
Comparació
Processat Distribuït
Motivació
Motivació
100MB / seg
Motivació
2TB més de
5 hores
20.000 discs
2TB en 1 segon
?
Cal repensar el processament!
Map Reduce
Què és el Map Reduce?
Model de programació introduït per Google als
voltants del 2000 per adaptar-se a la
computació distribuïda que permeten els
clústers d'ordinadors.
MapReduce: Simplied Data Processing on Large Clusters
http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/es//archive/mapreduce-osdi04.pdf
Què és el Map Reduce?
Volem executar una query sobre un dataset
molt gran.
1. Dividim aquest conjunt total de dades en
moltes parts.
2. Executem en paral·lel el processat en vàries
màquines.
3. Agreguem els resultats i els tornem.
Què és el Map Reduce?
2 fases:
● Map: les dades d'entrada són processades
una a una i transformades en un dataset
provisional de clau/valor.
● Reduce: aquestes dades preparades pel
map són operades donant com a resultat un
nou dataset clau/valor amb els resultats.
Què és el Map Reduce?
Batch processing
Exemple Map Reduce
Comptem paraules
Exemple Map Reduce
Comptem paraules
Exemple Map Reduce
Comptem paraules
Exemple Map Reduce
Comptem paraules
Hadoop
És una implementació OpenSource d'entorn
d'execució Map Reduce.
Implementat entre d'altres per:
Nou stack de tecnologies
Queries
RDBMS
Hardware
Monolític
Map Reduce
HadoopNoSQL
Hardware distribuït
Tradicional
Big Data
RDBMS
distribuït
Comparació
Dades Tradicionals Big Data
Gigabytes / Terabytes Petabytes / Exabytes
Centralitzat Distribuït
Estructurat Semi estructurat o desestructurat
Model de dades Dades planes
Relacions complexes Relacions escasses
Dubtes i preguntes?
Pràctica Big Data
Pràctica de Big Data
Combinació de la part teòrica amb 1 pràctica:
Escolliu un problema que us agradaria resoldre.
Penseu quines dades existeixen públiques o si tindríeu
accés a les dades.
● Xarxa de transport públic
● El vostre ADN
● Les vostres pel·lícules preferides
● Sensors i actuadors
● Les lleis del país
● ...
Pràctica de Big Data
● Existeixen altres fonts de dades interessants
associades a les dades que tenim?
● Quin tipus de dades són? Són grans volums de dades?
Com s’haurien d’estructurar?
● Com adquiriu les dades? En temps real? Cada hora?
Cada dia?
● Quines consultes haureu de fer sobre les vostres
dades?
● Quins requisits CAP teniu?
A quin problema ens enfrontem? Quina
seria la millor estructura de dades per
resoldre el problema?
Gràcies
@djkram & @gy4nt
mplanaguma@bdigital.org
mpous@bdigital.org
1
minut

More Related Content

Similar to Big data Curs del Cibernarium de Barcelona 2013

Sessió 4 Tècnics - Programa formatiu Dades Obertes per Entitats sense Ànim de...
Sessió 4 Tècnics - Programa formatiu Dades Obertes per Entitats sense Ànim de...Sessió 4 Tècnics - Programa formatiu Dades Obertes per Entitats sense Ànim de...
Sessió 4 Tècnics - Programa formatiu Dades Obertes per Entitats sense Ànim de...Iniciativa Barcelona Open Data
 
Sistemes gestors de bases de dades
Sistemes gestors de bases de dadesSistemes gestors de bases de dades
Sistemes gestors de bases de dadesMiquel Boada Artigas
 
Creació de taules amb integritat referencial.
Creació de taules amb integritat referencial.Creació de taules amb integritat referencial.
Creació de taules amb integritat referencial.Miquel Boada Artigas
 
Introducció bases de dades distribuides
Introducció bases de dades distribuidesIntroducció bases de dades distribuides
Introducció bases de dades distribuidesMiquel Boada Artigas
 
Blue2Boss PXC E1
Blue2Boss PXC E1Blue2Boss PXC E1
Blue2Boss PXC E1elr1c
 
3 gestió bàsica d'informació en sistemes gestors de bases de dades
3 gestió bàsica d'informació en sistemes gestors de bases de dades3 gestió bàsica d'informació en sistemes gestors de bases de dades
3 gestió bàsica d'informació en sistemes gestors de bases de dadesMarketing per tu
 
Consultes amb múltiples taules utilitzant left, right i inner join. Funcionam...
Consultes amb múltiples taules utilitzant left, right i inner join. Funcionam...Consultes amb múltiples taules utilitzant left, right i inner join. Funcionam...
Consultes amb múltiples taules utilitzant left, right i inner join. Funcionam...Miquel Boada Artigas
 
Introducció a Open Data / Big Data
Introducció a Open Data / Big DataIntroducció a Open Data / Big Data
Introducció a Open Data / Big DataJulià Minguillón
 

Similar to Big data Curs del Cibernarium de Barcelona 2013 (20)

What DB?
What DB?What DB?
What DB?
 
Curs 1.5 Publicació de Dades
Curs 1.5 Publicació de DadesCurs 1.5 Publicació de Dades
Curs 1.5 Publicació de Dades
 
Sessió 4 Tècnics - Programa formatiu Dades Obertes per Entitats sense Ànim de...
Sessió 4 Tècnics - Programa formatiu Dades Obertes per Entitats sense Ànim de...Sessió 4 Tècnics - Programa formatiu Dades Obertes per Entitats sense Ànim de...
Sessió 4 Tècnics - Programa formatiu Dades Obertes per Entitats sense Ànim de...
 
Sistemes gestors de bases de dades
Sistemes gestors de bases de dadesSistemes gestors de bases de dades
Sistemes gestors de bases de dades
 
Curs 1.5. Procés de Publicació de Dades
Curs 1.5. Procés de Publicació de Dades Curs 1.5. Procés de Publicació de Dades
Curs 1.5. Procés de Publicació de Dades
 
Situació i reptes de la gestió del Big Data en ciències de la vida
Situació i reptes de la gestió del Big Data en ciències de la vidaSituació i reptes de la gestió del Big Data en ciències de la vida
Situació i reptes de la gestió del Big Data en ciències de la vida
 
Creació de taules amb integritat referencial.
Creació de taules amb integritat referencial.Creació de taules amb integritat referencial.
Creació de taules amb integritat referencial.
 
Sparkling Water
Sparkling WaterSparkling Water
Sparkling Water
 
Introducció bases de dades distribuides
Introducció bases de dades distribuidesIntroducció bases de dades distribuides
Introducció bases de dades distribuides
 
Curs 2.4 Institucions Intel·ligents
Curs 2.4 Institucions Intel·ligentsCurs 2.4 Institucions Intel·ligents
Curs 2.4 Institucions Intel·ligents
 
Blue2Boss PXC E1
Blue2Boss PXC E1Blue2Boss PXC E1
Blue2Boss PXC E1
 
L'experiència de l'ICC en la preservació de dades digitals
L'experiència de l'ICC en la preservació de dades digitalsL'experiència de l'ICC en la preservació de dades digitals
L'experiència de l'ICC en la preservació de dades digitals
 
3 gestió bàsica d'informació en sistemes gestors de bases de dades
3 gestió bàsica d'informació en sistemes gestors de bases de dades3 gestió bàsica d'informació en sistemes gestors de bases de dades
3 gestió bàsica d'informació en sistemes gestors de bases de dades
 
24a sessió web. L'obertura de dades (open data) a Catalunya. José Manuel Alonso
24a sessió web. L'obertura de dades (open data) a Catalunya. José Manuel Alonso24a sessió web. L'obertura de dades (open data) a Catalunya. José Manuel Alonso
24a sessió web. L'obertura de dades (open data) a Catalunya. José Manuel Alonso
 
Encaminament / upc
Encaminament / upcEncaminament / upc
Encaminament / upc
 
2.2. Curs Utilització de dades obertes reals (2)
2.2. Curs Utilització de dades obertes reals (2)2.2. Curs Utilització de dades obertes reals (2)
2.2. Curs Utilització de dades obertes reals (2)
 
Consultes amb múltiples taules utilitzant left, right i inner join. Funcionam...
Consultes amb múltiples taules utilitzant left, right i inner join. Funcionam...Consultes amb múltiples taules utilitzant left, right i inner join. Funcionam...
Consultes amb múltiples taules utilitzant left, right i inner join. Funcionam...
 
Introducció a Open Data / Big Data
Introducció a Open Data / Big DataIntroducció a Open Data / Big Data
Introducció a Open Data / Big Data
 
NoSQL
NoSQLNoSQL
NoSQL
 
Workshop "Portals de Dades Obertes" amb Marc Garriga
Workshop "Portals de Dades Obertes" amb Marc GarrigaWorkshop "Portals de Dades Obertes" amb Marc Garriga
Workshop "Portals de Dades Obertes" amb Marc Garriga
 

More from Marc Pous

Webinar thethings.iO + Sigfox
Webinar thethings.iO + SigfoxWebinar thethings.iO + Sigfox
Webinar thethings.iO + SigfoxMarc Pous
 
Lesson IoT platforms - Master IoT UPC - 4th March 2019
Lesson IoT platforms - Master IoT UPC - 4th March 2019Lesson IoT platforms - Master IoT UPC - 4th March 2019
Lesson IoT platforms - Master IoT UPC - 4th March 2019Marc Pous
 
Training thethings.iO
Training thethings.iOTraining thethings.iO
Training thethings.iOMarc Pous
 
theThings.IO - Intel Galileo Ultracode & IoT Munich
theThings.IO - Intel Galileo Ultracode & IoT MunichtheThings.IO - Intel Galileo Ultracode & IoT Munich
theThings.IO - Intel Galileo Ultracode & IoT MunichMarc Pous
 
One API to rule the Internet of Things - theThings.IO #apistrat
One API to rule the Internet of Things - theThings.IO #apistratOne API to rule the Internet of Things - theThings.IO #apistrat
One API to rule the Internet of Things - theThings.IO #apistratMarc Pous
 
The tales of smart cities
The tales of smart citiesThe tales of smart cities
The tales of smart citiesMarc Pous
 
WWW2009 - Accessible interactive community displays in public spaces - TMT Fa...
WWW2009 - Accessible interactive community displays in public spaces - TMT Fa...WWW2009 - Accessible interactive community displays in public spaces - TMT Fa...
WWW2009 - Accessible interactive community displays in public spaces - TMT Fa...Marc Pous
 
Presentacion Interaccion 2008: Plataforma colaborativa accesible INREDIS
Presentacion Interaccion 2008: Plataforma colaborativa accesible INREDISPresentacion Interaccion 2008: Plataforma colaborativa accesible INREDIS
Presentacion Interaccion 2008: Plataforma colaborativa accesible INREDISMarc Pous
 

More from Marc Pous (8)

Webinar thethings.iO + Sigfox
Webinar thethings.iO + SigfoxWebinar thethings.iO + Sigfox
Webinar thethings.iO + Sigfox
 
Lesson IoT platforms - Master IoT UPC - 4th March 2019
Lesson IoT platforms - Master IoT UPC - 4th March 2019Lesson IoT platforms - Master IoT UPC - 4th March 2019
Lesson IoT platforms - Master IoT UPC - 4th March 2019
 
Training thethings.iO
Training thethings.iOTraining thethings.iO
Training thethings.iO
 
theThings.IO - Intel Galileo Ultracode & IoT Munich
theThings.IO - Intel Galileo Ultracode & IoT MunichtheThings.IO - Intel Galileo Ultracode & IoT Munich
theThings.IO - Intel Galileo Ultracode & IoT Munich
 
One API to rule the Internet of Things - theThings.IO #apistrat
One API to rule the Internet of Things - theThings.IO #apistratOne API to rule the Internet of Things - theThings.IO #apistrat
One API to rule the Internet of Things - theThings.IO #apistrat
 
The tales of smart cities
The tales of smart citiesThe tales of smart cities
The tales of smart cities
 
WWW2009 - Accessible interactive community displays in public spaces - TMT Fa...
WWW2009 - Accessible interactive community displays in public spaces - TMT Fa...WWW2009 - Accessible interactive community displays in public spaces - TMT Fa...
WWW2009 - Accessible interactive community displays in public spaces - TMT Fa...
 
Presentacion Interaccion 2008: Plataforma colaborativa accesible INREDIS
Presentacion Interaccion 2008: Plataforma colaborativa accesible INREDISPresentacion Interaccion 2008: Plataforma colaborativa accesible INREDIS
Presentacion Interaccion 2008: Plataforma colaborativa accesible INREDIS
 

Big data Curs del Cibernarium de Barcelona 2013

  • 1. Big Data: noves eines i estratègies per a la gestió de grans volums de dades Marc Planagumà i Marc Pous 10 / 5 / 2013
  • 3. El vostre nom? Quin interès teniu amb el món Big Data?
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10. Agenda 1. Quina és la tendència de les dades? 2. Què és el Big Data? 3. Quins són els reptes del Big Data? 4. Emmagatzematge massiu 5. Processament distribuït 6. Pràctica de Big Data
  • 11. 1 Bit = Binary Digit 8 Bits = 1 Byte 1000 Bytes = 1 Kilobyte 1000 Kilobytes = 1 Megabyte 1000 Megabytes = 1 Gigabyte 1000 Gigabytes = 1 Terabyte 1000 Terabytes = 1 Petabyte 1000 Petabytes = 1 Exabyte 1000 Exabytes = 1 Zettabyte 1000 Zettabytes = 1 Yottabyte 1000 Yottabytes = 1 Brontobyte 1000 Brontobytes = 1 Geopbyte
  • 12. Quina és la tendència de les dades?
  • 13. Quina és la tendència de les dades? 2009 0.8 ZB 2010 1.2 ZB 2011 1.8 ZB 2012 2.7 ZB 2015 7.9 ZB 2020 35 ZB
  • 14.
  • 15. 90% de les dades d'Internet dels últims 2 anys
  • 16. 2.2 milions de TeraBytes es creen cada dia
  • 17. Data vs Moore's Law Data Moore
  • 18.
  • 19. ...i qui ho genera?
  • 20. Nosaltres! ...i qui ho genera? ...però i els dipositius que generen dades? 100TB Dia 40TB Dia Wall-Mart 2.5PB 1MTps
  • 22. Internet of Things, M2M, Samrt cities
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33. Què és Big Data?
  • 34. Què és Big Data? "Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making." Gartner, 2012
  • 35. Què és Big Data?
  • 36. Volum Terabytes, Petabytes, ZetaBytes... Les dimensions de les dades ha deixat obsoletes les tecnologies clàssiques
  • 37. Varietat Les dades han passat de ser estructurades a ser semi-estructurades o completament desestructurades: ● Estructurades: BDRM, Taules ● Desesctruturades: Text, Imatges, Vídeo ● Semi-estructurades: XML, JSON Tendència: 10% estructurat - 90% desestructurat
  • 38. Velocitat 1. Tenim una alta velocitat de generació de dades (Streaming Data) 2. i necessitem una alta velocitat de resposta per processar-les.
  • 39. Quins són els seus reptes?
  • 40. Quins són els seus reptes? Emmagatzematge Massiu i Processat Distribuït
  • 41. Teorema CAP (Brewer's theorem) El teorema diu que és impossible per un sistema distribuït oferir simultàniament ninguna de les tres propietats següents: ● Consistència: tots els nodes amb la mateixa informació al mateix temps. ● Availability: una garantia de què cada Request rebrà un Response si s'ha realitzat bé o no. ● Partició o Tolerància a l'error: el sistema continua operant encara que hi hagi una caiguda del sistema o pèrdua de missatges. Quins són els seus reptes?
  • 42.
  • 44. Quines són les propostes tecnològiques? NoSQL i Clustering
  • 46. Bases de Dades Relacionals ● Dades estructurades en taules utilitzant columnes per cada atribut. ● Relacions amb altres taules utilitzant claus de referència ● Esquema i Normalització ● SQL llenguatge query
  • 47.
  • 48. Beneficis de les RDBMS Standarització SQL Transacionabilitat (ACID) ● Atomicitat: Una transacció o bé finalitza correctament i confirma o bé no deixa cap rastre de la seva execució. ● Consistència: La concurrència de transaccions no pot produir resultats anòmals. ● AÏllament (o Isolament): Cada transacció del sistema s'ha d'executar com si fos l'única que s'executa en aquell moment en el sistema. ● Definitivitat: Si es confirma una transacció, el resultat d'aquesta ha de ser definitiu i no es pot perdre.
  • 51. NoSQL Clau Valor Basades en Documents Basades en Columnes Basades en Graf
  • 52. Clau Valor ● Model de dades: Parells de Claus i Valor { Clau : Valor } ● Basat en Amazon Dynamo paper ● Focus en la escalabilitat Dynamo: Amazon’s Highly Available Key-value Store http://www.read.seas.harvard.edu/~kohler/class/cs239-w08/decandia07dynamo.pdf
  • 54. Basats en documents ● Model de Dades: Clauç/Valor on el Valor són documents JSON o BSON {teachers: [ { name : "Marc" , surname : "Pous"}, { name : "Marc" , surname : "Planagumà"} ] } ● Basat en Lotus Notes ● Sense esquema
  • 56. Basats en columnes ● Model de Dades: Dades en columnes amb índex i timestamp. ● Basat en el paper de 2004 de la Google BigTable ● Sense esquema i1 i2 i3 i4 ts ts ts ts 1 0 0 0 0 1 0 0 1 1 1 0 0 0 1 1 1 1 0 1 1 1 0 0 1 1 Bigtable: A Distributed Storage System for Structured Data http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/es//archive/bigtable-osdi06.pdf
  • 58. Grafs ● Model de dades: relacions entre nodes ● Basat en la teoria matemàtica de grafs ● Focus en el modelatge de dades
  • 59. Grafs
  • 60. Ho podem tenir tot? ● Rendiment ● Disponibilitat ● Exactitud ● Seguretat ● SQL
  • 61. Com es fan les queries? ● APIs: REST, Thrift, Avro ● Sintaxis pròpies ● GQL - SQL-like per BigTable ● SPARQL - llenguatge query semàntic web ● Gremlin o Cypher - llenguatge per grafs
  • 67.
  • 68. 20.000 discs 2TB en 1 segon ?
  • 69. Cal repensar el processament! Map Reduce
  • 70. Què és el Map Reduce? Model de programació introduït per Google als voltants del 2000 per adaptar-se a la computació distribuïda que permeten els clústers d'ordinadors. MapReduce: Simplied Data Processing on Large Clusters http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/es//archive/mapreduce-osdi04.pdf
  • 71. Què és el Map Reduce? Volem executar una query sobre un dataset molt gran. 1. Dividim aquest conjunt total de dades en moltes parts. 2. Executem en paral·lel el processat en vàries màquines. 3. Agreguem els resultats i els tornem.
  • 72. Què és el Map Reduce? 2 fases: ● Map: les dades d'entrada són processades una a una i transformades en un dataset provisional de clau/valor. ● Reduce: aquestes dades preparades pel map són operades donant com a resultat un nou dataset clau/valor amb els resultats.
  • 73. Què és el Map Reduce? Batch processing
  • 78. Hadoop És una implementació OpenSource d'entorn d'execució Map Reduce. Implementat entre d'altres per:
  • 79. Nou stack de tecnologies Queries RDBMS Hardware Monolític Map Reduce HadoopNoSQL Hardware distribuït Tradicional Big Data RDBMS distribuït
  • 80. Comparació Dades Tradicionals Big Data Gigabytes / Terabytes Petabytes / Exabytes Centralitzat Distribuït Estructurat Semi estructurat o desestructurat Model de dades Dades planes Relacions complexes Relacions escasses
  • 83. Pràctica de Big Data Combinació de la part teòrica amb 1 pràctica: Escolliu un problema que us agradaria resoldre. Penseu quines dades existeixen públiques o si tindríeu accés a les dades. ● Xarxa de transport públic ● El vostre ADN ● Les vostres pel·lícules preferides ● Sensors i actuadors ● Les lleis del país ● ...
  • 84. Pràctica de Big Data ● Existeixen altres fonts de dades interessants associades a les dades que tenim? ● Quin tipus de dades són? Són grans volums de dades? Com s’haurien d’estructurar? ● Com adquiriu les dades? En temps real? Cada hora? Cada dia? ● Quines consultes haureu de fer sobre les vostres dades? ● Quins requisits CAP teniu? A quin problema ens enfrontem? Quina seria la millor estructura de dades per resoldre el problema?