0
Heel snel klaarMet heel veel data                                     Evert Lammerts, eScience & Cloud Services   SARA Rek...
Er was eens...  … een bedrijf met de ambitie het hele internet te indexeren  … snel  … en goedkoopEr dus bedachten zij... ...
In 2006, zonder veel lawaai...  … was Doug Cutting klaar met de eerste OS implementatie  … voor de crawler van de Apache N...
In 2009:    Winnaar Jim Grays Sort    SARA Reken- en Netwerk Diensten   13-09-11
In 2011:    Winnaar                          Jeopardy!   SARA Reken- en Netwerk Diensten               13-09-11
En wat blijkt?Het voldoet ook voor anderen!    SARA Reken- en Netwerk Diensten   13-09-11
Daar komt ook... … langzaam maar zeker...… de academische wereld achter! … al dan niet schoorvoetend     SARA Reken- en Ne...
Hadoop blijkt namelijk...  …   vanwege haar rekenmodel en bestandssysteem  …   dat data parallelisme zelf regelt  …   dat ...
SARA Reken- en Netwerk Diensten   13-09-11
Data parallelisme is wanneer... … processoren tegelijkertijd dezelfde taak uitvoeren … met andere parametersEn taak parall...
Het Hadoop DFS... … faciliteert data parallelisme … door elk bestand op te knippen in X blokken … en al die blokken te dis...
Zoiets dus...En dit is echt anders...  … want ineens is daar data lokaliteit  … en ingebakken parallelisme  … wat door Map...
Want we doen het niet zo...    SARA Reken- en Netwerk Diensten   13-09-11
Dat heeft als voordeel...  …   dat er geen data over het netwerk hoeft  …   en dus is de I/O snelheid gelijk aan dat van d...
Maar de wereld is groter...  … want er zijn allemaal leuke tools ontwikkeld  … die weer allemaal met Hadoop werken… zo is ...
Wat verder bijzonder is...  …   zijn de Hadoop APIs  …   die stabiel zijn  …   en goed onderhouden worden, met versioning ...
SARA Reken- en Netwerk Diensten   13-09-11
En wij doen mee...  …   sinds december 2010, met een prototype cluster  …   van zes nodes  …   met 20 cores voor MapReduce...
SARA Reken- en Netwerk Diensten   13-09-11
Dit doen mensen uit... … de sociale wetenschappen … de informatica … de econometrieWat ze dan doen is... …   allerlei kwan...
Hoe we nu verder gaan... …   is via BiG Grid …   met een nieuw cluster …   met 528 cores en 528 TB …   hopelijk vanaf janu...
Maar om te beginnen...  …   organiseren we 30 november een twee daagse cursus  …   met SIKS, en Jimmy Lin, als het meezit ...
Upcoming SlideShare
Loading in...5
×

Hadoop voor niet-technici

1,354

Published on

(This one's in Dutch!)

Deze presentatie geeft een overzicht van Hadoop voor niet-technici.

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,354
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
21
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Transcript of "Hadoop voor niet-technici"

  1. 1. Heel snel klaarMet heel veel data Evert Lammerts, eScience & Cloud Services SARA Reken- en Netwerk Diensten 13-09-11
  2. 2. Er was eens... … een bedrijf met de ambitie het hele internet te indexeren … snel … en goedkoopEr dus bedachten zij... … een systeem waarmee dat kan … MapReduce en het Google File System … en schreven er over (S. Ghemawat et al., 2004) SARA Reken- en Netwerk Diensten 13-09-11
  3. 3. In 2006, zonder veel lawaai... … was Doug Cutting klaar met de eerste OS implementatie … voor de crawler van de Apache Nutch zoekmachineEn het ging snel... … toen Yahoo! Doug Cutting in dienst nam … het Apache Hadoop project uit Nutch voortkwam … en het systeem in 2008 schaalde naar Petabytes data SARA Reken- en Netwerk Diensten 13-09-11
  4. 4. In 2009: Winnaar Jim Grays Sort SARA Reken- en Netwerk Diensten 13-09-11
  5. 5. In 2011: Winnaar Jeopardy! SARA Reken- en Netwerk Diensten 13-09-11
  6. 6. En wat blijkt?Het voldoet ook voor anderen! SARA Reken- en Netwerk Diensten 13-09-11
  7. 7. Daar komt ook... … langzaam maar zeker...… de academische wereld achter! … al dan niet schoorvoetend SARA Reken- en Netwerk Diensten 13-09-11
  8. 8. Hadoop blijkt namelijk... … vanwege haar rekenmodel en bestandssysteem … dat data parallelisme zelf regelt … dat erg goed is in I/O intensieve rekentaken … en dat bijzonder tolerant is t.o.v. fouten… een nuttige aanvulling … op bestaande rekeninfrastructuur SARA Reken- en Netwerk Diensten 13-09-11
  9. 9. SARA Reken- en Netwerk Diensten 13-09-11
  10. 10. Data parallelisme is wanneer... … processoren tegelijkertijd dezelfde taak uitvoeren … met andere parametersEn taak parallelisme is wanneer... … processoren samenwerken … om een enkele taak te voltooien SARA Reken- en Netwerk Diensten 13-09-11
  11. 11. Het Hadoop DFS... … faciliteert data parallelisme … door elk bestand op te knippen in X blokken … en al die blokken te distribueren over verschillende nodesEn MapReduce... … kan een bestand dan verwerken … door op elk van die nodes … dezelfde taak uit te voeren SARA Reken- en Netwerk Diensten 13-09-11
  12. 12. Zoiets dus...En dit is echt anders... … want ineens is daar data lokaliteit … en ingebakken parallelisme … wat door MapReduce weer gebruikt wordt SARA Reken- en Netwerk Diensten 13-09-11
  13. 13. Want we doen het niet zo... SARA Reken- en Netwerk Diensten 13-09-11
  14. 14. Dat heeft als voordeel... … dat er geen data over het netwerk hoeft … en dus is de I/O snelheid gelijk aan dat van de disks … en je weet altijd hoeveel blokken er zijn … dus is de graad van parallelisme makkelijk te bepalenBovendien is dit kosten-efficient... … want er is geen dure netwerk apparatuur nodig … en daarbij is Hadoop fout tolerant … en dus zijn er geen dure redundantie mechanismen nodig SARA Reken- en Netwerk Diensten 13-09-11
  15. 15. Maar de wereld is groter... … want er zijn allemaal leuke tools ontwikkeld … die weer allemaal met Hadoop werken… zo is er bijvoorbeeld... … Apache Hbase, een in-memory key / value store … Apache Pig, om queries uit te voeren … Giraph, voor graph processing … HCatalog, table and storage management … Oozie, a workflow manager SARA Reken- en Netwerk Diensten 13-09-11
  16. 16. Wat verder bijzonder is... … zijn de Hadoop APIs … die stabiel zijn … en goed onderhouden worden, met versioning en al, … en dat is in onze wereld wel heel erg nieuwWat je daar mee kan... … is applicaties bouwen die met het system praten … vanaf een client computer, of een server … en dat is dan weer eScience … toch? SARA Reken- en Netwerk Diensten 13-09-11
  17. 17. SARA Reken- en Netwerk Diensten 13-09-11
  18. 18. En wij doen mee... … sinds december 2010, met een prototype cluster … van zes nodes … met 20 cores voor MapReduce … en 100 TB voor HDFSMet daarbij... … Apache Pig … Hive … Hbase (in test) … Hue SARA Reken- en Netwerk Diensten 13-09-11
  19. 19. SARA Reken- en Netwerk Diensten 13-09-11
  20. 20. Dit doen mensen uit... … de sociale wetenschappen … de informatica … de econometrieWat ze dan doen is... … allerlei kwantitatieve methoden toepassen … op ongestructureerde teksten met natuurlijke taal … op sensordata … op semi-gestructureerde informatie (tags e.d.) … op grafisch materiaal (videos en fotos) SARA Reken- en Netwerk Diensten 13-09-11
  21. 21. Hoe we nu verder gaan... … is via BiG Grid … met een nieuw cluster … met 528 cores en 528 TB … hopelijk vanaf januariEn dan gaan we... … een service neerzetten met een aantal extensies … als Hbase, Pig, Giraph, Oozie en Hive … en we ontwikkelen mee aan Hadoop zelf … en aan applicaties daarop SARA Reken- en Netwerk Diensten 13-09-11
  22. 22. Maar om te beginnen... … organiseren we 30 november een twee daagse cursus … met SIKS, en Jimmy Lin, als het meezit … en gaan we de bioinformatici te helpen met Biodoop … en moet er weer een hackathon komenEn uiteindelijk... … rekenen we nog lang en gelukkig SARA Reken- en Netwerk Diensten 13-09-11
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×