Your SlideShare is downloading. ×
0
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Hadoop voor niet-technici
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Hadoop voor niet-technici

1,323

Published on

(This one's in Dutch!) …

(This one's in Dutch!)

Deze presentatie geeft een overzicht van Hadoop voor niet-technici.

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,323
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
21
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  1. Heel snel klaarMet heel veel data Evert Lammerts, eScience & Cloud Services SARA Reken- en Netwerk Diensten 13-09-11
  2. Er was eens... … een bedrijf met de ambitie het hele internet te indexeren … snel … en goedkoopEr dus bedachten zij... … een systeem waarmee dat kan … MapReduce en het Google File System … en schreven er over (S. Ghemawat et al., 2004) SARA Reken- en Netwerk Diensten 13-09-11
  3. In 2006, zonder veel lawaai... … was Doug Cutting klaar met de eerste OS implementatie … voor de crawler van de Apache Nutch zoekmachineEn het ging snel... … toen Yahoo! Doug Cutting in dienst nam … het Apache Hadoop project uit Nutch voortkwam … en het systeem in 2008 schaalde naar Petabytes data SARA Reken- en Netwerk Diensten 13-09-11
  4. In 2009: Winnaar Jim Grays Sort SARA Reken- en Netwerk Diensten 13-09-11
  5. In 2011: Winnaar Jeopardy! SARA Reken- en Netwerk Diensten 13-09-11
  6. En wat blijkt?Het voldoet ook voor anderen! SARA Reken- en Netwerk Diensten 13-09-11
  7. Daar komt ook... … langzaam maar zeker...… de academische wereld achter! … al dan niet schoorvoetend SARA Reken- en Netwerk Diensten 13-09-11
  8. Hadoop blijkt namelijk... … vanwege haar rekenmodel en bestandssysteem … dat data parallelisme zelf regelt … dat erg goed is in I/O intensieve rekentaken … en dat bijzonder tolerant is t.o.v. fouten… een nuttige aanvulling … op bestaande rekeninfrastructuur SARA Reken- en Netwerk Diensten 13-09-11
  9. SARA Reken- en Netwerk Diensten 13-09-11
  10. Data parallelisme is wanneer... … processoren tegelijkertijd dezelfde taak uitvoeren … met andere parametersEn taak parallelisme is wanneer... … processoren samenwerken … om een enkele taak te voltooien SARA Reken- en Netwerk Diensten 13-09-11
  11. Het Hadoop DFS... … faciliteert data parallelisme … door elk bestand op te knippen in X blokken … en al die blokken te distribueren over verschillende nodesEn MapReduce... … kan een bestand dan verwerken … door op elk van die nodes … dezelfde taak uit te voeren SARA Reken- en Netwerk Diensten 13-09-11
  12. Zoiets dus...En dit is echt anders... … want ineens is daar data lokaliteit … en ingebakken parallelisme … wat door MapReduce weer gebruikt wordt SARA Reken- en Netwerk Diensten 13-09-11
  13. Want we doen het niet zo... SARA Reken- en Netwerk Diensten 13-09-11
  14. Dat heeft als voordeel... … dat er geen data over het netwerk hoeft … en dus is de I/O snelheid gelijk aan dat van de disks … en je weet altijd hoeveel blokken er zijn … dus is de graad van parallelisme makkelijk te bepalenBovendien is dit kosten-efficient... … want er is geen dure netwerk apparatuur nodig … en daarbij is Hadoop fout tolerant … en dus zijn er geen dure redundantie mechanismen nodig SARA Reken- en Netwerk Diensten 13-09-11
  15. Maar de wereld is groter... … want er zijn allemaal leuke tools ontwikkeld … die weer allemaal met Hadoop werken… zo is er bijvoorbeeld... … Apache Hbase, een in-memory key / value store … Apache Pig, om queries uit te voeren … Giraph, voor graph processing … HCatalog, table and storage management … Oozie, a workflow manager SARA Reken- en Netwerk Diensten 13-09-11
  16. Wat verder bijzonder is... … zijn de Hadoop APIs … die stabiel zijn … en goed onderhouden worden, met versioning en al, … en dat is in onze wereld wel heel erg nieuwWat je daar mee kan... … is applicaties bouwen die met het system praten … vanaf een client computer, of een server … en dat is dan weer eScience … toch? SARA Reken- en Netwerk Diensten 13-09-11
  17. SARA Reken- en Netwerk Diensten 13-09-11
  18. En wij doen mee... … sinds december 2010, met een prototype cluster … van zes nodes … met 20 cores voor MapReduce … en 100 TB voor HDFSMet daarbij... … Apache Pig … Hive … Hbase (in test) … Hue SARA Reken- en Netwerk Diensten 13-09-11
  19. SARA Reken- en Netwerk Diensten 13-09-11
  20. Dit doen mensen uit... … de sociale wetenschappen … de informatica … de econometrieWat ze dan doen is... … allerlei kwantitatieve methoden toepassen … op ongestructureerde teksten met natuurlijke taal … op sensordata … op semi-gestructureerde informatie (tags e.d.) … op grafisch materiaal (videos en fotos) SARA Reken- en Netwerk Diensten 13-09-11
  21. Hoe we nu verder gaan... … is via BiG Grid … met een nieuw cluster … met 528 cores en 528 TB … hopelijk vanaf januariEn dan gaan we... … een service neerzetten met een aantal extensies … als Hbase, Pig, Giraph, Oozie en Hive … en we ontwikkelen mee aan Hadoop zelf … en aan applicaties daarop SARA Reken- en Netwerk Diensten 13-09-11
  22. Maar om te beginnen... … organiseren we 30 november een twee daagse cursus … met SIKS, en Jimmy Lin, als het meezit … en gaan we de bioinformatici te helpen met Biodoop … en moet er weer een hackathon komenEn uiteindelijk... … rekenen we nog lang en gelukkig SARA Reken- en Netwerk Diensten 13-09-11

×