Hadoop voor niet-technici

  • 1,239 views
Uploaded on

(This one's in Dutch!) …

(This one's in Dutch!)

Deze presentatie geeft een overzicht van Hadoop voor niet-technici.

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,239
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
18
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Heel snel klaarMet heel veel data Evert Lammerts, eScience & Cloud Services SARA Reken- en Netwerk Diensten 13-09-11
  • 2. Er was eens... … een bedrijf met de ambitie het hele internet te indexeren … snel … en goedkoopEr dus bedachten zij... … een systeem waarmee dat kan … MapReduce en het Google File System … en schreven er over (S. Ghemawat et al., 2004) SARA Reken- en Netwerk Diensten 13-09-11
  • 3. In 2006, zonder veel lawaai... … was Doug Cutting klaar met de eerste OS implementatie … voor de crawler van de Apache Nutch zoekmachineEn het ging snel... … toen Yahoo! Doug Cutting in dienst nam … het Apache Hadoop project uit Nutch voortkwam … en het systeem in 2008 schaalde naar Petabytes data SARA Reken- en Netwerk Diensten 13-09-11
  • 4. In 2009: Winnaar Jim Grays Sort SARA Reken- en Netwerk Diensten 13-09-11
  • 5. In 2011: Winnaar Jeopardy! SARA Reken- en Netwerk Diensten 13-09-11
  • 6. En wat blijkt?Het voldoet ook voor anderen! SARA Reken- en Netwerk Diensten 13-09-11
  • 7. Daar komt ook... … langzaam maar zeker...… de academische wereld achter! … al dan niet schoorvoetend SARA Reken- en Netwerk Diensten 13-09-11
  • 8. Hadoop blijkt namelijk... … vanwege haar rekenmodel en bestandssysteem … dat data parallelisme zelf regelt … dat erg goed is in I/O intensieve rekentaken … en dat bijzonder tolerant is t.o.v. fouten… een nuttige aanvulling … op bestaande rekeninfrastructuur SARA Reken- en Netwerk Diensten 13-09-11
  • 9. SARA Reken- en Netwerk Diensten 13-09-11
  • 10. Data parallelisme is wanneer... … processoren tegelijkertijd dezelfde taak uitvoeren … met andere parametersEn taak parallelisme is wanneer... … processoren samenwerken … om een enkele taak te voltooien SARA Reken- en Netwerk Diensten 13-09-11
  • 11. Het Hadoop DFS... … faciliteert data parallelisme … door elk bestand op te knippen in X blokken … en al die blokken te distribueren over verschillende nodesEn MapReduce... … kan een bestand dan verwerken … door op elk van die nodes … dezelfde taak uit te voeren SARA Reken- en Netwerk Diensten 13-09-11
  • 12. Zoiets dus...En dit is echt anders... … want ineens is daar data lokaliteit … en ingebakken parallelisme … wat door MapReduce weer gebruikt wordt SARA Reken- en Netwerk Diensten 13-09-11
  • 13. Want we doen het niet zo... SARA Reken- en Netwerk Diensten 13-09-11
  • 14. Dat heeft als voordeel... … dat er geen data over het netwerk hoeft … en dus is de I/O snelheid gelijk aan dat van de disks … en je weet altijd hoeveel blokken er zijn … dus is de graad van parallelisme makkelijk te bepalenBovendien is dit kosten-efficient... … want er is geen dure netwerk apparatuur nodig … en daarbij is Hadoop fout tolerant … en dus zijn er geen dure redundantie mechanismen nodig SARA Reken- en Netwerk Diensten 13-09-11
  • 15. Maar de wereld is groter... … want er zijn allemaal leuke tools ontwikkeld … die weer allemaal met Hadoop werken… zo is er bijvoorbeeld... … Apache Hbase, een in-memory key / value store … Apache Pig, om queries uit te voeren … Giraph, voor graph processing … HCatalog, table and storage management … Oozie, a workflow manager SARA Reken- en Netwerk Diensten 13-09-11
  • 16. Wat verder bijzonder is... … zijn de Hadoop APIs … die stabiel zijn … en goed onderhouden worden, met versioning en al, … en dat is in onze wereld wel heel erg nieuwWat je daar mee kan... … is applicaties bouwen die met het system praten … vanaf een client computer, of een server … en dat is dan weer eScience … toch? SARA Reken- en Netwerk Diensten 13-09-11
  • 17. SARA Reken- en Netwerk Diensten 13-09-11
  • 18. En wij doen mee... … sinds december 2010, met een prototype cluster … van zes nodes … met 20 cores voor MapReduce … en 100 TB voor HDFSMet daarbij... … Apache Pig … Hive … Hbase (in test) … Hue SARA Reken- en Netwerk Diensten 13-09-11
  • 19. SARA Reken- en Netwerk Diensten 13-09-11
  • 20. Dit doen mensen uit... … de sociale wetenschappen … de informatica … de econometrieWat ze dan doen is... … allerlei kwantitatieve methoden toepassen … op ongestructureerde teksten met natuurlijke taal … op sensordata … op semi-gestructureerde informatie (tags e.d.) … op grafisch materiaal (videos en fotos) SARA Reken- en Netwerk Diensten 13-09-11
  • 21. Hoe we nu verder gaan... … is via BiG Grid … met een nieuw cluster … met 528 cores en 528 TB … hopelijk vanaf januariEn dan gaan we... … een service neerzetten met een aantal extensies … als Hbase, Pig, Giraph, Oozie en Hive … en we ontwikkelen mee aan Hadoop zelf … en aan applicaties daarop SARA Reken- en Netwerk Diensten 13-09-11
  • 22. Maar om te beginnen... … organiseren we 30 november een twee daagse cursus … met SIKS, en Jimmy Lin, als het meezit … en gaan we de bioinformatici te helpen met Biodoop … en moet er weer een hackathon komenEn uiteindelijk... … rekenen we nog lang en gelukkig SARA Reken- en Netwerk Diensten 13-09-11