Your SlideShare is downloading. ×
Verteiltes Verarbeiten von riesigen Datenmengen mittels Hadoop
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Verteiltes Verarbeiten von riesigen Datenmengen mittels Hadoop

3,365

Published on

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
3,365
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
11
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Verteiltes Verarbeiten von riesigen Datenmengen mittels Hadoop Thomas Steur I 19. August 2010 © Mayflower GmbH 2010
  • 2. Mayflower GmbH I 2
  • 3. Nachteile von zum Beispiel RDBMS Mayflower GmbH I 3
  • 4. teuer Mayflower GmbH I 4
  • 5. skalieren Mayflower GmbH I 5
  • 6. Mayflower GmbH I 6
  • 7. Hä? Mayflower GmbH I 7
  • 8. läuft auf handelsüblichen Computern Mayflower GmbH I 8
  • 9. skaliert Mayflower GmbH I 9
  • 10. verarbeitet große Datenmengen... … sehr große Datenmengen Mayflower GmbH I 10
  • 11. skaliert sehr gut Verarbeiten von riesigen Datenmengen redundant Mayflower GmbH I 11
  • 12. Cluster Mayflower GmbH I 12
  • 13. Nicht geeignet für ... Mayflower GmbH I 13
  • 14. Amazon Facebook Google Twitter Yahoo! ... Mayflower GmbH I 14
  • 15. Mayflower GmbH I 15
  • 16. 36 PB == 479 Jahre HDTV Mayflower GmbH I 16
  • 17. weitere ~90 TB pro Tag Mayflower GmbH I 17
  • 18. 2.250 Nodes > 23.000 Cores Mayflower GmbH I 18
  • 19. Mayflower GmbH I 19
  • 20. 38.000 Nodes ~ 20 Cluster 12 TB Speicher pro Node Mayflower GmbH I 20
  • 21. 600 Mio Page Impressions täglich Mayflower GmbH I 21
  • 22. Und ich? Mayflower GmbH I 22
  • 23. Und wie? Mayflower GmbH I 23
  • 24. HDFS (Hadoop Distributed File System) Mayflower GmbH I 24
  • 25. teilt eine Datei in viele Chunks Mayflower GmbH I 25
  • 26. 64 Mayflower GmbH I 26
  • 27. 3 Mayflower GmbH I 27
  • 28. write once - read often Mayflower GmbH I 28
  • 29. Titel im Bild eintragen, allerdings nur wenn möglich!!! 23.09.2010 Mayflower GmbH 29 © Mayflower GmbH 2010
  • 30. MapReduce Mayflower GmbH I 30
  • 31. nur 2 Methoden Mayflower GmbH I 31
  • 32. 23.09.2010 Mayflower GmbH 32 © Mayflower GmbH 2010
  • 33. function map ($filename, $content) { foreach (explode('', $content) as $word) { collect($word, 1); } } function reduce($word, $values) { $numWordCount = 0; foreach ($values as $value) { $numWordCount += $value; } collect($word, $numWordCount); } Mayflower GmbH I 33
  • 34. Titel im Bild eintragen, allerdings nur wenn möglich!!! Name des Referenten Xx. Februar 2010 Mayflower GmbH I 34
  • 35. Titel im Bild eintragen, allerdings nur wenn möglich!!! Name des Referenten Xx. Februar 2010 23.09.2010 Mayflower GmbH 35 © Mayflower GmbH 2010
  • 36. Fehler? Mayflower GmbH I 36
  • 37. ein JobTracker viele TaskTracker Mayflower GmbH I 37
  • 38. PHP + hadoop Mayflower GmbH I 38
  • 39. Hadoop Streaming Mayflower GmbH I 39
  • 40. bin/hadoop jar contrib/hadoop- streaming.jar -mapper /home/user/mapper.php - reducer /home/user/reducer.php - input php5-logs/* - output php5-log Mayflower GmbH I 40
  • 41. Hive Mayflower GmbH I 41
  • 42. HBase Mayflower GmbH I 42
  • 43. Pig Mayflower GmbH I 43
  • 44. skaliert verarbeiten von riesigen Datenmengen redundant Mayflower GmbH I 44
  • 45. Fragen? Mayflower GmbH I 45
  • 46. Links I Blog Eintrag über Hadoop http://blog.mayflower.de/archives/562- An-introduction-to-Hadoop.html I HDFS http://hadoop.apache.org/common/docs/current/hdfs_design.html I Hadoop MapReduce Tutorial inklusive Beispiel http://hadoop.apache.org/common/docs/current/mapred_tutorial. html I Hadoop Streaminghttp://hadoop.apache.org/common/docs/r0.15.2/strea ming.html I Hadoop Tutorial http://developer.yahoo.com/hadoop/tutorial/ Mayflower GmbH I 46
  • 47. Bilder I http://www.flickr.com/photos/nathangibbs/536698819/ I http://www.flickr.com/photos/jamiehuskisson/58952678/ I http://developer.yahoo.com/hadoop/ Mayflower GmbH I 47
  • 48. Vielen Dank für Ihre Aufmerksamkeit! Referent Thomas Steur thomas.steur@mayflower.de +49 931 35965 1155 Mayflower GmbH Pleichertorstr. 2 97070 Würzburg 23.09.2010 Mayflower GmbH 48

×