Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Verteiltes Verarbeiten von riesigen Datenmengen mittels Hadoop

3,726 views

Published on

Published in: Technology
  • Be the first to comment

Verteiltes Verarbeiten von riesigen Datenmengen mittels Hadoop

  1. 1. Verteiltes Verarbeiten von riesigen Datenmengen mittels Hadoop Thomas Steur I 19. August 2010 © Mayflower GmbH 2010
  2. 2. Mayflower GmbH I 2
  3. 3. Nachteile von zum Beispiel RDBMS Mayflower GmbH I 3
  4. 4. teuer Mayflower GmbH I 4
  5. 5. skalieren Mayflower GmbH I 5
  6. 6. Mayflower GmbH I 6
  7. 7. Hä? Mayflower GmbH I 7
  8. 8. läuft auf handelsüblichen Computern Mayflower GmbH I 8
  9. 9. skaliert Mayflower GmbH I 9
  10. 10. verarbeitet große Datenmengen... … sehr große Datenmengen Mayflower GmbH I 10
  11. 11. skaliert sehr gut Verarbeiten von riesigen Datenmengen redundant Mayflower GmbH I 11
  12. 12. Cluster Mayflower GmbH I 12
  13. 13. Nicht geeignet für ... Mayflower GmbH I 13
  14. 14. Amazon Facebook Google Twitter Yahoo! ... Mayflower GmbH I 14
  15. 15. Mayflower GmbH I 15
  16. 16. 36 PB == 479 Jahre HDTV Mayflower GmbH I 16
  17. 17. weitere ~90 TB pro Tag Mayflower GmbH I 17
  18. 18. 2.250 Nodes > 23.000 Cores Mayflower GmbH I 18
  19. 19. Mayflower GmbH I 19
  20. 20. 38.000 Nodes ~ 20 Cluster 12 TB Speicher pro Node Mayflower GmbH I 20
  21. 21. 600 Mio Page Impressions täglich Mayflower GmbH I 21
  22. 22. Und ich? Mayflower GmbH I 22
  23. 23. Und wie? Mayflower GmbH I 23
  24. 24. HDFS (Hadoop Distributed File System) Mayflower GmbH I 24
  25. 25. teilt eine Datei in viele Chunks Mayflower GmbH I 25
  26. 26. 64 Mayflower GmbH I 26
  27. 27. 3 Mayflower GmbH I 27
  28. 28. write once - read often Mayflower GmbH I 28
  29. 29. Titel im Bild eintragen, allerdings nur wenn möglich!!! 23.09.2010 Mayflower GmbH 29 © Mayflower GmbH 2010
  30. 30. MapReduce Mayflower GmbH I 30
  31. 31. nur 2 Methoden Mayflower GmbH I 31
  32. 32. 23.09.2010 Mayflower GmbH 32 © Mayflower GmbH 2010
  33. 33. function map ($filename, $content) { foreach (explode('', $content) as $word) { collect($word, 1); } } function reduce($word, $values) { $numWordCount = 0; foreach ($values as $value) { $numWordCount += $value; } collect($word, $numWordCount); } Mayflower GmbH I 33
  34. 34. Titel im Bild eintragen, allerdings nur wenn möglich!!! Name des Referenten Xx. Februar 2010 Mayflower GmbH I 34
  35. 35. Titel im Bild eintragen, allerdings nur wenn möglich!!! Name des Referenten Xx. Februar 2010 23.09.2010 Mayflower GmbH 35 © Mayflower GmbH 2010
  36. 36. Fehler? Mayflower GmbH I 36
  37. 37. ein JobTracker viele TaskTracker Mayflower GmbH I 37
  38. 38. PHP + hadoop Mayflower GmbH I 38
  39. 39. Hadoop Streaming Mayflower GmbH I 39
  40. 40. bin/hadoop jar contrib/hadoop- streaming.jar -mapper /home/user/mapper.php - reducer /home/user/reducer.php - input php5-logs/* - output php5-log Mayflower GmbH I 40
  41. 41. Hive Mayflower GmbH I 41
  42. 42. HBase Mayflower GmbH I 42
  43. 43. Pig Mayflower GmbH I 43
  44. 44. skaliert verarbeiten von riesigen Datenmengen redundant Mayflower GmbH I 44
  45. 45. Fragen? Mayflower GmbH I 45
  46. 46. Links I Blog Eintrag über Hadoop http://blog.mayflower.de/archives/562- An-introduction-to-Hadoop.html I HDFS http://hadoop.apache.org/common/docs/current/hdfs_design.html I Hadoop MapReduce Tutorial inklusive Beispiel http://hadoop.apache.org/common/docs/current/mapred_tutorial. html I Hadoop Streaminghttp://hadoop.apache.org/common/docs/r0.15.2/strea ming.html I Hadoop Tutorial http://developer.yahoo.com/hadoop/tutorial/ Mayflower GmbH I 46
  47. 47. Bilder I http://www.flickr.com/photos/nathangibbs/536698819/ I http://www.flickr.com/photos/jamiehuskisson/58952678/ I http://developer.yahoo.com/hadoop/ Mayflower GmbH I 47
  48. 48. Vielen Dank für Ihre Aufmerksamkeit! Referent Thomas Steur thomas.steur@mayflower.de +49 931 35965 1155 Mayflower GmbH Pleichertorstr. 2 97070 Würzburg 23.09.2010 Mayflower GmbH 48

×