Verteiltes Verarbeiten von riesigen
Datenmengen mittels Hadoop

Thomas Steur I 19. August 2010




                       ...
Mayflower GmbH I 2
Nachteile von
zum Beispiel
  RDBMS


                Mayflower GmbH I 3
teuer




        Mayflower GmbH I 4
skalieren




            Mayflower GmbH I 5
Mayflower GmbH I 6
Hä?




      Mayflower GmbH I 7
läuft auf
handelsüblichen
  Computern


                  Mayflower GmbH I 8
skaliert




           Mayflower GmbH I 9
verarbeitet große
 Datenmengen...

 … sehr große
 Datenmengen
                    Mayflower GmbH I 10
skaliert sehr gut

Verarbeiten von riesigen
    Datenmengen

      redundant
                        Mayflower GmbH I 11
Cluster




          Mayflower GmbH I 12
Nicht geeignet für ...




                         Mayflower GmbH I 13
Amazon
Facebook
 Google
  Twitter
 Yahoo!
    ...
            Mayflower GmbH I 14
Mayflower GmbH I 15
36 PB == 479 Jahre HDTV



                    Mayflower GmbH I 16
weitere ~90 TB pro Tag



                     Mayflower GmbH I 17
2.250 Nodes

> 23.000 Cores


                 Mayflower GmbH I 18
Mayflower GmbH I 19
38.000 Nodes

      ~ 20 Cluster

12 TB Speicher pro Node

                     Mayflower GmbH I 20
600 Mio
Page Impressions täglich



                      Mayflower GmbH I 21
Und ich?



           Mayflower GmbH I 22
Und wie?



           Mayflower GmbH I 23
HDFS
(Hadoop Distributed File System)




                               Mayflower GmbH I 24
teilt eine Datei
in viele Chunks



                    Mayflower GmbH I 25
64

     Mayflower GmbH I 26
3

    Mayflower GmbH I 27
write once
     -
read often


             Mayflower GmbH I 28
Titel im Bild eintragen,
   allerdings nur wenn
   möglich!!!




23.09.2010                Mayflower GmbH              29...
MapReduce




            Mayflower GmbH I 30
nur 2 Methoden



                 Mayflower GmbH I 31
23.09.2010   Mayflower GmbH              32

                              © Mayflower GmbH 2010
function map ($filename, $content) {
     foreach (explode('', $content) as $word) {
          collect($word, 1);
     }
}...
Titel im Bild
  eintragen,
allerdings nur
     wenn
  möglich!!!
 Name des Referenten
   Xx. Februar 2010



             ...
Titel im Bild eintragen,
   allerdings nur wenn
   möglich!!!

   Name des Referenten
   Xx. Februar 2010

23.09.2010     ...
Fehler?




          Mayflower GmbH I 36
ein JobTracker

viele TaskTracker


                    Mayflower GmbH I 37
PHP + hadoop




               Mayflower GmbH I 38
Hadoop Streaming




                   Mayflower GmbH I 39
bin/hadoop jar
contrib/hadoop-
streaming.jar -mapper
/home/user/mapper.php -
reducer
/home/user/reducer.php -
input php5-l...
Hive




       Mayflower GmbH I 41
HBase




        Mayflower GmbH I 42
Pig




      Mayflower GmbH I 43
skaliert

verarbeiten von riesigen
     Datenmengen

      redundant
                      Mayflower GmbH I 44
Fragen?




          Mayflower GmbH I 45
Links



I       Blog Eintrag über Hadoop http://blog.mayflower.de/archives/562-
        An-introduction-to-Hadoop.html
I ...
Bilder



I   http://www.flickr.com/photos/nathangibbs/536698819/
I   http://www.flickr.com/photos/jamiehuskisson/58952678...
Vielen Dank für Ihre Aufmerksamkeit!




      Referent   Thomas Steur
                 thomas.steur@mayflower.de
        ...
Upcoming SlideShare
Loading in...5
×

Verteiltes Verarbeiten von riesigen Datenmengen mittels Hadoop

3,466
-1

Published on

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
3,466
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
12
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Verteiltes Verarbeiten von riesigen Datenmengen mittels Hadoop

  1. 1. Verteiltes Verarbeiten von riesigen Datenmengen mittels Hadoop Thomas Steur I 19. August 2010 © Mayflower GmbH 2010
  2. 2. Mayflower GmbH I 2
  3. 3. Nachteile von zum Beispiel RDBMS Mayflower GmbH I 3
  4. 4. teuer Mayflower GmbH I 4
  5. 5. skalieren Mayflower GmbH I 5
  6. 6. Mayflower GmbH I 6
  7. 7. Hä? Mayflower GmbH I 7
  8. 8. läuft auf handelsüblichen Computern Mayflower GmbH I 8
  9. 9. skaliert Mayflower GmbH I 9
  10. 10. verarbeitet große Datenmengen... … sehr große Datenmengen Mayflower GmbH I 10
  11. 11. skaliert sehr gut Verarbeiten von riesigen Datenmengen redundant Mayflower GmbH I 11
  12. 12. Cluster Mayflower GmbH I 12
  13. 13. Nicht geeignet für ... Mayflower GmbH I 13
  14. 14. Amazon Facebook Google Twitter Yahoo! ... Mayflower GmbH I 14
  15. 15. Mayflower GmbH I 15
  16. 16. 36 PB == 479 Jahre HDTV Mayflower GmbH I 16
  17. 17. weitere ~90 TB pro Tag Mayflower GmbH I 17
  18. 18. 2.250 Nodes > 23.000 Cores Mayflower GmbH I 18
  19. 19. Mayflower GmbH I 19
  20. 20. 38.000 Nodes ~ 20 Cluster 12 TB Speicher pro Node Mayflower GmbH I 20
  21. 21. 600 Mio Page Impressions täglich Mayflower GmbH I 21
  22. 22. Und ich? Mayflower GmbH I 22
  23. 23. Und wie? Mayflower GmbH I 23
  24. 24. HDFS (Hadoop Distributed File System) Mayflower GmbH I 24
  25. 25. teilt eine Datei in viele Chunks Mayflower GmbH I 25
  26. 26. 64 Mayflower GmbH I 26
  27. 27. 3 Mayflower GmbH I 27
  28. 28. write once - read often Mayflower GmbH I 28
  29. 29. Titel im Bild eintragen, allerdings nur wenn möglich!!! 23.09.2010 Mayflower GmbH 29 © Mayflower GmbH 2010
  30. 30. MapReduce Mayflower GmbH I 30
  31. 31. nur 2 Methoden Mayflower GmbH I 31
  32. 32. 23.09.2010 Mayflower GmbH 32 © Mayflower GmbH 2010
  33. 33. function map ($filename, $content) { foreach (explode('', $content) as $word) { collect($word, 1); } } function reduce($word, $values) { $numWordCount = 0; foreach ($values as $value) { $numWordCount += $value; } collect($word, $numWordCount); } Mayflower GmbH I 33
  34. 34. Titel im Bild eintragen, allerdings nur wenn möglich!!! Name des Referenten Xx. Februar 2010 Mayflower GmbH I 34
  35. 35. Titel im Bild eintragen, allerdings nur wenn möglich!!! Name des Referenten Xx. Februar 2010 23.09.2010 Mayflower GmbH 35 © Mayflower GmbH 2010
  36. 36. Fehler? Mayflower GmbH I 36
  37. 37. ein JobTracker viele TaskTracker Mayflower GmbH I 37
  38. 38. PHP + hadoop Mayflower GmbH I 38
  39. 39. Hadoop Streaming Mayflower GmbH I 39
  40. 40. bin/hadoop jar contrib/hadoop- streaming.jar -mapper /home/user/mapper.php - reducer /home/user/reducer.php - input php5-logs/* - output php5-log Mayflower GmbH I 40
  41. 41. Hive Mayflower GmbH I 41
  42. 42. HBase Mayflower GmbH I 42
  43. 43. Pig Mayflower GmbH I 43
  44. 44. skaliert verarbeiten von riesigen Datenmengen redundant Mayflower GmbH I 44
  45. 45. Fragen? Mayflower GmbH I 45
  46. 46. Links I Blog Eintrag über Hadoop http://blog.mayflower.de/archives/562- An-introduction-to-Hadoop.html I HDFS http://hadoop.apache.org/common/docs/current/hdfs_design.html I Hadoop MapReduce Tutorial inklusive Beispiel http://hadoop.apache.org/common/docs/current/mapred_tutorial. html I Hadoop Streaminghttp://hadoop.apache.org/common/docs/r0.15.2/strea ming.html I Hadoop Tutorial http://developer.yahoo.com/hadoop/tutorial/ Mayflower GmbH I 46
  47. 47. Bilder I http://www.flickr.com/photos/nathangibbs/536698819/ I http://www.flickr.com/photos/jamiehuskisson/58952678/ I http://developer.yahoo.com/hadoop/ Mayflower GmbH I 47
  48. 48. Vielen Dank für Ihre Aufmerksamkeit! Referent Thomas Steur thomas.steur@mayflower.de +49 931 35965 1155 Mayflower GmbH Pleichertorstr. 2 97070 Würzburg 23.09.2010 Mayflower GmbH 48
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×