Webinar - Big Data: Einführung in Hadoop und MapReduce

Like this? Share it with your network

Share

Webinar - Big Data: Einführung in Hadoop und MapReduce

  • 848 views
Uploaded on

Bei der Präsentation handelt es sich um die Folien des Webinars „Big Data: Einführung in Hadoop und MapReduce“, das von inovex in 2012 und 2013 durchgeführt wurde. ...

Bei der Präsentation handelt es sich um die Folien des Webinars „Big Data: Einführung in Hadoop und MapReduce“, das von inovex in 2012 und 2013 durchgeführt wurde.
Herausforderung Big Data: Viele Unternehmen sind heute gezwungen, mit immer größeren Datenmengen umzugehen. Wenn Datenvolumina jenseits von 100 TB ausgewertet werden sollen, sich die Analyse-Anforderungen häufig ändern oder klassische ETL-Prozesse zu langsam sind, dann versprechen die neuen Big-Data-Technologien rund um das Hadoop-Ecosystem fundierte Abhilfe.
Das Webinar richtete sich an Personen, die sich mit der Analyse großer Datenmengen beschäftigen. Das Ziel war es, ein solides Überblickswissen zu den neuen Big-Data-Technologien zu vermitteln, damit die Teilnehmer die Potenziale von Big Data für das eigene Unternehmen eigenständig bewerten können. In dem 45-minütigen Webinar erklärte das inovex-Team die Idee und die Funktionsweise des Hadoop File Systems, die wesentlichen Komponenten eines Hadoop-Clusters und was es beim Aufbau zu beachten gilt sowie das Grundprinzip und die Implementierungsmöglichkeiten von MapReduce.
inovex als Hadoop-Spezialist: Das Apache Hadoop Framework hat sich als Technologie-Standard für Big Data etabliert. inovex ist einer der ersten BI-Dienstleister in Deutschland, die über Projekterfahrung mit Hadoop verfügen. Das Unternehmen deckt die ganze Hadoop-Palette ab: Aufbau der Infrastruktur, Big Data Engineering, Einführung von MapReduce und die Unterstützung angrenzender Technologien (HBase, Pig, Hive).

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
848
On Slideshare
848
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
2
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. © inovex Academy Hadoop & map-reduce 1
  • 2. © inovex Academy Speakers 1 Dr. Kathrin Spreyer Big Data Engineer Patrick Thoma Head of Solution Development
  • 3. © inovex Academy Inevitable hadoop 2004: Google MapReduce paper 2006: Hadoop team around Doug Cutting at Yahoo! 2010/11: IBM’s Watson 2011/12: Hadoop connectors for Oracle products Oct 2012: Microsoft (connectors f. Azure, HDInsights) Oct 2012: SAP (cooperation w/ support companies) 3
  • 4. © inovex Academy Motivation 1. sample use case: logfile analytics @ 1&1 2. 80 TB/month to be processed 3. too slow on existing hardware 4. further scaling not possible -- or extremely expensive 4
  • 5. © inovex Academy Amazing performance improvement 4
  • 6. © inovex Academy Overview 1. Map-Reduce 2. HDFS 3. APIs 4. Cluster sizing 6
  • 7. © inovex Academy What? 1. framework for distributed data processing 2. highly scalable: TBs and PBs 3. originated at Google 4. open-source implementation: Apache Hadoop 7
  • 8. © inovex Academy The big picture 8 input
  • 9. © inovex Academy The big picture 8
  • 10. © inovex Academy Why? 1. too much data for one machine 2. processing speed 3. scaling out vs. scaling up 9 Photo by Flo P.
  • 11. © inovex Academy 14 HDFS (hadoop distributed file system) 1. Map-Reduce 2. HDFS 3. APIs 4. Cluster sizing
  • 12. © inovex Academy Apis 20 1. Map-Reduce 2. HDFS 3. APIs 4. Cluster sizing
  • 13. © inovex Academy Basic map-reduce Apis 1. Java 2. C++ (Pipes) 3. Python (Dumbo) 4. streaming (any language) 21
  • 14. © inovex Academy Higher-level Apis 1. Apache Pig (data flow language) 2. Apache Hive (SQL dialect) 22 alternative: graphical ETL tools, e.g., Pentaho Data Integration
  • 15. © inovex Academy Cluster sizing 23 1. Map-Reduce 2. HDFS 3. APIs 4. Cluster sizing
  • 16. © inovex Academy Network topology 1. single data center 2. rack topology 3. bandwidth 25
  • 17. © inovex Academy Questions? 26
  • 18. © inovex Academy Contact: bigdata@inovex.de 27