Your SlideShare is downloading. ×
0
© inovex Academy
Hadoop &
map-reduce
1
© inovex Academy
Speakers
1
Dr. Kathrin Spreyer
Big Data Engineer
Patrick Thoma
Head of Solution Development
© inovex Academy
Inevitable hadoop
2004: Google MapReduce paper
2006: Hadoop team around Doug Cutting at Yahoo!
2010/11: I...
© inovex Academy
Motivation
1. sample use case: logfile analytics @ 1&1
2. 80 TB/month to be processed
3. too slow on exist...
© inovex Academy
Amazing performance improvement
4
© inovex Academy
Overview
1. Map-Reduce
2. HDFS
3. APIs
4. Cluster sizing
6
© inovex Academy
What?
1. framework for distributed data
processing
2. highly scalable: TBs and PBs
3. originated at Googl...
© inovex Academy
The big picture
8
input
© inovex Academy
The big picture
8
© inovex Academy
Why?
1. too much data for one machine
2. processing speed
3. scaling out vs. scaling up
9
Photo by Flo P.
© inovex Academy 14
HDFS
(hadoop distributed file system)
1. Map-Reduce
2. HDFS
3. APIs
4. Cluster sizing
© inovex Academy
Apis
20
1. Map-Reduce
2. HDFS
3. APIs
4. Cluster sizing
© inovex Academy
Basic map-reduce Apis
1. Java
2. C++ (Pipes)
3. Python (Dumbo)
4. streaming (any language)
21
© inovex Academy
Higher-level Apis
1. Apache Pig (data flow language)
2. Apache Hive (SQL dialect)
22
alternative:
graphica...
© inovex Academy
Cluster sizing
23
1. Map-Reduce
2. HDFS
3. APIs
4. Cluster sizing
© inovex Academy
Network topology
1. single data center
2. rack topology
3. bandwidth
25
© inovex Academy
Questions?
26
© inovex Academy
Contact:
bigdata@inovex.de
27
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Webinar - Big Data: Einführung in Hadoop und MapReduce
Upcoming SlideShare
Loading in...5
×

Webinar - Big Data: Einführung in Hadoop und MapReduce

501

Published on

Bei der Präsentation handelt es sich um die Folien des Webinars „Big Data: Einführung in Hadoop und MapReduce“, das von inovex in 2012 und 2013 durchgeführt wurde.
Herausforderung Big Data: Viele Unternehmen sind heute gezwungen, mit immer größeren Datenmengen umzugehen. Wenn Datenvolumina jenseits von 100 TB ausgewertet werden sollen, sich die Analyse-Anforderungen häufig ändern oder klassische ETL-Prozesse zu langsam sind, dann versprechen die neuen Big-Data-Technologien rund um das Hadoop-Ecosystem fundierte Abhilfe.
Das Webinar richtete sich an Personen, die sich mit der Analyse großer Datenmengen beschäftigen. Das Ziel war es, ein solides Überblickswissen zu den neuen Big-Data-Technologien zu vermitteln, damit die Teilnehmer die Potenziale von Big Data für das eigene Unternehmen eigenständig bewerten können. In dem 45-minütigen Webinar erklärte das inovex-Team die Idee und die Funktionsweise des Hadoop File Systems, die wesentlichen Komponenten eines Hadoop-Clusters und was es beim Aufbau zu beachten gilt sowie das Grundprinzip und die Implementierungsmöglichkeiten von MapReduce.
inovex als Hadoop-Spezialist: Das Apache Hadoop Framework hat sich als Technologie-Standard für Big Data etabliert. inovex ist einer der ersten BI-Dienstleister in Deutschland, die über Projekterfahrung mit Hadoop verfügen. Das Unternehmen deckt die ganze Hadoop-Palette ab: Aufbau der Infrastruktur, Big Data Engineering, Einführung von MapReduce und die Unterstützung angrenzender Technologien (HBase, Pig, Hive).

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
501
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Webinar - Big Data: Einführung in Hadoop und MapReduce"

  1. 1. © inovex Academy Hadoop & map-reduce 1
  2. 2. © inovex Academy Speakers 1 Dr. Kathrin Spreyer Big Data Engineer Patrick Thoma Head of Solution Development
  3. 3. © inovex Academy Inevitable hadoop 2004: Google MapReduce paper 2006: Hadoop team around Doug Cutting at Yahoo! 2010/11: IBM’s Watson 2011/12: Hadoop connectors for Oracle products Oct 2012: Microsoft (connectors f. Azure, HDInsights) Oct 2012: SAP (cooperation w/ support companies) 3
  4. 4. © inovex Academy Motivation 1. sample use case: logfile analytics @ 1&1 2. 80 TB/month to be processed 3. too slow on existing hardware 4. further scaling not possible -- or extremely expensive 4
  5. 5. © inovex Academy Amazing performance improvement 4
  6. 6. © inovex Academy Overview 1. Map-Reduce 2. HDFS 3. APIs 4. Cluster sizing 6
  7. 7. © inovex Academy What? 1. framework for distributed data processing 2. highly scalable: TBs and PBs 3. originated at Google 4. open-source implementation: Apache Hadoop 7
  8. 8. © inovex Academy The big picture 8 input
  9. 9. © inovex Academy The big picture 8
  10. 10. © inovex Academy Why? 1. too much data for one machine 2. processing speed 3. scaling out vs. scaling up 9 Photo by Flo P.
  11. 11. © inovex Academy 14 HDFS (hadoop distributed file system) 1. Map-Reduce 2. HDFS 3. APIs 4. Cluster sizing
  12. 12. © inovex Academy Apis 20 1. Map-Reduce 2. HDFS 3. APIs 4. Cluster sizing
  13. 13. © inovex Academy Basic map-reduce Apis 1. Java 2. C++ (Pipes) 3. Python (Dumbo) 4. streaming (any language) 21
  14. 14. © inovex Academy Higher-level Apis 1. Apache Pig (data flow language) 2. Apache Hive (SQL dialect) 22 alternative: graphical ETL tools, e.g., Pentaho Data Integration
  15. 15. © inovex Academy Cluster sizing 23 1. Map-Reduce 2. HDFS 3. APIs 4. Cluster sizing
  16. 16. © inovex Academy Network topology 1. single data center 2. rack topology 3. bandwidth 25
  17. 17. © inovex Academy Questions? 26
  18. 18. © inovex Academy Contact: bigdata@inovex.de 27
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×