Distributed Computing & MapReduce

Distributed Computing & MapReduce Presented by: Abdul Qadeer

Today’s Agenda ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Feel free to comment / ask questions anytime!

Distributed Computing ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Distributed Computing - What ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Distributed Computing - Why ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Distributed Computing - Why ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Distributed Computing ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

How Clusters are Built? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

How Clusters are Built? ,[object Object],[object Object],http://www.flickr.com/photos/drurydrama/;http://www.fotosearch.com/photos-images/ox.html

How Clusters are Built? Table generated at : http://top500.org/stats/list/37/archtype

How Clusters are Built? ,[object Object]

How Clusters are Used? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

How Clusters are Used? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

The Problem at Hand! ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

The Goal ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Elaboration by Example ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Solution 1 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

What is wrong with Solution1? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

How to improve on solution1? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],More cons than pros! No guarantee of speed up.

Solution2 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Solution 2 Elaboration ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

What is wrong with Solution2? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

How to improve solution2 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],So ideally we need a solution which takes care of messy / complicated parallelism / distributed computing details

What is MapReduce ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Nuts and Bolts of MapReduce Fig. 1 taken from OSDI 2004 paper:MapReduce: Simplified Data Processing on Large Clusters App. programmer write mapper and reducer code. Rest is automatic! Messy details of parallelism, scalability, fault tolerance is taken care of by the framework.

Word Count Example ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Word Count Example ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Word Count Example ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Word Count Example – A Quiz ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Why Split Data ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Fault Tolerance ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Backup Tasks ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Performance due to Backup Tasks Fig. 3 taken from OSDI 2004 paper:MapReduce: Simplified Data Processing on Large Clusters

Combiners ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Example Usage of MapReduce ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Web Search ,[object Object],Fig taken from OSDI 2004 paper:MapReduce: Simplified Data Processing on Large Clusters

Yahoo Now Using MapReduce ,[object Object]

Case Study 1: New York Times ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Case Study 2: IPv4 Census ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Case Study 2: IPv4 Census ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

MapReduce in Action! ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Hadoop and HPCNL Cluster Lets have a visual tour of Hadoop!

Word Counting Mapper and Reducer ,[object Object],[object Object]

Concluding Remarks ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Any more questions?

Distributed Computing & MapReduce

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (16)

Similar to Distributed Computing & MapReduce

Similar to Distributed Computing & MapReduce (20)

More from coolmirza143

More from coolmirza143 (8)

Recently uploaded

Recently uploaded (20)

Distributed Computing & MapReduce

Editor's Notes