Το Προγραμματιςτικό Μοντζλο
MapReduce
Κ. Διαμαντάρασ
Τμιμα Πλθροφορικισ
ΑΤΕΙ Θεςςαλονίικθσ
2013
Τι είναι το MapReduce;
 Προγραμματιςτικό μοντζλο για τθν επεξεργαςία πολφ

μεγάλων ςετ δεδομζνων με παράλλθλο και
κατανεμθμζνο τρόπο χρθςιμοποιώντασ μια ομάδα
υπολογιςτών (cluster).
 Αποτελείται από 2 διαδικαςίεσ:
 Map(): τεμαχιςμόσ του ςυνόλου των δεδομζνων και
ανάκεςθ των τμθμάτων ςε διαφορετικοφσ κόμβουσ
 Reduce(): ςυλλογι των αποτελεςμάτων από τουσ
διαφορετικοφσ κόμβουσ

2

Κ. Διαμαντάρας

Προηγμένες Αρτιτεκτονικές
Η/Υ & Παράλληλα Σσστήματα
Χριςεισ
 Αναηιτθςθ (Searching)
 Ταξινόμθςθ (Sorting)
 Document clustering
 Μθχανικι μάκθςθ (machine learning)
 Μθχανικι μετάφραςθ (machine translation)

 web link-graph reversal
 κλπ

3

Κ. Διαμαντάρας

Προηγμένες Αρτιτεκτονικές
Η/Υ & Παράλληλα Σσστήματα
Διάγραμμα ροισ

4

Κ. Διαμαντάρας

Προηγμένες Αρτιτεκτονικές
Η/Υ & Παράλληλα Σσστήματα
Ιςτορία
 Αρχικά ιταν μια ιδιωτικι τεχνολογία τθσ Google.

Κατόπιν γενικεφτθκε.
 Χρθςιμοποιείται από
 Google
 Yahoo
 Amazon
 και τουσ περιςςότερουσ μεγάλουσ provider υπθρεςιών

cloud computing / big data.

5

Κ. Διαμαντάρας

Προηγμένες Αρτιτεκτονικές
Η/Υ & Παράλληλα Σσστήματα
Apache Hadoop
https://hadoop.apache.org
 Δωρεάν πλατφόρμα! Υλοποίθςθ από το Apache
Foundation.
 Συνοδεφεται από το Hadoop Distributed File
System (HDFS)
 Τελευταία ζκδοςθ:
 Hadoop MapReduce 0.23 = YARN

http://hadoop.apache.org/docs/current/hadoopyarn/hadoop-yarn-site/YARN.html
6

Κ. Διαμαντάρας

Προηγμένες Αρτιτεκτονικές
Η/Υ & Παράλληλα Σσστήματα
Hadoop MapReduce Tutorial
για Java
 https://hadoop.apache.org/docs/r1.2.1/mapred_tuto

rial.html

7

Κ. Διαμαντάρας

Προηγμένες Αρτιτεκτονικές
Η/Υ & Παράλληλα Σσστήματα
Σχετικά projects
 Apache Hive: Data Warehousing. Διαχείριςθ και

υποβολι ερωτθμάτων ςε τεράςτια data sets
αποκθκευμζνα ςε κατανεμθμζνο περιβάλλον.
http://projects.apache.org/projects/hive.html
 Mahout: Εφκολα κλιμακοφμενθ βιβλιοκικθ μθχανικισ
μάκθςθσ και data mining
http://mahout.apache.org/

8

Κ. Διαμαντάρας

Προηγμένες Αρτιτεκτονικές
Η/Υ & Παράλληλα Σσστήματα

Σύντομη εισαγωγή στο MapReduce

  • 1.
    Το Προγραμματιςτικό Μοντζλο MapReduce Κ.Διαμαντάρασ Τμιμα Πλθροφορικισ ΑΤΕΙ Θεςςαλονίικθσ 2013
  • 2.
    Τι είναι τοMapReduce;  Προγραμματιςτικό μοντζλο για τθν επεξεργαςία πολφ μεγάλων ςετ δεδομζνων με παράλλθλο και κατανεμθμζνο τρόπο χρθςιμοποιώντασ μια ομάδα υπολογιςτών (cluster).  Αποτελείται από 2 διαδικαςίεσ:  Map(): τεμαχιςμόσ του ςυνόλου των δεδομζνων και ανάκεςθ των τμθμάτων ςε διαφορετικοφσ κόμβουσ  Reduce(): ςυλλογι των αποτελεςμάτων από τουσ διαφορετικοφσ κόμβουσ 2 Κ. Διαμαντάρας Προηγμένες Αρτιτεκτονικές Η/Υ & Παράλληλα Σσστήματα
  • 3.
    Χριςεισ  Αναηιτθςθ (Searching) Ταξινόμθςθ (Sorting)  Document clustering  Μθχανικι μάκθςθ (machine learning)  Μθχανικι μετάφραςθ (machine translation)  web link-graph reversal  κλπ 3 Κ. Διαμαντάρας Προηγμένες Αρτιτεκτονικές Η/Υ & Παράλληλα Σσστήματα
  • 4.
    Διάγραμμα ροισ 4 Κ. Διαμαντάρας ΠροηγμένεςΑρτιτεκτονικές Η/Υ & Παράλληλα Σσστήματα
  • 5.
    Ιςτορία  Αρχικά ιτανμια ιδιωτικι τεχνολογία τθσ Google. Κατόπιν γενικεφτθκε.  Χρθςιμοποιείται από  Google  Yahoo  Amazon  και τουσ περιςςότερουσ μεγάλουσ provider υπθρεςιών cloud computing / big data. 5 Κ. Διαμαντάρας Προηγμένες Αρτιτεκτονικές Η/Υ & Παράλληλα Σσστήματα
  • 6.
    Apache Hadoop https://hadoop.apache.org  Δωρεάνπλατφόρμα! Υλοποίθςθ από το Apache Foundation.  Συνοδεφεται από το Hadoop Distributed File System (HDFS)  Τελευταία ζκδοςθ:  Hadoop MapReduce 0.23 = YARN http://hadoop.apache.org/docs/current/hadoopyarn/hadoop-yarn-site/YARN.html 6 Κ. Διαμαντάρας Προηγμένες Αρτιτεκτονικές Η/Υ & Παράλληλα Σσστήματα
  • 7.
    Hadoop MapReduce Tutorial γιαJava  https://hadoop.apache.org/docs/r1.2.1/mapred_tuto rial.html 7 Κ. Διαμαντάρας Προηγμένες Αρτιτεκτονικές Η/Υ & Παράλληλα Σσστήματα
  • 8.
    Σχετικά projects  ApacheHive: Data Warehousing. Διαχείριςθ και υποβολι ερωτθμάτων ςε τεράςτια data sets αποκθκευμζνα ςε κατανεμθμζνο περιβάλλον. http://projects.apache.org/projects/hive.html  Mahout: Εφκολα κλιμακοφμενθ βιβλιοκικθ μθχανικισ μάκθςθσ και data mining http://mahout.apache.org/ 8 Κ. Διαμαντάρας Προηγμένες Αρτιτεκτονικές Η/Υ & Παράλληλα Σσστήματα