Grid5000 ismertető

HADOOP A
GRID5000
ERŐFORRÁSAIN
Felépítés, teljesítményelemzés
Experiments presented in this paper were carried out using the Grid'5000
testbed, supported by a scientific interest group hosted by Inria and including
CNRS, RENATER and several Universities as well as other organizations (see
https://www.grid5000.fr).
Készítette: Kovács Ákos
kovacsakos1991@gmail.com
2016 tavasz

Tartalom
 Első, lezajlott fázis
 Teljesítményelemzési módszerek megismerése
 Grid5000 hozzáférés igénylése, annak használatba vétele
 Hadoop teljesítményelemzési módszertanok megismerése
 Hadoop futtatása a Grid5000 erőforrásain
 Első mérések elvégzése
 Jövőbeni tervek
 Hadoop modulokkal való bővítés
 A rendszer működésének optimalizálása

A Hadoop, a batch processing eljárás
 Jobok - feladatok
 Map: Részproblémákra bontás,
worker node-ok
 Reduce: Master node rész-
megoldásokat gyűjt és egyesít

A mérés sajátosságai
 A Hadoop nem egy web alkalmazás, nem adatbázis, nem webes szolgáltatás
 Az elemzés a jobok futtattásával zajlik, amelynek célja a MapReduce eljárás
hatásfokának vizsgálata.
 Eszközök: HiBench, BigBench

A HiBench csomag lehetőségei
HiBench
– DFSIO
Micro Benchmarks Web Search
– Sort
– WordCount
– TeraSort
– Nutch Indexing
– Page Rank
Machine Learning
– K-Means Clustering
HDFS

A futtatott feladatokról
 WordCount:
 randomTextWriter használatával
 szavak számának meghatározása
 Sort:
 randomTextWriter használatával
 rendezési feladat
 TeraSort:
 szintén rendezési feladat, de 1 billió 100 byte méretű soron

A TeraSort-ról
 HDFS és MapReduce teszt egyben
 Több elkülöníthető fázis
 A TeraSort egy MapReduce-ra épülő rendezési eljárás
 N-1 kulcs rendezése minden egyes lépésben
 Nem feltétlenül 1 TB rendezésére, ez egy módszertan

Erőforrások tervezése
 Memória, CPU, diszk használat
 mapreduce.map.memory.mb < yarn.nodemanager.resource.memory-mb <
<yarn.scheduler.maximum-allocation-mb
 Memóriaszükségletek optimalizálása

A Grid5000 ismertetése
 Francia nemzeti kutatási klaszter
 Hálózat kutatási célokra
 Nagy mennyiségű erőforrás halmaza
 Számításigényes feladatok futtatására
 Dinamikus erőforrás allokáció
 Több, eltérő szoftveres hátterű site
 A site-okon belül több klaszter

A Grid5000 használata
 Korlátozott írási jogok
 Minden site-on 25 GB permanens tárterület
 Az erőforrások allokálása belső fejlesztésű programok segítségével
 A foglalás időtartama alatt több TB lemezterület is felhasználható
 Egy 3 gépes klaszter foglalása és telepítése csupán pár perc
 A feladathoz megfelelő site kiválasztása fontos
 Más, általános célú infrastruktúrákhoz képest speciális konfiguráció lehet szükséges

Jobok nyilvántartása - Monika

Alapparancsok
 Erőforrás allokáció módjai, kapcsolók:
 oarsub -I -l nodes=3, walltime=8:30 -t deploy
 oarsub -p "cluster='sagittaire'" -l nodes=3,walltime=8:30 -I -t deploy
 oarsub -p "cluster='paravance'" -l nodes=3,walltime=8:30 -I -t deploy
 Lefoglalt node-ok megtekintése:
 cat $OAR_FILE_NODES | uniq
 Debian telepítése az előzőekben létrejött klaszterre:
 kadeploy3 -e jessie-x64-base -f $OAR_FILE_NODES -k ~/.ssh/id_rsa.pub

Átfogó statisztikák
Arendszerrőlnagymennyiségűésrészletes
háttérinformációszerezhetőbe.

Első tesztesetek kimenetei
 A GRID5000-en végrehajtott eddigi tesztesetek kimenetei
Type Date Time Input_data_size Duration(s) Throughput(bytes/s) Throughput/node
WORDCOUNT 2016.04.12 17:39:16 1378 20.779 66 66
Rennes site
Paravance
cluster
SORT 2016.04.12 17:40:02 1448 20.874 69 69
TERASORT 2016.04.12 17:40:54 30000 20.824 1440 1440
TERASORT 2016.04.12 16:20:33 30000 25.065 1196 1196
TERASORT 2016.04.12 16:24:42 5000000 24.294 205812 205812
TERASORT 2016.04.12 18:40:45 1000000000 1629.991 613500 613500

A teljesítményt befolyásoló tényezők
 Környezet típusa (virtuális vagy fizikai)
 Node-ok közti linkek sebessége
 HDFS blokk méret
 HDFS replikáció
 Hoszt gépek száma
 Memória méretek
 Processzor órajele
 MAP és REDUCE fázisok száma
 Bemeneti adatok mérete

Grid5000 ismertető

Recommended

Recommended

More Related Content

Similar to Grid5000 ismertető

Similar to Grid5000 ismertető (20)

Grid5000 ismertető