SlideShare a Scribd company logo
HADOOP A
GRID5000
ERŐFORRÁSAIN
Felépítés, teljesítményelemzés
Experiments presented in this paper were carried out using the Grid'5000
testbed, supported by a scientific interest group hosted by Inria and including
CNRS, RENATER and several Universities as well as other organizations (see
https://www.grid5000.fr).
Készítette: Kovács Ákos
kovacsakos1991@gmail.com
2016 tavasz
Tartalom
 Első, lezajlott fázis
 Teljesítményelemzési módszerek megismerése
 Grid5000 hozzáférés igénylése, annak használatba vétele
 Hadoop teljesítményelemzési módszertanok megismerése
 Hadoop futtatása a Grid5000 erőforrásain
 Első mérések elvégzése
 Jövőbeni tervek
 Hadoop modulokkal való bővítés
 A rendszer működésének optimalizálása
A Hadoop, a batch processing eljárás
 Jobok - feladatok
 Map: Részproblémákra bontás,
worker node-ok
 Reduce: Master node rész-
megoldásokat gyűjt és egyesít
A mérés sajátosságai
 A Hadoop nem egy web alkalmazás, nem adatbázis, nem webes szolgáltatás
 Az elemzés a jobok futtattásával zajlik, amelynek célja a MapReduce eljárás
hatásfokának vizsgálata.
 Eszközök: HiBench, BigBench
A HiBench csomag lehetőségei
HiBench
– DFSIO
Micro Benchmarks Web Search
– Sort
– WordCount
– TeraSort
– Nutch Indexing
– Page Rank
Machine Learning
– K-Means Clustering
HDFS
A futtatott feladatokról
 WordCount:
 randomTextWriter használatával
 szavak számának meghatározása
 Sort:
 randomTextWriter használatával
 rendezési feladat
 TeraSort:
 szintén rendezési feladat, de 1 billió 100 byte méretű soron
A TeraSort-ról
 HDFS és MapReduce teszt egyben
 Több elkülöníthető fázis
 A TeraSort egy MapReduce-ra épülő rendezési eljárás
 N-1 kulcs rendezése minden egyes lépésben
 Nem feltétlenül 1 TB rendezésére, ez egy módszertan
Erőforrások tervezése
 Memória, CPU, diszk használat
 mapreduce.map.memory.mb < yarn.nodemanager.resource.memory-mb <
<yarn.scheduler.maximum-allocation-mb
 Memóriaszükségletek optimalizálása
A Grid5000 ismertetése
 Francia nemzeti kutatási klaszter
 Hálózat kutatási célokra
 Nagy mennyiségű erőforrás halmaza
 Számításigényes feladatok futtatására
 Dinamikus erőforrás allokáció
 Több, eltérő szoftveres hátterű site
 A site-okon belül több klaszter
A Grid5000 használata
 Korlátozott írási jogok
 Minden site-on 25 GB permanens tárterület
 Az erőforrások allokálása belső fejlesztésű programok segítségével
 A foglalás időtartama alatt több TB lemezterület is felhasználható
 Egy 3 gépes klaszter foglalása és telepítése csupán pár perc
 A feladathoz megfelelő site kiválasztása fontos
 Más, általános célú infrastruktúrákhoz képest speciális konfiguráció lehet szükséges
Jobok nyilvántartása - Monika
Alapparancsok
 Erőforrás allokáció módjai, kapcsolók:
 oarsub -I -l nodes=3, walltime=8:30 -t deploy
 oarsub -p "cluster='sagittaire'" -l nodes=3,walltime=8:30 -I -t deploy
 oarsub -p "cluster='paravance'" -l nodes=3,walltime=8:30 -I -t deploy
 Lefoglalt node-ok megtekintése:
 cat $OAR_FILE_NODES | uniq
 Debian telepítése az előzőekben létrejött klaszterre:
 kadeploy3 -e jessie-x64-base -f $OAR_FILE_NODES -k ~/.ssh/id_rsa.pub
Átfogó statisztikák
Arendszerrőlnagymennyiségűésrészletes
háttérinformációszerezhetőbe.
Első tesztesetek kimenetei
 A GRID5000-en végrehajtott eddigi tesztesetek kimenetei
Type Date Time Input_data_size Duration(s) Throughput(bytes/s) Throughput/node
WORDCOUNT 2016.04.12 17:39:16 1378 20.779 66 66
Rennes site
Paravance
cluster
SORT 2016.04.12 17:40:02 1448 20.874 69 69
TERASORT 2016.04.12 17:40:54 30000 20.824 1440 1440
TERASORT 2016.04.12 16:20:33 30000 25.065 1196 1196
TERASORT 2016.04.12 16:24:42 5000000 24.294 205812 205812
TERASORT 2016.04.12 18:40:45 1000000000 1629.991 613500 613500
A teljesítményt befolyásoló tényezők
 Környezet típusa (virtuális vagy fizikai)
 Node-ok közti linkek sebessége
 HDFS blokk méret
 HDFS replikáció
 Hoszt gépek száma
 Memória méretek
 Processzor órajele
 MAP és REDUCE fázisok száma
 Bemeneti adatok mérete
KÖSZÖNÖM A FIGYELMET!

More Related Content

Similar to Grid5000 ismertető

Nagyszabású virtuális gyógyszerkísérletek az új generációs web szolgáltatás a...
Nagyszabású virtuális gyógyszerkísérletek az új generációs web szolgáltatás a...Nagyszabású virtuális gyógyszerkísérletek az új generációs web szolgáltatás a...
Nagyszabású virtuális gyógyszerkísérletek az új generációs web szolgáltatás a...
Ferenc Szalai
 
Grid és adattárolás
Grid és adattárolásGrid és adattárolás
Grid és adattárolás
Ferenc Szalai
 
Microsoft Windows Azure Platform
Microsoft Windows Azure PlatformMicrosoft Windows Azure Platform
Microsoft Windows Azure PlatformPéter Lakos
 
Webalkalmazások teljesítményoptimalizálása
Webalkalmazások teljesítményoptimalizálásaWebalkalmazások teljesítményoptimalizálása
Webalkalmazások teljesítményoptimalizálásaFerenc Kovács
 
Google Cloud a gyakorlatban BigData/Hadoop fejlesztésekhez - Google I/O Exten...
Google Cloud a gyakorlatban BigData/Hadoop fejlesztésekhez - Google I/O Exten...Google Cloud a gyakorlatban BigData/Hadoop fejlesztésekhez - Google I/O Exten...
Google Cloud a gyakorlatban BigData/Hadoop fejlesztésekhez - Google I/O Exten...
GDG Budapest
 
Szerver oldali fejlesztés korszerű módszerekkel C# nyelven
Szerver oldali fejlesztés korszerű módszerekkel C# nyelvenSzerver oldali fejlesztés korszerű módszerekkel C# nyelven
Szerver oldali fejlesztés korszerű módszerekkel C# nyelven
Krisztián Gyula Tóth
 
A ClusterGrid rendszer - avagy hogyan üzemeltessünk, több mint 1000 csomópont...
A ClusterGrid rendszer - avagy hogyan üzemeltessünk, több mint 1000 csomópont...A ClusterGrid rendszer - avagy hogyan üzemeltessünk, több mint 1000 csomópont...
A ClusterGrid rendszer - avagy hogyan üzemeltessünk, több mint 1000 csomópont...
Ferenc Szalai
 
GCP - A felhőalapú architektúrák és szolgáltatások
GCP - A felhőalapú architektúrák és szolgáltatásokGCP - A felhőalapú architektúrák és szolgáltatások
GCP - A felhőalapú architektúrák és szolgáltatások
Márton Kodok
 
Kubernetes 1x1
Kubernetes 1x1Kubernetes 1x1
Kubernetes 1x1
Péter Tar
 
Online kérdőívek készítése - tanulmány
Online kérdőívek készítése - tanulmányOnline kérdőívek készítése - tanulmány
Online kérdőívek készítése - tanulmány
Tóth Attila
 
Nagy terhelésű webes rendszerek fejlesztése
Nagy terhelésű webes rendszerek fejlesztéseNagy terhelésű webes rendszerek fejlesztése
Nagy terhelésű webes rendszerek fejlesztéseJános Pásztor
 
Grid Underground (GUG) - avagy hogyan építsünk IT szolgáltatás hálózatot a su...
Grid Underground (GUG) - avagy hogyan építsünk IT szolgáltatás hálózatot a su...Grid Underground (GUG) - avagy hogyan építsünk IT szolgáltatás hálózatot a su...
Grid Underground (GUG) - avagy hogyan építsünk IT szolgáltatás hálózatot a su...
Ferenc Szalai
 
Gazdag Ferenc_IVSZ_KormanyzatiFelho_v2
Gazdag Ferenc_IVSZ_KormanyzatiFelho_v2Gazdag Ferenc_IVSZ_KormanyzatiFelho_v2
Gazdag Ferenc_IVSZ_KormanyzatiFelho_v2Ferenc GAZDAG
 
Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...
Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...
Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...
Informatikai Intézet
 
Ipari felhő infrastruktúrák a gyakorlatban
Ipari felhő infrastruktúrák a gyakorlatbanIpari felhő infrastruktúrák a gyakorlatban
Ipari felhő infrastruktúrák a gyakorlatban
Open Academy
 
Webes alkalmazások optimalizálása
Webes alkalmazások optimalizálásaWebes alkalmazások optimalizálása
Webes alkalmazások optimalizálása
Antal Bodnar
 
Mi a baj a Drupaloddal
Mi a baj a DrupaloddalMi a baj a Drupaloddal
Mi a baj a Drupaloddal
thesnufkin
 
Virtuális Platformváltás validált környezetben
Virtuális Platformváltás validált környezetbenVirtuális Platformváltás validált környezetben
Virtuális Platformváltás validált környezetben
gazdagf
 

Similar to Grid5000 ismertető (20)

Nagyszabású virtuális gyógyszerkísérletek az új generációs web szolgáltatás a...
Nagyszabású virtuális gyógyszerkísérletek az új generációs web szolgáltatás a...Nagyszabású virtuális gyógyszerkísérletek az új generációs web szolgáltatás a...
Nagyszabású virtuális gyógyszerkísérletek az új generációs web szolgáltatás a...
 
Grid és adattárolás
Grid és adattárolásGrid és adattárolás
Grid és adattárolás
 
Microsoft Windows Azure Platform
Microsoft Windows Azure PlatformMicrosoft Windows Azure Platform
Microsoft Windows Azure Platform
 
Webalkalmazások teljesítményoptimalizálása
Webalkalmazások teljesítményoptimalizálásaWebalkalmazások teljesítményoptimalizálása
Webalkalmazások teljesítményoptimalizálása
 
Google Cloud a gyakorlatban BigData/Hadoop fejlesztésekhez - Google I/O Exten...
Google Cloud a gyakorlatban BigData/Hadoop fejlesztésekhez - Google I/O Exten...Google Cloud a gyakorlatban BigData/Hadoop fejlesztésekhez - Google I/O Exten...
Google Cloud a gyakorlatban BigData/Hadoop fejlesztésekhez - Google I/O Exten...
 
Szerver oldali fejlesztés korszerű módszerekkel C# nyelven
Szerver oldali fejlesztés korszerű módszerekkel C# nyelvenSzerver oldali fejlesztés korszerű módszerekkel C# nyelven
Szerver oldali fejlesztés korszerű módszerekkel C# nyelven
 
A ClusterGrid rendszer - avagy hogyan üzemeltessünk, több mint 1000 csomópont...
A ClusterGrid rendszer - avagy hogyan üzemeltessünk, több mint 1000 csomópont...A ClusterGrid rendszer - avagy hogyan üzemeltessünk, több mint 1000 csomópont...
A ClusterGrid rendszer - avagy hogyan üzemeltessünk, több mint 1000 csomópont...
 
GCP - A felhőalapú architektúrák és szolgáltatások
GCP - A felhőalapú architektúrák és szolgáltatásokGCP - A felhőalapú architektúrák és szolgáltatások
GCP - A felhőalapú architektúrák és szolgáltatások
 
Projekt 05
Projekt 05Projekt 05
Projekt 05
 
Kubernetes 1x1
Kubernetes 1x1Kubernetes 1x1
Kubernetes 1x1
 
Online kérdőívek készítése - tanulmány
Online kérdőívek készítése - tanulmányOnline kérdőívek készítése - tanulmány
Online kérdőívek készítése - tanulmány
 
Nagy terhelésű webes rendszerek fejlesztése
Nagy terhelésű webes rendszerek fejlesztéseNagy terhelésű webes rendszerek fejlesztése
Nagy terhelésű webes rendszerek fejlesztése
 
Grid Underground (GUG) - avagy hogyan építsünk IT szolgáltatás hálózatot a su...
Grid Underground (GUG) - avagy hogyan építsünk IT szolgáltatás hálózatot a su...Grid Underground (GUG) - avagy hogyan építsünk IT szolgáltatás hálózatot a su...
Grid Underground (GUG) - avagy hogyan építsünk IT szolgáltatás hálózatot a su...
 
Berkes andrás pxml architektura 2013-01-16
Berkes andrás pxml architektura 2013-01-16Berkes andrás pxml architektura 2013-01-16
Berkes andrás pxml architektura 2013-01-16
 
Gazdag Ferenc_IVSZ_KormanyzatiFelho_v2
Gazdag Ferenc_IVSZ_KormanyzatiFelho_v2Gazdag Ferenc_IVSZ_KormanyzatiFelho_v2
Gazdag Ferenc_IVSZ_KormanyzatiFelho_v2
 
Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...
Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...
Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...
 
Ipari felhő infrastruktúrák a gyakorlatban
Ipari felhő infrastruktúrák a gyakorlatbanIpari felhő infrastruktúrák a gyakorlatban
Ipari felhő infrastruktúrák a gyakorlatban
 
Webes alkalmazások optimalizálása
Webes alkalmazások optimalizálásaWebes alkalmazások optimalizálása
Webes alkalmazások optimalizálása
 
Mi a baj a Drupaloddal
Mi a baj a DrupaloddalMi a baj a Drupaloddal
Mi a baj a Drupaloddal
 
Virtuális Platformváltás validált környezetben
Virtuális Platformváltás validált környezetbenVirtuális Platformváltás validált környezetben
Virtuális Platformváltás validált környezetben
 

Grid5000 ismertető

  • 1. HADOOP A GRID5000 ERŐFORRÁSAIN Felépítés, teljesítményelemzés Experiments presented in this paper were carried out using the Grid'5000 testbed, supported by a scientific interest group hosted by Inria and including CNRS, RENATER and several Universities as well as other organizations (see https://www.grid5000.fr). Készítette: Kovács Ákos kovacsakos1991@gmail.com 2016 tavasz
  • 2. Tartalom  Első, lezajlott fázis  Teljesítményelemzési módszerek megismerése  Grid5000 hozzáférés igénylése, annak használatba vétele  Hadoop teljesítményelemzési módszertanok megismerése  Hadoop futtatása a Grid5000 erőforrásain  Első mérések elvégzése  Jövőbeni tervek  Hadoop modulokkal való bővítés  A rendszer működésének optimalizálása
  • 3. A Hadoop, a batch processing eljárás  Jobok - feladatok  Map: Részproblémákra bontás, worker node-ok  Reduce: Master node rész- megoldásokat gyűjt és egyesít
  • 4. A mérés sajátosságai  A Hadoop nem egy web alkalmazás, nem adatbázis, nem webes szolgáltatás  Az elemzés a jobok futtattásával zajlik, amelynek célja a MapReduce eljárás hatásfokának vizsgálata.  Eszközök: HiBench, BigBench
  • 5. A HiBench csomag lehetőségei HiBench – DFSIO Micro Benchmarks Web Search – Sort – WordCount – TeraSort – Nutch Indexing – Page Rank Machine Learning – K-Means Clustering HDFS
  • 6. A futtatott feladatokról  WordCount:  randomTextWriter használatával  szavak számának meghatározása  Sort:  randomTextWriter használatával  rendezési feladat  TeraSort:  szintén rendezési feladat, de 1 billió 100 byte méretű soron
  • 7. A TeraSort-ról  HDFS és MapReduce teszt egyben  Több elkülöníthető fázis  A TeraSort egy MapReduce-ra épülő rendezési eljárás  N-1 kulcs rendezése minden egyes lépésben  Nem feltétlenül 1 TB rendezésére, ez egy módszertan
  • 8. Erőforrások tervezése  Memória, CPU, diszk használat  mapreduce.map.memory.mb < yarn.nodemanager.resource.memory-mb < <yarn.scheduler.maximum-allocation-mb  Memóriaszükségletek optimalizálása
  • 9. A Grid5000 ismertetése  Francia nemzeti kutatási klaszter  Hálózat kutatási célokra  Nagy mennyiségű erőforrás halmaza  Számításigényes feladatok futtatására  Dinamikus erőforrás allokáció  Több, eltérő szoftveres hátterű site  A site-okon belül több klaszter
  • 10. A Grid5000 használata  Korlátozott írási jogok  Minden site-on 25 GB permanens tárterület  Az erőforrások allokálása belső fejlesztésű programok segítségével  A foglalás időtartama alatt több TB lemezterület is felhasználható  Egy 3 gépes klaszter foglalása és telepítése csupán pár perc  A feladathoz megfelelő site kiválasztása fontos  Más, általános célú infrastruktúrákhoz képest speciális konfiguráció lehet szükséges
  • 12. Alapparancsok  Erőforrás allokáció módjai, kapcsolók:  oarsub -I -l nodes=3, walltime=8:30 -t deploy  oarsub -p "cluster='sagittaire'" -l nodes=3,walltime=8:30 -I -t deploy  oarsub -p "cluster='paravance'" -l nodes=3,walltime=8:30 -I -t deploy  Lefoglalt node-ok megtekintése:  cat $OAR_FILE_NODES | uniq  Debian telepítése az előzőekben létrejött klaszterre:  kadeploy3 -e jessie-x64-base -f $OAR_FILE_NODES -k ~/.ssh/id_rsa.pub
  • 14. Első tesztesetek kimenetei  A GRID5000-en végrehajtott eddigi tesztesetek kimenetei Type Date Time Input_data_size Duration(s) Throughput(bytes/s) Throughput/node WORDCOUNT 2016.04.12 17:39:16 1378 20.779 66 66 Rennes site Paravance cluster SORT 2016.04.12 17:40:02 1448 20.874 69 69 TERASORT 2016.04.12 17:40:54 30000 20.824 1440 1440 TERASORT 2016.04.12 16:20:33 30000 25.065 1196 1196 TERASORT 2016.04.12 16:24:42 5000000 24.294 205812 205812 TERASORT 2016.04.12 18:40:45 1000000000 1629.991 613500 613500
  • 15. A teljesítményt befolyásoló tényezők  Környezet típusa (virtuális vagy fizikai)  Node-ok közti linkek sebessége  HDFS blokk méret  HDFS replikáció  Hoszt gépek száma  Memória méretek  Processzor órajele  MAP és REDUCE fázisok száma  Bemeneti adatok mérete