Big Data Technology on Red Hat Enterprise Linux: OpenJDK vs. Oracle JDKPrincipled Technologies
OpenJDK is an efficient foundation for distributed data processing and analytics using Apache Hadoop. In our testing of a Hortonworks HDP 2.0 distribution running on Red Hat Enterprise Linux 6.5, we found that Hadoop performance using OpenJDK was comparable to the performance using Oracle JDK. Comparable performance paired with automatic updates means that OpenJDK can benefit organizations using Red Hat Enterprise Linux -based Hadoop deployments.
The Frankfurt Big Data Lab carries out research in big data and data analytics from the perspective of information systems and computer science. The lab is located in Frankfurt and targets research applications for both industry and academia. Current research areas include big data management technologies, data analytics, graph databases/linked open data, and using big data for social good. One project focuses on using data to help with the inclusion of refugees in Frankfurt.
Maintenance breeding is the branch of plant breeding that deals with producing and maintaining breeder seed to preserve the genetic purity and identity of plant varieties. It involves continuously producing fresh breeder seed through methods like growing isolated plots and bulk selection to remove off-types. Proper handling and roguing of the breeder seed crop is crucial. The breeder seed is then used to produce foundation seed while maintaining a carry-over stock to safeguard against losses. Maintenance breeding helps purify varieties and parental lines, prevent genetic deterioration, support quality seed production, and prolong the life of varieties.
BDSE 2015 Evaluation of Big Data Platforms with HiBencht_ivanov
The document evaluates and compares the performance of DataStax Enterprise (DSE) and Cloudera Hadoop Distribution (CDH) using the HiBench benchmark suite. It finds that CDH outperforms DSE for CPU-intensive, read-intensive, and mixed workloads, while DSE has better performance for write-intensive workloads. The evaluation was conducted on an 8-node cluster using data sizes from 240GB to 440GB. Ongoing work includes analyzing availability, evaluating different file formats, and comparing graph processing engines.
Covers different types of big data benchmarking, different suites, details into terasort, demo with TPCx-HS
Meetup Details of presentation:
http://www.meetup.com/lspe-in/events/203918952/
Big Data Technology on Red Hat Enterprise Linux: OpenJDK vs. Oracle JDKPrincipled Technologies
OpenJDK is an efficient foundation for distributed data processing and analytics using Apache Hadoop. In our testing of a Hortonworks HDP 2.0 distribution running on Red Hat Enterprise Linux 6.5, we found that Hadoop performance using OpenJDK was comparable to the performance using Oracle JDK. Comparable performance paired with automatic updates means that OpenJDK can benefit organizations using Red Hat Enterprise Linux -based Hadoop deployments.
The Frankfurt Big Data Lab carries out research in big data and data analytics from the perspective of information systems and computer science. The lab is located in Frankfurt and targets research applications for both industry and academia. Current research areas include big data management technologies, data analytics, graph databases/linked open data, and using big data for social good. One project focuses on using data to help with the inclusion of refugees in Frankfurt.
Maintenance breeding is the branch of plant breeding that deals with producing and maintaining breeder seed to preserve the genetic purity and identity of plant varieties. It involves continuously producing fresh breeder seed through methods like growing isolated plots and bulk selection to remove off-types. Proper handling and roguing of the breeder seed crop is crucial. The breeder seed is then used to produce foundation seed while maintaining a carry-over stock to safeguard against losses. Maintenance breeding helps purify varieties and parental lines, prevent genetic deterioration, support quality seed production, and prolong the life of varieties.
BDSE 2015 Evaluation of Big Data Platforms with HiBencht_ivanov
The document evaluates and compares the performance of DataStax Enterprise (DSE) and Cloudera Hadoop Distribution (CDH) using the HiBench benchmark suite. It finds that CDH outperforms DSE for CPU-intensive, read-intensive, and mixed workloads, while DSE has better performance for write-intensive workloads. The evaluation was conducted on an 8-node cluster using data sizes from 240GB to 440GB. Ongoing work includes analyzing availability, evaluating different file formats, and comparing graph processing engines.
Covers different types of big data benchmarking, different suites, details into terasort, demo with TPCx-HS
Meetup Details of presentation:
http://www.meetup.com/lspe-in/events/203918952/
A Pannon Egyetemen fejlesztett felhő alapú workflow rendszer (ORENBI) back-end oldali fejlesztése alapján a Műszaki Informatikai karon tartott tanszéki szeminárum során előadott prezentációnk. A prezentáció témája az alkalmazott technológiák és architektúrális valamint TDD módszereink bemutatása és tapasztalataink átadása.
Ipari felhő infrastruktúrák a gyakorlatbanOpen Academy
Közel az idő, amikor a vállalati szerverszobák kiürülnek, és helyettük a 220V-os csatlakozó aljzatok mellett megjelennek a tár- és számítási kapacitást kínáló UTP aljzatok.
(Krasznay Csaba, IT biztonsági szakértő, HP)
A webes alkalmazások készítése – de leginkább karbantartása – során kevés figyelmet fordítunk ezek sebességének optimalizálására, vagy lehet csak egyszerűen nem kapunk rá elég prioritást a folyamatosan érkező üzleti igények árnyékában. Hosszútávon, így egy olyan mély gödröt áshatunk, amiből nagyon nehéz kimászni. Az előadásban leginkább saját tapasztalatok alapján összegyűjtött megoldásokról fogok beszélni, hogy ezeket a problémákat hatékonyan lehessen kezelni, jobb esetben megelőzni.
A Pannon Egyetemen fejlesztett felhő alapú workflow rendszer (ORENBI) back-end oldali fejlesztése alapján a Műszaki Informatikai karon tartott tanszéki szeminárum során előadott prezentációnk. A prezentáció témája az alkalmazott technológiák és architektúrális valamint TDD módszereink bemutatása és tapasztalataink átadása.
Ipari felhő infrastruktúrák a gyakorlatbanOpen Academy
Közel az idő, amikor a vállalati szerverszobák kiürülnek, és helyettük a 220V-os csatlakozó aljzatok mellett megjelennek a tár- és számítási kapacitást kínáló UTP aljzatok.
(Krasznay Csaba, IT biztonsági szakértő, HP)
A webes alkalmazások készítése – de leginkább karbantartása – során kevés figyelmet fordítunk ezek sebességének optimalizálására, vagy lehet csak egyszerűen nem kapunk rá elég prioritást a folyamatosan érkező üzleti igények árnyékában. Hosszútávon, így egy olyan mély gödröt áshatunk, amiből nagyon nehéz kimászni. Az előadásban leginkább saját tapasztalatok alapján összegyűjtött megoldásokról fogok beszélni, hogy ezeket a problémákat hatékonyan lehessen kezelni, jobb esetben megelőzni.
1. HADOOP A
GRID5000
ERŐFORRÁSAIN
Felépítés, teljesítményelemzés
Experiments presented in this paper were carried out using the Grid'5000
testbed, supported by a scientific interest group hosted by Inria and including
CNRS, RENATER and several Universities as well as other organizations (see
https://www.grid5000.fr).
Készítette: Kovács Ákos
kovacsakos1991@gmail.com
2016 tavasz
2. Tartalom
Első, lezajlott fázis
Teljesítményelemzési módszerek megismerése
Grid5000 hozzáférés igénylése, annak használatba vétele
Hadoop teljesítményelemzési módszertanok megismerése
Hadoop futtatása a Grid5000 erőforrásain
Első mérések elvégzése
Jövőbeni tervek
Hadoop modulokkal való bővítés
A rendszer működésének optimalizálása
3. A Hadoop, a batch processing eljárás
Jobok - feladatok
Map: Részproblémákra bontás,
worker node-ok
Reduce: Master node rész-
megoldásokat gyűjt és egyesít
4. A mérés sajátosságai
A Hadoop nem egy web alkalmazás, nem adatbázis, nem webes szolgáltatás
Az elemzés a jobok futtattásával zajlik, amelynek célja a MapReduce eljárás
hatásfokának vizsgálata.
Eszközök: HiBench, BigBench
6. A futtatott feladatokról
WordCount:
randomTextWriter használatával
szavak számának meghatározása
Sort:
randomTextWriter használatával
rendezési feladat
TeraSort:
szintén rendezési feladat, de 1 billió 100 byte méretű soron
7. A TeraSort-ról
HDFS és MapReduce teszt egyben
Több elkülöníthető fázis
A TeraSort egy MapReduce-ra épülő rendezési eljárás
N-1 kulcs rendezése minden egyes lépésben
Nem feltétlenül 1 TB rendezésére, ez egy módszertan
9. A Grid5000 ismertetése
Francia nemzeti kutatási klaszter
Hálózat kutatási célokra
Nagy mennyiségű erőforrás halmaza
Számításigényes feladatok futtatására
Dinamikus erőforrás allokáció
Több, eltérő szoftveres hátterű site
A site-okon belül több klaszter
10. A Grid5000 használata
Korlátozott írási jogok
Minden site-on 25 GB permanens tárterület
Az erőforrások allokálása belső fejlesztésű programok segítségével
A foglalás időtartama alatt több TB lemezterület is felhasználható
Egy 3 gépes klaszter foglalása és telepítése csupán pár perc
A feladathoz megfelelő site kiválasztása fontos
Más, általános célú infrastruktúrákhoz képest speciális konfiguráció lehet szükséges
14. Első tesztesetek kimenetei
A GRID5000-en végrehajtott eddigi tesztesetek kimenetei
Type Date Time Input_data_size Duration(s) Throughput(bytes/s) Throughput/node
WORDCOUNT 2016.04.12 17:39:16 1378 20.779 66 66
Rennes site
Paravance
cluster
SORT 2016.04.12 17:40:02 1448 20.874 69 69
TERASORT 2016.04.12 17:40:54 30000 20.824 1440 1440
TERASORT 2016.04.12 16:20:33 30000 25.065 1196 1196
TERASORT 2016.04.12 16:24:42 5000000 24.294 205812 205812
TERASORT 2016.04.12 18:40:45 1000000000 1629.991 613500 613500
15. A teljesítményt befolyásoló tényezők
Környezet típusa (virtuális vagy fizikai)
Node-ok közti linkek sebessége
HDFS blokk méret
HDFS replikáció
Hoszt gépek száma
Memória méretek
Processzor órajele
MAP és REDUCE fázisok száma
Bemeneti adatok mérete