SlideShare a Scribd company logo
1 of 33
Univerzitet u Beogradu 
Fakultet organizacionih nauka 
Laboratorija za elektronsko poslovanje 
Hadoop i sveprisutno 
računarstvo 
Darko Marjanović 
Đorđe Stepanić 
Miloš Milovanović
ELAB 
• Oblasti izučavanja u Laboratoriji za elektronsko 
poslovanje: 
– Elektronsko poslovanje 
– Internet i mobilne tehnologije 
– Big Data 
– Cloud Computing 
– E-obrazovanje 
– Sveprisutno računarstvo 
– Socijalne mreže
Big Data 
• Big Data predstavlja podatake koji su one 
količine koja prevazilazi mogućnosti 
uobičajeno korišćenog softvera za 
skladištenje, obradu i upravljanje podacima. 
• Big data je sve ono što ne može da stane u 
Excel.
Big Data dimenzije 
• Volume – velika brzina rasta novih podataka i 
čuvanje postojećih dovodi do toga da se sada 
skladište stotine terabajta pa čak i mnogo više. 
• Variety – raznolikost podataka, više nije 
dovoljno čuvati samo struktuirane podatke već 
i slike, podatke sa društvenih mreža, logove, 
senzorske podatke… 
• Velocity – brzina kojom pristižu novi podaci je 
velika i veća je od brzine obrade podataka.
Hadoop 
• Hadoop je open-source software framework 
Apache fondacije. 
• Služi za skladištenje i procesiranje velikih 
količina podataka. 
• Hadoop je nastao 2005. godine od strane 
Doug Cutting i Mike Cafarella. 
• Ime je dobio po slonu igrački Cutting-ovog 
sina. 
• Napisan je u Java programskom jeziku.
Hadoop komponente 
• Hadoop Common paket 
• Hadoop Distributed File System(HDFS) 
• Hadoop YARN 
• Hadoop Map Reduce
Hadoop Ekosistem 
• Hadoop je moguće nadograditi brojnim alatima 
kojima sa poboljšavaju mogućnosti i efikasnost 
obrade podataka. 
• Dele se na alate za prenošenje podataka, analizu 
podataka, upravljanje klasterom… 
• Neki od alata koji se grade na Hadoop su: 
– Apache Hive 
– Apache Pig 
– Apache Flume 
– Apache Hue 
– Apache HCatalog 
– ……
Hadoop – Elab klaster 
• Master node, Slave1 node, Slave2 node 
– 27 Cores (CPU) 
– 60 GB RAM 
– 1TB +++ 
• Test klaster na privatnom Cloud-u, realizovan 
uz pomoć OpenStack softvera. 
– 32 Cores (CPU) 
– 64 GB RAM 
– 2TB +++
Hadoop – Za šta se koristi 
• Prikupljanje i analiza 
– Moodle podaci 
– Twitter podaci 
– Senzorski podaci 
• Integracija sa drugim servisima 
– Sharepoint 
• Edukativne svrhe
Projekat Slonče i Malina 
• Skupljanje i analiza senzorskih podataka iz 
pametnog okruženja. 
• Poboljšanje algoritma za upravljačke akcije. 
• Generisanje izveštaja radi donošenja boljih 
odluka. 
• Praćenje u realnom vremenu.
Zašto Hadoop 
• Velika brzina pristizanja novih podataka, 
upisivanje novih podataka na 2 do 3 sekunde. 
• Raznolikost podataka, senzorski podaci. 
• Velika količina podataka, mogućnost za 
dugotrajno skladištenje.
Početni model
Model u razvoju - Upravljačke akcije
Sveprisutno računarstvo 
• Sveprisutno računarstvo (eng. Ubiquitous 
computing) - predstavlja novu eru u 
računarstvu gde se računarske tehnologije 
prisutne svuda oko nas i uvek dostupne 
• Podrazumevaju koncept: “jedan čovek - više 
računara”
Internet inteligentnih uređaja 
• Internet inteligentnih uređaja (eng. Internet of 
Things) - predstavlja mreže inteligentnih 
(“smart”) uređaja koji međusobno komuniciraju 
putem Interneta 
• Inteligentni uređaji imaju sposobnost da 
“osećaju” (senzori) i komuniciraju (wired ili 
wireless mreže), a samim tim donose odluke 
(matematički algoritmi) i preduzimaju željene 
akcije (aktuatori)
IoT u pametnim okruženjima 
• Velika primena IoT u automatizaciji pametnih 
okruženja (visoka efikasnost i finansijska 
opravdanost)
Raspberry Pi mikroračunar i senzorske 
mreže
Raspberry Pi mikroračunar i senzorske 
mreže 
• “Moćan” mikroračunar sa sopstvenim 
operativnim sistemom, memorijom, priključkom 
za Internet, HDMI izlazom... 
• Poseduje mogućnosti instaliranja Web servera, 
telefonske centrale, kontrole i upravljanja većim 
broja senzora i aktuatora (povezanih u mrežu) itd. 
• Izvor (provider) velike količine senzorskih 
(mernih) podataka
Primer: Raspberry Pi i senzor za 
detekciju plamena
A sada... Slonče & Malina 
Apache Flume 
• Brz transfer podataka u Hadoop HDFS 
• Sources – izvor podataka 
• Channels – kanal prenosa podataka 
• Sinks – odredište
Apache Flume 
• Koristi se za najčešće za log podatke, 
serijalizovane podatke, podatke sa društvenih 
mreža… 
• Namenjen je isključivo za transfer podataka, u 
slučaju obrade podataka prilikom transfera 
koristi se Apache Storm. 
• Ne koristi se za struktuirane podatke, za 
prenos relacione baze u HDFS se koristi Sqoop.
Apache Flume
Hive - nastanak 
2006 
12m 
korisnika 
<100GB/dan 
2007 
58m 
korisnika 
1TB/dan 
2009 
360m 
korisnika 
>10TB/dan 
Facebook 
MySQL, Java Derby, Scribe 
Python skripte
Hive nastanak 
• Uvođenje Hadoop-a 
• Potreba za MapReduce-om 
• 30PB podataka na klasteru 2011-te 
• Korisnici – marketing stručnjaci 
• Nedostaci – napredno poznavanje Java 
programskog jezika, teško čitljive šeme 
podataka
Šta je Hive? 
• Hive – data warehousing infrastruktura za 
Hadoop 
• HiveQL zasnovan na SQL-u 
• Jednostavnije pisanje MapReduce programa 
• Primena: 
– Analiza log podataka 
– Obrada teksta 
– Indeksiranje dokumenata 
– Statističke analize, Business Intelligence
Hive komponente 
• Shell – interakcija sa korisnikom 
• Driver – upravljanje Hive engine-om 
• Compiler 
• Execution engine – izvršavanje 
• Meta Store – šema tabela + SerDe
Hive vs OLAP 
• Skaliranje i za više od 10.000 mašina u klasteru 
• Obrada >1TB podataka 
• Nema izmene podataka 
• Male promene na podacima imaju mali značaj
Hive tipovi podataka 
Primitivni 
Integer 
-tinyint 1B 
-smallint 2B 
-int 4B 
-bigint 8B 
Boolean – True/False 
Float 
-float 
-double 
String 
Složeni 
Structs 
Maps (key-value) 
Arrays
Zašto Hive? 
• Laka manipulacija podataka 
• Nestruktuirani podaci prikazani kao tabele 
• Mogućnosti proširivanja 
• Sličnost sa SQL-om
Hive Demo
Korisni linkovi 
• elab.rs 
• hadoop-srbija.com 
• hortonworks.com 
• hive.apache.org 
• raspberrypi.org 
• flume.apache.org 
• hadoop.apache.org
Univerzitet u Beogradu 
Fakultet organizacionih nauka 
Laboratorija za elektronsko poslovanje 
Hadoop i sveprisutno 
računarstvo 
Darko Marjanović 
Đorđe Stepanić 
Miloš Milovanović

More Related Content

Similar to Hadoop i sveprisutno racunarstvo

VET4SBO Level 1 module 3 - unit 1 - v0.9 srb
VET4SBO Level 1   module 3 - unit 1 - v0.9 srbVET4SBO Level 1   module 3 - unit 1 - v0.9 srb
VET4SBO Level 1 module 3 - unit 1 - v0.9 srbKarel Van Isacker
 
Mrezne inf-tehnologije predavanja
Mrezne inf-tehnologije predavanjaMrezne inf-tehnologije predavanja
Mrezne inf-tehnologije predavanjaZvonko Djakonocevic
 
Rešenja za pristup podacima katastra nepokretnosti
Rešenja za pristup podacima katastra nepokretnostiRešenja za pristup podacima katastra nepokretnosti
Rešenja za pristup podacima katastra nepokretnostiPredrag Živić
 
iot-predavanje-2.pptx
iot-predavanje-2.pptxiot-predavanje-2.pptx
iot-predavanje-2.pptxIrenaTasic
 
IoT-Internet-of-Things-servisi-u-Azure-u.pptx
IoT-Internet-of-Things-servisi-u-Azure-u.pptxIoT-Internet-of-Things-servisi-u-Azure-u.pptx
IoT-Internet-of-Things-servisi-u-Azure-u.pptxkupisajtrs
 
Pitanja kss (1)
Pitanja  kss (1)Pitanja  kss (1)
Pitanja kss (1)Milos Ilic
 
Racunarske mreze predavanja
Racunarske mreze predavanjaRacunarske mreze predavanja
Racunarske mreze predavanjaMarko Petrovic
 
Web дизајн (it), део 1, школска 2010 11, триместар 3
Web дизајн (it), део 1, школска 2010 11, триместар 3Web дизајн (it), део 1, школска 2010 11, триместар 3
Web дизајн (it), део 1, школска 2010 11, триместар 3Nikola Reljin
 
Internet tehnologije
Internet tehnologijeInternet tehnologije
Internet tehnologijemilica981
 
VET4SBO Level 2 module 6 - unit 3 - v0.9 srb
VET4SBO Level 2   module 6 - unit 3 - v0.9 srbVET4SBO Level 2   module 6 - unit 3 - v0.9 srb
VET4SBO Level 2 module 6 - unit 3 - v0.9 srbKarel Van Isacker
 
Poslovanje u oblaku Bojan Vujić
Poslovanje u oblaku Bojan VujićPoslovanje u oblaku Bojan Vujić
Poslovanje u oblaku Bojan VujićIgor Pandzic
 

Similar to Hadoop i sveprisutno racunarstvo (20)

VET4SBO Level 1 module 3 - unit 1 - v0.9 srb
VET4SBO Level 1   module 3 - unit 1 - v0.9 srbVET4SBO Level 1   module 3 - unit 1 - v0.9 srb
VET4SBO Level 1 module 3 - unit 1 - v0.9 srb
 
2 racunarske mreze
2 racunarske mreze2 racunarske mreze
2 racunarske mreze
 
Oit socijalne mreze
Oit socijalne mrezeOit socijalne mreze
Oit socijalne mreze
 
Decouple Goals
Decouple GoalsDecouple Goals
Decouple Goals
 
Internet.pptx
Internet.pptxInternet.pptx
Internet.pptx
 
Npp 2012 racunarstvo_i_informatika_120118
Npp 2012 racunarstvo_i_informatika_120118Npp 2012 racunarstvo_i_informatika_120118
Npp 2012 racunarstvo_i_informatika_120118
 
Informatika
InformatikaInformatika
Informatika
 
Mrezne inf-tehnologije predavanja
Mrezne inf-tehnologije predavanjaMrezne inf-tehnologije predavanja
Mrezne inf-tehnologije predavanja
 
Rešenja za pristup podacima katastra nepokretnosti
Rešenja za pristup podacima katastra nepokretnostiRešenja za pristup podacima katastra nepokretnosti
Rešenja za pristup podacima katastra nepokretnosti
 
Internet i web
Internet i webInternet i web
Internet i web
 
iot-predavanje-2.pptx
iot-predavanje-2.pptxiot-predavanje-2.pptx
iot-predavanje-2.pptx
 
IoT-Internet-of-Things-servisi-u-Azure-u.pptx
IoT-Internet-of-Things-servisi-u-Azure-u.pptxIoT-Internet-of-Things-servisi-u-Azure-u.pptx
IoT-Internet-of-Things-servisi-u-Azure-u.pptx
 
Pitanja kss (1)
Pitanja  kss (1)Pitanja  kss (1)
Pitanja kss (1)
 
Racunarske mreze predavanja
Racunarske mreze predavanjaRacunarske mreze predavanja
Racunarske mreze predavanja
 
Web дизајн (it), део 1, школска 2010 11, триместар 3
Web дизајн (it), део 1, школска 2010 11, триместар 3Web дизајн (it), део 1, школска 2010 11, триместар 3
Web дизајн (it), део 1, школска 2010 11, триместар 3
 
Internet tehnologije
Internet tehnologijeInternet tehnologije
Internet tehnologije
 
Web logs: Collecting and analysing - Nikola Krgovic
Web logs: Collecting and analysing - Nikola KrgovicWeb logs: Collecting and analysing - Nikola Krgovic
Web logs: Collecting and analysing - Nikola Krgovic
 
VET4SBO Level 2 module 6 - unit 3 - v0.9 srb
VET4SBO Level 2   module 6 - unit 3 - v0.9 srbVET4SBO Level 2   module 6 - unit 3 - v0.9 srb
VET4SBO Level 2 module 6 - unit 3 - v0.9 srb
 
FNT 2015 CodeEU Zanimljiva informatika - 03 Jovan Krstic Android_glasovna_kon...
FNT 2015 CodeEU Zanimljiva informatika - 03 Jovan Krstic Android_glasovna_kon...FNT 2015 CodeEU Zanimljiva informatika - 03 Jovan Krstic Android_glasovna_kon...
FNT 2015 CodeEU Zanimljiva informatika - 03 Jovan Krstic Android_glasovna_kon...
 
Poslovanje u oblaku Bojan Vujić
Poslovanje u oblaku Bojan VujićPoslovanje u oblaku Bojan Vujić
Poslovanje u oblaku Bojan Vujić
 

Hadoop i sveprisutno racunarstvo

  • 1. Univerzitet u Beogradu Fakultet organizacionih nauka Laboratorija za elektronsko poslovanje Hadoop i sveprisutno računarstvo Darko Marjanović Đorđe Stepanić Miloš Milovanović
  • 2. ELAB • Oblasti izučavanja u Laboratoriji za elektronsko poslovanje: – Elektronsko poslovanje – Internet i mobilne tehnologije – Big Data – Cloud Computing – E-obrazovanje – Sveprisutno računarstvo – Socijalne mreže
  • 3. Big Data • Big Data predstavlja podatake koji su one količine koja prevazilazi mogućnosti uobičajeno korišćenog softvera za skladištenje, obradu i upravljanje podacima. • Big data je sve ono što ne može da stane u Excel.
  • 4. Big Data dimenzije • Volume – velika brzina rasta novih podataka i čuvanje postojećih dovodi do toga da se sada skladište stotine terabajta pa čak i mnogo više. • Variety – raznolikost podataka, više nije dovoljno čuvati samo struktuirane podatke već i slike, podatke sa društvenih mreža, logove, senzorske podatke… • Velocity – brzina kojom pristižu novi podaci je velika i veća je od brzine obrade podataka.
  • 5. Hadoop • Hadoop je open-source software framework Apache fondacije. • Služi za skladištenje i procesiranje velikih količina podataka. • Hadoop je nastao 2005. godine od strane Doug Cutting i Mike Cafarella. • Ime je dobio po slonu igrački Cutting-ovog sina. • Napisan je u Java programskom jeziku.
  • 6. Hadoop komponente • Hadoop Common paket • Hadoop Distributed File System(HDFS) • Hadoop YARN • Hadoop Map Reduce
  • 7. Hadoop Ekosistem • Hadoop je moguće nadograditi brojnim alatima kojima sa poboljšavaju mogućnosti i efikasnost obrade podataka. • Dele se na alate za prenošenje podataka, analizu podataka, upravljanje klasterom… • Neki od alata koji se grade na Hadoop su: – Apache Hive – Apache Pig – Apache Flume – Apache Hue – Apache HCatalog – ……
  • 8. Hadoop – Elab klaster • Master node, Slave1 node, Slave2 node – 27 Cores (CPU) – 60 GB RAM – 1TB +++ • Test klaster na privatnom Cloud-u, realizovan uz pomoć OpenStack softvera. – 32 Cores (CPU) – 64 GB RAM – 2TB +++
  • 9. Hadoop – Za šta se koristi • Prikupljanje i analiza – Moodle podaci – Twitter podaci – Senzorski podaci • Integracija sa drugim servisima – Sharepoint • Edukativne svrhe
  • 10. Projekat Slonče i Malina • Skupljanje i analiza senzorskih podataka iz pametnog okruženja. • Poboljšanje algoritma za upravljačke akcije. • Generisanje izveštaja radi donošenja boljih odluka. • Praćenje u realnom vremenu.
  • 11. Zašto Hadoop • Velika brzina pristizanja novih podataka, upisivanje novih podataka na 2 do 3 sekunde. • Raznolikost podataka, senzorski podaci. • Velika količina podataka, mogućnost za dugotrajno skladištenje.
  • 13. Model u razvoju - Upravljačke akcije
  • 14. Sveprisutno računarstvo • Sveprisutno računarstvo (eng. Ubiquitous computing) - predstavlja novu eru u računarstvu gde se računarske tehnologije prisutne svuda oko nas i uvek dostupne • Podrazumevaju koncept: “jedan čovek - više računara”
  • 15. Internet inteligentnih uređaja • Internet inteligentnih uređaja (eng. Internet of Things) - predstavlja mreže inteligentnih (“smart”) uređaja koji međusobno komuniciraju putem Interneta • Inteligentni uređaji imaju sposobnost da “osećaju” (senzori) i komuniciraju (wired ili wireless mreže), a samim tim donose odluke (matematički algoritmi) i preduzimaju željene akcije (aktuatori)
  • 16. IoT u pametnim okruženjima • Velika primena IoT u automatizaciji pametnih okruženja (visoka efikasnost i finansijska opravdanost)
  • 17. Raspberry Pi mikroračunar i senzorske mreže
  • 18. Raspberry Pi mikroračunar i senzorske mreže • “Moćan” mikroračunar sa sopstvenim operativnim sistemom, memorijom, priključkom za Internet, HDMI izlazom... • Poseduje mogućnosti instaliranja Web servera, telefonske centrale, kontrole i upravljanja većim broja senzora i aktuatora (povezanih u mrežu) itd. • Izvor (provider) velike količine senzorskih (mernih) podataka
  • 19. Primer: Raspberry Pi i senzor za detekciju plamena
  • 20. A sada... Slonče & Malina 
  • 21. Apache Flume • Brz transfer podataka u Hadoop HDFS • Sources – izvor podataka • Channels – kanal prenosa podataka • Sinks – odredište
  • 22. Apache Flume • Koristi se za najčešće za log podatke, serijalizovane podatke, podatke sa društvenih mreža… • Namenjen je isključivo za transfer podataka, u slučaju obrade podataka prilikom transfera koristi se Apache Storm. • Ne koristi se za struktuirane podatke, za prenos relacione baze u HDFS se koristi Sqoop.
  • 24. Hive - nastanak 2006 12m korisnika <100GB/dan 2007 58m korisnika 1TB/dan 2009 360m korisnika >10TB/dan Facebook MySQL, Java Derby, Scribe Python skripte
  • 25. Hive nastanak • Uvođenje Hadoop-a • Potreba za MapReduce-om • 30PB podataka na klasteru 2011-te • Korisnici – marketing stručnjaci • Nedostaci – napredno poznavanje Java programskog jezika, teško čitljive šeme podataka
  • 26. Šta je Hive? • Hive – data warehousing infrastruktura za Hadoop • HiveQL zasnovan na SQL-u • Jednostavnije pisanje MapReduce programa • Primena: – Analiza log podataka – Obrada teksta – Indeksiranje dokumenata – Statističke analize, Business Intelligence
  • 27. Hive komponente • Shell – interakcija sa korisnikom • Driver – upravljanje Hive engine-om • Compiler • Execution engine – izvršavanje • Meta Store – šema tabela + SerDe
  • 28. Hive vs OLAP • Skaliranje i za više od 10.000 mašina u klasteru • Obrada >1TB podataka • Nema izmene podataka • Male promene na podacima imaju mali značaj
  • 29. Hive tipovi podataka Primitivni Integer -tinyint 1B -smallint 2B -int 4B -bigint 8B Boolean – True/False Float -float -double String Složeni Structs Maps (key-value) Arrays
  • 30. Zašto Hive? • Laka manipulacija podataka • Nestruktuirani podaci prikazani kao tabele • Mogućnosti proširivanja • Sličnost sa SQL-om
  • 32. Korisni linkovi • elab.rs • hadoop-srbija.com • hortonworks.com • hive.apache.org • raspberrypi.org • flume.apache.org • hadoop.apache.org
  • 33. Univerzitet u Beogradu Fakultet organizacionih nauka Laboratorija za elektronsko poslovanje Hadoop i sveprisutno računarstvo Darko Marjanović Đorđe Stepanić Miloš Milovanović