Big Data više ne predstavlja novost. Usled ekspanzije podataka koji dolaze sa različitih izvora javlja se potreba za novim alatima koji su u mogućnosti da obrade velike količine podataka. Kako kompanije već poseduju tradicionalnu infrastrukturu, veoma je bitno da razvoj Big Data rešenja bude usmeren ka tome da se integriše u postojeći sistem i da donese nove vrednosti.
Na ovom predavanju biće predstavljena arhitektura Big Data aplikacije, alati koji se koriste, primeri za specifične slučajeve, kao i primeri kako spojit Big Data alate sa SQL serverom i drugim alatima.
2. Arhitektura Big Data aplikacije
Darko Marjanović
Hadoop Srbija
darko@hadoop-srbija.com
3.
4. Agenda
• Big Data
• Arhitektura Big Data aplikacije
• Big Data alati
• Primeri: Twitter, IoT
• Integracija Big Data aplikacije
5. Big Data - Šta je to?
• Big Data predstavlja podatke koji pristižu velikom
brzinom i one su količine koja prevazilazu
mogućnosti tradicionalnog softvera za skladištenje,
obradu i upravljanje podacima.
• Big Data je sve ono što ne može da stane u Excel.
6. Big Data - Dimenzije
Kompleksnost
podataka
Količina
(Volume)
Brzina
(Velocity)
Kvalitet
(Veracity)
Raznovrsnost
(Variety)
7. Big Data - Izvori podataka
• Društvene mreže (Twitter, Facebook…)
• Email, HTML, Click Stream
• Slike, Video, Logovi, Senzorski podaci
• Relacione Baze podataka
Slika: RapidMiner.com
8. Big Data - Izvori podataka
Slika: http://wikibon.org/wiki/v/Big_Data_in_the_Aviation_Industry
9. Big Data - Neki primeri
• Pivo i pelene
• Pekara koja prodaje više integralnih peciva ako
pada kiša
• Walmart, trudna ćerka
Slika: http://www.mckinsey.com/insights/business_technology/big_data_whats_your_plan
11. Big Data Aplikacija - Cloud
VS Bare Metal
• Cena
• Fleksibilnost
• Administracija
• Performanse
• Kontrola
12. Big Data alati - Ingestion
• Unos podataka u storage sloj
• Unošenje samo validnih podataka
• Unos podataka u realnom vremenu ili ne
• Korišćenje gotovih alata
13. Big Data alati - Ingestion
• Sqoop
• Flume
• Kafka
• Storm
14. Big Data alati - Storage
• Hadoop HDFS - velika brzina upisa, write once read
many…
• NoSQL Baza - brzo čitanje, operativna baza…
19. Big Data greške!
• Korišćenje operativne baze (npr. Mongo) kao Big
Data platforme.
• Prebacivanje relacionih baza u Hadoop za potrebe
obrade Hive-om (Hadoop nije zamena za RDBMS).
• Parčanje podataka u više “Data Lake”-ova.
• SQL orijentacija (Big Data analiza je moćnija ako se
kombinuje više alata, Hive(SQL), R, Pig,
MapReduce…)
23. HDinsight i Visual Studio
http://blogs.msdn.com/b/visualstudio/archive/2014/12/15/incorporate-big-data-within-your-visual-studio-app-using-azure-hdinsight.aspx