Big data i data science
Pojam, tehnologije, primeri
Startit
Big data i data science
Pojam, tehnologije, primeri
Startit
3 / 33
Sadržaj
• Uvod
• Distribuirani sistem datoteka
• MapReduce
• Big data frameworks
• Data science
• Eksterni izvori podataka
• Reference
Startit
Big data
• Francis X. Diebold Paul F. and Warren S.
Miller Professor of Economics School of Arts
and Sciences University of Pennsylvania
– "...the necessity of grappling with Big Data, and the
desirability of unlocking the information hidden within
it, is now a key theme in all the sciences —arguably
the key scientific theme of our times."
4 / 33Startit
Big data
• Tri izazova:
– Količina podataka (Volume)
– Brzina obrade podataka u odnosu na njeno
nastajanje (Velocity)
– Razlika u izvorima, formatu, kvalitetu i strukturi
podataka za obradu (Variety)
5 / 33Startit
Big Data
6 / 33Startit
7 / 33
Sadržaj
• Uvod
• Distribuirani sistem datoteka
• MapReduce
• Big data frameworks
• Data science
• Eksterni izvori podataka
• Reference
Startit
Motivacija
• Neki od zahteva koje treba zadovoljiti
– Smeštanje velikih datoteka (nekoliko GB)
– Otpornost na greške
– Čitanje i pisanje od strane puno klijenata
Koristiti super računar ili farmu jeftinih
računara?
8 / 33Startit
Distribuirani sistem datoteka
• Predstavlja sistem dototeka rasprostranjen
na farmi jeftinih računara koji obrazuju
klaster
• Pruža jednostavnu skalabilnost, otpornost na
greške, konkurentni pristup velikom broju
klijenata
• Brzo izvršavanje željene operacije (pisanja ili
čitanja)
9 / 33Startit
Distribuirani sistem datoteka
• Sastoji se iz:
– Glavnog čvora (master) – sadrži podatke o drugim
čvorovima
• Lakaciju delova datoteka (chunks), način deljenja datoteka u
chunk-ove i lokacije chunk-ova i njihovih kopija
– Podređeni čvorovi (chunkservers) – sadrže delove
datoteka i njihove verzije
10 / 33Startit
Distribuirani sistem datoteka
• Arhitektura distribuiranog sistema datoteka
11 / 33Startit
Distribuirani sistem datoteka
• Pisanje u distribuirani sistem datoteka
12 / 33Startit
13 / 33
Sadržaj
• Uvod
• Distribuirani sistem datoteka
• MapReduce
• Big data frameworks
• Data science
• Eksterni izvori podataka
• Reference
Startit
MapReduce
• Predstavlja programski model, čiji je cilj
obrada velike količine podataka
– putem paralelnog i distribuiranog algoritma koji se
izvršava na klasteru
– oslanjajući se na distribuirani sistem datoteka
• MR programski model vrši obradu u dva
koraka
– Map i Reduce koraku
14 / 33Startit
MapReduce
15 / 33Startit
16 / 33
Sadržaj
• Uvod
• Distribuirani sistem datoteka
• MapReduce
• Big data frameworks
• Data science
• Eksterni izvori podataka
• Reference
Startit
Big data frameworks
17 / 33Startit
Hadoop
• Predstavlja framework koji je zadužen za
skladištenje i obradu podataka na klasterima
jeftinog hardvera
• baziran je na MapReduce programskom
modelu
• Postoje razni DSL-ovi koji olakšavaju pisanje
MapReduce programa na Hadoopu poput
Apache Pig-a i Hive-a
18 / 33Startit
Apache Spark
• Za razliku od MapReduce paradigme
– gde se podaci koriste u memoriji samo za vreme
računanja Map ili Reduce koraka
• Apache Spark pruža klijentima mogućnost da
izvrše keširanje podataka ili međurezultata
– Na taj način lako i brzo izvršava iterativne algoritme
19 / 33Startit
Apache Storm
• Predstavlja distribuirani sistem koji vrši
obradu tokova podataka u realnom vremenu
• Koirsti se u realtime analizama, online
machine learning - u, kontinualnom
računanju, distribuiranim RPC-ovima i ETL-u
20 / 33Startit
Cloudera Distributed Hadoop (CDH)
21 / 33Startit
22 / 33
Sadržaj
• Uvod
• Distribuirani sistem datoteka
• MapReduce
• Big data frameworks
• Data science
• Eksterni izvori podataka
• Reference
Startit
Data science
• Predstavlja interdisciplinarnu oblast
– O naučnim metodama, procesima i sistemima za
izdvajanje znanja iz različitih oblika podataka
• Struktuiranih i nestruktuiranih
• Podrazumeva ekspertizu iz različitih oblasti
– Programiranje
– Matematika
– Poslovni procesi
23 / 33Startit
Data science
• Hal Varian, Google's Chief Economist, NYT:
– "The next sexy job"
– "The ability to take data—to be able to understand it,
to process it, to extract value from it, to visualize it, to
communicate it—that's going to be a hugely important
skill.„
• Mike Driscoll, CEO of metamarkets:
– "Data science, as it's practiced, is a blend of Red-Bull-
fueled hacking and espresso-inspired statistics." –
"Data science is the civil engineering of data. Its
acolytes possess a practical knowledge of tools &
materials, coupled with a theoretical understanding of
what's possible."
24 / 33Startit
Data science
25 / 33Startit
Data science
• Struktuiranje podataka (data jujitsu)
– Prikupljanje, scrap-ovanje, parsiranje, čišćenje,
integracija, restrukturiranje, perzistencija, filtriranje,
brisanje, kombinovanje, spajanje, provera, učitavanje
i oblikovanje podataka
• Analiza podataka
– Data mining, tradicionalna statistika
• Vizualizacija podataka
– Putem grafikona
26 / 33Startit
Data science u praksi
• Primena:
– Istraživanje mišljenja javnog mnjenja
– Analiza konkurentnosti tržišta
– Analiza poslovanja preduzeća
– ...
• Dobijanje odgovora na bilo koje pitanje koje
je bazirano na javno dostupnim podacima
27 / 33Startit
Data science u praksi
28 / 33Startit
Data science u praksi
29 / 33Startit
30 / 33
Sadržaj
• Uvod
• Distribuirani sistem datoteka
• MapReduce
• Big data frameworks
• Data science
• Eksterni izvori podataka
• Reference
Startit
Eksterni izvori podataka
• Twitter API
– Pruža kontinualan tok dela podataka sa Twitter-a
• Facebook graph
– Pruža pristup dela Facebook graph-a klijenta i
njegovih prijatelja
• Web crawler
– Scrapy, Apache Nutch
31 / 33Startit
32 / 33
Sadržaj
• Uvod
• Distribuirani sistem datoteka
• MapReduce
• Big data frameworks
• Data science
• Eksterni izvori podataka
• Reference
Startit
Reference
– Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung – The
Google file system
– Jeffrey Dean and Sanjay Ghemawat – MapReduce: Simplified
Data Processing on Large Clusters
– Roger D. Peng – R Programming for Data Science
– https://bigdatacoursespring2015.appspot.com/preview
– http://cloudera.com/
– http://www.cloudera.com/downloads/quickstart_vms/5-7.html
– https://hadoop.apache.org/
– https://spark.apache.org/
– https://storm.apache.org/
– https://dev.twitter.com/overview/api
– https://developers.facebook.com/docs/graph-api
– http://scrapy.org/doc/
– http://nutch.apache.org/
33 / 33Startit
Pitanja i komentari
?
Startit
Sadržaj
• Uvod
• Distribuirani sistem datoteka
• MapReduce
• Big data frameworks
• Data science
• Eksterni izvori podataka
• Reference
Startit
Big Data i data science
Pojam, tehnologije, primeri
Startit

Uvod u Big Data i nauku o podacima

  • 1.
    Big data idata science Pojam, tehnologije, primeri Startit
  • 2.
    Big data idata science Pojam, tehnologije, primeri Startit
  • 3.
    3 / 33 Sadržaj •Uvod • Distribuirani sistem datoteka • MapReduce • Big data frameworks • Data science • Eksterni izvori podataka • Reference Startit
  • 4.
    Big data • FrancisX. Diebold Paul F. and Warren S. Miller Professor of Economics School of Arts and Sciences University of Pennsylvania – "...the necessity of grappling with Big Data, and the desirability of unlocking the information hidden within it, is now a key theme in all the sciences —arguably the key scientific theme of our times." 4 / 33Startit
  • 5.
    Big data • Triizazova: – Količina podataka (Volume) – Brzina obrade podataka u odnosu na njeno nastajanje (Velocity) – Razlika u izvorima, formatu, kvalitetu i strukturi podataka za obradu (Variety) 5 / 33Startit
  • 6.
    Big Data 6 /33Startit
  • 7.
    7 / 33 Sadržaj •Uvod • Distribuirani sistem datoteka • MapReduce • Big data frameworks • Data science • Eksterni izvori podataka • Reference Startit
  • 8.
    Motivacija • Neki odzahteva koje treba zadovoljiti – Smeštanje velikih datoteka (nekoliko GB) – Otpornost na greške – Čitanje i pisanje od strane puno klijenata Koristiti super računar ili farmu jeftinih računara? 8 / 33Startit
  • 9.
    Distribuirani sistem datoteka •Predstavlja sistem dototeka rasprostranjen na farmi jeftinih računara koji obrazuju klaster • Pruža jednostavnu skalabilnost, otpornost na greške, konkurentni pristup velikom broju klijenata • Brzo izvršavanje željene operacije (pisanja ili čitanja) 9 / 33Startit
  • 10.
    Distribuirani sistem datoteka •Sastoji se iz: – Glavnog čvora (master) – sadrži podatke o drugim čvorovima • Lakaciju delova datoteka (chunks), način deljenja datoteka u chunk-ove i lokacije chunk-ova i njihovih kopija – Podređeni čvorovi (chunkservers) – sadrže delove datoteka i njihove verzije 10 / 33Startit
  • 11.
    Distribuirani sistem datoteka •Arhitektura distribuiranog sistema datoteka 11 / 33Startit
  • 12.
    Distribuirani sistem datoteka •Pisanje u distribuirani sistem datoteka 12 / 33Startit
  • 13.
    13 / 33 Sadržaj •Uvod • Distribuirani sistem datoteka • MapReduce • Big data frameworks • Data science • Eksterni izvori podataka • Reference Startit
  • 14.
    MapReduce • Predstavlja programskimodel, čiji je cilj obrada velike količine podataka – putem paralelnog i distribuiranog algoritma koji se izvršava na klasteru – oslanjajući se na distribuirani sistem datoteka • MR programski model vrši obradu u dva koraka – Map i Reduce koraku 14 / 33Startit
  • 15.
  • 16.
    16 / 33 Sadržaj •Uvod • Distribuirani sistem datoteka • MapReduce • Big data frameworks • Data science • Eksterni izvori podataka • Reference Startit
  • 17.
  • 18.
    Hadoop • Predstavlja frameworkkoji je zadužen za skladištenje i obradu podataka na klasterima jeftinog hardvera • baziran je na MapReduce programskom modelu • Postoje razni DSL-ovi koji olakšavaju pisanje MapReduce programa na Hadoopu poput Apache Pig-a i Hive-a 18 / 33Startit
  • 19.
    Apache Spark • Zarazliku od MapReduce paradigme – gde se podaci koriste u memoriji samo za vreme računanja Map ili Reduce koraka • Apache Spark pruža klijentima mogućnost da izvrše keširanje podataka ili međurezultata – Na taj način lako i brzo izvršava iterativne algoritme 19 / 33Startit
  • 20.
    Apache Storm • Predstavljadistribuirani sistem koji vrši obradu tokova podataka u realnom vremenu • Koirsti se u realtime analizama, online machine learning - u, kontinualnom računanju, distribuiranim RPC-ovima i ETL-u 20 / 33Startit
  • 21.
    Cloudera Distributed Hadoop(CDH) 21 / 33Startit
  • 22.
    22 / 33 Sadržaj •Uvod • Distribuirani sistem datoteka • MapReduce • Big data frameworks • Data science • Eksterni izvori podataka • Reference Startit
  • 23.
    Data science • Predstavljainterdisciplinarnu oblast – O naučnim metodama, procesima i sistemima za izdvajanje znanja iz različitih oblika podataka • Struktuiranih i nestruktuiranih • Podrazumeva ekspertizu iz različitih oblasti – Programiranje – Matematika – Poslovni procesi 23 / 33Startit
  • 24.
    Data science • HalVarian, Google's Chief Economist, NYT: – "The next sexy job" – "The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it—that's going to be a hugely important skill.„ • Mike Driscoll, CEO of metamarkets: – "Data science, as it's practiced, is a blend of Red-Bull- fueled hacking and espresso-inspired statistics." – "Data science is the civil engineering of data. Its acolytes possess a practical knowledge of tools & materials, coupled with a theoretical understanding of what's possible." 24 / 33Startit
  • 25.
  • 26.
    Data science • Struktuiranjepodataka (data jujitsu) – Prikupljanje, scrap-ovanje, parsiranje, čišćenje, integracija, restrukturiranje, perzistencija, filtriranje, brisanje, kombinovanje, spajanje, provera, učitavanje i oblikovanje podataka • Analiza podataka – Data mining, tradicionalna statistika • Vizualizacija podataka – Putem grafikona 26 / 33Startit
  • 27.
    Data science upraksi • Primena: – Istraživanje mišljenja javnog mnjenja – Analiza konkurentnosti tržišta – Analiza poslovanja preduzeća – ... • Dobijanje odgovora na bilo koje pitanje koje je bazirano na javno dostupnim podacima 27 / 33Startit
  • 28.
    Data science upraksi 28 / 33Startit
  • 29.
    Data science upraksi 29 / 33Startit
  • 30.
    30 / 33 Sadržaj •Uvod • Distribuirani sistem datoteka • MapReduce • Big data frameworks • Data science • Eksterni izvori podataka • Reference Startit
  • 31.
    Eksterni izvori podataka •Twitter API – Pruža kontinualan tok dela podataka sa Twitter-a • Facebook graph – Pruža pristup dela Facebook graph-a klijenta i njegovih prijatelja • Web crawler – Scrapy, Apache Nutch 31 / 33Startit
  • 32.
    32 / 33 Sadržaj •Uvod • Distribuirani sistem datoteka • MapReduce • Big data frameworks • Data science • Eksterni izvori podataka • Reference Startit
  • 33.
    Reference – Sanjay Ghemawat,Howard Gobioff, and Shun-Tak Leung – The Google file system – Jeffrey Dean and Sanjay Ghemawat – MapReduce: Simplified Data Processing on Large Clusters – Roger D. Peng – R Programming for Data Science – https://bigdatacoursespring2015.appspot.com/preview – http://cloudera.com/ – http://www.cloudera.com/downloads/quickstart_vms/5-7.html – https://hadoop.apache.org/ – https://spark.apache.org/ – https://storm.apache.org/ – https://dev.twitter.com/overview/api – https://developers.facebook.com/docs/graph-api – http://scrapy.org/doc/ – http://nutch.apache.org/ 33 / 33Startit
  • 34.
  • 35.
    Sadržaj • Uvod • Distribuiranisistem datoteka • MapReduce • Big data frameworks • Data science • Eksterni izvori podataka • Reference Startit
  • 36.
    Big Data idata science Pojam, tehnologije, primeri Startit