3. Erilaisia tulkintoja
• Big Data ilmiönä
– Tiedon määrän räjähdysmäinen kasvu
• Big Data mahdollisuutena
– Data, jonka tallentaminen ja analysointi ei aikaisemmin taloudellisesti kannattavaa
• Big Data teknologiana
– Uudet teknologiat haluavat erottautua perinteisistä kilpailijoista
• Uusi termi vanhalle asialle
– Edistyksellinen analytiikka, tai oikeastaan mikä tahansa analytiikka
4. Määritelmiä
… kun data itsessään on osa ongelmaa
Too big to fit on a server, too unstructured to fit into conventional
databases, too fast-moving to be easily warehoused
Big data is high-volume, -velocity and -variety information
assets that demand cost-effective, innovative forms of
information processing for enhanced insight and decision
making.
5. Kolme dataan liittyvää haastetta
• Volume
– Tieto ei mahdu yhdelle palvelimelle, perinteiset relaatiokannat eivät skaalaudu
• Velocity
– Tietoa kyettävä prosessoimaan palveluväylän suorituskykyä nopeammin
• Variety
– Tieto ei rakenteista: vapaatekstiä, kuvia, ääntä, videota
• Mikä on ratkaisu näille haasteille?
8. Hadoop
• Hadoop on tietokoneklusteri, joka koostuu kahdesta
komponentista:
– Hajautettu tiedostojärjestelmä HDFS
• Suunniteltu kuluttajaraudalla ajettavaksi luotettavaksi
tallennusmekanismiksi
• Laitteiston hajoaminen huomioitu suunnittelussa
– Java ohjelmointikehys tallennetun tiedon käsittelyyn
(MapReduce)
Volume
9. NoSQL tietokannat
• No SQL? Not only SQL?
• ~ Mikä tahansa paitsi relaatiotietokanta
• Suunniteltu horisontaalisesti skaalautuvaksi
• Joustava tietorakenne
• Ei yhtä yleistä kyselykieltä
• Ei relaatioita
• Ei transaktioita
• Ei noudata ACID-periaatetta
• Relaatiokantojen joistakin hyvistä ominaisuuksista luovuttu paremman suorituskyvyn
vuoksi
Volume
13. App 1
App 2
App 1 App 2
App 1
App 2
DB 1 DB 2
Haaste
Velocity
Hajautettujen viestijonopohjaisten sovellusten ylläpito työlästä.
Viestijonojen konfigurointi ja sovellusklusterien ylläpito vie työaikaa sovelluskehitykseltä.
14. Mitä on stream computing?
“A high-performance computer system that analyzes multiple
data streams from many sources, live”
• “Reaaliaikaisen laskennan Hadoop”
– Verkko viestijonoja ja viestejä käsitteleviä sovelluksia klusterissa
– Klusterin konfiguraation hallinta tuotteen toimesta
• Tuotteita:
– Apache Storm
– Yahoo! S4
– IBM InfoSphere Streams
Velocity
16. Mitä on koneoppiminen?
Variety
• “Field of study that gives computers the ability to learn without
being explicitly programmed.” Arthur Samuel 1959
• Tekoälyn osa-alue
• Datasta oppivien järjestelmien suunnittelua ja rakentamista
23. Big Data-ratkaisun toteuttaminen
Kysy kysymys
Mitä haluaisit tietää tai ennustaa jos
sinulla olisi käytettävissä kaikki maailman data?
Mikä on business case?
Hanki data
Mitä dataa tarvitaan ja mistä / miten se saadaan?
Missä muodossa se on?
Kuinka paljon sitä on?
Kuinka usein se päivittyy?
Business
Määrittele
arkkitehtuuri ja
governance
Mihin data tallennetaan?
Data quality, security,…
Data Scientist / Analyst
IT Architect
Muodosta
analyysi
Kuinka luotettavaa data on?
Tutki ja visualisoi dataa
Rakenna ja validoi malli / analyysi
Integroi
olemassa oleviin
järjestelmiin
Mitkä sovellukset käyttävät analyysin tulosta?
Mihin järjestelmiin tulokset pitää ladata?
Jalkauta
operatiiviseen
toimintaan
Koulutus, tiedotus, …