SlideShare a Scribd company logo
1 of 54
Download to read offline
Big DataMEGATRENDI 2011 ⇒
"The next frontier for innovation,
competition and productivity"
“Cloud Computing” ja “Big Data”
cloudcom
puting
big data
Google-haut vuosina 2009-2014
Määritelmä ja
viitekehys
Mitä tarkoittaa big data?
1. Havaintoa siitä, että dataa on koko ajan määrällisesti
enemmän ja sen muoto ja laatu vaihtelevat suuresti
2. Haastetta hallita ja hyödyntää tuota tietomäärää
perinteisten järjestelmien ja ratkaisujen avulla
3. Ratkaisuja (tuotteet, palvelut, ohjelmistot,
teknologiat), joilla tuohon haasteeseen tartutaan
Big datan 3 V:tä
Volume Tietoa (dataa) on koko ajan enemmän. Se pitäisi
pystyä tallentamaan ja hyödyntämään.
Velocity Tietoa (dataa) tulee koko ajan nopeammin.
Päätöksiä pitäisi pystyä tekemään nopeasti.
Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista
lähteistä, eikä se istu hyvin nykyisiin
toimintamalleihin.
Veracity, Value, Virality, Validity, Viscosity, Vulnerability…
myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.
= paljon nopeasti lisääntyvää
monimuotoista dataa
Big datan 3 V:tä
velocity → volume→
variety→
Big data
● IDC sanoo (04/2014), että vuonna 2014 markkinat ovat 14
mrd $ ja kasvavat vuonna 2017 tasolle 32 mrd $
● Gartner sanoo (10/2012), että vuonna 2012 big data -
markkinat olivat jo 28 mrd $
● McKinseyn raportissa (05/2011) arvioitiin big datan
vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olleen
jo vuonna 2011 arviolta 1 000 mrd €
Big data -markkinoiden koko
Muita käsitteitä?
Ilmiöllä on monta nimeä
● Internet of Things + Social Media
○ esineiden internet + ihmisten internet
● Big data
○ massadata yms. (mm. McKinsey)
● Internet of Everything
○ kaiken internet (Gartner → ihmiset, esineet, informaatio, paikat)
● Industrial Internet
○ teollinen internet (General Electric)
● Industrial Internet of Things
○ asioiden teollinen internet (Accenture)
Data on öljy?
Datan määrä maailmassa
v 2011
2 ZB
v 2020
v 2030
44 ZB 1 333 ZB
Esimerkkejä määrästä ja tiedon lähteistä
PB
TB
GB
MB
Monimuotoisuus
Big data
Web
CRM
ERP Purchase detail
Purchase record
Payment record
Segmentation
Offer details
Customer touches
Support contacts
Web logs
Offer history
A/B testing
Dynamic pricing
Affiliate networks
Search marketing
Behavioral
targeting
Dynamic funnels
Sensors / RFID / Devices
Mobile Web
User click stream
Sentiment
User generated content
Social interactions & feeds
Spatial & GPS coordinates
External demographics
Business data feeds
HD video, audio, images
Speech to text
Product / service logs
SMS / MMS
Määrä
Lähde: mukaillen Yli-Pietilä, Backman & Ahlgren
Data
Informaatio
Tietämys
Älykkyys
Näkemys
Ymmärrys
Viisaus
ARVO
Tiedon tasot
Lähde: mukaillen Laihonen et al. Tuomi, Thierauf Ackoff
Analytiikan askeleet kohti kilpailuetua
kohti reaaliaikaisuutta
Raportointi Ennustaminen Automatisointi
Datan lähteet
Mistä sitä dataa oikein tulee?
Saatavilla olevat
datavarannot
(avoin data, datamarkkinat)
Potentiaalinen data
(ei vielä kerätä)
Digitaalinen todellisuus
(internet, sosiaalinen media)
Fyysinen todellisuus
(sensorit, esineiden internet)
Organisaation hallussa tai
saatavilla oleva data
(ERP, CRM, DW, RDBMS)
Suppein näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 0,2 %
maailman organisaatioista
“Eihän meillä edes ole big dataa!”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
Suppeahko näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 3 %
maailman organisaatioista
“Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 22 %
maailman organisaatioista
“Voisimmeko kerätä enemmän dataa toiminnastamme?”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 72 %
maailman organisaatioista
“Verkottunut yritys ei voi piilotella dataansa!”
Organisaatio
Kumppani Kumppani
Kumppani Kumppani
Kumppani Kumppani
Kokonaisvaltainen näkökulma dataan
“Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!”
Tästä näkökulmasta big data koskettaa ilmiönä n. 98 %
maailman organisaatioista
Avoin data
Datamarkkinat
Tietosuoja?
● Avoimuuteen patistetaan
○ Esim. PSI-direktiivi (julk 06/2013, implementointi 07/2015)
● Tietosuoja huolettaa
○ Esim. oikeus poistaa omat tietonsa Googlesta
● Henkilötietojen omistajuus?
○ Lue LVM:n MyData-selvitys
Tietosuoja ja yksityisyys iso huoli
My Data on henkilötietojen osajoukko
Mikäli yksilöllä ei ole mahdollisuutta hyödyntää
ja hallinnoida jonkun muun hänestä keräämää
henkilötietoa, niin sitä ei voida kutsua my dataksi.
Jos hyödyntämisen ja hallinnan mahdollisuudet
ovat kaikkiin henkilötietoihin, voivat my data ja
henkilötiedot olla myös sama asia.
Uusi ammatti:
datatieteilijä
Toistaiseksi datatieteen
osaamisvaatimuksia voidaan harvoin
täyttää vain yhden työntekijän
voimin. Organisaation data-analyysi -
toiminnot ovatkin tavallisimmin
koottu tiimeihin.
Datatieteilijän rooli big datassa
Lähde: NIST / USA
Big datan teknologiat
● Hadoop (tunnetuin yksittäinen uusi teknologia)
● NoSQL (uudenlaiset tietokannat)
● Appliance (valmisratkaisut)
● In-memory -analytics
● Pilvipalvelut
○ Amazon
○ Google
○ IBM
○ Microsoft
Big Data
Landscape
Teknologiakirjo kasvaa..
ERP
SCM
Images
Audio
Video
Logs
Text
Web & Social
Input
Marketing
Analytics
Applicatios
Business
Intelligence
Data Mining
Math & Stats
Analytic tools
Marketing
Executives
Frontline
Employees
Business
Analysts
Statisticians
Data
Scientists
Engineers
Event Processing
Real Time
Data Platform
Store and Refine
Integrated Data
Warehouse
Operationalize
Discovery Platform
Exploration
Lähde: mukaillen Teradata
HadoopBig datan teollisuusstandardi
Googlen julkaisu Vuosi
Avoimen lähdekoodin
projekti
Vuosi Mihin tarkoitukseen?
GFS ja
MapReduce
2003,
2004
Hadoop 2006
Datan tallentaminen ja analysointi
(klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL)
Spanner 2012 ? ???? Transaktiot
Innoittajana Google
Mitä Hadoop tekee?
Hadoop valjastaa palvelinklusterin vastaamaan datan
tallennuksesta ja prosessoinnista.
Miksi haluaisin Hadoop-klusterin?
- edullista tallennustilaa (mikä vaan x86-palvelin käy)
- tehokasta prosessointia (rinnakkaisuus)
- toimintavarmuutta (moninkertainen tallennus)
- skaalautuvuutta (klusteria helppo laajentaa)
- ekosysteemit, lisäosia ja laajennoksia!
Klusteri?
Klusteri = joukko toisiinsa kytkettyjä
palvelimia (nodes), jotka suorittavat
annettua tehtävää hajautettuna,
mutta näkyvät käyttäjälle
yhtenä järjestelmänä
Hadoop sopii datan
tallentamiseen
Hadoop Distributed File System: HDFS
Node 1
data piece
Big Data
(= 1 or more files)
data piece
data piece
Node 2
data piece
data piece
data piece
Node 3
data piece
data piece
data piece
Node 4
data piece
data piece
data piece
HDFS
Lähde: mukaillen www.glennklockwood.com
Hadoop sopii datan
prosessointiin
Hadoop: Prosessoinnin logiikka
MapReduce: Viedään prosessointi datan luo!
Lähde: www.glennklockwood.com
“Map/reduce is ideally suited for
trivially parallel calculations on
large quantities of data.”
Hadoopin roolin
ennustetaan olevan
keskeinen
Hadoopin asema big data -ilmiössä
Hadoop
Datan määrä
Datanrakenteisuus
2 Tb1 Gb 20 Tb 200 Tb
HadoopMistä sellaisen saa?
Neljä vaihtoehtoa
1. hadoop.apache.org
2. Valmis jakelu
3. Hadoop osana laajempaa kokonaisuutta
4. Pilvipalvelu
Hadoopin käyttöönotto
1. hadoop.apache.org
“Harva organisaatio päätyy käyttämään Hadoopia näin.
Startup-yritysten, tutkimuslaitosten ja yliopistojen
vaihtoehto.”
Vahvuudet (+) Ilmainen
Heikkoudet (-) Joutuu tekemään kaiken itse
2. Valmis jakelu
Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja
optimoitu suorituskyky
Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen
“Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön.
Objektiivinen vertailu hankalaa, tietoa vaikea saada. Vaatii
vahvaa kehitystiimiä.”
3. Hadoop osana kokonaisuutta
Vahvuudet (+) Kehittyneet ominaisuudet,
integroitavuus, tuki- ja partneriverkosto
Heikkoudet (-) Kallis, vendor lock-in
“Tämä on se todennäköinen tapa, jolla Hadoop hiipii
yrityksiin, joilla on voimakas toimittajasuhde. Hadoop
osana isompaa kokonaisuutta.”
Vahvuudet (+) Nopea käyttöönotto, joustavuus,
kustannusten ennakointi
Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää
osaamisvaatimuksia
“Helpoin, riskittömin ja nopein tapa pilotointiin,
demoamiseen ja testaamiseen. Todennäköisesti
tulevaisuudessa yhä merkittävämpi vaihtoehto myös
tuotantokäyttöön.”
3. Hadoop pilvipalveluna
Pilvipalvelut
“Vuokrataan tallennustila ja
laskentateho”
2008
2009
2010
2011
2012
2013
2014
Cloud computing in Gartner
Hype Cycle for Emerging Technologies
2008-2014
2015
Aika
Odotukset
Pilvipalvelut vahvassa kasvussa!
Company Market Share Growth-% (Q1 2014)
Amazon 28 % 67 %
Microsoft 8 % 154 %
IBM 7 % 80 %
Salesforce 6 % 37 %
Google 5 % 60 %
Synergy Research Group
Datan analysoiminen pilvessä
Terasortin maailmanennätys Googlen pilvipalvelussa:
“Since the servers used in MapR’s world record were
virtually instantiated in the Cloud, the cost estimate for
running the TeraSort was about $9 compared to the over
$5M estimate to run the previous record.”
joustavuudesta!
Tästä on kysymys:
$ 9 vs. $ 5 000 000
Big data Suomessa
Ivorio toteutti Liikenne- ja viestintäministeriölle
selvityksen suomalaisesta big data -markkinasta.
Mukana olivat julkishallinnon, yritysten,
palveluntarjoajien ja oppilaitosten edustajat.
http://www.lvm.fi/julkaisu/4156840/big-data-suomessa-keskustelualoite
Big data hyödyntäminen
Liikenne- ja viestintäministeriön big datan käyttö
-työryhmän raportissa esitetään luonnos
kansalliseksi strategiaksi ja ehdotuksia
kansallisiksi strategisiksi toimenpiteiksi, joiden
avulla voidaan lisätä suurten tietoaineistojen
hyödyntämistä Suomessa.
http://www.lvm.fi/julkaisu/4417803/big-datan-hyodyntaminen
Kiitos!
Immo Salo
@immon
fi.linkedin.com/in/immosalo
immo.salo@ivorio.fi
045 1233 563

More Related Content

What's hot

Big Data -esitys, Arcada ammattikorkeakoulu
Big Data -esitys, Arcada ammattikorkeakouluBig Data -esitys, Arcada ammattikorkeakoulu
Big Data -esitys, Arcada ammattikorkeakouluImmo Salo
 
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...ivoriofinland
 
Big Data -tilaisuus, 19.03.2013
Big Data -tilaisuus, 19.03.2013Big Data -tilaisuus, 19.03.2013
Big Data -tilaisuus, 19.03.2013ivoriofinland
 
Pilvi ja big data 3.10.2013, Ivorio
Pilvi ja big data 3.10.2013, IvorioPilvi ja big data 3.10.2013, Ivorio
Pilvi ja big data 3.10.2013, Ivorioivoriofinland
 
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?Mika Aho
 
Tilastokeskuksen big data -hankkeet, Pasi Piela
Tilastokeskuksen big data -hankkeet, Pasi PielaTilastokeskuksen big data -hankkeet, Pasi Piela
Tilastokeskuksen big data -hankkeet, Pasi PielaTilastokeskus
 
Isosta datasta uuteen dataan? Timo Koskimäki
Isosta datasta uuteen dataan? Timo KoskimäkiIsosta datasta uuteen dataan? Timo Koskimäki
Isosta datasta uuteen dataan? Timo KoskimäkiTilastokeskus
 
Big Data kohtaa Master Datan
Big Data kohtaa Master DatanBig Data kohtaa Master Datan
Big Data kohtaa Master DatanLoihde Advisory
 
Eväitä edistyneen analytiikan hyödyntämiseen
Eväitä edistyneen analytiikan hyödyntämiseenEväitä edistyneen analytiikan hyödyntämiseen
Eväitä edistyneen analytiikan hyödyntämiseenMika Aho
 
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo SaloPilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo SaloImmo Salo
 
Big data koskettaa kaikkia
Big data koskettaa kaikkiaBig data koskettaa kaikkia
Big data koskettaa kaikkiaivoriofinland
 
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...Solutive Oy
 
Big datan ja analytiikkamaailman käsitteiden läpikäyminen
Big datan ja analytiikkamaailman käsitteiden läpikäyminenBig datan ja analytiikkamaailman käsitteiden läpikäyminen
Big datan ja analytiikkamaailman käsitteiden läpikäyminenJari Jussila
 
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...ivoriofinland
 
6Aika_presentaatio_Mika_Honkanen
6Aika_presentaatio_Mika_Honkanen6Aika_presentaatio_Mika_Honkanen
6Aika_presentaatio_Mika_HonkanenMika Honkanen
 
Analytiikka toiminnan kehittämisessä
Analytiikka toiminnan kehittämisessäAnalytiikka toiminnan kehittämisessä
Analytiikka toiminnan kehittämisessäJari Jussila
 
Tutustuminen data-analytiikan ja big datan maailmaan
Tutustuminen data-analytiikan ja big datan maailmaanTutustuminen data-analytiikan ja big datan maailmaan
Tutustuminen data-analytiikan ja big datan maailmaanJari Jussila
 
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...ivoriofinland
 

What's hot (20)

Big Data -esitys, Arcada ammattikorkeakoulu
Big Data -esitys, Arcada ammattikorkeakouluBig Data -esitys, Arcada ammattikorkeakoulu
Big Data -esitys, Arcada ammattikorkeakoulu
 
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
 
Big Data -tilaisuus, 19.03.2013
Big Data -tilaisuus, 19.03.2013Big Data -tilaisuus, 19.03.2013
Big Data -tilaisuus, 19.03.2013
 
Pilvi ja big data 3.10.2013, Ivorio
Pilvi ja big data 3.10.2013, IvorioPilvi ja big data 3.10.2013, Ivorio
Pilvi ja big data 3.10.2013, Ivorio
 
BiFF_avaus_20151029
BiFF_avaus_20151029BiFF_avaus_20151029
BiFF_avaus_20151029
 
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
 
Tilastokeskuksen big data -hankkeet, Pasi Piela
Tilastokeskuksen big data -hankkeet, Pasi PielaTilastokeskuksen big data -hankkeet, Pasi Piela
Tilastokeskuksen big data -hankkeet, Pasi Piela
 
Isosta datasta uuteen dataan? Timo Koskimäki
Isosta datasta uuteen dataan? Timo KoskimäkiIsosta datasta uuteen dataan? Timo Koskimäki
Isosta datasta uuteen dataan? Timo Koskimäki
 
Big Data kohtaa Master Datan
Big Data kohtaa Master DatanBig Data kohtaa Master Datan
Big Data kohtaa Master Datan
 
Hri vantaa-avoin tieto-joulu2012-valmis
Hri vantaa-avoin tieto-joulu2012-valmisHri vantaa-avoin tieto-joulu2012-valmis
Hri vantaa-avoin tieto-joulu2012-valmis
 
Eväitä edistyneen analytiikan hyödyntämiseen
Eväitä edistyneen analytiikan hyödyntämiseenEväitä edistyneen analytiikan hyödyntämiseen
Eväitä edistyneen analytiikan hyödyntämiseen
 
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo SaloPilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
 
Big data koskettaa kaikkia
Big data koskettaa kaikkiaBig data koskettaa kaikkia
Big data koskettaa kaikkia
 
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...
 
Big datan ja analytiikkamaailman käsitteiden läpikäyminen
Big datan ja analytiikkamaailman käsitteiden läpikäyminenBig datan ja analytiikkamaailman käsitteiden läpikäyminen
Big datan ja analytiikkamaailman käsitteiden läpikäyminen
 
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
 
6Aika_presentaatio_Mika_Honkanen
6Aika_presentaatio_Mika_Honkanen6Aika_presentaatio_Mika_Honkanen
6Aika_presentaatio_Mika_Honkanen
 
Analytiikka toiminnan kehittämisessä
Analytiikka toiminnan kehittämisessäAnalytiikka toiminnan kehittämisessä
Analytiikka toiminnan kehittämisessä
 
Tutustuminen data-analytiikan ja big datan maailmaan
Tutustuminen data-analytiikan ja big datan maailmaanTutustuminen data-analytiikan ja big datan maailmaan
Tutustuminen data-analytiikan ja big datan maailmaan
 
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
 

Similar to Big data -esitys, joulukuu 2014

Big data -tilaisuus, 19.03.2013 IBM:llä
Big data -tilaisuus, 19.03.2013 IBM:lläBig data -tilaisuus, 19.03.2013 IBM:llä
Big data -tilaisuus, 19.03.2013 IBM:lläivoriofinland
 
100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova
100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova
100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero HanhirovaGapps
 
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...BearingPoint Finland
 
Kärkihankkeen esittely, Taru Rastas
Kärkihankkeen esittely, Taru Rastas Kärkihankkeen esittely, Taru Rastas
Kärkihankkeen esittely, Taru Rastas Tilastokeskus
 
Business models Julkinen data
Business models Julkinen dataBusiness models Julkinen data
Business models Julkinen dataFloApps
 
Julkinen Data Business mallit
Julkinen Data Business mallitJulkinen Data Business mallit
Julkinen Data Business mallitFloApps
 
Kasvua datasta asml_2015
Kasvua datasta asml_2015Kasvua datasta asml_2015
Kasvua datasta asml_2015ASML
 
Tiedolla johtamisesta tiedolla tekemiseen
Tiedolla johtamisesta tiedolla tekemiseenTiedolla johtamisesta tiedolla tekemiseen
Tiedolla johtamisesta tiedolla tekemiseenJyrki Kasvi
 
TietRa-projekti (Tietotyöratkaisujen ekosysteemi)
TietRa-projekti (Tietotyöratkaisujen ekosysteemi)TietRa-projekti (Tietotyöratkaisujen ekosysteemi)
TietRa-projekti (Tietotyöratkaisujen ekosysteemi)Leena Kanerva
 
Liiketoiminta alustat webinaari 21.3.2017 : Accountor Enterprise Solutions
Liiketoiminta alustat webinaari 21.3.2017 : Accountor Enterprise SolutionsLiiketoiminta alustat webinaari 21.3.2017 : Accountor Enterprise Solutions
Liiketoiminta alustat webinaari 21.3.2017 : Accountor Enterprise SolutionsAccountor Enterprise Solutions Oy
 
Ketterän omistajuuden abc_ruuskanen
Ketterän omistajuuden abc_ruuskanenKetterän omistajuuden abc_ruuskanen
Ketterän omistajuuden abc_ruuskanenJani Ruuskanen
 
Datajournalimin työpaja Apps4Finland 2011
Datajournalimin työpaja Apps4Finland 2011Datajournalimin työpaja Apps4Finland 2011
Datajournalimin työpaja Apps4Finland 2011Louhos
 
Rpresentation
RpresentationRpresentation
RpresentationLeo Lahti
 
Mitä ottaa huomioon modernin CMS:n hankinnassa
Mitä ottaa huomioon modernin CMS:n hankinnassaMitä ottaa huomioon modernin CMS:n hankinnassa
Mitä ottaa huomioon modernin CMS:n hankinnassaNorth Patrol
 
Tiedolla johtamisen tulevaisuus ja avoin data, Mikko Babitzin
Tiedolla johtamisen tulevaisuus ja avoin data, Mikko BabitzinTiedolla johtamisen tulevaisuus ja avoin data, Mikko Babitzin
Tiedolla johtamisen tulevaisuus ja avoin data, Mikko BabitzinTilastokeskus
 
Tiedolla johtaminen ja data analytiikan työkalut
Tiedolla johtaminen ja data analytiikan työkalutTiedolla johtaminen ja data analytiikan työkalut
Tiedolla johtaminen ja data analytiikan työkalutHAMK Design Factory
 
Avoin tieto laadukkaaksi_talent_base_oy_nino_ilveskero
Avoin tieto laadukkaaksi_talent_base_oy_nino_ilveskeroAvoin tieto laadukkaaksi_talent_base_oy_nino_ilveskero
Avoin tieto laadukkaaksi_talent_base_oy_nino_ilveskeroFloApps
 
DiViA-esitys, Personoitu digitaalinen asiakasdialogi (atBusiness)
DiViA-esitys, Personoitu digitaalinen asiakasdialogi (atBusiness)DiViA-esitys, Personoitu digitaalinen asiakasdialogi (atBusiness)
DiViA-esitys, Personoitu digitaalinen asiakasdialogi (atBusiness)Rami Karhu
 

Similar to Big data -esitys, joulukuu 2014 (20)

Big data -tilaisuus, 19.03.2013 IBM:llä
Big data -tilaisuus, 19.03.2013 IBM:lläBig data -tilaisuus, 19.03.2013 IBM:llä
Big data -tilaisuus, 19.03.2013 IBM:llä
 
100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova
100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova
100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova
 
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...
 
Kärkihankkeen esittely, Taru Rastas
Kärkihankkeen esittely, Taru Rastas Kärkihankkeen esittely, Taru Rastas
Kärkihankkeen esittely, Taru Rastas
 
Business models Julkinen data
Business models Julkinen dataBusiness models Julkinen data
Business models Julkinen data
 
Julkinen Data Business mallit
Julkinen Data Business mallitJulkinen Data Business mallit
Julkinen Data Business mallit
 
Kasvua datasta asml_2015
Kasvua datasta asml_2015Kasvua datasta asml_2015
Kasvua datasta asml_2015
 
Tiedolla johtamisesta tiedolla tekemiseen
Tiedolla johtamisesta tiedolla tekemiseenTiedolla johtamisesta tiedolla tekemiseen
Tiedolla johtamisesta tiedolla tekemiseen
 
TietRa-projekti (Tietotyöratkaisujen ekosysteemi)
TietRa-projekti (Tietotyöratkaisujen ekosysteemi)TietRa-projekti (Tietotyöratkaisujen ekosysteemi)
TietRa-projekti (Tietotyöratkaisujen ekosysteemi)
 
Liiketoiminta alustat webinaari 21.3.2017 : Accountor Enterprise Solutions
Liiketoiminta alustat webinaari 21.3.2017 : Accountor Enterprise SolutionsLiiketoiminta alustat webinaari 21.3.2017 : Accountor Enterprise Solutions
Liiketoiminta alustat webinaari 21.3.2017 : Accountor Enterprise Solutions
 
Teknologiapaiva 13012021-teknologiatoimittajien yhteinen arvolupaus ja liiket...
Teknologiapaiva 13012021-teknologiatoimittajien yhteinen arvolupaus ja liiket...Teknologiapaiva 13012021-teknologiatoimittajien yhteinen arvolupaus ja liiket...
Teknologiapaiva 13012021-teknologiatoimittajien yhteinen arvolupaus ja liiket...
 
Ketterän omistajuuden abc_ruuskanen
Ketterän omistajuuden abc_ruuskanenKetterän omistajuuden abc_ruuskanen
Ketterän omistajuuden abc_ruuskanen
 
Datajournalimin työpaja Apps4Finland 2011
Datajournalimin työpaja Apps4Finland 2011Datajournalimin työpaja Apps4Finland 2011
Datajournalimin työpaja Apps4Finland 2011
 
Rpresentation
RpresentationRpresentation
Rpresentation
 
Mitä ottaa huomioon modernin CMS:n hankinnassa
Mitä ottaa huomioon modernin CMS:n hankinnassaMitä ottaa huomioon modernin CMS:n hankinnassa
Mitä ottaa huomioon modernin CMS:n hankinnassa
 
Tiedolla johtamisen tulevaisuus ja avoin data, Mikko Babitzin
Tiedolla johtamisen tulevaisuus ja avoin data, Mikko BabitzinTiedolla johtamisen tulevaisuus ja avoin data, Mikko Babitzin
Tiedolla johtamisen tulevaisuus ja avoin data, Mikko Babitzin
 
Tiedolla johtaminen ja data analytiikan työkalut
Tiedolla johtaminen ja data analytiikan työkalutTiedolla johtaminen ja data analytiikan työkalut
Tiedolla johtaminen ja data analytiikan työkalut
 
Avoin tieto laadukkaaksi_talent_base_oy_nino_ilveskero
Avoin tieto laadukkaaksi_talent_base_oy_nino_ilveskeroAvoin tieto laadukkaaksi_talent_base_oy_nino_ilveskero
Avoin tieto laadukkaaksi_talent_base_oy_nino_ilveskero
 
Teemu Ropponen
Teemu RopponenTeemu Ropponen
Teemu Ropponen
 
DiViA-esitys, Personoitu digitaalinen asiakasdialogi (atBusiness)
DiViA-esitys, Personoitu digitaalinen asiakasdialogi (atBusiness)DiViA-esitys, Personoitu digitaalinen asiakasdialogi (atBusiness)
DiViA-esitys, Personoitu digitaalinen asiakasdialogi (atBusiness)
 

Big data -esitys, joulukuu 2014

  • 1.
  • 2. Big DataMEGATRENDI 2011 ⇒ "The next frontier for innovation, competition and productivity"
  • 3. “Cloud Computing” ja “Big Data” cloudcom puting big data Google-haut vuosina 2009-2014
  • 5. Mitä tarkoittaa big data? 1. Havaintoa siitä, että dataa on koko ajan määrällisesti enemmän ja sen muoto ja laatu vaihtelevat suuresti 2. Haastetta hallita ja hyödyntää tuota tietomäärää perinteisten järjestelmien ja ratkaisujen avulla 3. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan
  • 6. Big datan 3 V:tä Volume Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään. Velocity Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti. Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin. Veracity, Value, Virality, Validity, Viscosity, Vulnerability… myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.
  • 7. = paljon nopeasti lisääntyvää monimuotoista dataa Big datan 3 V:tä velocity → volume→ variety→ Big data
  • 8. ● IDC sanoo (04/2014), että vuonna 2014 markkinat ovat 14 mrd $ ja kasvavat vuonna 2017 tasolle 32 mrd $ ● Gartner sanoo (10/2012), että vuonna 2012 big data - markkinat olivat jo 28 mrd $ ● McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olleen jo vuonna 2011 arviolta 1 000 mrd € Big data -markkinoiden koko
  • 10. Ilmiöllä on monta nimeä ● Internet of Things + Social Media ○ esineiden internet + ihmisten internet ● Big data ○ massadata yms. (mm. McKinsey) ● Internet of Everything ○ kaiken internet (Gartner → ihmiset, esineet, informaatio, paikat) ● Industrial Internet ○ teollinen internet (General Electric) ● Industrial Internet of Things ○ asioiden teollinen internet (Accenture)
  • 12. Datan määrä maailmassa v 2011 2 ZB v 2020 v 2030 44 ZB 1 333 ZB
  • 13. Esimerkkejä määrästä ja tiedon lähteistä PB TB GB MB Monimuotoisuus Big data Web CRM ERP Purchase detail Purchase record Payment record Segmentation Offer details Customer touches Support contacts Web logs Offer history A/B testing Dynamic pricing Affiliate networks Search marketing Behavioral targeting Dynamic funnels Sensors / RFID / Devices Mobile Web User click stream Sentiment User generated content Social interactions & feeds Spatial & GPS coordinates External demographics Business data feeds HD video, audio, images Speech to text Product / service logs SMS / MMS Määrä Lähde: mukaillen Yli-Pietilä, Backman & Ahlgren
  • 15. Analytiikan askeleet kohti kilpailuetua kohti reaaliaikaisuutta Raportointi Ennustaminen Automatisointi
  • 17. Mistä sitä dataa oikein tulee? Saatavilla olevat datavarannot (avoin data, datamarkkinat) Potentiaalinen data (ei vielä kerätä) Digitaalinen todellisuus (internet, sosiaalinen media) Fyysinen todellisuus (sensorit, esineiden internet) Organisaation hallussa tai saatavilla oleva data (ERP, CRM, DW, RDBMS)
  • 18. Suppein näkökulma dataan Tästä näkökulmasta big data koskettaa ilmiönä n. 0,2 % maailman organisaatioista “Eihän meillä edes ole big dataa!” Yrityksen oma strukturoitu data Yrityksen vielä hyödyntämätön data Yrityksen vielä keräämätön data
  • 19. Suppeahko näkökulma dataan Tästä näkökulmasta big data koskettaa ilmiönä n. 3 % maailman organisaatioista “Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?” Yrityksen oma strukturoitu data Yrityksen vielä hyödyntämätön data Yrityksen vielä keräämätön data
  • 20. Verkostoitunut näkökulma dataan Tästä näkökulmasta big data koskettaa ilmiönä n. 22 % maailman organisaatioista “Voisimmeko kerätä enemmän dataa toiminnastamme?” Yrityksen oma strukturoitu data Yrityksen vielä hyödyntämätön data Yrityksen vielä keräämätön data
  • 21. Verkostoitunut näkökulma dataan Tästä näkökulmasta big data koskettaa ilmiönä n. 72 % maailman organisaatioista “Verkottunut yritys ei voi piilotella dataansa!” Organisaatio Kumppani Kumppani Kumppani Kumppani Kumppani Kumppani
  • 22. Kokonaisvaltainen näkökulma dataan “Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!” Tästä näkökulmasta big data koskettaa ilmiönä n. 98 % maailman organisaatioista Avoin data Datamarkkinat
  • 24. ● Avoimuuteen patistetaan ○ Esim. PSI-direktiivi (julk 06/2013, implementointi 07/2015) ● Tietosuoja huolettaa ○ Esim. oikeus poistaa omat tietonsa Googlesta ● Henkilötietojen omistajuus? ○ Lue LVM:n MyData-selvitys Tietosuoja ja yksityisyys iso huoli
  • 25. My Data on henkilötietojen osajoukko Mikäli yksilöllä ei ole mahdollisuutta hyödyntää ja hallinnoida jonkun muun hänestä keräämää henkilötietoa, niin sitä ei voida kutsua my dataksi. Jos hyödyntämisen ja hallinnan mahdollisuudet ovat kaikkiin henkilötietoihin, voivat my data ja henkilötiedot olla myös sama asia.
  • 27. Toistaiseksi datatieteen osaamisvaatimuksia voidaan harvoin täyttää vain yhden työntekijän voimin. Organisaation data-analyysi - toiminnot ovatkin tavallisimmin koottu tiimeihin. Datatieteilijän rooli big datassa Lähde: NIST / USA
  • 28. Big datan teknologiat ● Hadoop (tunnetuin yksittäinen uusi teknologia) ● NoSQL (uudenlaiset tietokannat) ● Appliance (valmisratkaisut) ● In-memory -analytics ● Pilvipalvelut ○ Amazon ○ Google ○ IBM ○ Microsoft
  • 30. Teknologiakirjo kasvaa.. ERP SCM Images Audio Video Logs Text Web & Social Input Marketing Analytics Applicatios Business Intelligence Data Mining Math & Stats Analytic tools Marketing Executives Frontline Employees Business Analysts Statisticians Data Scientists Engineers Event Processing Real Time Data Platform Store and Refine Integrated Data Warehouse Operationalize Discovery Platform Exploration Lähde: mukaillen Teradata
  • 32. Googlen julkaisu Vuosi Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen? GFS ja MapReduce 2003, 2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri) Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL) Pregel 2010 Giraph 2011 Graph-tietokanta Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL) Spanner 2012 ? ???? Transaktiot Innoittajana Google
  • 33. Mitä Hadoop tekee? Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista. Miksi haluaisin Hadoop-klusterin? - edullista tallennustilaa (mikä vaan x86-palvelin käy) - tehokasta prosessointia (rinnakkaisuus) - toimintavarmuutta (moninkertainen tallennus) - skaalautuvuutta (klusteria helppo laajentaa) - ekosysteemit, lisäosia ja laajennoksia!
  • 34. Klusteri? Klusteri = joukko toisiinsa kytkettyjä palvelimia (nodes), jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä
  • 36. Hadoop Distributed File System: HDFS Node 1 data piece Big Data (= 1 or more files) data piece data piece Node 2 data piece data piece data piece Node 3 data piece data piece data piece Node 4 data piece data piece data piece HDFS Lähde: mukaillen www.glennklockwood.com
  • 38. Hadoop: Prosessoinnin logiikka MapReduce: Viedään prosessointi datan luo! Lähde: www.glennklockwood.com “Map/reduce is ideally suited for trivially parallel calculations on large quantities of data.”
  • 40. Hadoopin asema big data -ilmiössä Hadoop Datan määrä Datanrakenteisuus 2 Tb1 Gb 20 Tb 200 Tb
  • 42. Neljä vaihtoehtoa 1. hadoop.apache.org 2. Valmis jakelu 3. Hadoop osana laajempaa kokonaisuutta 4. Pilvipalvelu Hadoopin käyttöönotto
  • 43. 1. hadoop.apache.org “Harva organisaatio päätyy käyttämään Hadoopia näin. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.” Vahvuudet (+) Ilmainen Heikkoudet (-) Joutuu tekemään kaiken itse
  • 44. 2. Valmis jakelu Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja optimoitu suorituskyky Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen “Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön. Objektiivinen vertailu hankalaa, tietoa vaikea saada. Vaatii vahvaa kehitystiimiä.”
  • 45. 3. Hadoop osana kokonaisuutta Vahvuudet (+) Kehittyneet ominaisuudet, integroitavuus, tuki- ja partneriverkosto Heikkoudet (-) Kallis, vendor lock-in “Tämä on se todennäköinen tapa, jolla Hadoop hiipii yrityksiin, joilla on voimakas toimittajasuhde. Hadoop osana isompaa kokonaisuutta.”
  • 46. Vahvuudet (+) Nopea käyttöönotto, joustavuus, kustannusten ennakointi Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää osaamisvaatimuksia “Helpoin, riskittömin ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todennäköisesti tulevaisuudessa yhä merkittävämpi vaihtoehto myös tuotantokäyttöön.” 3. Hadoop pilvipalveluna
  • 48. 2008 2009 2010 2011 2012 2013 2014 Cloud computing in Gartner Hype Cycle for Emerging Technologies 2008-2014 2015 Aika Odotukset
  • 49.
  • 50. Pilvipalvelut vahvassa kasvussa! Company Market Share Growth-% (Q1 2014) Amazon 28 % 67 % Microsoft 8 % 154 % IBM 7 % 80 % Salesforce 6 % 37 % Google 5 % 60 % Synergy Research Group
  • 51. Datan analysoiminen pilvessä Terasortin maailmanennätys Googlen pilvipalvelussa: “Since the servers used in MapR’s world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record.” joustavuudesta! Tästä on kysymys: $ 9 vs. $ 5 000 000
  • 52. Big data Suomessa Ivorio toteutti Liikenne- ja viestintäministeriölle selvityksen suomalaisesta big data -markkinasta. Mukana olivat julkishallinnon, yritysten, palveluntarjoajien ja oppilaitosten edustajat. http://www.lvm.fi/julkaisu/4156840/big-data-suomessa-keskustelualoite
  • 53. Big data hyödyntäminen Liikenne- ja viestintäministeriön big datan käyttö -työryhmän raportissa esitetään luonnos kansalliseksi strategiaksi ja ehdotuksia kansallisiksi strategisiksi toimenpiteiksi, joiden avulla voidaan lisätä suurten tietoaineistojen hyödyntämistä Suomessa. http://www.lvm.fi/julkaisu/4417803/big-datan-hyodyntaminen