SlideShare a Scribd company logo
Big DataMEGATRENDI 2011 ⇒
"The next frontier for innovation,
competition and productivity"
“Cloud Computing” ja “Big Data”
big data
cloud computing
Big data ohitti pilven
Google-haut vuosina 2009-2014
Mitä tarkoittaa big data?
1. Havaintoa siitä, että dataa on koko ajan määrällisesti
enemmän ja sen muoto ja laatu vaihtelevat suuresti
2. Haastetta hallita ja hyödyntää tuota tietomäärää
perinteisten järjestelmien ja ratkaisujen avulla
3. Ratkaisuja (tuotteet, palvelut, ohjelmistot,
teknologiat), joilla tuohon haasteeseen tartutaan
Big datan 3 V:tä
Volume Tietoa (dataa) on koko ajan enemmän. Se pitäisi
pystyä tallentamaan ja hyödyntämään.
Velocity Tietoa (dataa) tulee koko ajan nopeammin.
Päätöksiä pitäisi pystyä tekemään nopeasti.
Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista
lähteistä, eikä se istu hyvin nykyisiin
toimintamalleihin.
Veracity, Value, Virality, Validity, Viscosity, Vulnerability…
myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.
Datan määrä maailmassa
v. 2011
2 ZB
v. 2020
v. 2030
44 ZB 1 333 ZB
Mistä sitä dataa oikein tulee?
Saatavilla olevat
datavarannot
(avoin data, datamarkkinat)
Potentiaalinen data
(ei vielä kerätä)
Digitaalinen todellisuus
(internet, sosiaalinen media)
Fyysinen todellisuus
(sensorit, esineiden internet)
Organisaation hallussa tai
saatavilla oleva data
(ERP, CRM, DW, RDBMS)
Suppein näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 0,2 %
maailman organisaatioista
“Eihän meillä edes ole big dataa!”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
Suppeahko näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 3 %
maailman organisaatioista
“Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 22 %
maailman organisaatioista
“Voisimmeko kerätä enemmän dataa toiminnastamme?”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 72 %
maailman organisaatioista
“Verkottunut yritys ei voi piilotella dataansa!”
Organisaatio
Kumppani Kumppani
Kumppani Kumppani
Kumppani Kumppani
Kokonaisvaltainen näkökulma dataan
“Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!”
Tästä näkökulmasta big data koskettaa ilmiönä n. 98 %
maailman organisaatioista
Avoin data: dokumentoidut rajapinnat
Data marketplace: pilvessä olevat datan
markkinapaikat
Datakauppiaat: yksittäiset suoraan omaa
tai verkostonsa dataa myyvät
Puoliavoin data: ei rajapintoja, hajallaan
Big datan hyödyntämiskohteita
● Markkinointi, asiakassegmentointi, kohdentaminen
● Hiljaisten signaalien tunnistaminen, koneoppiminen
● Virheiden ja väärinkäytön tunnistaminen
● Tutkimus- ja kehitystyö, tuotekehitys
● Ilmiöiden mallintaminen ja ennustaminen
● Resurssien kohdentaminen tehokkaammin
● ...
Mahdollisuuksien tunnistaminen vaatii toimialan ja organisaation ymmärtämistä!
Analytiikan askeleet kohti kilpailuetua
kohti reaaliaikaisuutta
Raportointi Ennustaminen Automatisointi
Big datan teknologiat
● Hadoop (tunnetuin yksittäinen uusi teknologia)
● NoSQL (uudenlaiset tietokannat)
● Appliance (valmisratkaisut)
● In-memory -analytics
● Pilvipalvelut
○ Amazon Elastic MapReduce (Hadoop)
○ Google BigQuery (Dremel)
○ Microsoft HDInsight (Hadoop)
HadoopBig datan teollisuusstandardi
Mitä Hadoop tekee?
Hadoop valjastaa palvelinklusterin vastaamaan datan
tallennuksesta ja prosessoinnista.
Miksi haluaisin Hadoop-klusterin?
- edullista tallennustilaa (mikä vaan x86-palvelin käy)
- tehokasta prosessointia (rinnakkaisuus)
- toimintavarmuutta (moninkertainen tallennus)
- skaalautuvuutta (klusteria helppo laajentaa)
- ekosysteemit, lisäosia ja laajennoksia!
Klusteri?
Klusteri = joukko toisiinsa kytkettyjä
palvelimia (nodeja, noodeja), jotka
suorittavat annettua tehtävää
hajautettuna, mutta
näkyvät käyttäjälle
yhtenä järjestelmänä
Commodity Hardware Node?
Yleisesti saatavilla olevista
komponenteista koottuja
palvelimia. Ei kallista
palvelinrautaa.
Ei kuitenkaan perus-PC, vaan
kotelollinen tehokkaita
komponentteja.
CPU: 2 x 4/6/8 -core
Mem: 48Gb+
Disk: 12 x 2-3Tb
Net: 1Gb+ Ethernet
~ 5 000 €
Googlen julkaisu Vuosi
Avoimen lähdekoodin
projekti
Vuosi Mihin tarkoitukseen?
GFS ja
MapReduce
2003,
2004
Hadoop 2006
Datan tallentaminen ja analysointi
(klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL)
Spanner 2012 ? ???? Transaktiot
Innoittajana Google
Hadoopin asema big data -ilmiössä
Hadoop
Tiedon määrä
Tiedonrakenteisuus
2 Tb1 Gb 20 Tb 200 Tb
Nearly all sectors in the US
economy had at least an
average of 200 terabytes of
stored data per company with
more than 1,000 employees.
McKinsey 2011
By 2015, 65 percent of packaged
analytic applications with
advanced analytics will come
embedded with Hadoop.
Gartner 2013
HadoopHDFS
Hadoop Distributed File System: HDFS
Hadoopin hajatettu tiedostojärjestelmä HDFS
● Tiedostot ovat tallennettuina hajautetusti klusteriin
● Suuri data pilkotaan “blokeiksi”, määritellyn logiikan
mukaan
● Nimipalvelin (name node) tallentaa (meta)tiedot siitä,
missä tiedostot fyysisesti sijaitsevat
● Oletusarvo on, että tiedostot tallennetaan kolmeen
kertaan
Innoittajana GFS eli Google File System
Hadoop Distributed File System: HDFS
Node 1
data piece
Big Data
(= 1 or more files)
data piece
data piece
Node 2
data piece
data piece
data piece
Node 3
data piece
data piece
data piece
Node 4
data piece
data piece
data piece
HDFS
Lähde: mukaillen www.glennklockwood.com
Hadoop Distributed File System: HDFS
Name
node
Blocks
Client
Rack 1
Data node
Data node
Data node
Rack 2
Data node
Data node
Data nodewrite
write
Client
read
metadata ops
block ops
Metadata
(Name, replicas…):
/home/foo/data, 3...
Hadoop Distributed File System: HDFS
Parhaimmillaan ennakoitavissa oloissa:
● Tiedostot suurikokoisia, oletuksena 64Mb
● Tiedostoja luetaan peräkkäin, alusta loppuun
● Tiedostot kirjoitetaan kerran, luetaan useasti
HadoopArkkitehtuuri
Hadoop: Prosessoinnin logiikka
MapReduce: Viedään prosessointi datan luo!
Lähde: www.glennklockwood.com
“Map/reduce is ideally suited for
trivially parallel calculations on
large quantities of data.”
Hadoop: MapReduce
MapReducen idea/vahvuus on
rinnakkaistaa ja hajauttaa
analytiikka.
Node 1
Node 1
“raakadata”
Map
“välitulokset”
Reduce
HDFS
Node 2
Node2
“raakadata”
Map
“välitulokset”
Reduce
HDFS
Data
Hadoopissa ennen ja nyt
MapReduce edelleen isossa roolissa.
Lähde: Hortonworks
Hadoop
Laajennokset tekevät Hadoopista
kiinnostavan
Hbase
Hive
Pig
Sqoop
Zookeeper
Impala
Hue
Ambari
Spark
Tez
jne….
HadoopMistä sellaisen saa?
Neljä vaihtoehtoa
1. http://hadoop.apache.org
2. Valmis jakelu
3. Hadoop osana laajempaa kokonaisuutta
4. Pilvipalvelu
Hadoopin käyttöönotto
1. http://hadoop.apache.org
“Harva organisaatio päätyy käyttämään
Hadoopia näin. Startup-yritysten,
tutkimuslaitosten ja yliopistojen vaihtoehto.”
Vahvuudet (+) Ilmainen
Heikkoudet (-) Joutuu tekemään kaiken itse
2. Valmis jakelu
Otetaan käyttöön valmiiksi paketoitu kokonaisuus
Cloudera (CHD)
Hortonworks (HDP)
MapR (M7)
Pivotal (Pivotal HD)
IBM (IHC)
Hadoop-jakeluyritysten tunnettuus
Cloudera on tällä
hetkellä tunnetuin
Cloudera
Hortonworks
MapR
2. Valmis jakelu
Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja
optimoitu suorituskyky
Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen
“Tyypillinen tapa tällä hetkellä ottaa Hadoop
käyttöön. Objektiivinen vertailu hankalaa, tietoa
vaikea saada. Vaatii vahvaa kehitystiimiä.”
3. Hadoop osana kokonaisuutta
Big data Appliancet (esimerkkilista tunnetuista)
HP (HAVEn)
IBM (Infosphere BigInsights, Watson)
Microsoft (Analytics Platform System)
Oracle (Big Data Appliance)
Pivotal (Pivotal Big Data Suite)
Teradata (Teradata Aster Big Analytics Appliance)
3. Hadoop osana Appliance-ratkaisua
Vahvuudet (+) Kehittyneet ominaisuudet,
integroitavuus, tuki- ja partneriverkosto
Heikkoudet (-) Kallis, vendor lock-in
“Tämä on se todennäköinen tapa, jolla
Hadoop hiipii yrityksiin, joilla on voimakas
toimittajasuhde. Hadoop osana isompaa
kokonaisuutta.”
4. Hadoop pilvipalveluna
Hadoop pilvipalveluna tarjolla mm.:
Amazon (AWS Elastic MapReduse, EC2)
Microsoft (Windows Azure HDInsight)
Lisäksi esim. MapR M7 Googlen pilvessä, jolla tehty
nopeusennätyksiä (terasort, minutesort)
Google (Google Compute Cloud)
4. Hadoop pilvipalveluna
Vahvuudet (+) Nopea käyttöönotto, joustavuus,
kustannusten ennakointi
Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää
osaamisvaatimuksia
“Helpoin, riskittömin ja nopein tapa pilotointiin,
demoamiseen ja testaamiseen. Todennäköisesti
tulevaisuudessa yhä merkittävämpi vaihtoehto
myös tuotantokäyttöön.”
Hadoop osana modernia
IT-arkkitehtuuria
Yhteiskäyttö raportointi-, analytiikka-
(BI) ja visualisointiratkaisujen kanssa.
Käytetyimmät laajennokset.
Tunnetuimpien jakeluiden keskeiset
edut ja erot.
Big Data
Landscape
Kiitos
Ivorion Hadoop-verkkokurssi on
erinomainen tapa tutustua big
datan keskeisimpään
teknologiaan.
Hadoop-sertifikaatin avulla
osoitat syvällisen osaamisesi
aiheesta, niin teorian kuin
teknologioiden osalta.
Ilmoittautumiset, lisätiedot ja muut koulutukset: ivorio.fi
31.5. mennessä tilatuista koulutustuotteista 15% alennus koodilla ICTEXPO
Hadoop
-verkkokurssi
Ivorio Certificate
for Hadoop

More Related Content

What's hot

My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014
My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014
My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014
ivoriofinland
 
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo SaloPilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
Immo Salo
 
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
ivoriofinland
 
Pilvi ja big data 3.10.2013, Ivorio
Pilvi ja big data 3.10.2013, IvorioPilvi ja big data 3.10.2013, Ivorio
Pilvi ja big data 3.10.2013, Ivorio
ivoriofinland
 
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
ivoriofinland
 
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
ivoriofinland
 
Big data tietoisku julkishallinnolle 2.10.2013
Big data  tietoisku julkishallinnolle 2.10.2013Big data  tietoisku julkishallinnolle 2.10.2013
Big data tietoisku julkishallinnolle 2.10.2013
ivoriofinland
 
Big datan ja analytiikkamaailman käsitteiden läpikäyminen
Big datan ja analytiikkamaailman käsitteiden läpikäyminenBig datan ja analytiikkamaailman käsitteiden läpikäyminen
Big datan ja analytiikkamaailman käsitteiden läpikäyminen
Jari Jussila
 
BiFF_avaus_20151029
BiFF_avaus_20151029BiFF_avaus_20151029
Talent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaan
Talent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaanTalent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaan
Talent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaan
Loihde Advisory
 
Tutustuminen data-analytiikan ja big datan maailmaan
Tutustuminen data-analytiikan ja big datan maailmaanTutustuminen data-analytiikan ja big datan maailmaan
Tutustuminen data-analytiikan ja big datan maailmaan
Jari Jussila
 
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...
Solutive Oy
 
Pilvipalvelut 25.4.2016 Jyväskylän kirjasto
Pilvipalvelut 25.4.2016 Jyväskylän kirjastoPilvipalvelut 25.4.2016 Jyväskylän kirjasto
Pilvipalvelut 25.4.2016 Jyväskylän kirjasto
Tieto- ja viestintätekniikkakoulu
 
Yhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminen
Yhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminenYhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminen
Yhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminen
Finceptum Oy
 

What's hot (14)

My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014
My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014
My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014
 
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo SaloPilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
 
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
 
Pilvi ja big data 3.10.2013, Ivorio
Pilvi ja big data 3.10.2013, IvorioPilvi ja big data 3.10.2013, Ivorio
Pilvi ja big data 3.10.2013, Ivorio
 
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
 
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
 
Big data tietoisku julkishallinnolle 2.10.2013
Big data  tietoisku julkishallinnolle 2.10.2013Big data  tietoisku julkishallinnolle 2.10.2013
Big data tietoisku julkishallinnolle 2.10.2013
 
Big datan ja analytiikkamaailman käsitteiden läpikäyminen
Big datan ja analytiikkamaailman käsitteiden läpikäyminenBig datan ja analytiikkamaailman käsitteiden läpikäyminen
Big datan ja analytiikkamaailman käsitteiden läpikäyminen
 
BiFF_avaus_20151029
BiFF_avaus_20151029BiFF_avaus_20151029
BiFF_avaus_20151029
 
Talent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaan
Talent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaanTalent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaan
Talent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaan
 
Tutustuminen data-analytiikan ja big datan maailmaan
Tutustuminen data-analytiikan ja big datan maailmaanTutustuminen data-analytiikan ja big datan maailmaan
Tutustuminen data-analytiikan ja big datan maailmaan
 
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...
 
Pilvipalvelut 25.4.2016 Jyväskylän kirjasto
Pilvipalvelut 25.4.2016 Jyväskylän kirjastoPilvipalvelut 25.4.2016 Jyväskylän kirjasto
Pilvipalvelut 25.4.2016 Jyväskylän kirjasto
 
Yhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminen
Yhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminenYhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminen
Yhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminen
 

Similar to Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Big data -tilaisuus, 19.03.2013 IBM:llä
Big data -tilaisuus, 19.03.2013 IBM:lläBig data -tilaisuus, 19.03.2013 IBM:llä
Big data -tilaisuus, 19.03.2013 IBM:llä
ivoriofinland
 
Big data -strategia
Big data  -strategiaBig data  -strategia
Big data -strategia
ivoriofinland
 
Big Data kohtaa Master Datan
Big Data kohtaa Master DatanBig Data kohtaa Master Datan
Big Data kohtaa Master Datan
Loihde Advisory
 
Hadoop
HadoopHadoop
Hadoop
Immo Salo
 
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
Mika Aho
 
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...
BearingPoint Finland
 
Pilvipalveluiden perusteita, luento 25.4.2016
Pilvipalveluiden perusteita, luento 25.4.2016Pilvipalveluiden perusteita, luento 25.4.2016
Pilvipalveluiden perusteita, luento 25.4.2016
Riku E. Järvinen
 
Datpro Finug
Datpro FinugDatpro Finug
Datpro Finug
Kimmo Kontra
 
Business models Julkinen data
Business models Julkinen dataBusiness models Julkinen data
Business models Julkinen dataFloApps
 
Julkinen Data Business mallit
Julkinen Data Business mallitJulkinen Data Business mallit
Julkinen Data Business mallit
FloApps
 
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
Digitalmikkeli
 
Mitä ottaa huomioon modernin CMS:n hankinnassa
Mitä ottaa huomioon modernin CMS:n hankinnassaMitä ottaa huomioon modernin CMS:n hankinnassa
Mitä ottaa huomioon modernin CMS:n hankinnassa
North Patrol
 
Ketterän omistajuuden abc_ruuskanen
Ketterän omistajuuden abc_ruuskanenKetterän omistajuuden abc_ruuskanen
Ketterän omistajuuden abc_ruuskanen
Jani Ruuskanen
 
Hri vantaa-avoin tieto-joulu2012-valmis
Hri vantaa-avoin tieto-joulu2012-valmisHri vantaa-avoin tieto-joulu2012-valmis
Hri vantaa-avoin tieto-joulu2012-valmis
Helsinki Region Infoshare
 
Big data koskettaa kaikkia
Big data koskettaa kaikkiaBig data koskettaa kaikkia
Big data koskettaa kaikkia
ivoriofinland
 
Sinipuro, Johdatko tiedolla vai luulolla 20052015.pptx
Sinipuro, Johdatko tiedolla vai luulolla 20052015.pptxSinipuro, Johdatko tiedolla vai luulolla 20052015.pptx
Sinipuro, Johdatko tiedolla vai luulolla 20052015.pptxJaana Sinipuro
 
Big data ja liiketoiminnan etiikka
Big data ja liiketoiminnan etiikkaBig data ja liiketoiminnan etiikka
Big data ja liiketoiminnan etiikka
Jyrki Kasvi
 
100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova
100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova
100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova
Gapps
 
Teknologiapaiva 13012021-teknologiatoimittajien yhteinen arvolupaus ja liiket...
Teknologiapaiva 13012021-teknologiatoimittajien yhteinen arvolupaus ja liiket...Teknologiapaiva 13012021-teknologiatoimittajien yhteinen arvolupaus ja liiket...
Teknologiapaiva 13012021-teknologiatoimittajien yhteinen arvolupaus ja liiket...
Natural Resources Institute Finland (Luke) / Luonnonvarakeskus (Luke)
 
Tiedolla johtamisesta tiedolla tekemiseen
Tiedolla johtamisesta tiedolla tekemiseenTiedolla johtamisesta tiedolla tekemiseen
Tiedolla johtamisesta tiedolla tekemiseen
Jyrki Kasvi
 

Similar to Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo (20)

Big data -tilaisuus, 19.03.2013 IBM:llä
Big data -tilaisuus, 19.03.2013 IBM:lläBig data -tilaisuus, 19.03.2013 IBM:llä
Big data -tilaisuus, 19.03.2013 IBM:llä
 
Big data -strategia
Big data  -strategiaBig data  -strategia
Big data -strategia
 
Big Data kohtaa Master Datan
Big Data kohtaa Master DatanBig Data kohtaa Master Datan
Big Data kohtaa Master Datan
 
Hadoop
HadoopHadoop
Hadoop
 
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
 
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...
 
Pilvipalveluiden perusteita, luento 25.4.2016
Pilvipalveluiden perusteita, luento 25.4.2016Pilvipalveluiden perusteita, luento 25.4.2016
Pilvipalveluiden perusteita, luento 25.4.2016
 
Datpro Finug
Datpro FinugDatpro Finug
Datpro Finug
 
Business models Julkinen data
Business models Julkinen dataBusiness models Julkinen data
Business models Julkinen data
 
Julkinen Data Business mallit
Julkinen Data Business mallitJulkinen Data Business mallit
Julkinen Data Business mallit
 
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
 
Mitä ottaa huomioon modernin CMS:n hankinnassa
Mitä ottaa huomioon modernin CMS:n hankinnassaMitä ottaa huomioon modernin CMS:n hankinnassa
Mitä ottaa huomioon modernin CMS:n hankinnassa
 
Ketterän omistajuuden abc_ruuskanen
Ketterän omistajuuden abc_ruuskanenKetterän omistajuuden abc_ruuskanen
Ketterän omistajuuden abc_ruuskanen
 
Hri vantaa-avoin tieto-joulu2012-valmis
Hri vantaa-avoin tieto-joulu2012-valmisHri vantaa-avoin tieto-joulu2012-valmis
Hri vantaa-avoin tieto-joulu2012-valmis
 
Big data koskettaa kaikkia
Big data koskettaa kaikkiaBig data koskettaa kaikkia
Big data koskettaa kaikkia
 
Sinipuro, Johdatko tiedolla vai luulolla 20052015.pptx
Sinipuro, Johdatko tiedolla vai luulolla 20052015.pptxSinipuro, Johdatko tiedolla vai luulolla 20052015.pptx
Sinipuro, Johdatko tiedolla vai luulolla 20052015.pptx
 
Big data ja liiketoiminnan etiikka
Big data ja liiketoiminnan etiikkaBig data ja liiketoiminnan etiikka
Big data ja liiketoiminnan etiikka
 
100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova
100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova
100% Pilvi-infrastruktuuri - ICT Expo 2015 - Gapps - Antero Hanhirova
 
Teknologiapaiva 13012021-teknologiatoimittajien yhteinen arvolupaus ja liiket...
Teknologiapaiva 13012021-teknologiatoimittajien yhteinen arvolupaus ja liiket...Teknologiapaiva 13012021-teknologiatoimittajien yhteinen arvolupaus ja liiket...
Teknologiapaiva 13012021-teknologiatoimittajien yhteinen arvolupaus ja liiket...
 
Tiedolla johtamisesta tiedolla tekemiseen
Tiedolla johtamisesta tiedolla tekemiseenTiedolla johtamisesta tiedolla tekemiseen
Tiedolla johtamisesta tiedolla tekemiseen
 

Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

  • 1.
  • 2. Big DataMEGATRENDI 2011 ⇒ "The next frontier for innovation, competition and productivity"
  • 3. “Cloud Computing” ja “Big Data” big data cloud computing Big data ohitti pilven Google-haut vuosina 2009-2014
  • 4. Mitä tarkoittaa big data? 1. Havaintoa siitä, että dataa on koko ajan määrällisesti enemmän ja sen muoto ja laatu vaihtelevat suuresti 2. Haastetta hallita ja hyödyntää tuota tietomäärää perinteisten järjestelmien ja ratkaisujen avulla 3. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan
  • 5. Big datan 3 V:tä Volume Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään. Velocity Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti. Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin. Veracity, Value, Virality, Validity, Viscosity, Vulnerability… myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.
  • 6. Datan määrä maailmassa v. 2011 2 ZB v. 2020 v. 2030 44 ZB 1 333 ZB
  • 7. Mistä sitä dataa oikein tulee? Saatavilla olevat datavarannot (avoin data, datamarkkinat) Potentiaalinen data (ei vielä kerätä) Digitaalinen todellisuus (internet, sosiaalinen media) Fyysinen todellisuus (sensorit, esineiden internet) Organisaation hallussa tai saatavilla oleva data (ERP, CRM, DW, RDBMS)
  • 8. Suppein näkökulma dataan Tästä näkökulmasta big data koskettaa ilmiönä n. 0,2 % maailman organisaatioista “Eihän meillä edes ole big dataa!” Yrityksen oma strukturoitu data Yrityksen vielä hyödyntämätön data Yrityksen vielä keräämätön data
  • 9. Suppeahko näkökulma dataan Tästä näkökulmasta big data koskettaa ilmiönä n. 3 % maailman organisaatioista “Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?” Yrityksen oma strukturoitu data Yrityksen vielä hyödyntämätön data Yrityksen vielä keräämätön data
  • 10. Verkostoitunut näkökulma dataan Tästä näkökulmasta big data koskettaa ilmiönä n. 22 % maailman organisaatioista “Voisimmeko kerätä enemmän dataa toiminnastamme?” Yrityksen oma strukturoitu data Yrityksen vielä hyödyntämätön data Yrityksen vielä keräämätön data
  • 11. Verkostoitunut näkökulma dataan Tästä näkökulmasta big data koskettaa ilmiönä n. 72 % maailman organisaatioista “Verkottunut yritys ei voi piilotella dataansa!” Organisaatio Kumppani Kumppani Kumppani Kumppani Kumppani Kumppani
  • 12. Kokonaisvaltainen näkökulma dataan “Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!” Tästä näkökulmasta big data koskettaa ilmiönä n. 98 % maailman organisaatioista Avoin data: dokumentoidut rajapinnat Data marketplace: pilvessä olevat datan markkinapaikat Datakauppiaat: yksittäiset suoraan omaa tai verkostonsa dataa myyvät Puoliavoin data: ei rajapintoja, hajallaan
  • 13. Big datan hyödyntämiskohteita ● Markkinointi, asiakassegmentointi, kohdentaminen ● Hiljaisten signaalien tunnistaminen, koneoppiminen ● Virheiden ja väärinkäytön tunnistaminen ● Tutkimus- ja kehitystyö, tuotekehitys ● Ilmiöiden mallintaminen ja ennustaminen ● Resurssien kohdentaminen tehokkaammin ● ... Mahdollisuuksien tunnistaminen vaatii toimialan ja organisaation ymmärtämistä!
  • 14. Analytiikan askeleet kohti kilpailuetua kohti reaaliaikaisuutta Raportointi Ennustaminen Automatisointi
  • 15. Big datan teknologiat ● Hadoop (tunnetuin yksittäinen uusi teknologia) ● NoSQL (uudenlaiset tietokannat) ● Appliance (valmisratkaisut) ● In-memory -analytics ● Pilvipalvelut ○ Amazon Elastic MapReduce (Hadoop) ○ Google BigQuery (Dremel) ○ Microsoft HDInsight (Hadoop)
  • 17. Mitä Hadoop tekee? Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista. Miksi haluaisin Hadoop-klusterin? - edullista tallennustilaa (mikä vaan x86-palvelin käy) - tehokasta prosessointia (rinnakkaisuus) - toimintavarmuutta (moninkertainen tallennus) - skaalautuvuutta (klusteria helppo laajentaa) - ekosysteemit, lisäosia ja laajennoksia!
  • 18. Klusteri? Klusteri = joukko toisiinsa kytkettyjä palvelimia (nodeja, noodeja), jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä
  • 19. Commodity Hardware Node? Yleisesti saatavilla olevista komponenteista koottuja palvelimia. Ei kallista palvelinrautaa. Ei kuitenkaan perus-PC, vaan kotelollinen tehokkaita komponentteja. CPU: 2 x 4/6/8 -core Mem: 48Gb+ Disk: 12 x 2-3Tb Net: 1Gb+ Ethernet ~ 5 000 €
  • 20. Googlen julkaisu Vuosi Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen? GFS ja MapReduce 2003, 2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri) Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL) Pregel 2010 Giraph 2011 Graph-tietokanta Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL) Spanner 2012 ? ???? Transaktiot Innoittajana Google
  • 21. Hadoopin asema big data -ilmiössä Hadoop Tiedon määrä Tiedonrakenteisuus 2 Tb1 Gb 20 Tb 200 Tb Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees. McKinsey 2011 By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop. Gartner 2013
  • 23. Hadoop Distributed File System: HDFS Hadoopin hajatettu tiedostojärjestelmä HDFS ● Tiedostot ovat tallennettuina hajautetusti klusteriin ● Suuri data pilkotaan “blokeiksi”, määritellyn logiikan mukaan ● Nimipalvelin (name node) tallentaa (meta)tiedot siitä, missä tiedostot fyysisesti sijaitsevat ● Oletusarvo on, että tiedostot tallennetaan kolmeen kertaan Innoittajana GFS eli Google File System
  • 24. Hadoop Distributed File System: HDFS Node 1 data piece Big Data (= 1 or more files) data piece data piece Node 2 data piece data piece data piece Node 3 data piece data piece data piece Node 4 data piece data piece data piece HDFS Lähde: mukaillen www.glennklockwood.com
  • 25. Hadoop Distributed File System: HDFS Name node Blocks Client Rack 1 Data node Data node Data node Rack 2 Data node Data node Data nodewrite write Client read metadata ops block ops Metadata (Name, replicas…): /home/foo/data, 3...
  • 26. Hadoop Distributed File System: HDFS Parhaimmillaan ennakoitavissa oloissa: ● Tiedostot suurikokoisia, oletuksena 64Mb ● Tiedostoja luetaan peräkkäin, alusta loppuun ● Tiedostot kirjoitetaan kerran, luetaan useasti
  • 28. Hadoop: Prosessoinnin logiikka MapReduce: Viedään prosessointi datan luo! Lähde: www.glennklockwood.com “Map/reduce is ideally suited for trivially parallel calculations on large quantities of data.”
  • 29. Hadoop: MapReduce MapReducen idea/vahvuus on rinnakkaistaa ja hajauttaa analytiikka. Node 1 Node 1 “raakadata” Map “välitulokset” Reduce HDFS Node 2 Node2 “raakadata” Map “välitulokset” Reduce HDFS Data
  • 30. Hadoopissa ennen ja nyt MapReduce edelleen isossa roolissa. Lähde: Hortonworks
  • 34. Neljä vaihtoehtoa 1. http://hadoop.apache.org 2. Valmis jakelu 3. Hadoop osana laajempaa kokonaisuutta 4. Pilvipalvelu Hadoopin käyttöönotto
  • 35. 1. http://hadoop.apache.org “Harva organisaatio päätyy käyttämään Hadoopia näin. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.” Vahvuudet (+) Ilmainen Heikkoudet (-) Joutuu tekemään kaiken itse
  • 36. 2. Valmis jakelu Otetaan käyttöön valmiiksi paketoitu kokonaisuus Cloudera (CHD) Hortonworks (HDP) MapR (M7) Pivotal (Pivotal HD) IBM (IHC)
  • 37. Hadoop-jakeluyritysten tunnettuus Cloudera on tällä hetkellä tunnetuin Cloudera Hortonworks MapR
  • 38. 2. Valmis jakelu Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja optimoitu suorituskyky Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen “Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön. Objektiivinen vertailu hankalaa, tietoa vaikea saada. Vaatii vahvaa kehitystiimiä.”
  • 39. 3. Hadoop osana kokonaisuutta Big data Appliancet (esimerkkilista tunnetuista) HP (HAVEn) IBM (Infosphere BigInsights, Watson) Microsoft (Analytics Platform System) Oracle (Big Data Appliance) Pivotal (Pivotal Big Data Suite) Teradata (Teradata Aster Big Analytics Appliance)
  • 40. 3. Hadoop osana Appliance-ratkaisua Vahvuudet (+) Kehittyneet ominaisuudet, integroitavuus, tuki- ja partneriverkosto Heikkoudet (-) Kallis, vendor lock-in “Tämä on se todennäköinen tapa, jolla Hadoop hiipii yrityksiin, joilla on voimakas toimittajasuhde. Hadoop osana isompaa kokonaisuutta.”
  • 41. 4. Hadoop pilvipalveluna Hadoop pilvipalveluna tarjolla mm.: Amazon (AWS Elastic MapReduse, EC2) Microsoft (Windows Azure HDInsight) Lisäksi esim. MapR M7 Googlen pilvessä, jolla tehty nopeusennätyksiä (terasort, minutesort) Google (Google Compute Cloud)
  • 42. 4. Hadoop pilvipalveluna Vahvuudet (+) Nopea käyttöönotto, joustavuus, kustannusten ennakointi Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää osaamisvaatimuksia “Helpoin, riskittömin ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todennäköisesti tulevaisuudessa yhä merkittävämpi vaihtoehto myös tuotantokäyttöön.”
  • 43. Hadoop osana modernia IT-arkkitehtuuria Yhteiskäyttö raportointi-, analytiikka- (BI) ja visualisointiratkaisujen kanssa. Käytetyimmät laajennokset. Tunnetuimpien jakeluiden keskeiset edut ja erot.
  • 46. Ivorion Hadoop-verkkokurssi on erinomainen tapa tutustua big datan keskeisimpään teknologiaan. Hadoop-sertifikaatin avulla osoitat syvällisen osaamisesi aiheesta, niin teorian kuin teknologioiden osalta. Ilmoittautumiset, lisätiedot ja muut koulutukset: ivorio.fi 31.5. mennessä tilatuista koulutustuotteista 15% alennus koodilla ICTEXPO Hadoop -verkkokurssi Ivorio Certificate for Hadoop