Ivorion missio
Ivorio on Suomen johtava riippumaton big data asiantuntija.
Autamme asiakkaitamme selvitymään tiedon
vallan...
Mitä tarkoittaa big data?
● Big data tarkoittaa kahta asiaa:
1. Havaintoa siitä, että dataa on koko ajan määrällisesti
ene...
Big datan 3 V:tä, se käytetyin määritelmä
1.

Volume
Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä
tallentamaan j...
© Ivorio 2013

Mistä sitä dataa oikein tulee?
Digitaalinen todellisuus
(internet, sosiaalinen media)

Fyysinen todellisuus...
© Ivorio 2013

Suppein näkökulma dataan
“Eihän meillä edes ole big dataa!” “Pilvipalvelut sopivat pilotointiin.”

Tästä nä...
© Ivorio 2013

Suppeahko näkökulma dataan
“Liiketoimintakriittistä dataa ei voida laittaa pilveen, ehkä jotain lokitietoja...
© Ivorio 2013

Laaja näkökulma dataan
“Mihinkäs me laitetaan kaikki tuo data...”
“Olisiko julkisilla pilvipalveluilla jota...
© Ivorio 2013

Verkostoitunut näkökulma dataan
“Verkottunut yritys ei voi hillota dataansa!”

Tästä näkökulmasta big data
...
© Ivorio 2013

Kokonaisvaltainen näkökulma dataan
“Palvelinkellarissa homehtuva data ei tuota lisäarvoa tai kilpailuetua!”...
Big datan hyödyntämiskohteita
● Markkinointi
● Suositukset (recommendation engine)
● Tilastollinen analyysi
● Tutkimus- ja...
Kuinka suuret ovat big data -markkinat?
● Yleisin luku on välillä 15-50 mrd €
○ IDC sanoo (12/2012), että vuonna 2016 mark...
“

McKinsey 2011:

Big data: The next frontier for innovation, competition and productivity

€250 billion - potential annu...
“

General Electrics 2012

Industrial Internet: Pushing the Boundaries of Minds and Machines

Today, the people that manag...
“

Gartner, 2013:

Survey Analysis: Big Data Adoption in 2013

64 % of organizations investing or
planning to invest in bi...
“

Tieto Oyj, Q3/2013:
Osavuosikatsaus Q3 2013

Big datan odotetaan olevan yksi
tietotekniikkapalvelujen nopeimmin
kasvavi...
Big datan haasteet Suomessa
1. Osaajapula (teknologiat, datatieteilijät)
2. Lähdedatan vaihteleva laatu ja kasvava määrä
3...
“

McKinsey, 2011:

Big data: The next frontier for innovation, competition and productivity

By 2018, the United States a...
“

Opetus- ja kulttuuriministeriö:

Huippuosaamisella on vaikutusta niin
julkishallinnon sisäiseen toiminnan
tehokkuuteen ...
Big datan teknologiat
● Hadoop (tunnetuin yksittäinen uusi teknologia)
● NoSQL (uudenlaiset tietokannat)
● “Appliancet” (v...
Hadoop
Big datan teollisuusstandardi
© Ivorio 2013

Tiedon rakenteisuus

Hadoopin asema big data -ilmiössä
Nearly all sectors in the US
economy had at least an...
Innoittajana Google
Googlen
julkaisu

Vuosi

Avoimen
lähdekoodi
n projekti

Vuosi

Mihin tarkoitukseen?

GFS ja
MapReduce
...
© Ivorio 2013

Hadoop Suomessa
Käyttäjiä lähitulevaisuudessa
Käyttäjiä
v. 2013 mm.
Vähittäiskauppa
Rovio
Sanoma
Supercell
...
© Ivorio 2013

Hadoop-työpaikkojen tarjonta
Lähde: Indeed.com
Työpaikat pääasiassa Yhdysvalloissa
Mitä Hadoop tekee?
Hadoop auttaa rakentamaan klusterin
palvelimista
Miksi haluaisin Hadoop-klusterin?
- edullista tallennu...
Hadoopissa kaksi keskeistä komponenttia
HDFS

MapReduce

tiedostojärjestelmä

tiedonlouhintaa
Hadoop: arkkitehtuuri

Data
Node 1

MapReducen
idea/vahvuus on
rinnakkaistaa ja
hajauttaa
analytiikka.

Node 2

“raakadata...
Hadoopin käyttöönotto
Neljä vaihtoehtoa
1. http://hadoop.apache.org
2. Valmis jakelu
3. Hadoop osana Appliance-ratkaisua
4...
1. http://hadoop.apache.org
Lataa, asenna ja konfiguroi
1. http://hadoop.apache.org
Vahvuudet (+) Ilmainen
Heikkoudet (-) Joutuu tekemään kaiken itse

“Harva organisaatio päätyy ...
2. Valmis jakelu
Otetaan käyttöön valmiiksi paketoitu kokonaisuus
Amazon
(AWS EMR)
Cloudera
(CHD)
Hortonworks (HDP)
MapR
(...
2. Valmis jakelu
Vahvuudet (+)

Helppous, tuki, koulutus, partnerit ja
optimoitu suorituskyky

Heikkoudet (-)

Lukittumisu...
Hadoop-jakeluyritysten tunnettuus
3. Hadoop osana Appliance-ratkaisua
Big data Appliancet (esimerkkilista tunnetuista)
HP
(HAVEn)
IBM
(Infosphere BigInsight...
3. Hadoop osana Appliance-ratkaisua
Hadoop-kytkökset
HP
(all leading distros)
IBM
(Cloudera)
Microsoft
(Hortonworks)
Oracl...
3. Hadoop osana Appliance-ratkaisua
Vahvuudet (+)

Kehittyneet ominaisuudet,
integroitavuus, tuki- ja partneriverkosto

He...
4. Hadoop pilvipalveluna
Hadoop pilvipalveluna tarjolla mm.:
Amazon
(AWS Elastic MapReduse, EC2)
Microsoft
(Windows Azure ...
© Ivorio 2013

Datan analysoiminen pilvessä
Terasortin maailmanennätys Googlen pilvipalvelussa:
“Since the servers used in...
4. Hadoop pilvipalveluna
Vahvuudet (+)

Nopea käyttöönotto, joustavuus

Heikkoudet (-)

Tietoturvahuolet, lainsäädäntö, li...
4. Hadoop pilvipalveluna
Hadoopin käyttökohteita
Toimialue

Käyttökohde (case)

Finanssisektori

Riskianalyysi
Petosten tunnistaminen
Päätöksenteon...
Kannattaako versio 2 ottaa
käyttöön?
Kyllä.
Nyt liikkeelle lähdettäessä ei ole mielekästä
takertua versioon 1.x. Harjoitte...
Ivorio tarjoaa Pohjoismaiden ensimmäisen
Hadoop-sertifikaatin. Ensimmäinen versio tuli
saataville syyskuussa 2013 suomeksi...
MITÄ PITÄISI TEHDÄ?
Ehdotus 1: Lähteä liikkeelle
Pilvipalveluiden kohdalla mm. Accenture
suositteli jo vuonna 2009, että liikkeelle
kannattaa ...
Ehdotus 2: Datakartoitus
Kartoitetaan datalähteet (nykyiset,
potentiaaliset), arvioidaan kiinnostavuutta
liiketoiminnan on...
Ehdotus 3: Teknologiakartoitus
Peilataan omien datalähteiden mahdollisuuksia
tarjolla olevien teknologioiden tarjoamiin
va...
Ehdotus 4: Laaditaan datastrategia
Laaditaan strateginen kartta tulevaisuuteen.
Miten tulevaisuuden markkinoilla aiotaan t...
Kiitos
Big data  esitys, 14.11.2013, Ivorio Oy
Upcoming SlideShare
Loading in …5
×

Big data esitys, 14.11.2013, Ivorio Oy

993 views

Published on

Big data -esitys 14.11.2013 tilaisuudesta.

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
993
On SlideShare
0
From Embeds
0
Number of Embeds
421
Actions
Shares
0
Downloads
12
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Big data esitys, 14.11.2013, Ivorio Oy

  1. 1. Ivorion missio Ivorio on Suomen johtava riippumaton big data asiantuntija. Autamme asiakkaitamme selvitymään tiedon vallankumouksesta voittajina.
  2. 2. Mitä tarkoittaa big data? ● Big data tarkoittaa kahta asiaa: 1. Havaintoa siitä, että dataa on koko ajan määrällisesti enemmän ja sen muoto ja laatu vaihtelee suuresti 2. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan
  3. 3. Big datan 3 V:tä, se käytetyin määritelmä 1. Volume Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään. 2. Velocity Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti. 3. Variety Tietoa (dataa) tulee kiihtyvällä tahdilla erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin Veracity, Value Virality, Validity, Viscosity… myös muita V-kirjaimia on lisätty kuvaamaan ilmiötä.
  4. 4. © Ivorio 2013 Mistä sitä dataa oikein tulee? Digitaalinen todellisuus (internet, sosiaalinen media) Fyysinen todellisuus (sensorit, esineiden internet) Organisaation hallussa tai saatavilla oleva data (ERP, CRM, DW, RDBMS) Saatavilla olevat datavarannot (avoin data, datamarkkinat) Potentiaalinen data (ei vielä kerätä)
  5. 5. © Ivorio 2013 Suppein näkökulma dataan “Eihän meillä edes ole big dataa!” “Pilvipalvelut sopivat pilotointiin.” Tästä näkökulmasta big data koskettaa ilmiönä n. 0.2 % maailman organisaatioista Yrityksen oma strukturoitu data Yrityksen vielä hyödyntämätön data Yrityksen vielä keräämätön data
  6. 6. © Ivorio 2013 Suppeahko näkökulma dataan “Liiketoimintakriittistä dataa ei voida laittaa pilveen, ehkä jotain lokitietoja tms.” “Privaattipilvi kiinnostaa!” Tästä näkökulmasta big data koskettaa ilmiönä n. 3 % maailman organisaatioista Yrityksen oma strukturoitu data Yrityksen vielä hyödyntämätön data Yrityksen vielä keräämätön data
  7. 7. © Ivorio 2013 Laaja näkökulma dataan “Mihinkäs me laitetaan kaikki tuo data...” “Olisiko julkisilla pilvipalveluilla jotain annettavaa?” Tästä näkökulmasta big data koskettaa ilmiönä n. 22 % maailman organisaatioista Yrityksen oma strukturoitu data Yrityksen vielä hyödyntämätön data Yrityksen vielä keräämätön data
  8. 8. © Ivorio 2013 Verkostoitunut näkökulma dataan “Verkottunut yritys ei voi hillota dataansa!” Tästä näkökulmasta big data koskettaa ilmiönä n. 72 % maailman organisaatioista Kumppani Kumppani Organisaatio Kumppani Kumppani Kumppani Kumppani
  9. 9. © Ivorio 2013 Kokonaisvaltainen näkökulma dataan “Palvelinkellarissa homehtuva data ei tuota lisäarvoa tai kilpailuetua!” Tästä näkökulmasta big data koskettaa ilmiönä n. 98 % maailman organisaatioista Avoin data (dokumentoidut rajapinnat) Data marketplace (pilvessä olevat datan markkinapaikat) Datakauppiaat (yksittäiset suoraan omaa tai verkostonsa dataa myyvät) Puoliavoin data (ei rajapintoja, hajallaan)
  10. 10. Big datan hyödyntämiskohteita ● Markkinointi ● Suositukset (recommendation engine) ● Tilastollinen analyysi ● Tutkimus- ja kehitystyö ● Mallintaminen ja ennustaminen ● Resurssien kohdentaminen Mahdollisuuksien tunnistaminen vaatii toimialan ja organisaation ymmärtämistä.
  11. 11. Kuinka suuret ovat big data -markkinat? ● Yleisin luku on välillä 15-50 mrd € ○ IDC sanoo (12/2012), että vuonna 2016 markkinoiden koko on n. 26 mrd $ ○ Gartner sanoo (10/2012), että vuonna 2012 big data markkinat olivat n. 28 mrd $ ○ Wikibon ennustaa (02/2012), että big data -markkinat ovat vuonna 2015 n. 54 mrd $ ○ McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olevan vuonna 2011 arviolta 1 000 mrd €
  12. 12. “ McKinsey 2011: Big data: The next frontier for innovation, competition and productivity €250 billion - potential annual value to Europe’s public sector administration in use of big data more efficiently.
  13. 13. “ General Electrics 2012 Industrial Internet: Pushing the Boundaries of Minds and Machines Today, the people that manage big data systems or perform advanced analytics have developed unique talents through self-driven specialization, rather than through any programs that build a standard set of skills or principles
  14. 14. “ Gartner, 2013: Survey Analysis: Big Data Adoption in 2013 64 % of organizations investing or planning to invest in big data technology.
  15. 15. “ Tieto Oyj, Q3/2013: Osavuosikatsaus Q3 2013 Big datan odotetaan olevan yksi tietotekniikkapalvelujen nopeimmin kasvavista alueista keskipitkällä aikavälillä.
  16. 16. Big datan haasteet Suomessa 1. Osaajapula (teknologiat, datatieteilijät) 2. Lähdedatan vaihteleva laatu ja kasvava määrä 3. Ilmiön ja teknologioiden jäsentymättömyys % Lähde: LVM:n Big data Suomessa -selvitys 09/2013
  17. 17. “ McKinsey, 2011: Big data: The next frontier for innovation, competition and productivity By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills.
  18. 18. “ Opetus- ja kulttuuriministeriö: Huippuosaamisella on vaikutusta niin julkishallinnon sisäiseen toiminnan tehokkuuteen ja läpinäkyvyyteen kuin pysyvän kilpailuedun saavuttamiseen globaaleilla markkinoilla.
  19. 19. Big datan teknologiat ● Hadoop (tunnetuin yksittäinen uusi teknologia) ● NoSQL (uudenlaiset tietokannat) ● “Appliancet” (valmisratkaisut) ● In-memory-, In-database analytics ● Pilvipalvelut ○ Amazon Elastic MapReduce ○ Google BigQuery ○ Microsoft HDInsight
  20. 20. Hadoop Big datan teollisuusstandardi
  21. 21. © Ivorio 2013 Tiedon rakenteisuus Hadoopin asema big data -ilmiössä Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees. McKinsey 2011 Hadoop By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop. Gartner 2013 1 Gb 2 Tb 20 Tb 200 Tb Tiedon määrä
  22. 22. Innoittajana Google Googlen julkaisu Vuosi Avoimen lähdekoodi n projekti Vuosi Mihin tarkoitukseen? GFS ja MapReduce 2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri) Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL) Pregel 2010 Giraph 2011 Graph-tietokanta Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL) Spanner 2012 ? ???? Transaktiot
  23. 23. © Ivorio 2013 Hadoop Suomessa Käyttäjiä lähitulevaisuudessa Käyttäjiä v. 2013 mm. Vähittäiskauppa Rovio Sanoma Supercell Media Palvelualat Telekommunikaatio Teollisuus
  24. 24. © Ivorio 2013 Hadoop-työpaikkojen tarjonta Lähde: Indeed.com Työpaikat pääasiassa Yhdysvalloissa
  25. 25. Mitä Hadoop tekee? Hadoop auttaa rakentamaan klusterin palvelimista Miksi haluaisin Hadoop-klusterin? - edullista tallennustilaa (mikä vaan x86-palvelin käy) - tehokasta prosessointia (rinnakkaisuus) - toimintavarmuutta (moninkertainen tallennus) - skaalautuvuutta (klusteria helppo laajentaa) - ekosysteemi, lisäosia ja laajennoksia!
  26. 26. Hadoopissa kaksi keskeistä komponenttia HDFS MapReduce tiedostojärjestelmä tiedonlouhintaa
  27. 27. Hadoop: arkkitehtuuri Data Node 1 MapReducen idea/vahvuus on rinnakkaistaa ja hajauttaa analytiikka. Node 2 “raakadata” “raakadata” Map Map “välitulokset” “välitulokset” Reduce Reduce HDFS HDFS Node 1 Node2
  28. 28. Hadoopin käyttöönotto Neljä vaihtoehtoa 1. http://hadoop.apache.org 2. Valmis jakelu 3. Hadoop osana Appliance-ratkaisua 4. Pilvipalvelu
  29. 29. 1. http://hadoop.apache.org Lataa, asenna ja konfiguroi
  30. 30. 1. http://hadoop.apache.org Vahvuudet (+) Ilmainen Heikkoudet (-) Joutuu tekemään kaiken itse “Harva organisaatio päätyy käyttämään Hadoopia näin. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.”
  31. 31. 2. Valmis jakelu Otetaan käyttöön valmiiksi paketoitu kokonaisuus Amazon (AWS EMR) Cloudera (CHD) Hortonworks (HDP) MapR (M7) Microsoft (HDInsight) Pivotal (Pivotal HD) IBM (IHC) Intel (Intel Distribution for Apache Hadoop)
  32. 32. 2. Valmis jakelu Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja optimoitu suorituskyky Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen “Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön. Objektiivinen vertailu hankalaa, tietoa vaikea saada.”
  33. 33. Hadoop-jakeluyritysten tunnettuus
  34. 34. 3. Hadoop osana Appliance-ratkaisua Big data Appliancet (esimerkkilista tunnetuista) HP (HAVEn) IBM (Infosphere BigInsights) Microsoft (Parallel Datawarehouse) Oracle (Big Data Appliance) Pivotal (Pivotal) SAP (SAP HANA Platform) Teradata (Teradata Aster Big Analytics Appliance)
  35. 35. 3. Hadoop osana Appliance-ratkaisua Hadoop-kytkökset HP (all leading distros) IBM (Cloudera) Microsoft (Hortonworks) Oracle (Cloudera) Pivotal (Pivotal HD) SAP (Intel, Hortonworks) Teradata (Hortonworks)
  36. 36. 3. Hadoop osana Appliance-ratkaisua Vahvuudet (+) Kehittyneet ominaisuudet, integroitavuus, tuki- ja partneriverkosto Heikkoudet (-) Kallis, vendor lock-in “Tämä on se todennäköinen tapa, jolla Hadoop hiipii yrityksiin osana isompaa kokonaisuutta.”
  37. 37. 4. Hadoop pilvipalveluna Hadoop pilvipalveluna tarjolla mm.: Amazon (AWS Elastic MapReduse, EC2) Microsoft (Windows Azure HDInsight) Joyent (Joyent Hadoop) Lisäksi esim. MapR M7:lla tehty terasortin maailmanennätys Google (Google Compute Cloud)
  38. 38. © Ivorio 2013 Datan analysoiminen pilvessä Terasortin maailmanennätys Googlen pilvipalvelussa: “Since the servers used in MapR’s world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record.” Tästä on kysymys: $9 vs. $ 5 000 000 joustavuudesta!
  39. 39. 4. Hadoop pilvipalveluna Vahvuudet (+) Nopea käyttöönotto, joustavuus Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää osaamisvaatimuksia “Helpoin, riskittömin ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todennäköisesti tulevaisuudessa yhä merkittävämpi vaihtoehto myös tuotantokäyttöön.”
  40. 40. 4. Hadoop pilvipalveluna
  41. 41. Hadoopin käyttökohteita Toimialue Käyttökohde (case) Finanssisektori Riskianalyysi Petosten tunnistaminen Päätöksenteon nopeuttaminen (lainahakemukset yms.) Datatyyppi Paikkatieto Kommunikaatio Puhelulokitietojen louhiminen (CDR) Palvelin- ja Investointipäätösten tukeminen Resurssien allokointi (tietoliikennekaista yms.) muut lokit Vähittäis- ja verkkokauppa 360-asteen näkyvyys asiakkaaseen Tuotekehitys, hankintapäätökset Markkinoinnin vaikuttavuuden mittaaminen Teollisuus Tilaus-toimitusketjun optimointi Tuotennon sujuvoittaminen (lean manufacturing) Varastoarvojen minimointi Laadun parantaminen Lähde: Hortonworks Tekstiaineistot Sensoridata Sentimenttianalyysi Clickstream
  42. 42. Kannattaako versio 2 ottaa käyttöön? Kyllä. Nyt liikkeelle lähdettäessä ei ole mielekästä takertua versioon 1.x. Harjoitteluun, konseptointiin ja pilotointiin versio 1.x käy hyvin tietenkin edelleen.
  43. 43. Ivorio tarjoaa Pohjoismaiden ensimmäisen Hadoop-sertifikaatin. Ensimmäinen versio tuli saataville syyskuussa 2013 suomeksi ja myöhemmin sertifikaatista tulevat myös ruotsinja englanninkieliset versiot.
  44. 44. MITÄ PITÄISI TEHDÄ?
  45. 45. Ehdotus 1: Lähteä liikkeelle Pilvipalveluiden kohdalla mm. Accenture suositteli jo vuonna 2009, että liikkeelle kannattaa lähteä heti ja ei niille vähäarvoisimmilla sovelluksilla, vaan liiketoiminnalle merkityksellisillä. Kuunneltiinko? Olisko kannattanut?
  46. 46. Ehdotus 2: Datakartoitus Kartoitetaan datalähteet (nykyiset, potentiaaliset), arvioidaan kiinnostavuutta liiketoiminnan ongelmien näkökulmasta.
  47. 47. Ehdotus 3: Teknologiakartoitus Peilataan omien datalähteiden mahdollisuuksia tarjolla olevien teknologioiden tarjoamiin vaihtoehtoihin. Otetaan huomioon osaaminen, teknologioiden kypsyys, kustannuskset (elinkaari) ja odotettavissa olevat hyödyt.
  48. 48. Ehdotus 4: Laaditaan datastrategia Laaditaan strateginen kartta tulevaisuuteen. Miten tulevaisuuden markkinoilla aiotaan tuottaa lisäarvoa ja pitää sekä parantaa omaa asemaa arvoketjussa?
  49. 49. Kiitos

×