© Ivorio 2013
Ivorion missio
Ivorio on Pohjoismaiden johtava
riippumaton big data -asiantuntija.
Autamme asiakkaitamme ratsastamaan
tied...
Tiedon
vallankumous
Markkinat jaetaan nyt uudelleen
© Ivorio 2013

Big data
ilmiö vuodesta 2011
© Ivorio 2013

“Big Data” kiinnostus nousee nopeasti

Google-haun “big data” suosio 1.11.2013 asti
Mistä big datassa on kysymys?
1.

Volume
Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä
tallentamaan ja hyödyntämä...
© Ivorio 2013

Datan alkuperä

Organisaation
hallussa tai
saatavilla oleva
data (ERP, CRM,
DW, RDBMS)
© Ivorio 2013

Datan alkuperä

Organisaation
hallussa tai
saatavilla oleva
data (ERP, CRM,
DW, RDBMS)

Digitaalinen todell...
© Ivorio 2013

Datan alkuperä

Organisaation
hallussa tai
saatavilla oleva
data (ERP, CRM,
DW, RDBMS)

Digitaalinen todell...
© Ivorio 2013

Datan alkuperä

Organisaation
hallussa tai
saatavilla oleva
data (ERP, CRM,
DW, RDBMS)

Digitaalinen todell...
© Ivorio 2013

Datan alkuperä

Organisaation
hallussa tai
saatavilla oleva
data (ERP, CRM,
DW, RDBMS)

Digitaalinen todell...
© Ivorio 2013

“

McKinsey:

By 2009, nearly all sectors in US
economy had at least an average of
200 terabytes of stored ...
© Ivorio 2013

“

Accenture:

Räjähdysmäisesti kasvavat tietomäärät
avaavat uusia mahdollisuuksia ja
potentiaalisia kilpai...
© Ivorio 2013

Kuinka suuret ovat big data -markkinat?
Yleisin luku on välillä 15-50 mrd €
○ IDC sanoo (12/2012), että vuo...
© Ivorio 2013

Pääomasijoittajien sijoitukset big datayritykseen, Top 10
Yritys

Sijoitus (milj. $)

MongoDB

231 milj. $
...
© Ivorio 2013

Koska big data -hankkeet aloitetaan
Suomessa?
Julkishallinnon organisaatiot
“Big data -selvitys, 09/2013”
© Ivorio 2013

“

McKinsey, 2011:

By 2018, the United States alone
could face a shortage of 140,000
to 190,000 people wit...
© Ivorio 2013

Big datan teknologiat
● Hadoop (tunnetuin yksittäinen uusi teknologia)
● Appliancet (valmisratkaisut)
● In-...
Hadoop - big datan tunnetuin teknologia

Google-haun “big data” suosio 1.11.2013 asti
Google-haun “hadoop” suosio 1.11.201...
© Ivorio 2013

Hadoopin tausta Googlessa
Hadoop - innoittajana Google
Googlen
julkaisu

Vuosi

Avoimen
lähdekoodin
projekti

Vuosi

Mihin tarkoitukseen?

GFS ja
Ma...
Googlen MapReduce -patentteja
Patentti

Teknologia, johon liityyy

US 8,123,909

MapReduce

US 7,756,919

MapReduce

US 7,...
Open Patent Non-Assertion Pledge
Google lupaa olla hyödyntämättä patentteja tai estämästä niiden kattaman teknologian käyt...
© Ivorio 2013

Mitä se Hadoop oikein tekee?
Hadoopissa kaksi keskeistä komponenttia
HDFS

MapReduce

tiedostojärjestelmä

tiedonlouhintaa
Mitä Hadoop tekee?
Hadoop auttaa rakentamaan klusterin palvelimista

Miksi haluaisin Hadoop-klusterin?
- edullista tallenn...
© Ivorio 2013

Tiedon rakenteisuus

Hadoopin asema big data -ilmiössä
Nearly all sectors in the US
economy had at least an...
© Ivorio 2013

Hadoop Suomessa
Käyttäjiä lähitulevaisuudessa
Käyttäjiä
v. 2013 mm.
Vähittäiskauppa
Rovio
Sanoma
Supercell
...
© Ivorio 2013

Hadoop-työpaikkojen tarjonta
Lähde: Indeed.com
Työpaikat pääasiassa Yhdysvalloissa
© Ivorio 2013

Datan tallentaminen pilvessä
© Ivorio 2013

Amazon, Google, Microsoft
Mitä maksaa gigatavun tallentaminen per kuukausi julkisessa pilvessä?
Dataa yht.
...
© Ivorio 2013

Datan hyödyntäminen pilvessä
© Ivorio 2013

Datan analysoiminen pilvessä
Terasortin maailmanennätys Googlen pilvipalvelussa:
MapR (Hadoop-jakeluyritys)...
© Ivorio 2013

Datan analysoiminen pilvessä
Terasortin maailmanennätys Googlen pilvipalvelussa:
“Since the servers used in...
© Ivorio 2013

Investoinnit teknologiaan sekä
tutkimus- ja kehitystyöhön
valtavia
© Ivorio 2013

Googlen tutkimus- ja tuotekehitysmenot
Vuosi

Investoinnit tutkimus- ja tuotekehitykseen

2013

7 900 milj....
© Ivorio 2013

Esimerkkejä luvuista: Amazon ja Google
Nettoinvestoinnit teknologiaan v. 2012 (palvelimet yms.)
Yritys

Net...
© Ivorio 2013

Big data, esimerkein
© Ivorio 2013

Big dataa arkipäivässä
● Hakukoneet
○ Google on maailman johtava big data -yritys
● Suositukset
○ Amazon, S...
© Ivorio 2013

Google Flu Trends
© Ivorio 2013

Keskosten tarkkailu
● Hengenvaarallisten tulehdusten riski korkea
● Monipuolisen tilastoinnin ja analysoinn...
© Ivorio 2013

Ennakoiva huolto
● Koneiden, laitteiden, ajoneuvojen sensorista
dataa ja vikatilastoja yhdistellään
● Analy...
© Ivorio 2013

Big Cities, Big Challenges
● Chicago, rikosten ennakointi analysoimalla
tilastoja, hätäpuheluja, videokuvaa...
© Ivorio 2013

Nopeasti kohti big data toteutuksia
Microsoft PowerPivot
© Ivorio 2013

Microsoft PowerPivot Excel plug-in
“BI työkalupakki ja suuremmat taulukot ”
● Mukana Excel 2013 -tuotteessa...
© Ivorio 2013

PowerPivot: keskeiset piirteet
● Yhteen taulukkoon enemmän dataa, n. 1M ->
100M+
● Silti kaikki paikallises...
© Ivorio 2013

PowerPivot: keskeiset piirteet
● Analyysin taustalla taulukon sijaan malli:
tauluja ja relaatioita
© Ivorio 2013

PowerPivot: keskeiset piirteet
● Työkaluja näkymien/BI työkalujen
rakentamiseksi, nopeasti ja ilman ohjelmo...
© Ivorio 2013

PowerPivot: harjoitustyö osana kurssia
● Datan tuominen ulkopuolisesta lähteestä
● Mallin luominen
● Pivot-...
© Ivorio 2013

Nopeasti kohti big data toteutuksia
Google BigQuery
© Ivorio 2013

BigQuery: keskeiset piirteet
● Pilvipalvelu, tuhansien palvelinten laskentateho
● Kokeiltavissa rajoitetust...
© Ivorio 2013

BigQuery: keskeiset piirteet
● SQL:n kaltainen kyselykieli
● Käyttöliittymät
○ Selain
○ Komentorivi
○ REST ...
© Ivorio 2013

Kiitos
Immo Salo
immo.salo@ivorio.fi
045 1233 563

Markku Alanko
markku.alanko@ivorio.fi
045 1301 943
Upcoming SlideShare
Loading in …5
×

Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

1,417 views

Published on

Esitys big datasta Aalto-yliopistolla "Taulukkolaskenta ja analytiikka"-kurssilla 04.11.2013.
- Mitä on big data?
- Mikä on Hadoop?
- Case-esimerkkejä
- Microsoft PowerPivot
- Google BigQuery

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,417
On SlideShare
0
From Embeds
0
Number of Embeds
501
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

  1. 1. © Ivorio 2013
  2. 2. Ivorion missio Ivorio on Pohjoismaiden johtava riippumaton big data -asiantuntija. Autamme asiakkaitamme ratsastamaan tiedon vallankumouksen aallonharjalla.
  3. 3. Tiedon vallankumous Markkinat jaetaan nyt uudelleen
  4. 4. © Ivorio 2013 Big data ilmiö vuodesta 2011
  5. 5. © Ivorio 2013 “Big Data” kiinnostus nousee nopeasti Google-haun “big data” suosio 1.11.2013 asti
  6. 6. Mistä big datassa on kysymys? 1. Volume Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään. 2. Velocity Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti. 3. Variety Tietoa (dataa) tulee kiihtyvällä tahdilla erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin Veracity, Value Virality, Validity, Viscosity… myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä. Ensimmäisenä tämän esitti META Group, jonka Gartner osti vuonna 2005
  7. 7. © Ivorio 2013 Datan alkuperä Organisaation hallussa tai saatavilla oleva data (ERP, CRM, DW, RDBMS)
  8. 8. © Ivorio 2013 Datan alkuperä Organisaation hallussa tai saatavilla oleva data (ERP, CRM, DW, RDBMS) Digitaalinen todellisuus (internet, sosiaalinen media)
  9. 9. © Ivorio 2013 Datan alkuperä Organisaation hallussa tai saatavilla oleva data (ERP, CRM, DW, RDBMS) Digitaalinen todellisuus (internet, sosiaalinen media) Fyysinen todellisuus (sensorit, esineiden internet)
  10. 10. © Ivorio 2013 Datan alkuperä Organisaation hallussa tai saatavilla oleva data (ERP, CRM, DW, RDBMS) Digitaalinen todellisuus (internet, sosiaalinen media) Fyysinen todellisuus (sensorit, esineiden internet) Saatavilla olevat datavarannot (avoin data, datamarkkinat)
  11. 11. © Ivorio 2013 Datan alkuperä Organisaation hallussa tai saatavilla oleva data (ERP, CRM, DW, RDBMS) Digitaalinen todellisuus (internet, sosiaalinen media) Fyysinen todellisuus (sensorit, esineiden internet) Saatavilla olevat datavarannot (avoin data, datamarkkinat) Potentiaalinen data (ei vielä kerätä)
  12. 12. © Ivorio 2013 “ McKinsey: By 2009, nearly all sectors in US economy had at least an average of 200 terabytes of stored data per company with more than 1 000 employees.
  13. 13. © Ivorio 2013 “ Accenture: Räjähdysmäisesti kasvavat tietomäärät avaavat uusia mahdollisuuksia ja potentiaalisia kilpailuetuja monilla aloilla ja monissa yrityksissä.
  14. 14. © Ivorio 2013 Kuinka suuret ovat big data -markkinat? Yleisin luku on välillä 15-50 mrd € ○ IDC sanoo (12/2012), että vuonna 2016 markkinoiden koko on n. 26 mrd $ ○ Gartner sanoo (10/2012), että vuonna 2012 big data markkinat olivat n. 28 mrd $ ○ Wikibon ennustaa (02/2012), että big data -markkinat ovat vuonna 2015 n. 54 mrd $ ○ McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olleen jo vuonna 2011 arviolta 1 000 mrd €
  15. 15. © Ivorio 2013 Pääomasijoittajien sijoitukset big datayritykseen, Top 10 Yritys Sijoitus (milj. $) MongoDB 231 milj. $ Mu Sigma 208 milj. $ Cloudera 141 milj. $ Opera Solutions 114 milj. $ Hortonworks 98 milj. $ DataStax 83.7 milj. $ Guavus 75.5 milj. $ GoodData 75.5 milj. $ Talend 61.6 milj. $ CouchBase 56.0 milj. $
  16. 16. © Ivorio 2013 Koska big data -hankkeet aloitetaan Suomessa? Julkishallinnon organisaatiot “Big data -selvitys, 09/2013”
  17. 17. © Ivorio 2013 “ McKinsey, 2011: By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills.
  18. 18. © Ivorio 2013 Big datan teknologiat ● Hadoop (tunnetuin yksittäinen uusi teknologia) ● Appliancet (valmisratkaisut) ● In-memory -analytics, NoSQL (muotiteknologioita) ● Pilvipalvelut ja big data ○ ○ ○ ○ ○ Amazon Google Microsoft IBM jne... (Elastic MapReduce...) (BigQuery...) (HDInsight...) (SoftLayer...)
  19. 19. Hadoop - big datan tunnetuin teknologia Google-haun “big data” suosio 1.11.2013 asti Google-haun “hadoop” suosio 1.11.2013 asti
  20. 20. © Ivorio 2013 Hadoopin tausta Googlessa
  21. 21. Hadoop - innoittajana Google Googlen julkaisu Vuosi Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen? GFS ja MapReduce 2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri) Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL) Pregel 2010 Giraph 2011 Graph-tietokanta Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL) Spanner 2012 ? ???? Transaktiot
  22. 22. Googlen MapReduce -patentteja Patentti Teknologia, johon liityyy US 8,123,909 MapReduce US 7,756,919 MapReduce US 7,650,331 MapReduce US 2012/0278323 MapReduce US 2012/0254193 MapReduce US 2012/0215787 MapReduce US 2012/0122065 MapReduce PCT/US2012/030941 MapReduce PCT/US2012/030897 MapReduce
  23. 23. Open Patent Non-Assertion Pledge Google lupaa olla hyödyntämättä patentteja tai estämästä niiden kattaman teknologian käyttöä Google promises to each person or entity that develops, distributes or uses Free or Open Source Software (a “Pledge Recipient”) that Google will not bring a lawsuit or other legal proceeding against a Pledge Recipient for patent infringement under any Pledged Patents based...
  24. 24. © Ivorio 2013 Mitä se Hadoop oikein tekee?
  25. 25. Hadoopissa kaksi keskeistä komponenttia HDFS MapReduce tiedostojärjestelmä tiedonlouhintaa
  26. 26. Mitä Hadoop tekee? Hadoop auttaa rakentamaan klusterin palvelimista Miksi haluaisin Hadoop-klusterin? - edullista tallennustilaa - tehokasta prosessointia - toimintavarmuutta - skaalautuvuutta - ekosysteemi, lisäosia ja laajennoksia!
  27. 27. © Ivorio 2013 Tiedon rakenteisuus Hadoopin asema big data -ilmiössä Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees. McKinsey 2011 Hadoop By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop. Gartner 2013 1 Gb 2 Tb 20 Tb 200 Tb Tiedon määrä
  28. 28. © Ivorio 2013 Hadoop Suomessa Käyttäjiä lähitulevaisuudessa Käyttäjiä v. 2013 mm. Vähittäiskauppa Rovio Sanoma Supercell Media Palvelualat Telekommunikaatio Teollisuus
  29. 29. © Ivorio 2013 Hadoop-työpaikkojen tarjonta Lähde: Indeed.com Työpaikat pääasiassa Yhdysvalloissa
  30. 30. © Ivorio 2013 Datan tallentaminen pilvessä
  31. 31. © Ivorio 2013 Amazon, Google, Microsoft Mitä maksaa gigatavun tallentaminen per kuukausi julkisessa pilvessä? Dataa yht. Amazon (S3) Google Storage Microsoft Azure Storage < 1 TB 0.095 $ 0.085 $ 0.095 $ < 50 TB 0.080 $ 0.076 $ 0.080 $ < 500 TB 0.070 $ 0.063 $ 0.070 $ < 1000 TB 0.065 $ 0.063 $ 0.065 $ < 5000 TB 0.060 $ 0.054 $ 0.055 $ Kustannussäästöt eivät ole olennaisin asia pilvipalveluissa!
  32. 32. © Ivorio 2013 Datan hyödyntäminen pilvessä
  33. 33. © Ivorio 2013 Datan analysoiminen pilvessä Terasortin maailmanennätys Googlen pilvipalvelussa: MapR (Hadoop-jakeluyritys): “Benchmark broke the one minute barrier with 1,003 servers, 4,012 cores and 1,003 disks as compared to the previous record set by Yahoo. The prior documented record of 62 seconds was set by Yahoo running Apache Hadoop on 1,460 servers, 11,680 cores and 5,840 disks.” Mitä maailmanennätys maksoi?
  34. 34. © Ivorio 2013 Datan analysoiminen pilvessä Terasortin maailmanennätys Googlen pilvipalvelussa: “Since the servers used in MapR’s world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record.” Tästä on kysymys: $9 vs. $ 5 000 000 joustavuudesta!
  35. 35. © Ivorio 2013 Investoinnit teknologiaan sekä tutkimus- ja kehitystyöhön valtavia
  36. 36. © Ivorio 2013 Googlen tutkimus- ja tuotekehitysmenot Vuosi Investoinnit tutkimus- ja tuotekehitykseen 2013 7 900 milj. $ (arvio Q3-lukujen perusteella) 2012 6 800 milj. $ ... … 2004 226 milj. $ 2003 91 milj. $ 2002 32 milj. $ 2001 17 milj. $ 2000 11 milj.$
  37. 37. © Ivorio 2013 Esimerkkejä luvuista: Amazon ja Google Nettoinvestoinnit teknologiaan v. 2012 (palvelimet yms.) Yritys Nettoinvestoinnit Taserivi Liikevaihto Amazon 1 655 milj. $ Technology and content + 13 016 milj. $ Google Information technology assets + 8 134 milj. $* 1 657 milj. $ *) Motorola-kauppaa ei mukana tässä “Investoinnit ovat suuria, mutta liiketoiminnan kasvu monin verroin suurempi. Palvelinkeskukset ovat databisneksen raakaainetta, bulkkia.”
  38. 38. © Ivorio 2013 Big data, esimerkein
  39. 39. © Ivorio 2013 Big dataa arkipäivässä ● Hakukoneet ○ Google on maailman johtava big data -yritys ● Suositukset ○ Amazon, Spotify, YouTube, Netflix ● Mainonta ○ Google AdSense, Facebook
  40. 40. © Ivorio 2013 Google Flu Trends
  41. 41. © Ivorio 2013 Keskosten tarkkailu ● Hengenvaarallisten tulehdusten riski korkea ● Monipuolisen tilastoinnin ja analysoinnin myötä tunnistetaan tulevat ongelmat jo vuorokautta aikaisemmin -> reagoidaan, valmistaudutaan ● Toronto’s Hospital for Sick Children, University of Ontario, IBM
  42. 42. © Ivorio 2013 Ennakoiva huolto ● Koneiden, laitteiden, ajoneuvojen sensorista dataa ja vikatilastoja yhdistellään ● Analytiikka tunnistaa toistuvia tapahtumia, korrelaatioita datan ja vikaantumisen välillä ● Huollot voidaan ennakoida ennen suurempien vahinkojen syntymistä ● Vältetään odottamattomia keskeytyksiä prosesseissa
  43. 43. © Ivorio 2013 Big Cities, Big Challenges ● Chicago, rikosten ennakointi analysoimalla tilastoja, hätäpuheluja, videokuvaa ● New York, paloturvallisuusriskien tunnistaminen vuokrakiinteistöistä tilastojen avulla ● Liikenneonnettomuudet, ruuhkat, ennakoiva terveydenhuolto, petosten tunnistaminen, mielipideanalyysit ...
  44. 44. © Ivorio 2013 Nopeasti kohti big data toteutuksia Microsoft PowerPivot
  45. 45. © Ivorio 2013 Microsoft PowerPivot Excel plug-in “BI työkalupakki ja suuremmat taulukot ” ● Mukana Excel 2013 -tuotteessa ● Ilmainen laajennusosa Excel 2010 -tuotteeseen
  46. 46. © Ivorio 2013 PowerPivot: keskeiset piirteet ● Yhteen taulukkoon enemmän dataa, n. 1M -> 100M+ ● Silti kaikki paikallisessa työasemassa
  47. 47. © Ivorio 2013 PowerPivot: keskeiset piirteet ● Analyysin taustalla taulukon sijaan malli: tauluja ja relaatioita
  48. 48. © Ivorio 2013 PowerPivot: keskeiset piirteet ● Työkaluja näkymien/BI työkalujen rakentamiseksi, nopeasti ja ilman ohjelmointia > julkaistavissa mm. SharePointissa ● Keskeisenä laskennan apuvälineenä tutut pivottaulukot
  49. 49. © Ivorio 2013 PowerPivot: harjoitustyö osana kurssia ● Datan tuominen ulkopuolisesta lähteestä ● Mallin luominen ● Pivot-kyselyt ● Kuvataan tarkemmin luokkaharjoituksissa
  50. 50. © Ivorio 2013 Nopeasti kohti big data toteutuksia Google BigQuery
  51. 51. © Ivorio 2013 BigQuery: keskeiset piirteet ● Pilvipalvelu, tuhansien palvelinten laskentateho ● Kokeiltavissa rajoitetusti (<100Gb/kk) ilmaiseksi, vaatii kuitenkin Google-tilin
  52. 52. © Ivorio 2013 BigQuery: keskeiset piirteet ● SQL:n kaltainen kyselykieli ● Käyttöliittymät ○ Selain ○ Komentorivi ○ REST API ● Laskutus käytön perusteella
  53. 53. © Ivorio 2013 Kiitos Immo Salo immo.salo@ivorio.fi 045 1233 563 Markku Alanko markku.alanko@ivorio.fi 045 1301 943

×