My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014ivoriofinland
My Data - Johdatus ihmiskeskeiseen henkilötiedon höydyntämiseen
Selvityksen tekijät: Antti Poikola, Kai Kuikkaniemi, Ossi Kuittinen
http://www.lvm.fi/julkaisu/4420389/my-data-johdatus-ihmiskeskeiseen-henkilotiedon-hyodyntamiseen
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...ivoriofinland
Esitys big datasta Aalto-yliopistolla "Taulukkolaskenta ja analytiikka"-kurssilla 04.11.2013.
- Mitä on big data?
- Mikä on Hadoop?
- Case-esimerkkejä
- Microsoft PowerPivot
- Google BigQuery
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...ivoriofinland
Immo Salon esitys Liikenne- ja viestintäministeriön järjestämässä Tietoyhteiskuntasektorin huippuseminaarissa 8.10.2013 (Hotelli Presidentti, Helsinki).
Big datan ja analytiikkamaailman käsitteiden läpikäyminenJari Jussila
Big datan ja analytiikkamaailman käsitteiden läpikäyminen. Kooste esityksestä 12.3.2014 Edutech Big Data ja data-analytiikka liiketoiminnan kehittämisessä,
Moduuli 1: Big Data nyt ja tulevaisuudessa.
Tutustuminen data-analytiikan ja big datan maailmaanJari Jussila
Tutustuminen data-analytiikan ja big datan maailmaan. Valikoitua sisältöä Edutech Data ja analytiikka liiketoiminnan kehittämisessä koulutuspäivästä. Kouluttajina Pasi Hellsten & Jari Jussila. @EdutechTUT #Data4BizTraining
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...Solutive Oy
Prosessipäivien 2015 puheenvuoron "Tiedolla johtaminen ja visuaalinen analytiikka" -esityskalvot. Janne Suomalainen, Solutive Oy. Tableau Silver Partner Suomessa. Alteryx Preferred Partner.
Luennolla käsitellään pilvipalveluita yleisesti sekä keskitytään erityisesti palveluiden hyödyntämiseen henkilökohtaisessa käytössä. Esimerkkinä Googlen pilvipalveluympäristö. Tavoitteena on antaa selkeä kuva pilvipalveluiden roolista nykyaikaisessa tietotekniikassa.
Miten Master Dataa voi käyttää apuna Big Datan hyödyntämisessä? Mitä uutta Big Data voi tarjota Master Datalle?
- Käytä master dataa laadukkaan ja standardoidun tiedon lähteenä
- Sovella master datan hallinnan periaatteita Big Dataan
- Elinkaari
- Omistajuus
- Hyödynnä samoja data quality työkaluja ja periaatteita
- Määritä laatukriteerit
- Estä huonolaatuisen datan pääsy prosessiin
- Käytä samoja työkaluja
- Valitse sellaiset työkalut, jotka pystyvät käsittelemään isoja määriä ei-rakenteista dataa
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...BearingPoint Finland
On mukavaa kun on paljon dataa. Moni yritysjohtaja alkaa kuitenkin hikoilla kun päätökset pitäisi aidosti tehdä tietopohjaisesti! Lue, mitkä ovat big datan hyödyntämisen menestyksen avaimet.
Pilvipalveluiden perusteita käsittelevä luento, jonka pidin Jyväskylän kirjastolla huhtikuussa 2016.
Lähestyminen laajaan aiheeseen on melko teoreettinen ja pyrkii antamaan yleiskäsityksen tärkeimmistä perusasioista.
A presentation in Finnish kept in Finland\'s SAP user group meeting. A high level overview to certain aspects of MDM. (presentation time was just 15 minutes, therefore brief..)
My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014ivoriofinland
My Data - Johdatus ihmiskeskeiseen henkilötiedon höydyntämiseen
Selvityksen tekijät: Antti Poikola, Kai Kuikkaniemi, Ossi Kuittinen
http://www.lvm.fi/julkaisu/4420389/my-data-johdatus-ihmiskeskeiseen-henkilotiedon-hyodyntamiseen
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...ivoriofinland
Esitys big datasta Aalto-yliopistolla "Taulukkolaskenta ja analytiikka"-kurssilla 04.11.2013.
- Mitä on big data?
- Mikä on Hadoop?
- Case-esimerkkejä
- Microsoft PowerPivot
- Google BigQuery
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...ivoriofinland
Immo Salon esitys Liikenne- ja viestintäministeriön järjestämässä Tietoyhteiskuntasektorin huippuseminaarissa 8.10.2013 (Hotelli Presidentti, Helsinki).
Big datan ja analytiikkamaailman käsitteiden läpikäyminenJari Jussila
Big datan ja analytiikkamaailman käsitteiden läpikäyminen. Kooste esityksestä 12.3.2014 Edutech Big Data ja data-analytiikka liiketoiminnan kehittämisessä,
Moduuli 1: Big Data nyt ja tulevaisuudessa.
Tutustuminen data-analytiikan ja big datan maailmaanJari Jussila
Tutustuminen data-analytiikan ja big datan maailmaan. Valikoitua sisältöä Edutech Data ja analytiikka liiketoiminnan kehittämisessä koulutuspäivästä. Kouluttajina Pasi Hellsten & Jari Jussila. @EdutechTUT #Data4BizTraining
Tiedolla johtaminen ja visuaalinen analytiikka - Prosessipäivät 2015 Solutive...Solutive Oy
Prosessipäivien 2015 puheenvuoron "Tiedolla johtaminen ja visuaalinen analytiikka" -esityskalvot. Janne Suomalainen, Solutive Oy. Tableau Silver Partner Suomessa. Alteryx Preferred Partner.
Luennolla käsitellään pilvipalveluita yleisesti sekä keskitytään erityisesti palveluiden hyödyntämiseen henkilökohtaisessa käytössä. Esimerkkinä Googlen pilvipalveluympäristö. Tavoitteena on antaa selkeä kuva pilvipalveluiden roolista nykyaikaisessa tietotekniikassa.
Miten Master Dataa voi käyttää apuna Big Datan hyödyntämisessä? Mitä uutta Big Data voi tarjota Master Datalle?
- Käytä master dataa laadukkaan ja standardoidun tiedon lähteenä
- Sovella master datan hallinnan periaatteita Big Dataan
- Elinkaari
- Omistajuus
- Hyödynnä samoja data quality työkaluja ja periaatteita
- Määritä laatukriteerit
- Estä huonolaatuisen datan pääsy prosessiin
- Käytä samoja työkaluja
- Valitse sellaiset työkalut, jotka pystyvät käsittelemään isoja määriä ei-rakenteista dataa
Magenta advisory: Tietopohjainen päätöksenteko - onko organisaatiosi valmis b...BearingPoint Finland
On mukavaa kun on paljon dataa. Moni yritysjohtaja alkaa kuitenkin hikoilla kun päätökset pitäisi aidosti tehdä tietopohjaisesti! Lue, mitkä ovat big datan hyödyntämisen menestyksen avaimet.
Pilvipalveluiden perusteita käsittelevä luento, jonka pidin Jyväskylän kirjastolla huhtikuussa 2016.
Lähestyminen laajaan aiheeseen on melko teoreettinen ja pyrkii antamaan yleiskäsityksen tärkeimmistä perusasioista.
A presentation in Finnish kept in Finland\'s SAP user group meeting. A high level overview to certain aspects of MDM. (presentation time was just 15 minutes, therefore brief..)
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...Digitalmikkeli
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhteisön mahdollistaminen / Kalle Launiala, ProtonIT
http://datajalostamo.fi/2014/05/keskusteluseminaari/
Mitä ottaa huomioon modernin CMS:n hankinnassaNorth Patrol
DT2020-seminaarissa pidetty esitys (26.10.2016) Helsingissä. Aiheena CMS-järjestelmän valinta, ja se mitä kaikkea pitää ottaa huomioon ison verkkopalvelun uudistuksessa - ja miten konseptointi ja teknologiavalinta pitää vaiheistaa.
Big data koskettaa lähes kaikkia yrityksiä ja organisaatioita, kun otetaan huomioon koko verkoston data sekä avoin data (julkisen sektorin ja datamarkkinapaikkojen tarjoama).
Miten yritys voi siirtyä käyttämään 100% pilvi-infraa? Antero esittelee yhden ratkaisun miten yritysten koko infra voi pyöriä pilvessä.
Esitetty 22.4.2015 ICT Expossa 2015 Helsinkissä
Teknologiatoimittajien yhteinen arvolupaus ja liiketoimintamallit, Pasi Suomi, Kim Kaustell ja Liisa Pesonen, Luke. Teknologiapäivä – Arvo ja liiketoiminta digitaalisessa maataloudessa -webinaari, 13.1.2021.
3. “Cloud Computing” ja “Big Data”
big data
cloud computing
Big data ohitti pilven
Google-haut vuosina 2009-2014
4. Mitä tarkoittaa big data?
1. Havaintoa siitä, että dataa on koko ajan määrällisesti
enemmän ja sen muoto ja laatu vaihtelevat suuresti
2. Haastetta hallita ja hyödyntää tuota tietomäärää
perinteisten järjestelmien ja ratkaisujen avulla
3. Ratkaisuja (tuotteet, palvelut, ohjelmistot,
teknologiat), joilla tuohon haasteeseen tartutaan
5. Big datan 3 V:tä
Volume Tietoa (dataa) on koko ajan enemmän. Se pitäisi
pystyä tallentamaan ja hyödyntämään.
Velocity Tietoa (dataa) tulee koko ajan nopeammin.
Päätöksiä pitäisi pystyä tekemään nopeasti.
Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista
lähteistä, eikä se istu hyvin nykyisiin
toimintamalleihin.
Veracity, Value, Virality, Validity, Viscosity, Vulnerability…
myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.
7. Mistä sitä dataa oikein tulee?
Saatavilla olevat
datavarannot
(avoin data, datamarkkinat)
Potentiaalinen data
(ei vielä kerätä)
Digitaalinen todellisuus
(internet, sosiaalinen media)
Fyysinen todellisuus
(sensorit, esineiden internet)
Organisaation hallussa tai
saatavilla oleva data
(ERP, CRM, DW, RDBMS)
8. Suppein näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 0,2 %
maailman organisaatioista
“Eihän meillä edes ole big dataa!”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
9. Suppeahko näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 3 %
maailman organisaatioista
“Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
10. Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 22 %
maailman organisaatioista
“Voisimmeko kerätä enemmän dataa toiminnastamme?”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
11. Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 72 %
maailman organisaatioista
“Verkottunut yritys ei voi piilotella dataansa!”
Organisaatio
Kumppani Kumppani
Kumppani Kumppani
Kumppani Kumppani
12. Kokonaisvaltainen näkökulma dataan
“Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!”
Tästä näkökulmasta big data koskettaa ilmiönä n. 98 %
maailman organisaatioista
Avoin data: dokumentoidut rajapinnat
Data marketplace: pilvessä olevat datan
markkinapaikat
Datakauppiaat: yksittäiset suoraan omaa
tai verkostonsa dataa myyvät
Puoliavoin data: ei rajapintoja, hajallaan
13. Big datan hyödyntämiskohteita
● Markkinointi, asiakassegmentointi, kohdentaminen
● Hiljaisten signaalien tunnistaminen, koneoppiminen
● Virheiden ja väärinkäytön tunnistaminen
● Tutkimus- ja kehitystyö, tuotekehitys
● Ilmiöiden mallintaminen ja ennustaminen
● Resurssien kohdentaminen tehokkaammin
● ...
Mahdollisuuksien tunnistaminen vaatii toimialan ja organisaation ymmärtämistä!
17. Mitä Hadoop tekee?
Hadoop valjastaa palvelinklusterin vastaamaan datan
tallennuksesta ja prosessoinnista.
Miksi haluaisin Hadoop-klusterin?
- edullista tallennustilaa (mikä vaan x86-palvelin käy)
- tehokasta prosessointia (rinnakkaisuus)
- toimintavarmuutta (moninkertainen tallennus)
- skaalautuvuutta (klusteria helppo laajentaa)
- ekosysteemit, lisäosia ja laajennoksia!
18. Klusteri?
Klusteri = joukko toisiinsa kytkettyjä
palvelimia (nodeja, noodeja), jotka
suorittavat annettua tehtävää
hajautettuna, mutta
näkyvät käyttäjälle
yhtenä järjestelmänä
19. Commodity Hardware Node?
Yleisesti saatavilla olevista
komponenteista koottuja
palvelimia. Ei kallista
palvelinrautaa.
Ei kuitenkaan perus-PC, vaan
kotelollinen tehokkaita
komponentteja.
CPU: 2 x 4/6/8 -core
Mem: 48Gb+
Disk: 12 x 2-3Tb
Net: 1Gb+ Ethernet
~ 5 000 €
20. Googlen julkaisu Vuosi
Avoimen lähdekoodin
projekti
Vuosi Mihin tarkoitukseen?
GFS ja
MapReduce
2003,
2004
Hadoop 2006
Datan tallentaminen ja analysointi
(klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL)
Spanner 2012 ? ???? Transaktiot
Innoittajana Google
21. Hadoopin asema big data -ilmiössä
Hadoop
Tiedon määrä
Tiedonrakenteisuus
2 Tb1 Gb 20 Tb 200 Tb
Nearly all sectors in the US
economy had at least an
average of 200 terabytes of
stored data per company with
more than 1,000 employees.
McKinsey 2011
By 2015, 65 percent of packaged
analytic applications with
advanced analytics will come
embedded with Hadoop.
Gartner 2013
23. Hadoop Distributed File System: HDFS
Hadoopin hajatettu tiedostojärjestelmä HDFS
● Tiedostot ovat tallennettuina hajautetusti klusteriin
● Suuri data pilkotaan “blokeiksi”, määritellyn logiikan
mukaan
● Nimipalvelin (name node) tallentaa (meta)tiedot siitä,
missä tiedostot fyysisesti sijaitsevat
● Oletusarvo on, että tiedostot tallennetaan kolmeen
kertaan
Innoittajana GFS eli Google File System
24. Hadoop Distributed File System: HDFS
Node 1
data piece
Big Data
(= 1 or more files)
data piece
data piece
Node 2
data piece
data piece
data piece
Node 3
data piece
data piece
data piece
Node 4
data piece
data piece
data piece
HDFS
Lähde: mukaillen www.glennklockwood.com
25. Hadoop Distributed File System: HDFS
Name
node
Blocks
Client
Rack 1
Data node
Data node
Data node
Rack 2
Data node
Data node
Data nodewrite
write
Client
read
metadata ops
block ops
Metadata
(Name, replicas…):
/home/foo/data, 3...
26. Hadoop Distributed File System: HDFS
Parhaimmillaan ennakoitavissa oloissa:
● Tiedostot suurikokoisia, oletuksena 64Mb
● Tiedostoja luetaan peräkkäin, alusta loppuun
● Tiedostot kirjoitetaan kerran, luetaan useasti
28. Hadoop: Prosessoinnin logiikka
MapReduce: Viedään prosessointi datan luo!
Lähde: www.glennklockwood.com
“Map/reduce is ideally suited for
trivially parallel calculations on
large quantities of data.”
29. Hadoop: MapReduce
MapReducen idea/vahvuus on
rinnakkaistaa ja hajauttaa
analytiikka.
Node 1
Node 1
“raakadata”
Map
“välitulokset”
Reduce
HDFS
Node 2
Node2
“raakadata”
Map
“välitulokset”
Reduce
HDFS
Data
30. Hadoopissa ennen ja nyt
MapReduce edelleen isossa roolissa.
Lähde: Hortonworks
35. 1. http://hadoop.apache.org
“Harva organisaatio päätyy käyttämään
Hadoopia näin. Startup-yritysten,
tutkimuslaitosten ja yliopistojen vaihtoehto.”
Vahvuudet (+) Ilmainen
Heikkoudet (-) Joutuu tekemään kaiken itse
36. 2. Valmis jakelu
Otetaan käyttöön valmiiksi paketoitu kokonaisuus
Cloudera (CHD)
Hortonworks (HDP)
MapR (M7)
Pivotal (Pivotal HD)
IBM (IHC)
38. 2. Valmis jakelu
Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja
optimoitu suorituskyky
Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen
“Tyypillinen tapa tällä hetkellä ottaa Hadoop
käyttöön. Objektiivinen vertailu hankalaa, tietoa
vaikea saada. Vaatii vahvaa kehitystiimiä.”
39. 3. Hadoop osana kokonaisuutta
Big data Appliancet (esimerkkilista tunnetuista)
HP (HAVEn)
IBM (Infosphere BigInsights, Watson)
Microsoft (Analytics Platform System)
Oracle (Big Data Appliance)
Pivotal (Pivotal Big Data Suite)
Teradata (Teradata Aster Big Analytics Appliance)
40. 3. Hadoop osana Appliance-ratkaisua
Vahvuudet (+) Kehittyneet ominaisuudet,
integroitavuus, tuki- ja partneriverkosto
Heikkoudet (-) Kallis, vendor lock-in
“Tämä on se todennäköinen tapa, jolla
Hadoop hiipii yrityksiin, joilla on voimakas
toimittajasuhde. Hadoop osana isompaa
kokonaisuutta.”
41. 4. Hadoop pilvipalveluna
Hadoop pilvipalveluna tarjolla mm.:
Amazon (AWS Elastic MapReduse, EC2)
Microsoft (Windows Azure HDInsight)
Lisäksi esim. MapR M7 Googlen pilvessä, jolla tehty
nopeusennätyksiä (terasort, minutesort)
Google (Google Compute Cloud)
42. 4. Hadoop pilvipalveluna
Vahvuudet (+) Nopea käyttöönotto, joustavuus,
kustannusten ennakointi
Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää
osaamisvaatimuksia
“Helpoin, riskittömin ja nopein tapa pilotointiin,
demoamiseen ja testaamiseen. Todennäköisesti
tulevaisuudessa yhä merkittävämpi vaihtoehto
myös tuotantokäyttöön.”
46. Ivorion Hadoop-verkkokurssi on
erinomainen tapa tutustua big
datan keskeisimpään
teknologiaan.
Hadoop-sertifikaatin avulla
osoitat syvällisen osaamisesi
aiheesta, niin teorian kuin
teknologioiden osalta.
Ilmoittautumiset, lisätiedot ja muut koulutukset: ivorio.fi
31.5. mennessä tilatuista koulutustuotteista 15% alennus koodilla ICTEXPO
Hadoop
-verkkokurssi
Ivorio Certificate
for Hadoop