1. Isosta datasta uuteen dataan?
(From Big Data to New Data)
Tilastokeskuksen Big Data –seminaari 19.11. 2015
Timo Koskimäki
2. Juoni
- Big Data
– Tyypittelyä
– Vanha ja uusi Big Data
- Haasteet
– Lainsäädäntö
– Tarvittava tietotaito, investoinnit
- Isosta Datasta Uuteen Dataan?
– Miten tilastoja ja tutkimuksia tehdään jatkossa
4.12.2014 Tuotannon kehittäminen
3. Mikä ihmeen Big Data?
- Konsepti viittaa ainakin kolmeen asiaan:
– Uudet datan lähteet
• www, matkapuhelinverkot, satelliittipaikannus, tekniset sensorit,
esineiden internet
– Laskentajärjestelyt, joilla voidaan käsitellä aiempaa selvästi
suurempia ja ei-strukturoituja datoja (”Hadoop-ekosysteemi”)
– Laskentajärjestelyt, joilla voidaan strukturoida dataa ja
automatisoida sen käsittelyä tulkittavaan muotoon (Algoritmiikka,
Artificial Intelligence, Web Scraping)
4.12.2014 Tuotannon kehittäminen
4. Big Datan tyypittelyä
4.12.2014 Tuotannon kehittäminen
Tekninen Sisällöllinen
Avoin Julkishallinnon avoin data WWW avoin sisältö
- karttakoordinaatit -verkkokaupat
- liikennesensorit -blogit
-säähavaintotiedot… -muut sivustot…
WWW rajoitetusti avoin
Google trends ja analytics,
Suljettu Twitter, Facebook…
Yritysten sensoridata Yritysten toimintadata
- puhelinliikenne - kassapäätedata
-paikannustiedot - luottokorttidata
-sähkömittaustiedot.. - kanta-asiakaskortit
-muu verkkokäytösdata…
5. Vanha ja uusi Big Data
- Vanha Big Data
– Hallinnolliset rekisteriaineistot (verotus, väestö, sosiaaliturva,
ulkomaankauppa…)
• Olleet digitaalisia vuosikymmenet
• Muodostavat nykyisen hallinnollisen tiedontuotannon perustan
(hallinnollinen raportointi, virallinen tilastointi)
• Tilastointia varten täydennetään tilastollisilla tiedonkeruilla
- Uusi Big Data
– Yritysten ja kansalaisten elämän digitalisoitumisen tuloksena
syntyvä datamassa
4.12.2014 Tuotannon kehittäminen
6. Vanha ja uusi Big Data…
- Vanhan Big Datan ongelmat
– tekninen käsittely, lainsäädäntö ja pääsy aineistoihin, kattavuus,
edustavuus, tietojen koherenssi, laatu ja hallinnollisen tiedon
yhteiskuntatieteellinen/toiminnallinen tulkinta
• pitkälti ratkaistu
- Uuden massadatan ongelmat
– tekninen käsittely, lainsäädäntö ja pääsy aineistoihin, kattavuus,
edustavuus, tietojen koherenssi, laatu ja massadatan
yhteiskuntatieteellinen tulkinta
• pitkälti ratkaisematta
4.12.2014 Tuotannon kehittäminen
7. Haasteet
- Lainsäädäntö (tästä tilastolain uudistaminen -esitys)
- Valmiiden menetelmällisten ratkaisujen ja tietämyksen puute
– Investointikynnys ei vielä ylittynyt tilastotoimessa
- Liialliset odotukset erityisesti kustannussäästöjen ja laadun suhteen
- Ratkaisuja haetaan kansainvälisesti tilastotoimessa
– UNECE:n Big Data –projektit ja –kokeilut
– Eurostat’in Big Data Roadmap ja muu kehitystyö
– Edistyminen ei kovin nopeaa useastakin syystä
4.12.2014 Tuotannon kehittäminen
8. Isosta datasta uuteen dataan
- Iso Data:
– datan määrää
– frekvenssi
– laskentatekniset ja edustuvuusongelmat (digital disclosure, population)
- Uusi data:
– Isoa dataa generoivia prosesseja (käyttäytymissekvenssejä) voisi
hyödyntää myös suunnitelmallisesti
– Otanta- ja estimointiasetelmat jotka suunnitellaan etukäteen mutta joissa
datan lähde on kokonaan digitaalinen
• Kulutustutkimus kanta-asiakaskorteista tai tilastoviraston
”asiakaskortista”?
• Terveyskyselyjen sijaan dataa aktiivisuusrannekkeista?
• Ajankäyttötutkimuksen sijaan dataa kännyköistä (paikannus) ja
tviiteistä?
4.12.2014 Tuotannon kehittäminen