1. Massadata ja viralliset tilastot
Tutkas-seminaari
17.9.2014
Timo Koskimäki
Tilastotuotannon ylijohtaja
Tilastokeskus
2. Sisällys
Käsitteistöä
Tilasto, vanha ja uusi big data
Uuden massadatan tyypittelyä
Tekninen, sisällöllinen, avoin, suljettu
Massadata ja viralliset tilastot
Juridiset ja muut haasteet
Mahdolliset hyödyt
3. Käsitteistöä
Tilasto:
Toistuva kvantitatiivinen tutkimus
jolla on yhteiskuntapoliittista merkitystä
joka on laadittu noudattaen tieteellisiä periaatteita ja tilastoalan käytännesääntöjä
joka tuottaa numeerista tietoa myös muiden edelleen jalostettavaksi
4. Vanha ja uusi big data
Vanha big data
Hallinnolliset rekisteriaineistot (verotus, väestö, sosiaaliturva, ulkomaankauppa…)
Olleet digitaalisia vuosikymmenet
Muodostavat nykyisen tilastotuotannon perustan ja myös pääosan sisällöstä, usein täydennettynä tilastollisilla tiedonkeruilla
Uusi big data
Yritysten ja kansalaisten elämän digitalisoitumisen tuloksena syntyvä datamassa
5. Uuden big datan tyypittelyä
Julkishallinnon avoin data (esim. karttakoordinaatit, liikennetiedot, säähavaintotiedot j.n.e)
WWW –avoin sisältö (verkkokaupat, blogit, sivustot)
WWW rajoitetusti avoin (Google
Yksityisten toimijoiden haltuun generoituvat tekniset massadatat (esim. paikannustiedot, matkapuhelinliikenteen tiedot)
Trends, Analytics, Twitter, Facebook…)
Yksityisten toimijoiden haltuun generoituvat sisällöt (ostokset, luottokortit ja muut yritysten asiakkaita koskevat tiedot)
Avoin
Suljettu
Tekninen
Sisällöllinen
6. Massadata ja viralliset tilastot
Vanhan massadatan ongelmat
tekninen käsittely, pääsy aineistoihin, kattavuus, edustavuus, tietojen koherenssi, laatu ja hallinnollisen tiedon yhteiskuntatieteellinen tulkinta
pitkälti ratkaistu
Uuden massadatan ongelmat
tekninen käsittely, pääsy aineistoihin, kattavuus, edustavuus, tietojen koherenssi, laatu ja massadatan yhteiskuntatieteellinen tulkinta
pitkälti ratkaisematta
7. Skenaariot lähivuosille
Tilastotuotannon infrastruktuuri
Lainsäädäntö – oikeus saada uuden massadatan toimijoilta tilastointikäyttöön
Nykyinen tilastolainsäädäntö ei tunnista uutta dataa
Jos tulee käyttöön tilastoissa, tulee myös tutkimuskäyttöön
Tekniset fasiliteetit ja tietotaito uuden massadatan käsittelyyn
Investointikynnys ei vielä ylittynyt (juuri missään maassa), kokeiluja käynnissä
Ongelmana rakenteiden ja sisältöjen nopea muutos
8. Massadatan mahdolliset hyödyt
Nopeutuminen, sisältöjen monipuolistuminen?
Tiedonantajien rasituksen väheneminen?
Kustannussäästöt?
Jos massadatalla pystytään toteuttamaan edullisemmin nykyisiä suoria tiedonkeruita
Ei mikään helppo asia, massadatan jalostaminen järkeviksi tilastoiksi vaatii huomattavan työpanoksen
Kuten vaatii vanhankin massadatan jalostus