21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
Rekisteriaineistojen laatu toisiokäytössä, professori Reijo Sund, Itä-Suomen Yliopisto
1. UEF // University of Eastern Finland
Rekisteriaineistojen laatu toisiokäytössä
Reijo Sund
Tiedon laatukehikko – aloitustilaisuus 25.9.2020
Reijo Sund, Rekisteritutkimuksen professori, Professor of Register Studies
2. UEF // University of Eastern Finland
Aineistojen laatu
•On keskeisen tärkeää, että (hallinnollisten) rekisterien aineisto on hyvälaatuista
– Rekisteröinti on kattavaa
– Aineistossa on tarkoituksenmukaisia muuttujia (tietosisältö on järkevä)
– Data on mahdollisimman virheetöntä
– Aineisto pystytään yhdistämään muihin aineistoihin
– Aineistossa käytetään yhteensopivia luokituksia
•Vaikeaa asiasta tekee se, että laadulta odotettavat tarkemmat kriteerit voivat
vaihdella aiotun toisiokäytön tarpeiden mukaisesti
– Onko data laadukasta, jos se sopii hyvin johonkin tarkoitukseen, mutta ei lainkaan
johonkin toiseen?
3. UEF // University of Eastern Finland
Miksi rekisteridataa ei käytetä joka tilanteessa?
•(Rekisteri)data on alun perin kerätty jotain muutatarkoitusta varten kuin
mihin sitä haluttaisiin toisiokäytön yhteydessä hyödyntää
•Data ei heijasta suoraan todellisuutta vaan tekee sen vain jostain äärimmäisen
kapeasta näkökulmasta
•Niin kauan kuin on ollut dataa, on ollut vaikeuksia muuntaa sitä hyödylliseksi
informaatioksi
4. UEF // University of Eastern Finland
Datasta informaatioksi?
•Informaatio on jotain mitä tuotetaan datasta ja taustatietämyksestä
– Infologinen yhtälö: I = i(D, S, t)
• Informaatiota I tuotetaan datasta D ja taustatietämyksestä S
(kontekstissa t käyttäen tulkintaprosessia i)
•Voidaanko löytää sopiva kompromissi datan alkuperäisen ja toisiokäytön
välille datan tarjoamissa puitteissa?
– Onko mahdollista tuottaa informaatiota I datasta D’ datan D sijaan?
•Käytännössä rekisteridataa on prosessoitava tieteellistä menetelmää käyttäen
ja esikäsiteltävä sitä käyttökelpoiseksi ”rikastaen” dataa taustatietämyksellä
5. UEF // University of Eastern Finland
Käsitteiden ja datan suhde?
• Kaksi pääluokkaa:
– Faktuaalinen = datan ymmärtämiseen tarvitaan minimaalinen määrä taustatietoa
– Sovitettu (abstraktoitu) = kognitiivinen sopivuus hyväksyttävä (=vaikuttaa hyvältä)
• Laadun kannalta vain niin sanottuja vakaita käsitteitä heijasteleva faktuaalinen data
(muuttujat) helppoa
– Silloin mahdollista laatia käyttötarkoituksesta riippumatonta metadata
• Muunlaisen datan tapauksessa laatukriteerit ja näin ollen tarvittava metadata
tilannesidonnaista ja jopa muuttujien sisäisesti voi olla vaihtelua
– Mitä monimutkaisempi muuttuja, sitä enemmän tarvitaan taustatietämystä
6. UEF // University of Eastern Finland
Datan laatu vaatii ylläpitoa
•Dataa on ylläpidettävä ja sen käytölle on tarjottava tukea
– Vaatii runsaasti resursseja
•Keinoja:
– Hyvät metadatat (myös ajallisesti)
– Järkevä esikäsittely tyypillisimpiä käyttötarkoituksia varten
– Vakiintuneet luokitukset helposti saatavilla
– Yleisesti tarvittavia työkaluja datan (esi)käsittelyyn