2. Tilastollinen tietosuoja ja tutkimustulokset
Tilastolaissa (280/2004), 13 § : Tilastokeskuksen tilastotarkoituksiin
keräämien tietojen luovutus tutkimuskäyttöön
Kyseisen pykälän perusteluissa todetaan seuraavaa:
Koska tieteellisen tutkimuksen lopputulokset ovat yleensä julkisia, tulisi niiden
julkaisemisen yhteydessä lisäksi aina erikseen varmistaa, ettei tutkimuksen
perustana olleita yksittäisiä tilastoyksiköitä olisi mahdollista tunnistaa
tutkimuksen julkisista lopputuloksista.
Tietosuojan varmistaminen käytännössä?
Tutkijan vastuu
Tarkistusmenettely
20.1.2015 2Nissinen
3. Esityksen sisältö
Tutkimusaineistot etäkäytössä (Tilastokoulu), luku 3
Salassapitovelvoite
(Taulukkoaineistojen tietosuoja)
Tutkimustulosteiden tietosuojavaatimukset
Tarkistusmenettely
Lisälukemista
20.1.2015 3Nissinen
4. Salassapitovelvoite
Tutkimusaineiston käyttö edellyttää käyttölupaa
Aineistoa saa käyttää ainoastaan käyttöluvan saanut henkilö ja vain
käyttölupapäätöksessä hyväksyttyyn tarkoitukseen
Tutkimushanketta koskevan sopimuksen ja salassapitositoumuksen
allekirjoittaminen:
Tutkija sitoutuu siihen, ettei ilmaise eikä käytä omaksi hyödyksi
tutkimuksen yhteydessä tietoonsa saamia, salassapidettäviksi
säädettyjä tietoja (tutkimusaineistoon sisältyvät yksikkötason
henkilö- ja yritystiedot).
Aineistosta ei saa yrittää tunnistaa tietojen kohteita
Vaitiolovelvollisuus on voimassa sopimuksen päätyttyäkin.
20.1.2015 4Nissinen
5. Tutkimustulosteiden tietosuojavaatimukset
Salassapitovelvoitteen mukaan tutkijan on pidettävä huolta siitä, että
tutkimustuloksissa ei ole yksikkötason tietoja tai mahdollisuutta niiden
paljastumiseen.
Tulosteiden suojaus etäkäyttöjärjestelmässä tarkoittaa käytännössä
sitä, että järjestelmästä ulos siirrettäviin (eli tarkastukseen lähetettäviin)
tulosteisiin ei kohdistu aineistossa esiintyvien henkilöiden tai yritysten
paljastumisriskiä.
Tulosteiden sisällön suunnittelu tietosuojan kannalta
hyväksyttäväksi (esim. karkeiden luokitusten käyttö)
20.1.2015 5Nissinen
6. Tutkimustulosteiden tietosuojavaatimukset
Taulukkomuotoiset aineistot I
Tilastokeskuksen linjaukset taulukkomuotoisten tietojen suojaamisesta
Yritystiedot
Solussa tai ryhmässä on oltava aina vähintään 3 (painottamatonta)
havaintoa
Dominanssisäännön käyttö (1,75) tiettyjen aineistojen kohdalla
Henkilötiedot
Solukohtainen kynnysarvo 3
Erityistä huomiota kiinnitettävä taulukoitavien muuttujien
arkaluonteisuuteen.
20.1.2015 6Nissinen
7. Tutkimustulosteiden tietosuojavaatimukset
Taulukkomuotoiset aineistot II
Yhdistetyissä työntekijä–työnantaja-aineistoissa (esim. FLEED) on
suojattava sekä henkilö- että yritystaso
kussakin taulukon solussa on oltava työntekijöitä vähintään
kolmesta eri yrityksestä.
Taulukkomuotoisissa yritysaineistoissa esiintyviin
ammatinharjoittajatietoihin sovelletaan samoja suojauskäytäntöjä kuin
muihinkin yritystietoihin.
20.1.2015 7Nissinen
8. Tutkimustulosteiden tietosuojavaatimukset
Erilaiset jakaumatunnusluvut I
Maksimi ja minimi
liittyvät yleensä yhteen havaintoon
Onko havainto mahdollista tunnistaa?
Jakaumapisteet (pl. minimi ja maksimi)
erikoistapaus taulukosta, jossa solufrekvenssejä vastaavat
jakaumapisteiden väliin jäävien havaintojen lukumäärät
Kynnysarvo 3
Moodi
voidaan julkaista, mikäli (lähes) kaikki havainnot eivät saa samaa
arvoa.
20.1.2015 8Nissinen
10. Tutkimustulosteiden tietosuojavaatimukset
Muut numeeriset tulostetyypit
Indeksipisteluvut, korrelaatiokertoimet ja testisuureet (t, F, X², yms.)
voidaan yleensä julkaista, mikäli laskennassa on käytetty tarpeeksi
(vähintään 10) havaintoja.
Regressiomalli
voidaan julkaista, mikäli mallin taustalla on riittävästi havaintoja ja
malli ei kuvaa aikasarjaa yhteen yritykseen/henkilöön perustuvista
havainnoista. Mallin yksittäisiä kertoimia voidaan yleensä aina
julkaista.
20.1.2015 10Nissinen
11. Tutkimustulosteiden tietosuojavaatimukset
Kuvat
Aineistoista piirretyt kuvat ovat sallittuja, jos yksittäinen kuvapiste ei voi
paljastaa sen taustalla olevaa yksittäistä havaintoa.
Pylväsdiagrammit
Kussakin luokassa on riittävästi havaintoja (vrt. taulukko)
Jakaumakuvat
Sisältääkö paljastavia ääriarvoja tai poikkeavia havaintoja?
Tasoitetut tai riittävän karkealla asteikolla esitetyt jakaumat,
histogrammit ja kertymäfunktiot sallittuja
Hajontakuvat
Yksittäinen havainto = yksittäinen piste → potentiaalinen
paljastuminen
Erityishuomio outlierien esiintymiseen!
20.1.2015 11Nissinen
12. Tarkistusmenettely I
Tarkistusmenettelyllä halutaan varmistaa tietosuojan toteutuminen
tutkijan aineistosta tuottamissa tulosteissa
Tutkijan tulee huolehtia, että tarkastukseen lähetettävät tulosteet
täyttävät vaaditut tietosuojavaatimukset.
Tulosteiden tulee olla selkeästi tulkittavia.
Tulosteiden keskeinen sisältö ja käytetyt muuttujat tulee olla
tarkastajan ymmärrettävissä.
Taulukoissa solukohtaisten havaintojen lukumäärän tulee olla
näkyvissä, kuten myös estimaattien ja tunnuslukujen laskennassa
käytettyjen havaintojen lukumäärät.
20.1.2015 12Nissinen
13. Tarkistusmenettely II
Tarkastaja ei voi päästää tarkastuksesta läpi tulostetta
jonka sisältö on liian epäselvä tai puutteellisesti dokumentoitu
joka on liian laaja tietosuojan toteutumisen arvioimiseksi (esim. log-
tiedostoista lähetettävä tarkistukseen vain välttämättömät ja
julkaistavaksi tarkoitetut tiedot)
joka sisältää yksikkötason tietoja (järjestelmästä saa ulos vain
aggregoituja tietoja)
Kaikkien tarkistukseen vietävien tiedostojen tulee täyttää samat
kriteerit kuin julkaistaviksi tarkoitettujen taulukoiden ja kuvioiden
20.1.2015 13Nissinen
14. Lisälukemista I
Tutkijapalveluiden ohjeet ja säännöt
http://www.tilastokeskus.fi/tup/mikroaineistot/tutkijapalvelun_saannot.pdf
Säännöt ja ohjeet ovat sitovia kaikille tutkimushankekohtaisen tai
SISU-mikrosimulointimallin käyttöä koskevan sopimuksen
allekirjoittaneille tutkijoille
Tutkimusaineistot etäkäytössä –tilastokoulu verkossa (avataan pian!)
20.1.2015 14Nissinen
15. Lisälukemista II
Guidelines for the checking of output based on microdata research
(2009)
http://neon.vb.cbs.nl/casc/..%5Ccasc%5CESSnet%5CGuidelinesForOu
tputChecking_Dec2009.pdf
Hundepool, Anco; Domingo-Ferrer, Josep; Franconi, Luisa; Giessing,
Sarah; Schulte Nordholt, Eric; Spicer, Keith & de Wolf, Peter-Paul
(2012). Statistical Disclosure Control. Wiley.
20.1.2015 15Nissinen