Causal models are used to model and explain social systems by representing causal relationships between variables. They do this using structural equations to quantify how variations in explanatory variables explain variations in outcomes. For example, Caldwell's model of mother's education and child survival uses education and income variables to causally explain differences in children's survival rates, providing insight into that social system. While commonly used, causal modeling employs explanation in a philosophically simplistic way, and examining explanations as models themselves is a path for further research.
The document discusses the causal interpretation of statistical models in social research. It outlines different perspectives from staunch causalists to moderate skeptics. Interpreting a statistical model causally is described as an epistemic activity to decide if a model is valid, rather than determining a physical causal relation. The causal interpretation depends on the statistical information and machinery used to make inferences from the model. Keeping statistical and causal inferences distinct is important, while acknowledging the role of background knowledge in interpretation.
This document discusses path analysis. It provides definitions and explanations of key terms related to path analysis, including exogenous and endogenous variables, residual variables, direct and indirect effects, and structural equations. It also compares different approaches to path analysis such as using correlation, Q statistics, and LISREL. Path analysis is presented as a technique for analyzing relationships between multiple variables through the use of causal models.
Causal models are used to model and explain social systems by representing causal relationships between variables. They do this using structural equations to quantify how variations in explanatory variables explain variations in outcomes. For example, Caldwell's model of mother's education and child survival uses education and income variables to causally explain differences in children's survival rates, providing insight into that social system. While commonly used, causal modeling employs explanation in a philosophically simplistic way, and examining explanations as models themselves is a path for further research.
The document discusses the causal interpretation of statistical models in social research. It outlines different perspectives from staunch causalists to moderate skeptics. Interpreting a statistical model causally is described as an epistemic activity to decide if a model is valid, rather than determining a physical causal relation. The causal interpretation depends on the statistical information and machinery used to make inferences from the model. Keeping statistical and causal inferences distinct is important, while acknowledging the role of background knowledge in interpretation.
This document discusses path analysis. It provides definitions and explanations of key terms related to path analysis, including exogenous and endogenous variables, residual variables, direct and indirect effects, and structural equations. It also compares different approaches to path analysis such as using correlation, Q statistics, and LISREL. Path analysis is presented as a technique for analyzing relationships between multiple variables through the use of causal models.
2. Tilastollinen tietosuoja ja tutkimustulokset
Tilastolaissa (280/2004), 13 § : Tilastokeskuksen tilastotarkoituksiin
keräämien tietojen luovutus tutkimuskäyttöön
Kyseisen pykälän perusteluissa todetaan seuraavaa:
Koska tieteellisen tutkimuksen lopputulokset ovat yleensä julkisia, tulisi niiden
julkaisemisen yhteydessä lisäksi aina erikseen varmistaa, ettei tutkimuksen
perustana olleita yksittäisiä tilastoyksiköitä olisi mahdollista tunnistaa
tutkimuksen julkisista lopputuloksista.
Tietosuojan varmistaminen käytännössä?
Tutkijan vastuu
Tarkistusmenettely
20.1.2015 2Nissinen
3. Esityksen sisältö
Tutkimusaineistot etäkäytössä (Tilastokoulu), luku 3
Salassapitovelvoite
(Taulukkoaineistojen tietosuoja)
Tutkimustulosteiden tietosuojavaatimukset
Tarkistusmenettely
Lisälukemista
20.1.2015 3Nissinen
4. Salassapitovelvoite
Tutkimusaineiston käyttö edellyttää käyttölupaa
Aineistoa saa käyttää ainoastaan käyttöluvan saanut henkilö ja vain
käyttölupapäätöksessä hyväksyttyyn tarkoitukseen
Tutkimushanketta koskevan sopimuksen ja salassapitositoumuksen
allekirjoittaminen:
Tutkija sitoutuu siihen, ettei ilmaise eikä käytä omaksi hyödyksi
tutkimuksen yhteydessä tietoonsa saamia, salassapidettäviksi
säädettyjä tietoja (tutkimusaineistoon sisältyvät yksikkötason
henkilö- ja yritystiedot).
Aineistosta ei saa yrittää tunnistaa tietojen kohteita
Vaitiolovelvollisuus on voimassa sopimuksen päätyttyäkin.
20.1.2015 4Nissinen
5. Tutkimustulosteiden tietosuojavaatimukset
Salassapitovelvoitteen mukaan tutkijan on pidettävä huolta siitä, että
tutkimustuloksissa ei ole yksikkötason tietoja tai mahdollisuutta niiden
paljastumiseen.
Tulosteiden suojaus etäkäyttöjärjestelmässä tarkoittaa käytännössä
sitä, että järjestelmästä ulos siirrettäviin (eli tarkastukseen lähetettäviin)
tulosteisiin ei kohdistu aineistossa esiintyvien henkilöiden tai yritysten
paljastumisriskiä.
Tulosteiden sisällön suunnittelu tietosuojan kannalta
hyväksyttäväksi (esim. karkeiden luokitusten käyttö)
20.1.2015 5Nissinen
6. Tutkimustulosteiden tietosuojavaatimukset
Taulukkomuotoiset aineistot I
Tilastokeskuksen linjaukset taulukkomuotoisten tietojen suojaamisesta
Yritystiedot
Solussa tai ryhmässä on oltava aina vähintään 3 (painottamatonta)
havaintoa
Dominanssisäännön käyttö (1,75) tiettyjen aineistojen kohdalla
Henkilötiedot
Solukohtainen kynnysarvo 3
Erityistä huomiota kiinnitettävä taulukoitavien muuttujien
arkaluonteisuuteen.
20.1.2015 6Nissinen
7. Tutkimustulosteiden tietosuojavaatimukset
Taulukkomuotoiset aineistot II
Yhdistetyissä työntekijä–työnantaja-aineistoissa (esim. FLEED) on
suojattava sekä henkilö- että yritystaso
kussakin taulukon solussa on oltava työntekijöitä vähintään
kolmesta eri yrityksestä.
Taulukkomuotoisissa yritysaineistoissa esiintyviin
ammatinharjoittajatietoihin sovelletaan samoja suojauskäytäntöjä kuin
muihinkin yritystietoihin.
20.1.2015 7Nissinen
8. Tutkimustulosteiden tietosuojavaatimukset
Erilaiset jakaumatunnusluvut I
Maksimi ja minimi
liittyvät yleensä yhteen havaintoon
Onko havainto mahdollista tunnistaa?
Jakaumapisteet (pl. minimi ja maksimi)
erikoistapaus taulukosta, jossa solufrekvenssejä vastaavat
jakaumapisteiden väliin jäävien havaintojen lukumäärät
Kynnysarvo 3
Moodi
voidaan julkaista, mikäli (lähes) kaikki havainnot eivät saa samaa
arvoa.
20.1.2015 8Nissinen
10. Tutkimustulosteiden tietosuojavaatimukset
Muut numeeriset tulostetyypit
Indeksipisteluvut, korrelaatiokertoimet ja testisuureet (t, F, X², yms.)
voidaan yleensä julkaista, mikäli laskennassa on käytetty tarpeeksi
(vähintään 10) havaintoja.
Regressiomalli
voidaan julkaista, mikäli mallin taustalla on riittävästi havaintoja ja
malli ei kuvaa aikasarjaa yhteen yritykseen/henkilöön perustuvista
havainnoista. Mallin yksittäisiä kertoimia voidaan yleensä aina
julkaista.
20.1.2015 10Nissinen
11. Tutkimustulosteiden tietosuojavaatimukset
Kuvat
Aineistoista piirretyt kuvat ovat sallittuja, jos yksittäinen kuvapiste ei voi
paljastaa sen taustalla olevaa yksittäistä havaintoa.
Pylväsdiagrammit
Kussakin luokassa on riittävästi havaintoja (vrt. taulukko)
Jakaumakuvat
Sisältääkö paljastavia ääriarvoja tai poikkeavia havaintoja?
Tasoitetut tai riittävän karkealla asteikolla esitetyt jakaumat,
histogrammit ja kertymäfunktiot sallittuja
Hajontakuvat
Yksittäinen havainto = yksittäinen piste → potentiaalinen
paljastuminen
Erityishuomio outlierien esiintymiseen!
20.1.2015 11Nissinen
12. Tarkistusmenettely I
Tarkistusmenettelyllä halutaan varmistaa tietosuojan toteutuminen
tutkijan aineistosta tuottamissa tulosteissa
Tutkijan tulee huolehtia, että tarkastukseen lähetettävät tulosteet
täyttävät vaaditut tietosuojavaatimukset.
Tulosteiden tulee olla selkeästi tulkittavia.
Tulosteiden keskeinen sisältö ja käytetyt muuttujat tulee olla
tarkastajan ymmärrettävissä.
Taulukoissa solukohtaisten havaintojen lukumäärän tulee olla
näkyvissä, kuten myös estimaattien ja tunnuslukujen laskennassa
käytettyjen havaintojen lukumäärät.
20.1.2015 12Nissinen
13. Tarkistusmenettely II
Tarkastaja ei voi päästää tarkastuksesta läpi tulostetta
jonka sisältö on liian epäselvä tai puutteellisesti dokumentoitu
joka on liian laaja tietosuojan toteutumisen arvioimiseksi (esim. log-
tiedostoista lähetettävä tarkistukseen vain välttämättömät ja
julkaistavaksi tarkoitetut tiedot)
joka sisältää yksikkötason tietoja (järjestelmästä saa ulos vain
aggregoituja tietoja)
Kaikkien tarkistukseen vietävien tiedostojen tulee täyttää samat
kriteerit kuin julkaistaviksi tarkoitettujen taulukoiden ja kuvioiden
20.1.2015 13Nissinen
14. Lisälukemista I
Tutkijapalveluiden ohjeet ja säännöt
http://www.tilastokeskus.fi/tup/mikroaineistot/tutkijapalvelun_saannot.pdf
Säännöt ja ohjeet ovat sitovia kaikille tutkimushankekohtaisen tai
SISU-mikrosimulointimallin käyttöä koskevan sopimuksen
allekirjoittaneille tutkijoille
Tutkimusaineistot etäkäytössä –tilastokoulu verkossa (avataan pian!)
20.1.2015 14Nissinen
15. Lisälukemista II
Guidelines for the checking of output based on microdata research
(2009)
http://neon.vb.cbs.nl/casc/..%5Ccasc%5CESSnet%5CGuidelinesForOu
tputChecking_Dec2009.pdf
Hundepool, Anco; Domingo-Ferrer, Josep; Franconi, Luisa; Giessing,
Sarah; Schulte Nordholt, Eric; Spicer, Keith & de Wolf, Peter-Paul
(2012). Statistical Disclosure Control. Wiley.
20.1.2015 15Nissinen