Advertisement
Advertisement

More Related Content

More from Tilastokeskus(20)

Recently uploaded(20)

Advertisement

17.11.2022 Tiedonkeruun modernisointi, Tilastokeskus

  1. Älykäs tavoittelutyö AKU-tiedonkeruussa Juhani S & Anna E 1 17.1.2023 Tilastokeskus
  2. 2 Tilastokeskus 17.1.2023 Väestön tiedonkeruukäyttäytyminen vaihtelee Teoria: Mixed-mode –tiedonkeruu soveltuu väestötutkimuksiin erityisen hyvin, koska tutkittavat voivat valita itselleen parhaan tavan vastata. Kuhunkin vastaustapaan liittyy kuitenkin erilaisia kustannuksia ja hyötyjä, joita olisi tiedonkeruun suunnittelussa hyvä pystyä ennakoimaan. Onko tutkittavien tiedonkeruukäyttäytyminen täysin satunnaista, vai voisiko sitä ennustaa ennen tiedonkeruun alkua? Tässä työssä meitä auttaa paradata Vastaa verkossa vasta, kun haastattelija motivoi? Vastaa työmatkalla, kun saa muistutustekstiviestissä suoran linkin verkkolomakkelle? Vastaa vain puhelinhaastatteluun, koska ei ehdi tai jaksa kirjautua verkkolomakkeelle?
  3. 3 Tilastokeskus 17.1.2023 Paradata are automatic data collected about the survey data collection process captured during computer assisted data collection, and include call records, interviewer observations, time stamps, keystroke data, travel and expense information, and other data captured during the process. (Kreuter, Couper & Lyberg 2010).
  4. 4 Tilastokeskus 17.1.2023 Mixed-mode – tiedonkeruun ohjaus Haastattelijatyö on rajattu resurssi Katovinouman minimointi • Osa tiedoista kerätään itsetäytettävällä verkko- tai paperilomakkeella • Puhelin- tai käyntihaastatteluilla kerätään tiedot muilta • Kaikille kohteille ei ole varaa soittaa tai tehdä käyntiä • Haastattelutyö halutaan kohdentaa niille kohteille, joille se on tehokkainta • Ohjaus toteutetaan siten, että absoluuttisen vastaajamäärän lisäksi seurataan aktiivisesti aineiston vinoutuneisuutta ja tehdään korjaavia toimenpiteitä
  5. AKU-tiedonkeruussa testataan siis useampaa tiedonkeruustrategiaa 5 Tilastokeskus 17.1.2023 1) Todennäköisten verkkovastaajien malliperusteinen tunnistaminen ennen tiedonkeruujakson alkua 1) Haastattelijatyön optimointi priorisoimalla helposti ”läpikäytäviä kohteita” (muuten vaikeista) 2) Tiedonkeruun loppuvaiheessa vastauskatoa oikaiseva priorisointi (vastauspropensiteettimalli)
  6. Aikuiskoulutustutkimuksen tiedonkeruussa testattava tiedonkeruun ohjausmalli 6 Tilastokeskus 17.1.2023 Ei kiinnosta vastata Voin vastata puhelinhaastatteluun Vastaan mieluiten verkossa
  7. 7 Tilastokeskus 17.1.2023 Kiinnotava lopputulema: Esimerkiksi että kohde vastaa verkossa pelkän ennakkokirjeen perusteella Kohteen sosiodemografinen tausta: - Koulutus, ammattiasema - Sukupuoli, ikä, äidinkieli - Asuinalue, kotitalouden koko Käytettävissä olevien yhteystietojen määrä ja laatu - Löytyykö puhelinnumeroa, yksi vai monta? - Löytyykö sähköpostia (onko työ- vai henk. koht) - Kotitalouden muiden jäsenten yhteystietoja? Tiedonkeruuprosessimuuttujat - Tekivätkö haastattelijat kohteen tavoittelulle jotain erityistä? - Erilainen saatekirje - Tarjottiinko insentiiviä? Tilastollinen malli (esimerkiksi regressio) - Vasemmalla olevat tekijät selittävät lopputulemaa - Myös yhdysvaikutukset tärkeitä! Malli voidaan ”ottaa talteen” ja ennustaa sillä jonkin toisen tiedonkeruun lopputulemaa Tiedonkeruukäyttäytyminen
  8. Esimerkki: Kuluttajien luottamus – tiedonkeruun paradata 8 Tilastokeskus 17.1.2023 –Otetaan mallin aineistoksi Kuluttajien luottamus –tiedonkeruun paradata vuosilta 2020-21 (vain ensimmäistä kertaa mukana olevat) –Ennustetaan tiedonkeruukäyttäytymistä noin 23 000 havainnolla –Tarkoitus on, että tulokset voidaan yleistää minkä tahansa väestöllisesti edustavan tiedonkeruun otokseen (eli samat tyypit voidaan tunnistaa minkä tahansa tiedonkeruun tarpeisiin)
  9. Tiedonkeruukäyttäytymisen ennusteen jakauma 9 Tilastokeskus 17.1.2023 – Tässä on mallinnettu väestöllisesti edustavan otoksen tiedonkeruukäyttäytymistä – Ennustettu vastaamisen todennäköisyyttä (X-akseli) sekä nopeasti verkossa (Y-akseli) vastaamisen todennäköisyyttä – Huomataan, että todennäköisesti verkossa vastaavat ovat muutenkin todennäköisiä vastaajia, joskin on selvästi myös sellaisia väestöryhmiä, joita kannattaa tavoitella nimenomaan puhelimella Mies 69, ylempi kk, suomi, puhelin ja sähköposti Nainen 38, merkonomi, suomi, vain sähköposti Mies 29, prosessinhoitaja, AMK, ruotsi, sähköposti ja puhelin
  10. Tiedonkeruukäyttäytymisen ennusteen jakauma 10 Tilastokeskus 17.1.2023 Odotetusta vastauskäyttäytymisestä voi muodostaa ryhmittelyanalyysillä profiloinnin, jonka perusteella kohteet voi jakaa eri tiedonkeruujaksoille riippuen käytettävissä olevasta haatattelijaresurssista. Vuoden 2022 Aikuiskoulutustutkimuksen otos jaettiin tällä tekniikalla kolmeen yhtä suureen osaan, jossa suurimman verkkovastaustodennäköisyyden omaavat rajattiin ensimmäisessä vaiheessa haastattelutyön ulkopuolelle.
  11. AKU-tiedonkeruun kokemuksia 11 Tilastokeskus 17.1.2023 –Kun tiedonkeruun otoksesta tunnistettiin nk. ”helpot verkkovastaajat”, saattoivat haastattelijat keskittyä tiedonkeruun alussa sellaisiin kohteisiin, jotka todella hyötyvät haastattelijan tavoittelusta –Lokakuun loppuun mennessä ”verkko-ositteen” vastausaste oli sama kuin samaan aikaan käynnistetty ”haastattelijaosite” (eli noin 30 %) –Tiedonkeruu jatkuu vuoden loppuun ja lopulliset tulokset julkaistaan aikanaan
  12. AKU-tiedonkeruussa testataan siis useampaa tiedonkeruustrategiaa 12 Tilastokeskus 17.1.2023 1) Todennäköisten verkkovastaajien malliperusteinen tunnistaminen ennen tiedonkeruujakson alkua - Tärkeä, koska esittelemäni koeasetelman datasta on nk. kerma kuorittu tähän tiedonkeruuositteeseen 2) Haastattelijatyön optimointi priorisoimalla helposti ”läpikäytäviä kohteita” (muuten vaikeista) 3) Tiedonkeruun loppuvaiheessa vastauskatoa oikaiseva priorisointi (vastauspropensiteettimalli)
  13. Minkälaisesta tiedosta on hyötyä tiedonkeruun ohjauksessa? 13 Tilastokeskus 17.1.2023 ID Kohde Ikä 1001 Matti 42 1002 Laura 66 1003 Seppo 24 1004 Emil 32 1005 Maija 51 1006 Kalervo 21 1007 Erik 44 1008 Anna 29 1009 Helena 37 ….. 4999 Åke 69 Kuvitteellisen tiedonkeruun otos Jos olisit suunnittelemassa tämän otoksen kohteiden tavoittelua sillä perusteella, että haluaisit maksimoida käytettävissä olevan haastattelijatyön panos-tuotos – suhdetta, niin mitä tietoa tarvitsisit?
  14. Minkälaisesta tiedosta on hyötyä tiedonkeruun ohjauksessa? 14 Tilastokeskus 17.1.2023 ID Kohde Ikä Tarvittava haastattelutyö 1001 Matti 42 23 min 1002 Laura 66 12 min 1003 Seppo 24 52 min 1004 Emil 32 15 min 1005 Maija 51 35 min 1006 Kalervo 21 32 min 1007 Erik 44 42 min 1008 Anna 29 12 min 1009 Helena 37 48 min ….. 4999 Åke 69 92 min Kuvitteellisen tiedonkeruun otos Jos olisit suunnittelemassa tämän otoksen kohteiden tavoittelua sillä perusteella, että haluaisit maksimoida käytettävissä olevan haastattelijatyön panos-tuotos – suhdetta, niin mitä tietoa tarvitsisit? 1. Ainakin sen, kuinka paljon haastattelijan työtä kohteen tavoittaminen vie
  15. Minkälaisesta tiedosta on hyötyä tiedonkeruun ohjauksessa? 15 Tilastokeskus 17.1.2023 ID Kohde Ikä Tarvittava haastattelutyö Tod. saada haastateltua 1001 Matti 42 23 min 44 % 1002 Laura 66 12 min 52 % 1003 Seppo 24 52 min 17 % 1004 Emil 32 15 min 33 % 1005 Maija 51 35 min 78 % 1006 Kalervo 21 32 min 42 % 1007 Erik 44 42 min 23 % 1008 Anna 29 12 min 33 % 1009 Helena 37 48 min 46 % ….. 4999 Åke 69 92 min 98 % Kuvitteellisen tiedonkeruun otos Jos olisit suunnittelemassa tämän otoksen kohteiden tavoittelua sillä perusteella, että haluaisit maksimoida käytettävissä olevan haastattelijatyön panos-tuotos – suhdetta, niin mitä tietoa tarvitsisit? 1. Ainakin sen, kuinka paljon haastattelijan työtä kohteen tavoittaminen vie 2. Kuinka todennäköisesti tavoittelu johtaa haastatteluun tai verkkovastaukseen?
  16. Minkälaisesta tiedosta on hyötyä tiedonkeruun ohjauksessa? 16 Tilastokeskus 17.1.2023 ID Kohde Ikä A Tarvittava haastattelutyö B Tod. saada haastateltua A/B 1001 Matti 42 23 min 44 % 0.87 1002 Laura 66 12 min 52 % 0.38 1003 Seppo 24 52 min 17 % 5.10 1004 Emil 32 15 min 33 % 0.76 1005 Maija 51 35 min 78 % 0.75 1006 Kalervo 21 32 min 42 % 1.27 1007 Erik 44 42 min 23 % 3.04 1008 Anna 29 12 min 33 % 0.61 1009 Helena 37 48 min 46 % 1.74 ….. 4999 Åke 69 92 min 98 % 1.56 Kuvitteellisen tiedonkeruun otos Jos olisit suunnittelemassa tämän otoksen kohteiden tavoittelua sillä perusteella, että haluaisit maksimoida käytettävissä olevan haastattelijatyön panos-tuotos – suhdetta, niin mitä tietoa tarvitsisit? 1. Ainakin sen, kuinka paljon haastattelijan työtä kohteen tavoittaminen vie 2. Kuinka todennäköisesti tavoittelu johtaa haastatteluun tai verkkovastaukseen? 3. Näiden suhdeluku!
  17. Tiedonkeruuprosessin ohjaaminen… 17 Tilastokeskus 17.1.2023 –Jos tiedetään kunkin otoskohteen tavoitteluun tarvittava työaika… –Sekä todennäköisyys sille, että tavoittelu johtaa lopulta onnistuneeseen haastatteluun -> Näiden osamäärä kuvaa laskennallisesti sitä, montako tämän tyyppistä kohdetta saadaan haastateltua käytettyä haastattelutyötuntia kohti.
  18. 18 Tilastokeskus 17.1.2023 Jakso 1 (ei-verkossa todennäköisesti vastaavat) Jakso 2 (ei-verkossa todennäköisesti vastaavat) Jakso 3 (Todennäköiset verkkovastaajat) Verrokkijakso Priorisointikokeilu (Haastattelijat alkavat tavoitella marraskuussa)
  19. Ongelma? 19 Tilastokeskus 17.1.2023 –Haastattelijoiden käyttämät työtunnit saatavilla kuukausitasolla, eikä yksilöi sitä, minkä kohteen tavoitteluun on käytetty työaikaa –Haastavimmista kohteista on usein vähiten paradataa (kun yhteystietoja tavoitteluun ei ole!) –Kuinka siis tunnistaa työaikataloudellisesti haastavat kohteet? –Ratkaisu: Regression – The Workhorse of Data Science Eli mallinnetaan haastattelijoiden työajan käyttöä regressiolla (tämä muuten samalla vastaa ikuisuuskysymykseen “mihin haastattelijan työaika menee?”)
  20. 20 Tilastokeskus 17.1.2023 Haastattelijaparadata: - Jokainen kohteen tavoittelu omalla rivillään - Puhelut, sähköpostit, tekstiviestit - Yhteydenoton välineet ja lopputulemat - Haastattelijan omat viestimuotoilut eroteltuna mallipohjista - Yhteystietojen haku eri välineillä - Mukana myös keskitetyt massaviestit (ei mukana mallinnuksessa) Jakson 1 paradata elo- syyskuu Haastattelijoiden käyttämät työtunnit Tiedonkeruuseen käytetyt tunnit kuukausitasolla per haastattelija Portista: Haastattelijoiden tekemiset Haastattelijan tekemät toimenpiteet kuukausitasolla aggregoituna: - Karkeistetaan toimenpiteitä Aggregoidaan haastattelija* kuukausi + Mallinnetaan Regressiomalli Kuvaa sitä, kuinka paljon työaikaa keskimääräisellä haastattelijalla menee tyypilliseen tavoittelutoimenpiteeseen (Vakioidaan lisäksi elokuun koulutuksiin kulunut työaika, ja huomioidaan puhelinhaastattelun pituus ~40 min) Haastattelijoiden tekemiset Haastattelijan kaikki kohteelle tekemät toimenpiteet Aggregoidaan kohdetasolla Kohteen tavoitteluun käytetyt työtunnit Kuinka paljon keskimääräisellä haastattelijalla kuluu työaikaa näiden toimenpiteiden funktiona Mallinnettu kohdetason haastattelijatyöaika muuten summautuu kokonaistyöaikaan, koska on väistämättä mallinnettavien toimenpiteiden lineaarikombinaatio Malli ennustaa
  21. Ensimmäisen mallin jälkeen meillä on siis… 21 Tilastokeskus 17.1.2023 –Arvio siitä, kuinka paljon työaikaa kunkin 1. jakson kohteen tavoitteluun on käytetty haastattelijoiden työaikaa – Vain ne kohteet saavat arvoja, joita haastattelija on tavoitellut – Joiden tavoittelu on saatu jonkinlaiseen päätökseen (eli ei keskeneräiset kohteet) – Keskitetyt massaviestit eivät vie haastattelijan työaikaa, joten niiden perusteella vastanneiden työaika on 0
  22. Imputoidaan jokaiselle otoskohteelle estimaatti siitä, paljonko tämän kohteen työstäminen loppuun keskimäärin vie työaikaa 22 Tilastokeskus 17.1.2023 Otoskohteen taustatiedot: Ikä Äidinkieli Koulutus Sukupuoli Ammatti Yhteystietojen kattavuus keruun alussa (Jyrki) Kohteelle ja viitehenkilölle löydetyt yhteystiedot + Näiden yhdysvaikutukset (löydetty puhelinnumero ei ole samanarvoinen 20 vuotiaalle nuorelle ja 62 vuotiaalle) + Oletus: Ensimmäisen jakson kohteiden tavoitteluun käytettyä aikaa on mielekästä ennustaa käytettävissä olevien yhteystietojen laadulla ja kohteen taustatekijöillä: - Työaikaa kuluu enemmän, jos haastattelija joutuu itse hakemaan yhteystietoja, ja yhteystietojen haun onnistumisen todennäköisyys vaihtelee erilaisilla kohteilla Malli ennustaa Jokaiselle aloittamattomalle kohteelle (ja muille) estimoitu keskimääräinen tavoitteluun käytettävä työaika (siihen että tavoittelutyö käydään loppuun saakka)
  23. Jonka jälkeen meillä on… 23 Tilastokeskus 17.1.2023 –Jakson 1 datan perusteella estimoiden paras mahdollinen arvio siitä, paljonko kukin jakson 2 aloittamaton kohde tulee viemään työaikaa
  24. Parametri 2: Kuinka todennäköisesti tavoittelutyön päätteeksi on saatu haastattelu? 24 Tilastokeskus 17.1.2023 –Seuraavaksi tarvitaan jokaiselle kohteelle arvio siitä, että tehdyn tavoittelutyön päätteeksi on saatu haastattelu –Malliin otetaan mukaan 1. jaksolta vain ”loppuun asti” kalutut kohteet eli kohteet, joiden tavoittelu on päättynyt tavalla tai toisella (tässä voisi hyödyntää Cox –regressiota, mutta en tällä aikataululla pysty siihen) –Logistinen regressio, jossa selittäjinä kohteen tausta (ikä, koulutus, sukupuoli, ammatti) sekä yhteystietojen kattavuus (kohteen ja viitehenkilön yhteystiedot) + näiden interaktiot
  25. Parametri 2: Kuinka todennäköisesti putken päässä odottaa saatu vastaus tai haastattelu? 25 Tilastokeskus 17.1.2023 Otoskohteen taustatiedot: Ikä Äidinkieli Koulutus Sukupuoli Ammatti Yhteystietojen kattavuus keruun alussa Kohteelle ja viitehenkilölle löydetyt yhteystiedot + Näiden yhdysvaikutukset (löydetty puhelinnumero ei ole samanarvoinen 20 vuotiaalle nuorelle ja 62 vuotiaalle) + Täytyy mallintaa edellisestä riippumatta, sillä tavoitteluketjun pituus ja vaivalloisuus täytyy olettaa riippumattomaksi saadusta haastattelusta Malli ennustaa Jokaiselle aloittamattomalle kohteelle todennäköisyys sille, että tavoitteluketjun päätteeksi on saatu haastattelu tai verkkovastaus
  26. Jonka jälkeen meillä on… 26 Tilastokeskus 17.1.2023 –Jokaiselle aloittamattomalle kohteelle estimoitu todennäköisyys siitä, että haastattelijan tavoitteluketjun päässä siintää haastattelu… –Hillotolppa: Pistetään tämä ristiin työaikaestimaatin kanssa? – Näiden osamäärä kuvaa sitä, kuinka monta tämän tyyppistä kohdetta saadaan käytettyä haastattelijatyötuntia kohden
  27. Nyt meillä on priorisointia varten tarvittavat parametrit 27 Tilastokeskus 17.1.2023 Kohteen koulutustaso Yhteystiedot Työaika minuutteina Onnistumis-% Saatua haastattelua tunnissa Ei perusasteen jälkeistä Ei yhteystietoja 12.7 23 % 1.09 Ei perusasteen jälkeistä Pelkkä sähköposti 10.7 33 % 1.82 Ei perusasteen jälkeistä Pelkkä puhelin 31,0 57 % 1.09 Toinen aste Ei yhteystietoja 15.4 40 % 1.55 Toinen aste Pelkkä sähköposti 12,0 41 % 2.06 Toinen aste Pelkkä puhelin 26.5 68 % 1.54 Alempi korkea-aste Ei yhteystietoja 13.7 48 % 2.12 Alempi korkea-aste Pelkkä sähköposti 11.8 66 % 3.34 Alempi korkea-aste Pelkkä puhelin 26.3 86 % 1.97 Ylempi korkea-aste Ei yhteystietoja 15.3 75 % 2.92 Ylempi korkea-aste Pelkkä sähköposti 8,0 83 % 6.26 Nämä estimoidaan kohdetasolla, mutta ohessa esimerkinomaisesti yksiulotteinen tarkastelu yhden muuttujan (koulutustaso) ja yhteystietojen kattavuuden suhteen: - Kuvaa tämänkaltaisen kohteen tavoitteluun keskimäärin kuluvaa työaikaa - Tämänkaltaisen kohteen tavoittelun keskimääräistä onnistumista saadun vastauksen näkökulmasta Priorisoidaan tämän mukaan niin, että aloitetaan kohteista, joihin käytetty työaika tuottaa eniten haastatteluja
  28. Vaikutusten arviointi – Onko tavoittelu ollut lokakuussa työajankäytöllisesti tehokkaampaa? 28 Tilastokeskus 17.1.2023 Verrokkidata: Jakson 1 1.-30.9. aikana saadut haastattelut, käytetty haastattelijatyöaika ja tavoittelutyö Kokeilu: Jakson 2 1.-31.10. aikana saadut haastattelut, käytetty haastattelijatyöaika ja tavoittelutyö Huom! Koeasetelma on epätäydellinen! Tulos: Jaksot 1 ja 2 ovat menestyneet about yhtä hyvin? Toisaalta haastattelijat ovat käyttäneet lokakuussa keruuseen noin 12 % vähemmän työaikaa, joka lisäksi jakautuu kahden jakson välille (tekevät lokakuussa vielä syyskuussa kesken jääneitä). Käytetty työaika pitää vielä allokoida keruujaksoille, mutta vaikuttaa muuten hyvin lupaavalta! 0 100 200 300 400 500 600 700 800 900 Jakso 1 (haast) Jakso 2 (haast) Jakso 3 (web)
  29. Lopuksi 29 Tilastokeskus 17.1.2023 –Tiedostan hyvin, että kokeilussa oleva priorisointi itsessään on omiaan kasvattamaan aineiston vinoumaa (joskaan ei ehkä niin paljon kuin voisi luulla) –Koeasetelman tarkoituksena on kuitenkin kerätä evidenssiä priorisoinnin vaikuttavuudesta, ja sillä haetaan siten suurinta mahdollista efektiä, jotta sen voisi tilastollisesti havaita rajallisesta aineistosta (+ sekoittava mallivirhe) –Entä jos priorisointiin lisättäisiin vielä kolmas parametri kuvaamaan sitä, kuinka paljon kohde jäädessään katoon kontribuoi estimaatin keskivirheeseen?
Advertisement