Advertisement

17.11.2022 Tiedonkeruun modernisointi, Tilastokeskus

Tilastokeskus
Jan. 17, 2023
Advertisement

More Related Content

Similar to 17.11.2022 Tiedonkeruun modernisointi, Tilastokeskus (20)

More from Tilastokeskus(20)

Advertisement

Recently uploaded(20)

17.11.2022 Tiedonkeruun modernisointi, Tilastokeskus

  1. Verkkoharavoinnin hyödyntäminen tiedonhankinnassa Anna Potila-Kyläkoski 17.11.2022 Tiedonkeruun modernisointi -webinaari 1 16.1.2023 Tilastokeskus
  2. Tarpeet verkkoharavoinnille 2 Tilastokeskus 16.1.2023 Uusia tietotarpeita, joiden täyttämiseen pohditaan aineistojen hankintaa, syntyy koko ajan • Tilastolain mukaan tilastojen laadintaan tarvittavat tiedot tulisi kerätä mahdollisimman tehokkaasti ja tiedonantajien rasite minimoiden • Valmiita rekistereitä tai rajapintoja ei saada/löydetä, tai tietojen kerääminen suorilla tiedonkeruilla olisi liian kallista tai työlästä toteuttaa • Suora tiedonkeruu (etenkin käynnit liikkeissä tai tietojen poimiminen manuaalisesti verkosta) kallista, työvoimaintensiivistä, hidasta. Lomakekeruu tai massa-aineistojen tuottaminen rasittaa tiedonantajia (yritykset)
  3. Verkkoharavointi? 3 Tilastokeskus 16.1.2023 Verkkoharavointi on automatisoitu tiedonkeruun menetelmä, joka kerää tiedot määrämuotoisena verkkosivujen lähdekoodista –Vaihtoehtona verkkoharavoinnille ovat ainakin – Perinteinen suorakeruu (kysely) – Manuaalinen tiedon poiminta – Yhdessä tiedon tuottajan (esim. yrityksen tai sivuston ylläpitäjän) kanssa määritetyt rajapintahaut (API) – Tiedostomuotoiset toimitukset
  4. Verkkoharavat tuotantokäytössä tai kokeilussa Tilastokeskuksessa –Vuokramökit (tuotanto) www.stat.fi/keruu/vumo/ –Rautakaupat (tuotanto) www.stat.fi/keruu/raka/ –Vaatteet –Huonekalut –Autot –Uusia suunnitteilla 4 Tilastokeskus 16.1.2023
  5. Verkkoharavoinnin mahdollisuudet 5 Tilastokeskus 16.1.2023 –Koko internetin laajuinen ”tietovaranto” käytettävissä –Tiedot saatavissa ajantasaisesti ja nopeasti – Kymmeniätuhansia tietoja muutamassa sekunnissa –Haravien laatu ja soveltuvuus tilastoihin voi vaihdella suurestikin – Mahdollisuuksia on paljon, ja tarkentuvat tapauskohtaisesti tutkimalla – Erilaisissa hintakeruissa huomattavia säästömahdollisuuksia –Sopii hyvin massa-aineistojen keruuseen –Oikein toteutettuna ei kuormita tiedontuottajan teknisiä tai henkilöresursseja
  6. Haasteet 6 Tilastokeskus 16.1.2023 –Lainsäädännön tuomat ja eettiset reunaehdot –Testidataa saadaan, mutta tuotantokäytössä tunnistauduttava > blokkaus > pyyntö avata > joskus jopa sopimusneuvottelut –Kaikkia olennaisia tietoja ei saada haravoinnin kautta, tarvitaan useampi tietolähde –Kolmansien osapuolien haravoimien tietojen mahdollisuudet vs. eettiset ja juridiset linjaukset –Hankalasti hahmotettavat viritelmät nettisivujen takana, mistä nettisivulla oleva tieto tulee, kuka omistaa aineiston –Sivusto (alusta) voidaan lakkauttaa, mistä korvaava tieto nopeasti? –Ei varmuutta että tiedot (esim. hinnat) päivitetään ajantasaisesti sivustolle
  7. Teknologian nykytila ja uudet vaatimukset 7 Tilastokeskus 16.1.2023 – Sivustoilla uudentyyppisiä taulurakenteita, javascriptiä, visuaalisen puolen ja käytettävyyden muutokset haastavat – Sivustojen uudistuminen, vanhan rinnalle kehitetään uusia sivuja jotka vaikeuttavat haravointia (sivustojen rakenteen selvittäminen vaikeaa) – Teknologian tarjoamat mahdollisuudet vs. linjaus ja rajat (emme hakkeroi, toimi pimeissä verkoissa jne.) – Muutokset edellyttävät useimmiten haravien päivittämistä tai jopa uudelleenrakentamista – Teknologinen kehitys sivustoilla (pysytäänkö muutosten mukana) – Cloudflaren kaltaiset sivustojen suojausmenetelmät estävät haravoinnin – Haravat vaativat jatkuvaa ylläpitoa – Sivustojen rakenne voi muuttua ennakoimattomasti – Tuotteet/kohde mitä halutaan haravoida vaihtuu
  8. Lainsäädäntö 8 Tilastokeskus 16.1.2023 Tilastojen laadintaa ohjaa tilastolaki (280/2004). Tilastolakiin tai muuhun lainsäädäntöön ei sisälly varsinaisia verkkoharavointia koskevia säännöksiä. Verkkoharavointia tilastotuotannossa koskevia vakiintuneita tulkintoja tai oikeuskäytäntöä ei ole. Käytännöt ovat kansainväliselläkin tasolla vasta muotoutumassa. Verkkoharavointia tällä hetkellä tarkasteltava • yleislainsäädännön perusteella • tilastojen laadintaa koskevan lainsäädännön perusteella Verkkoharavoinnin lainmukaisuutta arvioitaessa huomioitava • tekijänoikeudet • tietosuoja • käyttöehdot
  9. Linjaus selkeyttämään käyttöä 9 Tilastokeskus 16.1.2023 Haravien oltava (Tilastokeskuksen) linjausten mukaisia ja hyvää netikettiä noudattavia ”eettisiä” – Vaikka moni seikka puoltaa internetistä haravoitujen tietojen hyödyntämistä, ei tietojen käyttäminen tilastoinnissa ole ongelmatonta. • Tiedon laatua koskevat puutteet • Eettiset ongelmat • Juridiset ongelmat – Samoja haasteita pohditaan eurooppalaisessa tilastoyhteistyössä. – Ensimmäinen verkosta haravoitujen tietojen käyttöä koskeva linjaus (ESS Web scraping policy template) julkaistiin heinäkuussa 2019, ja se on yhtenäinen Tilastokeskuksen käytäntöjen kanssa.
  10. Eettisen kestävyyden varmistaminen 10 Tilastokeskus 16.1.2023 Lainmukaisuus • Lainsäädäntö ja tietosuoja huomioidaan ja noudatetaan täysimääräisesti. Mahdollisia muutoksia seurataan. Läpinäkyvyys • Verkkoharavoinneista ilmoitetaan julkisesti Tilastokeskuksen kotisivuilla. • Haravoinnin tarkoitus, haravoinnin kohteena olevat tietotyypit • Yhteystiedot, joihin verkkosivuston ylläpitäjä voi ottaa yhteyttä lisätietojen pyytämiseksi tai haravoinnin rajoittamiseksi. • Jos tiedonantovelvollisuuteen perustuvaa tiedon keräämistä, tietoja kerättäessä huomioidaan tilastolain mukainen tiedottamisvelvollisuus. Henkilötietojen käsittelyä koskevaa informointivelvollisuutta noudatetaan. Vähimmän haitan periaate • Verkkoharavointi siten, että haravoinnista aiheutuu verkkosivuston toiminnalle ja sen omistajille mahdollisimman vähän haittaa ja kustannuksia.
  11. Eettisen kestävyyden varmistaminen 11 Tilastokeskus 16.1.2023 Oikeus kieltää • Verkkosivuston ylläpitäjille annetaan oikeus kieltää haravointi (opt-out) ottamalla yhteyttä Tilastokeskukseen. • Kieltopyyntöjä kunnioitetaan, ja ne ilmoitetaan yhteiseen listaan (ns. black list). Tilastointiperiaatteiden noudattaminen • Tilastojen laatimiseen ja toimintaan sovellettavia menettelytapoja, periaatteita ja ammattietiikkaa noudatetaan myös verkkoharavoinnissa. Käyttöehtojen tarkistaminen • Verkkoharavointi kohdistetaan toistaiseksi ainoastaan sellaisille verkkosivustoille, joiden käyttöehdot on tarkistettu. • Haravoinnin katsotaan olevan sallittua, jos sitä ei ole nimenomaisesti kielletty tai kielto on selkeästi rajattu koskemaan pelkästään kaupallista toimintaa.
  12. Käytännön toimintaperiaatteet 12 Tilastokeskus 16.1.2023 Tietojen tarpeellisuus • Verkkoharavointi kohdistetaan vain sellaisiin tietoihin, jotka ovat perustellusti tarpeellisia tilastojen laatimisen kannalta. • Tietojen on tuotava lisäarvoa tilastotuotantoon. Käyttötarkoitus Verkkoharavoinnin avulla kerättyjä aineistoja voidaan luovuttaa ainoastaan Tilastolain 13 §:n mukaisiin tarkoituksiin. Identiteetin paljastaminen (user agent string) Haravoitavalle verkkosivustolle ilmoitetaan • Tilastokeskuksen identiteetti • yhteyspiste yhteydenottoa varten • linkki verkkoharavointia koskevaan ilmoitukseen Tilastokeskuksen kotisivuille.
  13. Käytännön toimintaperiaatteet 13 Tilastokeskus 16.1.2023 Kuormittamisen minimointi • Verkkosivustoja ei kuormiteta liiallisilla ja tiheillä kyselyillä • Haravointi ajoitetaan sivuston hiljaisimpiin aikoihin (esim. yöaikaan) • Ylimääräisiä kyselyitä ei tehdä, vaan haravat toteutetaan siten, että ne hakevat ainoastaan tarpeellisia tietoja. Etukäteiskuuleminen poikkeustapauksissa Verkkosivuston ylläpitäjää kuullaan etukäteen tapauksissa, joissa verkkoharavointi olisi poikkeuksellisen laajamittaista tai kuormittavaa. Tilannekohtainen harkinta • Verkkoharavoinnin tilannekohtainen tarkoituksenmukaisuus selvitetään ennen haravoinnin aloittamista. • Tiedot voidaan hakea myös APIn kautta, jos sellainen on tarjottu.
  14. Käytännön toimintaperiaatteet 14 Tilastokeskus 16.1.2023 Robots.txt • Jos verkkosivustolla on verkkoharavoinnin kieltävä robots.txt tiedosto, sitä kunnioitetaan. Robots.txt-tiedostosta poikkeamiseen voidaan tarvittaessa kysyä lupaa verkkosivuston ylläpitäjältä (kirjallisesti). • Haravointia ei tule aloittaa ennen myöntävän vastauksen saamista. Kolmannen osapuolen haravoiman aineiston hankinta • Noudatettava samoja periaatteita kuin edellä esitelty • Ei saa olla kopioitu esim. tekijänoikeuksien suojaamasta tietokannasta • Ei saa sisältää luvattomasti haravoituja tietoja • Oltava eettisesti kestävällä tavalla hankittua • Ei saa sisältää henkilötietoja
  15. Voiko haravoinnin varaan perustaa tuotantoa? 15 Tilastokeskus 16.1.2023 –Toimintaympäristön seuranta ja muutoksiin reagoiminen olennaista –Kommunikaatio tuotantokäyttöön tulevan tiedon tuottajan kanssa korostuu
  16. Haravan rakentaminen 16 Tilastokeskus 16.1.2023 –Tekniikoita (Beutifulsoup, Requests, Scrapy, Selenium, Requests back end –tekniikalla) –Tutustumismateriaalia Scrapyyn: https://docs.scrapy.org/en/latest/ https://docs.scrapy.org/en/latest/intro/tutorial.html
  17. Haravointialusta 17 Tilastokeskus 16.1.2023 Tiedonkeruualusta jolle tuodaan kerääjiä (=haravat) Sisältää yhteisiä komponentteja –ajastus –datan siirto –konfiguraatiotiedosto –selaimen ajurit ja asennus –haravien monitorointi –virheilmoitukset –lokitus +keskitetty käyttöoikeuksien hallinta
  18. 18 Tilastokeskus 16.1.2023
Advertisement