Tarpeet verkkoharavoinnille
2
Tilastokeskus
16.1.2023
Uusia tietotarpeita, joiden täyttämiseen pohditaan aineistojen hankintaa,
syntyy koko ajan
• Tilastolain mukaan tilastojen laadintaan tarvittavat tiedot tulisi kerätä
mahdollisimman tehokkaasti ja tiedonantajien rasite minimoiden
• Valmiita rekistereitä tai rajapintoja ei saada/löydetä, tai tietojen
kerääminen suorilla tiedonkeruilla olisi liian kallista tai työlästä toteuttaa
• Suora tiedonkeruu (etenkin käynnit liikkeissä tai tietojen poimiminen
manuaalisesti verkosta) kallista, työvoimaintensiivistä, hidasta.
Lomakekeruu tai massa-aineistojen tuottaminen rasittaa tiedonantajia
(yritykset)
Verkkoharavointi?
3
Tilastokeskus
16.1.2023
Verkkoharavointi on automatisoitu tiedonkeruun menetelmä, joka
kerää tiedot määrämuotoisena verkkosivujen lähdekoodista
–Vaihtoehtona verkkoharavoinnille ovat ainakin
– Perinteinen suorakeruu (kysely)
– Manuaalinen tiedon poiminta
– Yhdessä tiedon tuottajan (esim. yrityksen tai sivuston ylläpitäjän)
kanssa määritetyt rajapintahaut (API)
– Tiedostomuotoiset toimitukset
Verkkoharavoinnin mahdollisuudet
5
Tilastokeskus
16.1.2023
–Koko internetin laajuinen ”tietovaranto” käytettävissä
–Tiedot saatavissa ajantasaisesti ja nopeasti
– Kymmeniätuhansia tietoja muutamassa sekunnissa
–Haravien laatu ja soveltuvuus tilastoihin voi vaihdella suurestikin
– Mahdollisuuksia on paljon, ja tarkentuvat tapauskohtaisesti tutkimalla
– Erilaisissa hintakeruissa huomattavia säästömahdollisuuksia
–Sopii hyvin massa-aineistojen keruuseen
–Oikein toteutettuna ei kuormita tiedontuottajan teknisiä tai
henkilöresursseja
Haasteet
6
Tilastokeskus
16.1.2023
–Lainsäädännön tuomat ja eettiset reunaehdot
–Testidataa saadaan, mutta tuotantokäytössä tunnistauduttava
> blokkaus > pyyntö avata > joskus jopa sopimusneuvottelut
–Kaikkia olennaisia tietoja ei saada haravoinnin kautta,
tarvitaan useampi tietolähde
–Kolmansien osapuolien haravoimien tietojen mahdollisuudet
vs. eettiset ja juridiset linjaukset
–Hankalasti hahmotettavat viritelmät nettisivujen takana, mistä
nettisivulla oleva tieto tulee, kuka omistaa aineiston
–Sivusto (alusta) voidaan lakkauttaa, mistä korvaava tieto
nopeasti?
–Ei varmuutta että tiedot (esim. hinnat) päivitetään
ajantasaisesti sivustolle
Teknologian nykytila ja uudet
vaatimukset
7
Tilastokeskus
16.1.2023
– Sivustoilla uudentyyppisiä taulurakenteita, javascriptiä, visuaalisen puolen ja
käytettävyyden muutokset haastavat
– Sivustojen uudistuminen, vanhan rinnalle kehitetään uusia sivuja jotka vaikeuttavat
haravointia (sivustojen rakenteen selvittäminen vaikeaa)
– Teknologian tarjoamat mahdollisuudet vs. linjaus ja rajat (emme hakkeroi, toimi
pimeissä verkoissa jne.)
– Muutokset edellyttävät useimmiten haravien päivittämistä tai jopa
uudelleenrakentamista
– Teknologinen kehitys sivustoilla (pysytäänkö muutosten mukana)
– Cloudflaren kaltaiset sivustojen suojausmenetelmät estävät haravoinnin
– Haravat vaativat jatkuvaa ylläpitoa
– Sivustojen rakenne voi muuttua ennakoimattomasti
– Tuotteet/kohde mitä halutaan haravoida vaihtuu
Lainsäädäntö
8
Tilastokeskus
16.1.2023
Tilastojen laadintaa ohjaa tilastolaki (280/2004).
Tilastolakiin tai muuhun lainsäädäntöön ei sisälly varsinaisia
verkkoharavointia koskevia säännöksiä.
Verkkoharavointia tilastotuotannossa koskevia vakiintuneita tulkintoja tai
oikeuskäytäntöä ei ole. Käytännöt ovat kansainväliselläkin tasolla vasta
muotoutumassa.
Verkkoharavointia tällä hetkellä tarkasteltava
• yleislainsäädännön perusteella
• tilastojen laadintaa koskevan lainsäädännön perusteella
Verkkoharavoinnin lainmukaisuutta arvioitaessa huomioitava
• tekijänoikeudet
• tietosuoja
• käyttöehdot
Linjaus selkeyttämään käyttöä
9
Tilastokeskus
16.1.2023
Haravien oltava (Tilastokeskuksen) linjausten mukaisia ja hyvää netikettiä
noudattavia ”eettisiä”
– Vaikka moni seikka puoltaa internetistä haravoitujen tietojen
hyödyntämistä, ei tietojen käyttäminen tilastoinnissa ole ongelmatonta.
• Tiedon laatua koskevat puutteet
• Eettiset ongelmat
• Juridiset ongelmat
– Samoja haasteita pohditaan eurooppalaisessa tilastoyhteistyössä.
– Ensimmäinen verkosta haravoitujen tietojen käyttöä koskeva linjaus (ESS
Web scraping policy template) julkaistiin heinäkuussa 2019, ja se on
yhtenäinen Tilastokeskuksen käytäntöjen kanssa.
Eettisen kestävyyden varmistaminen
10
Tilastokeskus
16.1.2023
Lainmukaisuus
• Lainsäädäntö ja tietosuoja huomioidaan ja noudatetaan täysimääräisesti.
Mahdollisia muutoksia seurataan.
Läpinäkyvyys
• Verkkoharavoinneista ilmoitetaan julkisesti Tilastokeskuksen kotisivuilla.
• Haravoinnin tarkoitus, haravoinnin kohteena olevat tietotyypit
• Yhteystiedot, joihin verkkosivuston ylläpitäjä voi ottaa yhteyttä lisätietojen
pyytämiseksi tai haravoinnin rajoittamiseksi.
• Jos tiedonantovelvollisuuteen perustuvaa tiedon keräämistä, tietoja kerättäessä
huomioidaan tilastolain mukainen tiedottamisvelvollisuus. Henkilötietojen
käsittelyä koskevaa informointivelvollisuutta noudatetaan.
Vähimmän haitan periaate
• Verkkoharavointi siten, että haravoinnista aiheutuu verkkosivuston toiminnalle ja
sen omistajille mahdollisimman vähän haittaa ja kustannuksia.
Eettisen kestävyyden varmistaminen
11
Tilastokeskus
16.1.2023
Oikeus kieltää
• Verkkosivuston ylläpitäjille annetaan oikeus kieltää haravointi (opt-out)
ottamalla yhteyttä Tilastokeskukseen.
• Kieltopyyntöjä kunnioitetaan, ja ne ilmoitetaan yhteiseen listaan (ns. black
list).
Tilastointiperiaatteiden noudattaminen
• Tilastojen laatimiseen ja toimintaan sovellettavia menettelytapoja, periaatteita
ja ammattietiikkaa noudatetaan myös verkkoharavoinnissa.
Käyttöehtojen tarkistaminen
• Verkkoharavointi kohdistetaan toistaiseksi ainoastaan sellaisille
verkkosivustoille, joiden käyttöehdot on tarkistettu.
• Haravoinnin katsotaan olevan sallittua, jos sitä ei ole nimenomaisesti kielletty
tai kielto on selkeästi rajattu koskemaan pelkästään kaupallista toimintaa.
Käytännön toimintaperiaatteet
12
Tilastokeskus
16.1.2023
Tietojen tarpeellisuus
• Verkkoharavointi kohdistetaan vain sellaisiin tietoihin, jotka ovat
perustellusti tarpeellisia tilastojen laatimisen kannalta.
• Tietojen on tuotava lisäarvoa tilastotuotantoon.
Käyttötarkoitus
Verkkoharavoinnin avulla kerättyjä aineistoja voidaan luovuttaa
ainoastaan Tilastolain 13 §:n mukaisiin tarkoituksiin.
Identiteetin paljastaminen (user agent string)
Haravoitavalle verkkosivustolle ilmoitetaan
• Tilastokeskuksen identiteetti
• yhteyspiste yhteydenottoa varten
• linkki verkkoharavointia koskevaan ilmoitukseen Tilastokeskuksen
kotisivuille.
Käytännön toimintaperiaatteet
13
Tilastokeskus
16.1.2023
Kuormittamisen minimointi
• Verkkosivustoja ei kuormiteta liiallisilla ja tiheillä kyselyillä
• Haravointi ajoitetaan sivuston hiljaisimpiin aikoihin (esim. yöaikaan)
• Ylimääräisiä kyselyitä ei tehdä, vaan haravat toteutetaan siten, että ne
hakevat ainoastaan tarpeellisia tietoja.
Etukäteiskuuleminen poikkeustapauksissa
Verkkosivuston ylläpitäjää kuullaan etukäteen tapauksissa, joissa
verkkoharavointi olisi poikkeuksellisen laajamittaista tai kuormittavaa.
Tilannekohtainen harkinta
• Verkkoharavoinnin tilannekohtainen tarkoituksenmukaisuus selvitetään
ennen haravoinnin aloittamista.
• Tiedot voidaan hakea myös APIn kautta, jos sellainen on tarjottu.
Käytännön toimintaperiaatteet
14
Tilastokeskus
16.1.2023
Robots.txt
• Jos verkkosivustolla on verkkoharavoinnin kieltävä robots.txt tiedosto,
sitä kunnioitetaan. Robots.txt-tiedostosta poikkeamiseen voidaan
tarvittaessa kysyä lupaa verkkosivuston ylläpitäjältä (kirjallisesti).
• Haravointia ei tule aloittaa ennen myöntävän vastauksen saamista.
Kolmannen osapuolen haravoiman aineiston hankinta
• Noudatettava samoja periaatteita kuin edellä esitelty
• Ei saa olla kopioitu esim. tekijänoikeuksien suojaamasta
tietokannasta
• Ei saa sisältää luvattomasti haravoituja tietoja
• Oltava eettisesti kestävällä tavalla hankittua
• Ei saa sisältää henkilötietoja
Voiko haravoinnin varaan perustaa
tuotantoa?
15
Tilastokeskus
16.1.2023
–Toimintaympäristön seuranta ja muutoksiin reagoiminen
olennaista
–Kommunikaatio tuotantokäyttöön tulevan tiedon tuottajan
kanssa korostuu