Jani Heikkinen, JulkICT-osasto, VM
22.5.2017 Varaslähtö ATK-päiville: Yhdessä kohti kestävää datataloutta
Sitra, Tiedolla johtamisen valtakunnallinen yhteistyöverkosto, Kuntaliitto
Jani Heikkinen, JulkICT-osasto, VM
22.5.2017 Varaslähtö ATK-päiville: Yhdessä kohti kestävää datataloutta
Sitra, Tiedolla johtamisen valtakunnallinen yhteistyöverkosto, Kuntaliitto
Mikko Rotonen, ICT-projektijohtaja, Uudenmaan liitto ja HUS
22.5.2017 Varaslähtö ATK-päiville: Yhdessä kohti kestävää datataloutta
Sitra, Tiedolla johtamisen valtakunnallinen yhteistyöverkosto, Kuntaliitto
Semanttinen yhteentoimivuus ja YTI-hanke, Petri RoponenTilastokeskus
Tilastointi kehittyy-seminaari 25.5.2018
Seminaarissa tarkastellaan, miten tiedon yhteiskäyttöä voidaan parantaa kansallisella tasolla ja Tilastokeskuksessa.
Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raporttiHelsinki Region Infoshare
Antti Poikolan tekemä selvitys HRI-hankkeelle. Aiheena julkishallinnon avoimen datan kysyntä ja tarjonta. Toimenpidesuositukset HRI-hankkeelle tiedon avaamiseksi.
Sote-tietopaketit maakuntien ohjauksen ja johtamisen työkalunaSitra / Hyvinvointi
Sote-tietopakettien kautta saadaan luotettavaa, läpinäkyvää ja vertailukelpoista tietoa sosiaali- ja terveydenhuollon palveluista ohjauksen ja päätöksenteon tueksi niin maakunnallisesti kuin kansallisesti.
Sote-tietopaketeilla kuvataan erityisesti maakunnallisen järjestäjän onnistumista palvelujen hankinnassa maakunnan väestölle sekä näiden kustannusten hallinnassa.
Palvelujärjestelmän jatkuva kehittyminen ja nykyistä mahdollistavampi lainsäädäntö tuo tullessaan entistä monimuotoisemmat palvelu- ja rahoitustavat,
joista esimerkkinä maakunnan liikelaitoksen tuotanto, maakunnan yhtiöitettyjen yksiköidentuotanto ja kapitaatiokorvauksen piirissä olevat palvelut.
Ostopalvelujen valtuutus osana ostopalvelujen toiminnanohjaustaTHL
Ostopalvelujen valtuutus osana ostopalvelujen toiminnanohjausta. Minna Lindberg, Jyväskylän kaupunki. 31.10.2019 Tiedonhallinnan kehittämisen seminaari (sessio 1)
Tieken lausunto eduskunnan tarkastusvaliokunnalle koskien hallituksen selvitystä sosiaali- ja terveydenhuollon tietojärjestelmien ja rahoituksen johdosta, erityisesti ICT2015 Kitkaton Suomi -raportissa ehdotettujen toimenpiteiden näkökulmasta.
Mikko Rotonen, ICT-projektijohtaja, Uudenmaan liitto ja HUS
22.5.2017 Varaslähtö ATK-päiville: Yhdessä kohti kestävää datataloutta
Sitra, Tiedolla johtamisen valtakunnallinen yhteistyöverkosto, Kuntaliitto
Semanttinen yhteentoimivuus ja YTI-hanke, Petri RoponenTilastokeskus
Tilastointi kehittyy-seminaari 25.5.2018
Seminaarissa tarkastellaan, miten tiedon yhteiskäyttöä voidaan parantaa kansallisella tasolla ja Tilastokeskuksessa.
Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raporttiHelsinki Region Infoshare
Antti Poikolan tekemä selvitys HRI-hankkeelle. Aiheena julkishallinnon avoimen datan kysyntä ja tarjonta. Toimenpidesuositukset HRI-hankkeelle tiedon avaamiseksi.
Sote-tietopaketit maakuntien ohjauksen ja johtamisen työkalunaSitra / Hyvinvointi
Sote-tietopakettien kautta saadaan luotettavaa, läpinäkyvää ja vertailukelpoista tietoa sosiaali- ja terveydenhuollon palveluista ohjauksen ja päätöksenteon tueksi niin maakunnallisesti kuin kansallisesti.
Sote-tietopaketeilla kuvataan erityisesti maakunnallisen järjestäjän onnistumista palvelujen hankinnassa maakunnan väestölle sekä näiden kustannusten hallinnassa.
Palvelujärjestelmän jatkuva kehittyminen ja nykyistä mahdollistavampi lainsäädäntö tuo tullessaan entistä monimuotoisemmat palvelu- ja rahoitustavat,
joista esimerkkinä maakunnan liikelaitoksen tuotanto, maakunnan yhtiöitettyjen yksiköidentuotanto ja kapitaatiokorvauksen piirissä olevat palvelut.
Ostopalvelujen valtuutus osana ostopalvelujen toiminnanohjaustaTHL
Ostopalvelujen valtuutus osana ostopalvelujen toiminnanohjausta. Minna Lindberg, Jyväskylän kaupunki. 31.10.2019 Tiedonhallinnan kehittämisen seminaari (sessio 1)
Tieken lausunto eduskunnan tarkastusvaliokunnalle koskien hallituksen selvitystä sosiaali- ja terveydenhuollon tietojärjestelmien ja rahoituksen johdosta, erityisesti ICT2015 Kitkaton Suomi -raportissa ehdotettujen toimenpiteiden näkökulmasta.
Tiedonhallintalaki kunnan silmin by Pasi Halme Mindtrek
DIGITALIZATION OF MUNICIPALITIES - Wednesday 29th
PASI HALME, Pääsuunnittelija, Lahden kaupunki
Smart City Mindtrek 2020 - conference
28th- 30th – January
Tampere, Finland
www.mindtrek.org/2020/
Valtiokonttori, Valtion IT-palvelukeskuksen asiakaspäivä 16.10.2013: Mihin suuntaan julkishallinnon ict:n tulisi kehittyä - vanhempi neuvonantaja Mirjami Laitinen, Sitra
Valtiokonttori, Valtion IT-palvelukeskuksen asiakaspäivä 16.10.2013: Tietoturvallisuuden perustasolta kohti korotettua tasoa - johtava asiantuntija Erja Kinnunen, Valtiokonttori, Valtion IT-palvelukeskus
Datatalouden ja tekoälyn regulaatio – missä mennään?Mindtrek
Track | Sustainable and Future-proof Tech
Joonas Mikkilä, Senior Advisor, Technology Industries Finland
Mindtrek Conference
3rd of October 2023.
Tampere, Finland
www.mindtrek.org
2. Verkkoharavointi?
2
Tilastokeskus
22.3.2022
– Verkkoharavointi on automatisoitu tiedonkeruun
menetelmä, joka kerää tiedot määrämuotoisena
verkkosivujen lähdekoodista
–Haravien oltava (Tilastokeskuksen) linjausten mukaisia ja
hyvää netikettiä noudattavia ”eettisiä”
– Vaihtoehtona verkkoharavoinnille ovat ainakin
– Perinteinen suorakeruu (kysely)
– Mahdolliset rekisteriaineistot
– Yhdessä sivuston ylläpitäjän kanssa määritetyt rajapintahaut (API)
–Tiedostomuotoiset toimitukset
4. Tarpeet verkkoharavoinnille
4
Tilastokeskus
22.3.2022
– Uusia tietotarpeita, joiden täyttämiseen pohditaan aineistojen hankintaa,
syntyy koko ajan
– Tilastolain mukaan tilastojen laadintaan tarvittavat tiedot tulisi kerätä
mahdollisimman tehokkaasti ja tiedonantajien rasite minimoiden
– Valmiita rekistereitä tai rajapintoja ei aina saada/löydetä, tai tietojen
kerääminen suorilla tiedonkeruilla olisi liian kallista tai työlästä toteuttaa.
– Suora tiedonkeruu (etenkin käynnit liikkeissä tai tietojen poimiminen
manuaalisesti verkosta) kallista, työvoimaintensiivistä, hidasta.
Lomakekeruu tai massa-aineistojen tuottaminen taas rasittaa tiedonantajia
(yritykset).
5. Verkkoharavoinnin mahdollisuudet
5
Tilastokeskus
22.3.2022
–Koko internetin laajuinen ”tietovaranto” käytettävissä
–Tiedot saatavissa ajantasaisesti ja nopeasti
–Haravien laatu ja soveltuvuus tilastoihin voi vaihdella suurestikin
– Mahdollisuuksia on paljon, ja tarkentuvat tapauskohtaisesti tutkimalla
– Erilaisissa hintakeruissa huomattavia säästömahdollisuuksia
–Sopii hyvin massa-aineistojen keruuseen
–Alustatalous tapahtuu vain verkossa
–Oikein toteutettuna ei kuormita tiedontuottajan teknisiä tai
henkilöresursseja
6. Haasteet
6
Tilastokeskus
22.3.2022
–Lainsäädännön tuomat ja eettiset reunaehdot
–Testidataa saadaan, mutta tuotantokäytössä tunnistauduttava
> blokkaus > pyyntö avata > joskus jopa sopimusneuvottelut
–Kaikkia olennaisia tietoja ei saada haravoinnin kautta,
tarvitaan useampi tietolähde
–Kolmansien osapuolien haravoimien tietojen käyttö vs.
eettiset ja juridiset linjaukset
–Hankalasti hahmotettavat viritelmät nettisivujen takana, mistä
nettisivulla oleva tieto tulee, kuka omistaa aineiston
–Sivusto (alusta) voidaan lakkauttaa, mistä korvaava tieto
nopeasti?
–Esim. hintatietoja ei päivitetä ajantasaisesti sivustolle
7. Teknologian nykytila ja uudet vaatimukset
7
Tilastokeskus
22.3.2022
– Sivustoilla uudentyyppisiä taulurakenteita, javascriptiä, visuaalisen
puolen ja käytettävyyden muutokset haastavat
– Sivustojen uudistuminen, vanhan rinnalle kehitetään uusia sivuja jotka
vaikeuttavat haravointia (sivustojen rakenteen selvittäminen vaikeaa)
– Teknologian tarjoamat mahdollisuudet vs. linjaus ja rajat (emme
hakkeroi, toimi pimeissä verkoissa jne.)
– Haravien ohjelmointi vaatii eritysosaamista
– Muutokset edellyttävät useimmiten haravoiden päivittämistä tai jopa
uudelleenrakentamista
– Teknologinen kehitys sivustoilla (pysytäänkö muutosten mukana)
– Cloudflaren kaltaiset sivustojen suojausmenetelmät estävät haravoinnin
– Haravat vaativat jatkuvaa ylläpitoa
– Sivustojen rakenne voi muuttua ennakoimattomasti
– Tuotteet/kohde mitä halutaan haravoida vaihtuu
8. Linjaus selkeyttämään käyttöä
8
Tilastokeskus
22.3.2022
– Vaikka moni seikka puoltaa internetistä haravoitujen tietojen
hyödyntämistä, ei tietojen käyttäminen tilastoinnissa ole ongelmatonta.
• Tiedon laatua koskevat puutteet
• Eettiset ongelmat
• Juridiset ongelmat
– Samoja haasteita pohditaan eurooppalaisessa tilastoyhteistyössä.
– Ensimmäinen verkosta haravoitujen tietojen käyttöä koskeva linjaus (ESS
Web scraping policy template) julkaistiin heinäkuussa 2019, ja se on
yhtenäinen Tilastokeskuksen käytäntöjen kanssa.
9. Lainsäädäntö
9
Tilastokeskus
22.3.2022
Tilastojen laadintaa ohjaa tilastolaki (280/2004).
Tilastolakiin tai muuhun lainsäädäntöön ei sisälly varsinaisia
verkkoharavointia koskevia säännöksiä.
Verkkoharavointia tilastotuotannossa koskevia vakiintuneita tulkintoja tai
oikeuskäytäntöä ei ole. Käytännöt ovat kansainväliselläkin tasolla vasta
muotoutumassa.
Verkkoharavointia tällä hetkellä tarkasteltava
• yleislainsäädännön perusteella
• tilastojen laadintaa koskevan lainsäädännön perusteella
Verkkoharavoinnin lainmukaisuutta arvioitaessa huomioitava
• tekijänoikeudet
• tietosuoja
• käyttöehdot
10. Yleiset periaatteet Tilastokeskuksessa
10
Tilastokeskus
22.3.2022
Verkkoharavoinnilla hankittavan aineiston käytöstä aina
• tiedonkeruupäätös
• rekisteröinti Tilastokeskuksen Tiedonkeruurekisteriin
Tiedonantovelvollisuuteen perustuvan verkkoharavoinnin
yhteydessä noudatetaan tilastoviranomaisen normaaleja
tiedonanto- ja neuvotteluvelvoitteita.
Aineiston paikkansapitävyyttä ja ajantasaisuutta ei aina
pystytä kaikilta osin tarkistamaan.
➢ Verkkoharavoinnin käyttäminen tiedonhankintatapana
ilmoitettava tilaston julkaisemisen yhteydessä.
➢ Aineiston puolueettomuus pystyttävä aina varmistamaan.
11. Eettisen kestävyyden varmistaminen
11
Tilastokeskus
22.3.2022
Lainmukaisuus
• Lainsäädäntö ja tietosuoja huomioidaan ja noudatetaan täysimääräisesti.
Mahdollisia muutoksia seurataan.
Läpinäkyvyys
• Verkkoharavoinneista ilmoitetaan julkisesti Tilastokeskuksen kotisivuilla.
• Haravoinnin tarkoitus, haravoinnin kohteena olevat tietotyypit
• Yhteystiedot, joihin verkkosivuston ylläpitäjä voi ottaa yhteyttä lisätietojen
pyytämiseksi tai haravoinnin rajoittamiseksi.
• Jos tiedonantovelvollisuuteen perustuvaa tiedon keräämistä, tietoja kerättäessä
huomioidaan tilastolain mukainen tiedottamisvelvollisuus. Henkilötietojen
käsittelyä koskevaa informointivelvollisuutta noudatetaan.
Vähimmän haitan periaate
• Verkkoharavointi siten, että haravoinnista aiheutuu verkkosivuston toiminnalle ja
sen omistajille mahdollisimman vähän haittaa ja kustannuksia.
12. Eettisen kestävyyden varmistaminen
12
Tilastokeskus
22.3.2022
Oikeus kieltää
• Verkkosivuston ylläpitäjille annetaan oikeus kieltää haravointi (opt-out)
ottamalla yhteyttä Tilastokeskukseen.
• Kieltopyyntöjä kunnioitetaan, ja ne ilmoitetaan yhteiseen listaan (ns. black
list).
Tilastointiperiaatteiden noudattaminen
• Tilastojen laatimiseen ja toimintaan sovellettavia menettelytapoja, periaatteita
ja ammattietiikkaa noudatetaan myös verkkoharavoinnissa.
Käyttöehtojen tarkistaminen
• Verkkoharavointi kohdistetaan toistaiseksi ainoastaan sellaisille
verkkosivustoille, joiden käyttöehdot on tarkistettu.
• Haravoinnin katsotaan olevan sallittua, jos sitä ei ole nimenomaisesti kielletty
tai kielto on selkeästi rajattu koskemaan pelkästään kaupallista toimintaa.
13. Käytännön toimintaperiaatteet
13
Tilastokeskus
22.3.2022
Tietojen tarpeellisuus
• Verkkoharavointi kohdistetaan vain sellaisiin tietoihin, jotka ovat
perustellusti tarpeellisia tilastojen laatimisen kannalta.
• Tietojen on tuotava lisäarvoa tilastotuotantoon.
Käyttötarkoitus
Verkkoharavoinnin avulla kerättyjä aineistoja voidaan luovuttaa
ainoastaan Tilastolain 13 §:n mukaisiin tarkoituksiin.
Identiteetin paljastaminen (user agent string)
Verkkosivustolle ilmoitetaan
• Tilastokeskuksen identiteetti
• yhteyspiste yhteydenottoa varten
• linkki verkkoharavointia koskevaan ilmoitukseen Tilastokeskuksen
kotisivuille.
14. Käytännön toimintaperiaatteet
14
Tilastokeskus
22.3.2022
Kuormittamisen minimointi
• Verkkosivustoja ei kuormiteta liiallisilla ja tiheillä kyselyillä
• Haravointi ajoitetaan sivuston hiljaisimpiin aikoihin (esim. yöaikaan)
• Ylimääräisiä kyselyitä ei tehdä, vaan haravat toteutetaan siten, että ne
hakevat ainoastaan tarpeellisia tietoja.
Etukäteiskuuleminen poikkeustapauksissa
Verkkosivuston ylläpitäjää kuullaan etukäteen tapauksissa, joissa
verkkoharavointi olisi poikkeuksellisen laajamittaista tai kuormittavaa.
Tilannekohtainen harkinta
• Verkkoharavoinnin tilannekohtainen tarkoituksenmukaisuus selvitetään
ennen haravoinnin aloittamista.
• Tiedot voidaan hakea myös APIn kautta, jos sellainen on tarjottu.
15. Käytännön toimintaperiaatteet
15
Tilastokeskus
22.3.2022
Robots.txt
• Jos verkkosivustolla on verkkoharavoinnin kieltävä robots.txt tiedosto,
sitä kunnioitetaan. Robots.txt-tiedostosta poikkeamiseen voidaan
tarvittaessa kysyä lupaa verkkosivuston ylläpitäjältä (kirjallisesti).
• Haravointia ei tule aloittaa ennen myöntävän vastauksen saamista.
Kolmannen osapuolen haravoiman aineiston hankinta
• Noudatettava samoja periaatteita kuin edellä esitelty
• Ei saa olla kopioitu esim. tekijänoikeuksien suojaamasta
tietokannasta
• Ei saa sisältää luvattomasti haravoituja tietoja
• Oltava eettisesti kestävällä tavalla hankittua
• Ei saa sisältää henkilötietoja
17. Yhteisen alustan kehittäminen
17
Tilastokeskus
22.3.2022
–Alustan kehittäminen ohjelmistokehittämistä (dev, test ja prod
ympäristö)
– Tietyt yhteiset komponentit (ajastus, datan siirto on premiin,
konfiguraatiotiedosto, selaimen ajurit ja asennus, haravien monitorointi,
virheilmoitukset ja lokitus)
–Yksittäisen haravan kehittämisessä prod, haravan tekijä voi
itse säädellä tekeekö testiä vai tuotantoa
Oikeudet
–Versiointi gitissä
–Gitissä olevat koodit kaikkien harava-alustalle oikeuden
saaneiden käytössä
–Aineistot vain niiden käytössä joilla oikeudet aineistoihin
–Aineisto tiettyyn sijaintiin josta siirto on
premiin/Tilastokeskuksen aineistojen vastaanottopalveluun
18. API-rajapinnat
18
Tilastokeskus
22.3.2022
–Vaihtoehtona verkkoharavoinnille voisi olla, että yksittäisen
sivuston omistaja avaa rajapinnan josta sivustolla olevat
tiedot saadaan
–Tietojen omistaja/tiedon tuottaja voi olla muukin kuin
sivuston omistaja, esim. yksityishenkilö, usea eri yritys
tuottaa tietoja alustaan
–Vaatii useimmiten sopimuksen, motivointia
–Pyydetäänkö korvausta tiedoille, rahallinen korvaus, kooste
tiedoista tms.
19. Tulevaisuus
– https://www.ceps.eu/ceps-publications/the-eu-
data-act/
– Yksityinen sektori olisi velvoitettava antamaan
tiedot julkisen sektorin käyttöön esimerkiksi
tietopohjaisten palvelujen järjestämistä varten
– Helpottaisi haravointia ja APIen avaamiseen
käytäviä keskusteluja
– Mahdollistaisi laajemman tason ratkaisujen
kehittämisen ja laadukkaat aineistot
– Data Act: Proposal for a Regulation on
harmonised rules on fair access to and use of
data | Shaping Europe’s digital future
(europa.eu)
19
Tilastokeskus
22.3.2022