Antti Poikolan tekemä selvitys HRI-hankkeelle. Aiheena julkishallinnon avoimen datan kysyntä ja tarjonta. Toimenpidesuositukset HRI-hankkeelle tiedon avaamiseksi.
2. Sisällys
Table of Contents
Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta.......................................................1
Sisällys.............................................................................................................................................2
Johdanto...........................................................................................................................................3
1. Datan avaamisen strategiat..........................................................................................................4
Todistusaineisto...........................................................................................................................4
Kyselyt ja käyttäjäpalaute...........................................................................................................4
Matalalla roikkuvat hedelmät......................................................................................................5
Korkea investoinnin tuottoaste....................................................................................................6
Tietojärjestelmien luonnollinen uusiutuminen............................................................................6
Hallinnon sisäinen datan käyttö..................................................................................................6
2. Avoin data kaupunkien palvelukehityksessä................................................................................7
Skenaarioita avoimen datan ekosysteemistä...............................................................................8
3. Datasettien luokittelu...................................................................................................................9
4. Julkishallinnon avoimen datan kysyntä.....................................................................................12
5. Toimenpidesuosituksia HRI -hankkeelle...................................................................................13
Liitteet............................................................................................................................................15
Liite 1: Erilaisia yleisen tason luokitteluita...............................................................................15
Liite 2: 300 avoimen datan sovellusta ja ideaa.........................................................................15
3. Johdanto
Tämä on Helsinki Region Infoshare (HRI) -hanketta varten tehty selvitystyö julkishallinnon
avoimien datasettien tarjonnasta ja saatavuudesta maailmalla. Katsaus toimii strategisena työkaluna
HRI hankkeelle. Luvussa 1. Datan avaamisen prioriteetit esitetään viisi eri strategiaa, joiden
mukaan voidaan kohdistaa voimavaroja ja priorisoidaan eri datasettien avaamista.
Julkishallinnon datan avaaminen edistyy maailmalla nopeasti ja myös sovelluspuolella tapahtuu
jatkuvaa kehitystä. Tutkimuksessa on kartoitettu, miten avoimia datasettejä on luokiteltu eri maiden
ja kaupunkien datakatalogeissa, sekä millaisia sovelluksia ja palveluita näiden datasettien pohjalta
on toteutettu ja millaisia palveluideoita on esitetty. Kartoitus ei pyri olemaan kaiken kattava, vaan
tarkoituksena on luoda jäsennysrunko, jota voidaan täydentää jatkuvasti ja jota vasten voi verrata
HRI -hankkeen myötä avattuja datasettejä ja niiden pohjalta syntyneitä sovelluksia.
Tavoitteena on, että luvut 2. Avoin data kaupunkien palvelukehityksessä, 3. Datasettien luokittelu ja
4. Julkishallinnon avoimen datan kysyntä toimivat selkeänä jäsentelynä datasettien tämänhetkisestä
kysynnästä ja luokittelusta erityisesti kuntien ja kaupunkien kontekstissa. Jäsennyksen pohjalta
voidaan tulkita avoimen datan nykyistä tarjontaa eri aineistotyyppien (esim. tilastot, reaaliaikainen
data, jne.) tai teemojen (esim. liikenne, turvallisuus, terveys, jne.) suhteen. Vastaavasti
sovelluspuolella voidaan tulkita millaisille tietoaineistoille tuntuisi olevan eniten kysyntää.
Raportin tekstikappaleisiin liittyy suosituksia, jotka on kirjattu oranssilla kunkin kappaleen kohdalle
ja avattu laajemmin kappaleessa 5. Toimenpidesuosituksia HRI -hankkeelle.
4. 1. Datan avaamisen strategiat
Yleensä datan avaamiseen liittyvät projektit alkavat kysymyksellä "Mitä meidän pitäisi avata
ensimmäisenä?" tai "Mitkä ovat kaikkein tärkeimpiä datasettejä avattaviksi?" Tässä osiossa esitetää
kuusi strategiaa, joita voidaan käyttää vastaamaan edellämainittuihin kysymyksiin. Neljä
ensimmäistä strategiaa on soveltaen suomennettu Civic Commons -wikistä1, joka on laadukas ja
tutustumisen arvoinen lähdeaineisto muiltakin osin. Kaksi viimeistä strategiaa: Tietojärjestelmien
luonnollinen uusiutuminen ja Hallinnon sisäinen datan käyttö ovat käytännön kautta löydettyjä
lisäyksiä.
Suositus 1: Hyödynnetään eri strategioiden tasapainoisesti datan avaamisen priorisoinnissa
Suositus 2: Julkistetaan datan avaamisen strategiat ja prioriteetit
Todistusaineisto
Todistusaineistoa avoimen julkishallinnon datan todellisesta käytöstä voidaan kerätä sen jälkeen,
kun aineistoja on julkaistu esimerkiksi seuraamalla lataamistilastoja.
Epäsuorasti kysyntää voidaan arvioida olemassaolevien prosessien ja tietojärjestelmien tuottamien
seurantatietojen perusteella. Moniin palveluprosesseihin, tietojärjestelmiin ja verkkosivustoihin on
jo rakennettu mekanismeja käyttäjämäärien ja tietopyyntöjen seurantaan. Esimerkiksi kirjaamojen
ja akaspalvelujärjestelmien kautta rekisteröidyt kyselymäärät eri aihepiireistä kertovat asukkaiden
yleisimmistä tiedontarpeista. Myös verkkosivujen hakutilastot ja hakukoneanalyysit ovat hyvä
tietolähde.
Taulukko 1: Esimerkkejä Google Insights hakutilastoista seuraaville hakusanoille: tilastokeskus, Helsingin kaupunki,
tilasto ja tietokeskus. Hakusanan alla on esitetty relevantteja poimintoja top-10 listalta kyseiseen sanaan liittyvistä
muista hakusanoista, joita ihmiset ovat syöttäneet Googleen. Esimerkiksi tilastokeskusksen yhteydessä googlesta on
usein haettu elinkustannusindeksiä ja asuntojen hintoja.
Tilastokeskus Helsingin kaupunki Tilasto Tietokeskus
URL: URL: URL: URL:
http://www.google.com/insights/se http://www.google.com/insights/se http://www.google.com/insights/se http://www.google.com/insights/se
arch/#q=tilastokeskus arch/#q=helsingin%20kaupunki arch/#q=tilasto arch/#q=tietokeskus
elinkustannusindeksi työpaikat sää Savon tietokeskus
asuntojen hinnat avoimet työpaikat asuntojen hinnat Turun tietokeskus
väestö vuokra-asunnot lämpötilat Helsingin tietokeskus
palkat sosiaalivirasto palkka Sotkamon tietokeskus
Suositus 3: Kerätään ja julkaistaan lataustilastoja systemaattisesti
Kyselyt ja käyttäjäpalaute
Yksinkertainen strategia käyttäjätarpeiden kartoittamiseksi on kysyä eri kohderyhmiltä
(kaupunkilaiset, tutkijat, journalistit, luottamushenkilöt, virkamiehet, yrittäjät), mistä datasta he
olisivat kiinnostuneita tai minkä tiedon saatavuuttaa ja uudelleenkäytettävyyttä tulisi ensisijaisesti
parantaa. Kysely kannattaa suorittaa laajemmin avoimen datan hankkeen alkuvaiheessa.
Myöhemmin kannattaa tarjota jatkuvaluonteinen palaute- ja vuorovaikutuskanava ja mahdollisesti
tehdä kohdennetumpia kyselyitä esimerkiksi tietylle kohderyhmälle suunnattujen tilaisuuksien
yhteydessä. Berliinin kaupunki toteutti 2010 syksyllä kyselyn, jossa vastaajat saivat valita
mielestään kolme tärkeintä datavarantojen luokkaa listalta, jossa oli 20 vaihtoehtoa.
1Civic Commons -wiki http://wiki.civiccommons.org/Open_Data_Priorities
5. Kuva 1: Berliinin kaupungin toteuttamassa kyselyssä suosituimmat datat julkaistaviksi (kun laskettiin yhteen ykkös-
kakkos- ja kolmosäänet) olivat 1. City planning, 2. Administration, 3. Environment, pollution, 4. Control,
5.Infrastructure ja 6. Citizen.
Kaikki vaihtoehdot (20 kpl) aakkosjärjestyksessä:Administration, Citizen, City markets, City Planning, Control , Crime,
Customers consulting, Education, Environment, pollution, Events , Family, Health, Infrastructure, Law, Living,
Opening hours, Pets, Public transport, Recycling+Waste, Traffic.
Ennakkoon tehtyjen kyselyiden tuloksia tulkittaessa pitää huomioida se, että ihmiset osaavat kysyä
vain aineistoja, joidenka olemassaolo on tunnettu ja suurelle yleisölle tietyn aineiston tarve saattaa
nousta ilmeiseksi vasta sen jälkeen, kun joku on osoittanut toimivalla sovelluksella tai
visualisaatiolla datan hyödyllisyyden. Toisin sanottuna tietyn aineiston suosio nykyhetkessä ei
välttämättä vastaa aineiston tärkeyttä.
Esimerkkinä ravintoloiden hygieniatarkastusten tulokset ovat olleet kysyttyjä aineistoja sen jälkeen,
kun joku ensimmäisenä keksi tehdä mobiilisovelluksen, jossa tämä tieto voidaan yhdistää
ravintoloista tietoja ja suosituksia näyttäviin sijaintipohjaisiin mobiilisovelluksiin. Jälkikäteen
ajateltuna tiedon hyödyllisyys ja käyttötarkoitus ovat ilmeisiä, mutta etukäteen tämä aineisto tuskin
olisi ollut kovin korkealla "suosittuimmuuskyselyssä".
Suositus 4: Kerätään vapaaehtoisia taustatietoja käyttäjiltä sähköpostilistalle liittymisen
yhteydessä
Suositus 5: Tehdään yleinen käyttäjätarvekysely
Suositus 6: Tehdään eri kohderyhmille suunnattuja kyselyitä
Matalalla roikkuvat hedelmät
Useinmiten hallinnon organisaatioilla on joitakin helpommin saatavilla olevia datasettejä, joidenka
avaamiseen ei liity suuria teknisiä, eikä käyttöoikeuksien määrittämiseen liittyviä haasteita ja jotka
ovat sisällöltään kokonaisuudessaan selkeästi julkisia. Tällaiset aineistot kannattaa julkiasta
avoimen datan periaatteiden mukaisesti, vaikka niihin ei kohdistuisi ennakkoon erityisen suurta
kysyntää. Julkaisemalla "matalalla roikkuvia hedelmiä" voidaan kerätä arvokasta kokemusta datan
avaamisprosessista. Lisäksi monet ennalta epäkiinnostaviksi tulkitut datasetit saattavat herättää
yllättävää kiinnostusta, mikäli niiden saatavuus tehdään helpoksi. Esimerkkinä tällaisesta on New
Yorkin puurekisterin julkaisu, joka johti sinänsä mielenkiintoisen Trees near you
-miobiilisovelluksen kehittämiseen.
Yksittäisten ja satunnaisten datasettien julkaiseminen ei kuitenkaan missään tapauksessa ole
yksistään riittävä strategia. Etenkin, mikäli toiminta on lyhytjänteistä on riskinä tuottaa pettymyksiä
dataa julkaisseille organisaatioille: "julkaisimme tämän datasetin jo puoli vuotta sitten, eikä kukaan
ole kiinnostunut siitä".
6. Suositus 7: Dokumentoidaan tarinamuodossa helppo ja haastava datanavaamistapaus
Korkea investoinnin tuottoaste
Siinä missä matalalla roikkuvien hedelmien strategiassa julkaistaan sitä, minkä julkaisu on helppoa
ja kustannuksiltaan matalaa pyritään korkean investoinnin tuottoasteen strategiassa vertaamaan
julkaisun vaikeutta (kustannuksia) saavutettaviin hyötyihin. Investoinnin hyödyt voivat tulla muun
muassa yleisen hyödyllisyyden (esimerkiksi Reittiopas ja syntyneet mobiilisovellukset),
turvallisuuden, kustannussäästöjen tai taloudellisen aktiivisuuden kautta. Esimerkiksi säädatan ja
karttaaineistojen osalta kohtuullisilla avaamisen kustannuksilla mahdollistetaan suhteessa varsin
laaja käyttötapausten kirjo.
Strategian haasteena on, että monien sinänsä ilmiselvien hyötyjen, kuten hallinnon läpinäkyvyyden
lisääntymisen tai paremmin faktatietoihin pohjautuvan valmistelun ja päätöksenteon arvottaminen
rahallisesti on vaikeaa ellei mahdotonta ja hyvin usein investoinnin tuotot eivät tule samalle taholle,
kuin kustannukset. Myös tämän strategian kohdalla on pidettävä mielessä, että suurimmat tuotot
saattavat tulla ennakoimattomalta taholta. Esimerkiksi ennakkoon arvioituna vähäpätöisen oloinen
ympäristödata saattaa olla merkittävässä vaikkapa syöpätutkimuksessa.
Suositus 8: Identifioidaan sovellusaluekohtaisesti (Luku 4) kullakin alueella merkittävä
datasetti, jonka avaamista tarkastellaan investointina
Tietojärjestelmien luonnollinen uusiutuminen
Aineistojen saattaminen teknisesti ja laillisesti uudelleenkäytettäviksi uusien tietojärjestelmien
hankinnan yhteydessä ei välttämättä aiheuta merkittäviä lisäkustannuksia. Varsin järkeenkäypä
strategia onkin muodostaa toimintatapa, jolla varmistetaan, että avoin data tulee mukaan kaikkiin
uusiin tietojärjestelmähankintoihin.
Strategian haittapuolena on se, että sitä käytetään hanakasti argumenttina kaikkia muita strategioita
vastaan: "meillä on juuri ensivuonna alkamassa tämä suuri järjestelmäuudistus, jonka yhteydessä
tämä varmasti voidaan ottaa esille". Jotta aineistojen avaaminen voidaan tehdä oikein ja kunnolla
järjestelmäuudistusten yhteydessä kannattaa kokemuksia kerätä jo ennen sitä.
Järjestelmäuudistuksenkaan yhteydessäkään tehty rajapinta ei ole edullinen, jos se toteutesta
joudutaan muuttamaan jälkikäteen.
Suositus 9: Tarjotaan virastoille ja yksiköille oikeaaikaista konsultaatiota
hankintaprosesseissa
Suositus 10: Dokumentoidaan hankintacaseja, joissa avoin data on huomioitu
Hallinnon sisäinen datan käyttö
Hallinnon sisäinen datan käyttö tulisi mieltää oikeastaan yhtenä kohdealueena esimerkiksi
tieteellisen käytön, kaupallisen käytön, tutkivan journalismin jne. rinnalla. Esimerkiksi datan
tarvekyselyitä voidaan tehdä hallinnon sisällä ja hallinnon sisäistä datan käyttöä voidaan seurata
erilaisten todistusaineistojen perusteella. Tässä hallinnon sisäinen käyttö on kuitenkin esitetty
erillisenä lähestymistapana, koska sen yhteydessä aiemmin esiteltyä "korkea investoinnin
tuottoaste" strategiaa voidaan soveltaa tehokkaammin.
Tarkasteltaessa mitä julkisia tietovarantoja useat eri viranomaiset jo hyödyntävät tai voisivat
hyödyntää on mahdollista löytää sellaisia aineistoja, joiden avaamiseen kannattaa investoida ja
investoinnin tuotot myös realisoituvat suoremmin esimerkiksi saman kaupungin sisällä. Samalla,
kun tehdään tai suunnitellaan tiedonvaihtoa viranomaisten välillä kannattaa julkiset aineistot avata
kaikkien hyödynnettäväksi, tämä lisää aineistojen löydettävyyttä ja saattaa jopa lisätä kyseisen
aineiston käyttöä hallinnon sisällä.
7. 2. Avoin data kaupunkien palvelukehityksessä
Tämä luku pyrkii antamaan yleisen viitekehyksen siihen, mikä on avoimen datan rooli nimenomaan
kaupungeissa ja kunnissa. Kuvassa 2. esitetty malli on kehitetty Sitran Julkishallinnon johtamisen
ohjelman tuottaman Kuntien palveluevoluutiomallin2 pohjalta.
Alkuperäinen malli kuvaa ihmisten, kunnan ja palvelutuottajien välistä vuorovaikutusta. Nämä
ovat kuntien toiminnan kannalta keskeiset toimijaryhmät, joiden välillä myös tiedon tulisi liikkua ja
rikastua mahdollisimman tehokkaasti. Avoimesta tiedosta puhuttaessa ei tietenkään pidä rajoittua
vain näihin toimijaryhmiin, vaan sama data jaetaan myös kaikille muille tahoille, kuten
tutkimuslaitoksille, muulle julkishallinnolle, muille kun kuntapalveluja tuottaville yrityksille, sekä
kansalaisjärjestöille ja vapaaseen käyttöön.
Palveluevoluutiomalliin on lisätty tiedon koostaminen ja jakaminen omaksi toiminnaksi
korostamaan sitä, että avoimen datan ekosysteemissä kaikki toimijat voivat käyttää ristiin toistensa
tuottamaa dataa. Datan ja tiedon julkaiseminen ja hyödyntäminen helpottuu, kun sen koostamiseen
ja jakamiseen on toimivat käytännöt ja infrastruktuuri.
Mallin pohjalta on mahdollista luoda yhdeksä kuntakontekstissa olevaa erilaista avoimen datan
käytön ja tuotannon skenaariota.
Kuva 2: Avoimen datan rooli kunnan palveluevoluutiossa. Mallin pohjalta on mahdollista muodostaa erilaisia
skenaarioita siitä, kuka tuottaa ja kuka käyttää ja rikastaa kenenkin tuottamaa dataa.
2 http://www.slideshare.net/Uusijohtajuus/sitra-palveluevoluutio-konsepti
8. Skenaarioita avoimen datan ekosysteemistä
Lätökohtana on, että ihmiset, kunta ja palveluntuottajat voivat kaikki tuottaa ja rikastaa tietoa,
sekä käyttää itsensä ja toistensa tuottamaa ja rikastamaa tietoa.
• Ihmiset voivat tuottaa (ja korjata) tietoa: ehdotukset, palaute, huomiot, asiantuntijatieto...
• Ihmiset käyttävät tietoa: osallistuminen, palveluiden vertailu, vertaistieto...
• Kunta tuottaa tietoa: tilastot, asianhallinta, suunnitelmat, rekisterit...
• Kunta käyttää tietoa: päätöksenteko, suunnittelu, mallinnus...
• Palveluiden tuotannossa syntyy tietoa: tilastot, prosessidata, kustannustieto, paikkatieto...
• Palveluiden tuotannossa käytetään tietoa: palvelukehitys, optimointi, ohjaus...
Taulukko 2: Yhdeksän esimerkkiskenaariota, jossa eri toimijaryhmät (ihmiset, palvelun tuottajat ja kunta)
käyttävät saman ryhmän ja muiden ryhmien tuottamaa tietoa.Vihreällä pohjalla on skenaariot, joissa tiedon
käyttäjänä ovat ihmiset, violetilla pohjalla skenaarioissa tietoa käyttää palveluiden tuottajat ja vaaleansinisellä
pohjalla tiedonkäyttäjänä on kunta.
Skenaario Kuvaus Esimerkki
A: Vertaistieto Ihmiset käyttävät ihmisten tuottamaa Avoimissa palautekanavissa ihmisiä
tietoa usein kiinnostaa toisten vertaisten
kirjoitukset.
B: Viestintä kuntalaisille Ihmiset käyttävät kunnan tuottamaa Valmistelu ja päätösprosessien tiedot
tietoa (pyötäkirjat yms.)
C: Viestintä asiakkaille Ihmiset käyttävät palveluntuottajan Aukioloajat, toimipisteiden
tuottamaa tietoa yhteystiedot tai vaikka reaaliaikainen
tieto aurauskaluston sijainnista GPS-
paikannuksella
D: Palveluprosessin seuranta Palveluntuottajat käyttävät Esimerkiksi kirjastot seuraavat omia
palveluntuottajien tuottamaa tietoa ja toisten kirjastojen lainaustilastoja
hankintojen ohjauksessa.
E: Asiakaspalaute Palveluntuottajat käyttävät ihmisten Palveluntuottajat voivat parataa
tuottamaa tietoa toimintaansa ja jopa kilpailla laadulla,
mikäli asiakaspalautetta on avoimesti
käytettävissä.
F:Kunnan tieto palveluiden Palveluntuottajat käyttävät kunnan Esimerkiksi yksityinen
kehityksessä tuottamaa dataa hoivapalveluyritys voi skaalata
toimintaansa kunnan tuottamien
väestö- ja hoivatarvetilastojen avulla.
G: Valmistelu ja päätösprosessien Kunta käyttää kunnan tuottamaa tietoa Kunnan eri virastot voivat
seuranta synkronoida toimintaansa käyttämällä
ristiin toistensa tietovarastoja.
H: Asukkaiden tieto Kunta käyttää ihmisten tuottamaa Asukkaiden kokemuksellista tietoa
tietoa voidaan hyödyntää esimerkiksi
asuinalueiden suunnittelussa.
I: Palveluiden laadunvalvonta Kunta käyttää palveluntuottajien Kunta seuraa ulkoisten
tuottamaa tietoa palveluntuottajien kanssa tehtyjen
sopimusten toteutumista ja
valmistautuu hankintapäätöksiin
kerättyyn tietoon perustuen.
Suositus 11: Tuetaan pilottitoteutusten syntymistä eri skenaarioiden (Taulukko 2.) mukaisilta
alueilta
Suositus 12: Tarkastellaan, mitä muita merkittäviä tiedon käyttäjäryhmiä (esim.
tutkimuslaitokset ja media) on ja toteutetaan tuettuja pilotteja myös heidän kanssaan
9. 3. Datasettien luokittelu
Datasettien luokittelun tavoitteena olisi luoda kaupunkien tietovarantoihin selkeä yleiskatsaus ja
otsikointi, joka kattaisi ne hyvinkin erilaiset aineistot, joita kaupungit organisaatioina hallinnoivat.
Julkishallinnon datasta puhuttaessa tulee yleensä ensimmäisenä mieleen tunnetut perusrekisterit,
kuten väestörekisteri, kiinteistörekisteri jne. sekä kenties tilastotiedot ja säätiedot. Myös kartta-
aineistot ja paikkatieto on melko laajasti tunnettua ja jotkut muistavat mainita erilaiset
liikennetiedot. Hallinnon data-aineistoja ei Suomessa, eikä maailmalla ole kattavasti kartoitettu,
eikä valmiita luokitteluita kaupunkien dataseteille löytynyt.
Brett Camperin toteuttama Puut lähelläsi (Trees Near You) -palvelu sai kunniamaininnan New
Yorkin kaupungin avoimen datan hyödyntämiseskilpailussa 2010. Ilmainen iPhone-sovellus kertoo
käyttäjälle sijainnin perusteella tietoja yli 500 000 elävästä puustä New Yorkin kaupungissa.
Sovellus yhdistelee puhelimesta saatavaa GPS-sijaintitietoa, Wikipedia-artikkeleita puulajeista ja
kaupungin avoimesti julkaisemaa puurekisteriä. Tämä on kuvaava esimerkki siitä, kuinka paljon
potentiaalisesti hyödyllistä dataa on olemassa mutta jonka olemassaoloa ei yleensä tule
ajatelleeksikaan.
Tarvittava luokittelu on esitetty allaolevassa kuvassa keskellä keltaisessa palkissa. Luokittelun
lisäksi asian yleisen hahmottumisen kannalta olisi erittäin hyödyllistä yhdistää datan sovellukset ja
käyttökohteet ja yksittäiset datasetit toisiinsa yleisen luokittelun kautta. Tämä voitaisiin myös
visualisoida esimerkiksi datakatalogin yhteydessä.
Kuva 3: Malli datan käyttötarkoitusten (sininen) ja datasettien (vihreä) visualisoinnista yleisen luokittelun
(keltainen) avulla.
10. Paras tutkimuksessa löydetty hallinnon datavarantojen luokittelu on Mepsir -tutkimuksen jaottelu,
joka pohjautuu Euroopan unioinin PSI-direktiivin kattamiin alueisiin. Tätä jaottelua on verrattu eri
datakatalogien ja muiden löydettyjen luokittelujen kanssa (Liite 1.). Monissa datakatalogeissa ei
noudateta mitään erityistä luokittelua, vaan eri tietovarannot on asiasanoitettu enemmän tai
vähemmän vapaasti.
Luokittelun tuottaminen voisi olla mahdollista myös alhaalta ylöspäin tekemällä aineistojen
kuvailuihin tai asiasanoituksiin koneellinen semanttinen analyysi ja klusterointi.
HRI -hankkeen kannalta olennaista on pystyä tarjoamaan datan uudelleenkäyttäjille myös näkemys
siitä kokonaisuudesta, mitä tietovarantoja kaupungilla on hallussaan (vaikka ne eivät vielä olisi
avoimia). Käytännössä kaikki maailmalla olevat julkishallinnon datakatalogit listaavat ainoastaan jo
avoimena olevia datasettejä, mikä on erittäin suuri puute.
Kuva 4: Karkea näkemys kokonaisuudesta julkishallinnon avoimen datan osalta. Kaikki hallinnon tuottama data
ei ole julkista (tietosuoja, yleinen turvallisuus jne. -kysymysten takia). Nykyisin mysöskään kaikki julkinen data
ei ole avointa, eli koneellisesti ja laillisesti uudelleenkäytettävää. Tavoitteena olisi, että mahdollisimman suuri
osa hallinnon tuottamasta lain mukaisesti julkisesta aineistosta olisi saatavilla myös avoimena datana.
Luonnollisesti avointa dataa voivat tuottaa myös muut, kuin hallinnon toimijat.
Yhdenkin kunnan hallinnoimien julkisten tietovarantojen kokonaisuus on hyvin monitahoinen ja
vaikeasti hamottuva, eikä oikein kenelläkään ole nykyisin selvää käsitystä siitä, mitä kaikkea dataa
kunnalla on. Eri tietoaineistojen olemassaolon tunteminen on ensimmäinen askel, niiden
hyötykäytössä. On hyvin vaikea löytää edistyneilläkään hakutoiminnoilla sellaista, minkä
olemassaolosta ei ole tietoa.
Tähän kokonaiskuvan haasteeseen pyrkii vastaamaan kuvan 3. malli, jossa sekä toteutetut
sovellukset, että avoimet ja vielä avaamattomat, mutta kuitenkin julkiset tietovarannot on linkitetty
toisiinsa yleisen tason selkokielisten luokkien kautta. Näin sovelluksia ja datasettejä voi selailla ja
tehdä löytöjä, vaikkei etukäteen tietäisikään tarkalleen, mitä on hakemassa.
Luokittelun valinta on aina haastava tehtävä. Tavoitteena voidaan pitää noin 10-20 luokkaa, joille
on kirjoitettu lauseen tai kahden mittaiset kuvaukset. Yksittäinen datasetti kuuluu yhteen tai
11. useampaan luokkaan. Yksittäinen sovellus käyttää yhtä tai useampaa datasettiä ja perii niiden
luokat. Sovellus voi olla myös ulkomainen, jolloin se ei välttämättä käytä mitää tiettyä datasettia
HRI-katalogista, mutta se voidaan silti linkittää tiettyihin luokkiin.
HRI-katalogissa on nykyisin käytössä sekä luokittelu että avainsanat eli tagit. Näiden
rinnakkaiskäyttö on mahdollista ja jopa suositeltavaa, mutta luokitusta tulisi kehittää ja
avainsanottaminen tulisi mahdollistaa kaikille käyttäjille, jolloin se alkaisi kehittyä folksonomian
tavoin. Taulukossa 3. on ehdotettu joitain muutoksia nykyiseen HRI-luokitukseen. Suurin puute
nykyisessä luokituksessa on, että luokat ovat hyvin epätasapainoisia (luokkaan kuuluvien
datasettien määrällä mitattuna) ja ilmeisesti kaikkia ainaistoja ei ole luokiteltu mihinkään luokkaan
(luokkien sisältämien aineistojen yhteismäärä 259, on huomattavasti vähemmän, kuin 547
datasettiä, joka on ilmoitettu aineistojen kokonaismääräksi). Lähimpänä mallina on käytetty
Findikaattori- palvelun luokituksia, sekä JHS145 suositusta.
Taulukko 3: HRI datakatalogin nykyinen luokitus (suluissa luokkan kuuluvien datasettien määrä) ja ehdotus
luokitukseskis, joka pohjautuu eri datakatalogeissa käytettyihin luokkiin (Liite 1.).
Lyhenne HRI-luokitus Huomioita HRI-luokista Ehdotus
HOU Asuminen (19) ok Asuminen
DEM Demokratia ja osallistuminen (1) ok Demokratia ja osallistuminen
GEO Kartat (1) Kartat ja paikkatieto (JHS145) Kartat ja paikkatieto
EDU Koulutus (4) ok Koulutus
CUL Kulttuuri (1) ok Kulttuuri
TRA Liikenne (1) ok Liikenne
PLA Rakennukset (1) Kaavat ja kiinteistöt (JHS145) Kaavat ja kiinteistöt
CON Rakentaminen (24) ok Rakentaminen
INC Tulot ja kulutus (4) Toimeentulo (Findikaattori) Toimeentulo
LAB Työmarkkinat (45) ok Työmarkkinat
POP Väestö ja väestönmuutokset (155) Väestö (Findikaattori) Väestö
ENV Ympäristö (3) Ympäristö ja luonto (JHS145) Ympäristö ja luoto
ECO Talous (Findikaattori) Talous
ENE Energia (Findikaattori) Energia
EVE Tapahtumat Tapahtumat
HEA Terveys (Findikaattori) Terveys
INF Infrastruktuuri Infrastruktuuri
LAW Laki ja oikeusturva (JHS 145) Laki ja oikeusturva
SER Palvelut Palvelut
Suositus 13: Kerätään datakatalogin metatietokantaan tietoja myös aineistoista, jotka eivät
vielä ole avoimia
Suositus 14: Toteutetaan datakatalogiin visuaalinen luokitus, joka linkittää yhteen datasettejä
ja sovelluksia
Suositus 15: Tehdään automaattinen semanttinen analyysi datasettien metatietoihin ja
muodostetaan tämän perusteella järkeviä luokkalinkityksiä
Suositus 16: Esitellään yksittäisiä sovelluksia yhteydessä niihin datasetteihin tai ainakin
yleisiin luokkiin, mitä dataa sovellus käyttää (tai tuottaa)
Suositus 17: Yksittäisten datasettien esittely massasta erillään
12. 4. Julkishallinnon avoimen datan kysyntä
Kuva 5: Julkishallinnon avoimen datan kysyntää voidaan kuvata sovellusalueilla, jotka ovat osittain
päällekkäisiä. Esimerkiksi samainen sovellus voi olla tietokantajournalismia ja tukea läpinäkyvyyttä ja
osallistumista. Nämä kukan terälehtien muotoon asetetut sovellusalueet eivät vastaa käyttäjäryhmiä (kuten
hallinto, yritykset, kansalaiset, tutkijat), vaan niitä toiminta-alueita, joilla avoimesta datasta voi olla
hyötyä.Esimerkiksi tutkimusta ja tuotekehitystä voidaan tehdä niin yrityksissä, hallinnossa, kuin
tutkimuslaitoksissakin.
Suositus 18: Järjestetään Sreen Scraping -tapahtuma, jolla kannustetaan sovelluskehittäjiä
hyödyntämään dataa ja tarjoamaan scrapattua dataa edelleen
Suositus 19: Tarkastellaan mahdollisuutta tarjota screen scrapatulle datalle uudelleenkäytön
salliva lisenssi
Suositus 20: Valmistellaan HRI-kunnille "avoimen datan deklaraatio", joka voidaan viedä
valtuustojen hyväksyttäväksi
Suositus 21: Toteutetaan Apps for Cities Finland -kilpailu
13. 5. Toimenpidesuosituksia HRI -hankkeelle
Suositus 1: Hyödynnetään eri strategioiden tasapainoisesti datan avaamisen priorisoinnissa
Suositus 2: Julkistetaan datan avaamisen strategiat ja prioriteetit
Suositus 3: Kerätään ja julkaistaan lataustilastoja systemaattisesti
Suositus 4: Kerätään vapaaehtoisia taustatietoja käyttäjiltä sähköpostilistalle liittymisen
yhteydessä
Suositus 5: Tehdään yleinen käyttäjätarvekysely
Toteutetaan ”Berliinin mallin” mukainen kevyt kysely yleisen luokittelun (Luku 3.) mukaisista
luokista, minkä luokkien datalle on kiinnostusta eri kohderyhmissä?
Suositus 6: Tehdään eri kohderyhmille suunnattuja kyselyitä
Yleisen kyselyn lisäksi eri käyttäjäryhmille esim. hallinnon toimijat voidaan tehdä hieman
syvällisempiä kyselyitä, joidenka osana on yleinen käyttäjäkysely, mutta sen lisäksi on muutama
kohderyhmäspecifinen kysymys. Näitä voidaan tehdä kohderyhmille suunnatuissa tilaisuuksissa,
kuten HsOpen (journalistit), MindTrek (yrittäjät)
Suositus 7: Dokumentoidaan tarinamuodossa helppo ja haastava datanavaamistapaus
Sekä datan haltijoita, että uudelleenkäyttäjiä voisi palvella totuudenmukaiset kuvaukset siitä, mitä
asioita aivan käytännössä pitää ratkaista jonkin tietovarannon avaamisessa, esim. pitääkö ostaa
konsulttityönä teknisiä muutoksia jne. HRI:n toiminnassa näitä caseja tulee varmasti vastaan, joten
suositus on kirjoittaa muutama niistä auki ja julkaista.
Suositus 8: Identifioidaan sovellusaluekohtaisesti (Luku 4) kullakin alueella merkittävä
datasetti, jonka avaamista tarkastellaan investointina
Lähestymällä datan avaamista puhtaasti sovellusalueiden kautta voidaan tietoisesti päästä irti pelkän
”matalalla roikuvien hedelmien” strategian käytöstä. Voi olla, että jotkut identifioiduista dataseteistä
on käytännössä mahdottomia avata, mutta kenties tällä tavalla paljastuu jokin datasetti, jonka
avaamiseen kannattaa panostaa. Esimerkiksi budjetti- ja transaktidatan avaaminen palvelisi sekä
tietokantajournalismia, päätöksentekoa, että läpinäkyvyyttä.
Suositus 9: Tarjotaan virastoille ja yksiköille oikeaaikaista konsultaatiota
hankintaprosesseissa
Varmistetaan avoimen datan toteutuminen meneillään olevissa ja tulevissa
tietojärjestelmäuudistuksissa. Tämän toteutumiseksi voi riittää pienikin konsultaatio oikeaaikaisesti
hankintaprosessissa, mutta edellytyksenä on meneillään olevien ja suunnittelilla olevien hankkeiden
järjestelmällistä seurantaa, että tiedetään, milloin ja kenen kanssa kannattaa pitää pieni avoimen
datan palaveri.
14. Suositus 10: Dokumentoidaan hankintacaseja, joissa avoin data on huomioitu
Suositus 11: Tuetaan pilottitoteutusten syntymistä eri skenaarioiden (Taulukko 2.) mukaisilta
alueilta
Tietojenkäsittelyn ohjelmatyöt muun muassa Aalto Yliopistossa ja Helsingin yliopistossa ovat
kustannustehokkaita mahdollisuuksia tuottaa Suomalaisia esimerkkisovelluksia.
Suositus 12: Tarkastellaan, mitä muita merkittäviä tiedon käyttäjäryhmiä (esim.
tutkimuslaitokset ja media) on ja toteutetaan tuettuja pilotteja myös heidän kanssaan
Kaupunkidataa hyödyntäviä tutkimussuuntauksia ovat muun muassa: kiinteistötalous,
liikennesuunnittelu, yhdyskuntasuunnittelu, kaupunkimaantiede, sosiaali- ja terveystutkimus jne.
Tietokantajournalismista voi etsiä yhteistyömahdollisuuksia mediatalojen kanssa. Vuoden 2012
kunnalisvaalit on tapahtuma, jonka yhteydessä voi olla mahdollista tehdä näkyviä pilottitoteutuksia.
Yhtenä suuntauksena kannattaa etsiä sellaista pilottikohdetta, jossa jokin data voitaisiin avata
käyttöön ja kaupunkilaiset voisivat rikastaa sitää niin, että siitä olisi hyötyä kaupungille.
Esimerkiksi, jos kaupunkisuunnitteluvirastolla on tietoja rakennuksista (pohjapiirrustuksia,
sijainteja, 3d-malleja) voisivat kansalaiset älypuhelimilla kuvata omasta mielestään viihtyisiä ja
rumia ympäristöjä ja yhdistää niitä olemassaolevaan tietoarkistoon.
Suositus 13: Kerätään datakatalogin metatietokantaan tietoja myös aineistoista, jotka eivät
vielä ole avoimia
Kaikkien nykyisten datakatalogien suuri puute on se, että ne eivät tee näkyväksi vielä avaamattomia
tietokantoja. Erityisesti ei kannata panostaa siihen, että etsii vielä avaamattomia tietoaineistoja
katalogia varten, mutta sitä mukaan, kun niitä tulee vastaan ne pitäisi lisätä katalogiin. Tässä olisi
myös crowdsourcing-lähestymistapa hedelmällinen.
Suositus 14: Toteutetaan datakatalogiin visuaalinen luokitus, joka linkittää yhteen datasettejä
ja sovelluksia
Linkitetään visuaalisesti datasetit ja sovellukset toisiinsa yleisen luokittelun kautta (Kuva 3.).
Luokittelu ei poissulje tarvetta ja mahdollisuutta käyttää myös vapaammin asiasanoja tai tageja.
Esimerkiksi wordpress -blogialusta tukee sekä tageja, että luokkia.
Suositus 15: Tehdään automaattinen semanttinen analyysi datasettien metatietoihin ja
muodostetaan tämän perusteella järkeviä luokkalinkityksiä
Luvussa 3. esitettyä yleistä luokittelua voidaan tarkentaa ajamalla semanttinen klusterointi HRI-
katalogissa oleville datasettien metadatoille. Menetelmällä voidaan tarkastella myös datasettien
samankaltaisuutta ja tuottaa asiasanoituksia automaattisesti.
Suositus 16: Esitellään yksittäisiä sovelluksia yhteydessä niihin datasetteihin tai ainakin
yleisiin luokkiin, mitä dataa sovellus käyttää (tai tuottaa)
Monissa katalogeissa on esitelty sovelluksia, mutta niitä ei ole linkitetty varinaisiin datasetteihin
ainakaan kovin näkyvästi. Toisaalta linkittäminen yksittäisiin datasetteihin (esim. vuoden 2005
sademäärät) ei ole informatiivista kokonaisuuden hahmottamisen kannalta. Linkittäminen yleiseen
luokitteluun helpottaisi myös sovellusten vertailua kansainvälisesti.
Suositus 17: Yksittäisten datasettien esittely massasta erillään
Tehdään datakatalogin yhteydessä "viikon datasetti" -tyyppisiä nostoja, joissa esitellään yksittäinen
datasetti yhteydessä sovelluksiin, jotka sitä käyttävät tai erilaisiin maailmalta löytyneisiin
sovelluksiin, jotka käyttävät vastaavaa dataa.
Suositus 18: Järjestetään Sreen Scraping -tapahtuma, jolla kannustetaan sovelluskehittäjiä
hyödyntämään dataa ja tarjoamaan scrapattua dataa edelleen
15. Suositus 19: Tarkastellaan mahdollisuutta tarjota screen scrapatulle datalle uudelleenkäytön
salliva lisenssi
Tuodaan screen scrappaus mukaan hyväksyttynä nopeana avaamisen keinona.
Suositus 20: Valmistellaan HRI-kunnille "avoimen datan deklaraatio", joka voidaan viedä
valtuustojen hyväksyttäväksi
Tämä on maailmalla yleinen malli, nostaa poliittista kiinnostusta asiaa kohtaan.
Suositus 21: Toteutetaan Apps for Cities Finland -kilpailu
Tällä kertaa kannattaa hakea jo toteutuksia, eikä enää ideoita. Annetaan syötteeksi jo kehitetyt ideat
(apps tietokanta), jos tätä ennen on saatu aktivoitua porukkaa screen scrappaamaan relevantteja
datasettejä, niin tarjonta voisi olla jo laajempaa. Kannattaa myös tiedottaa EU:n laajuisesta Open
Data Challenge -kilpailusta ja sallia samalla tai parannetulla ehdotuksella osallistuminen Suomen
kilpailuun.
Liitteet
Liite 1: Erilaisia yleisen tason luokitteluita
Liite 2: 300 avoimen datan sovellusta ja ideaa
Liite 3: Englanninkielinen blogiartikkeli