SlideShare a Scribd company logo
1 of 15
Download to read offline
Selvitys julkishallinnon avoimen
datan kysynnästä ja tarjonnasta
             DRAFT 0.9
Sisällys

Table of Contents
Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta.......................................................1
   Sisällys.............................................................................................................................................2
   Johdanto...........................................................................................................................................3
   1. Datan avaamisen strategiat..........................................................................................................4
      Todistusaineisto...........................................................................................................................4
      Kyselyt ja käyttäjäpalaute...........................................................................................................4
      Matalalla roikkuvat hedelmät......................................................................................................5
      Korkea investoinnin tuottoaste....................................................................................................6
      Tietojärjestelmien luonnollinen uusiutuminen............................................................................6
      Hallinnon sisäinen datan käyttö..................................................................................................6
   2. Avoin data kaupunkien palvelukehityksessä................................................................................7
      Skenaarioita avoimen datan ekosysteemistä...............................................................................8
   3. Datasettien luokittelu...................................................................................................................9
   4. Julkishallinnon avoimen datan kysyntä.....................................................................................12
   5. Toimenpidesuosituksia HRI -hankkeelle...................................................................................13
   Liitteet............................................................................................................................................15
      Liite 1: Erilaisia yleisen tason luokitteluita...............................................................................15
      Liite 2: 300 avoimen datan sovellusta ja ideaa.........................................................................15
Johdanto
Tämä on Helsinki Region Infoshare (HRI) -hanketta varten tehty selvitystyö julkishallinnon
avoimien datasettien tarjonnasta ja saatavuudesta maailmalla. Katsaus toimii strategisena työkaluna
HRI hankkeelle. Luvussa 1. Datan avaamisen prioriteetit esitetään viisi eri strategiaa, joiden
mukaan voidaan kohdistaa voimavaroja ja priorisoidaan eri datasettien avaamista.
Julkishallinnon datan avaaminen edistyy maailmalla nopeasti ja myös sovelluspuolella tapahtuu
jatkuvaa kehitystä. Tutkimuksessa on kartoitettu, miten avoimia datasettejä on luokiteltu eri maiden
ja kaupunkien datakatalogeissa, sekä millaisia sovelluksia ja palveluita näiden datasettien pohjalta
on toteutettu ja millaisia palveluideoita on esitetty. Kartoitus ei pyri olemaan kaiken kattava, vaan
tarkoituksena on luoda jäsennysrunko, jota voidaan täydentää jatkuvasti ja jota vasten voi verrata
HRI -hankkeen myötä avattuja datasettejä ja niiden pohjalta syntyneitä sovelluksia.
Tavoitteena on, että luvut 2. Avoin data kaupunkien palvelukehityksessä, 3. Datasettien luokittelu ja
4. Julkishallinnon avoimen datan kysyntä toimivat selkeänä jäsentelynä datasettien tämänhetkisestä
kysynnästä ja luokittelusta erityisesti kuntien ja kaupunkien kontekstissa. Jäsennyksen pohjalta
voidaan tulkita avoimen datan nykyistä tarjontaa eri aineistotyyppien (esim. tilastot, reaaliaikainen
data, jne.) tai teemojen (esim. liikenne, turvallisuus, terveys, jne.) suhteen. Vastaavasti
sovelluspuolella voidaan tulkita millaisille tietoaineistoille tuntuisi olevan eniten kysyntää.
Raportin tekstikappaleisiin liittyy suosituksia, jotka on kirjattu oranssilla kunkin kappaleen kohdalle
ja avattu laajemmin kappaleessa 5. Toimenpidesuosituksia HRI -hankkeelle.
1. Datan avaamisen strategiat
Yleensä datan avaamiseen liittyvät projektit alkavat kysymyksellä "Mitä meidän pitäisi avata
ensimmäisenä?" tai "Mitkä ovat kaikkein tärkeimpiä datasettejä avattaviksi?" Tässä osiossa esitetää
kuusi strategiaa, joita voidaan käyttää vastaamaan edellämainittuihin kysymyksiin. Neljä
ensimmäistä strategiaa on soveltaen suomennettu Civic Commons -wikistä1, joka on laadukas ja
tutustumisen arvoinen lähdeaineisto muiltakin osin. Kaksi viimeistä strategiaa: Tietojärjestelmien
luonnollinen uusiutuminen ja Hallinnon sisäinen datan käyttö ovat käytännön kautta löydettyjä
lisäyksiä.
Suositus 1: Hyödynnetään eri strategioiden tasapainoisesti datan avaamisen priorisoinnissa
Suositus 2: Julkistetaan datan avaamisen strategiat ja prioriteetit

Todistusaineisto
Todistusaineistoa avoimen julkishallinnon datan todellisesta käytöstä voidaan kerätä sen jälkeen,
kun aineistoja on julkaistu esimerkiksi seuraamalla lataamistilastoja.
Epäsuorasti kysyntää voidaan arvioida olemassaolevien prosessien ja tietojärjestelmien tuottamien
seurantatietojen perusteella. Moniin palveluprosesseihin, tietojärjestelmiin ja verkkosivustoihin on
jo rakennettu mekanismeja käyttäjämäärien ja tietopyyntöjen seurantaan. Esimerkiksi kirjaamojen
ja akaspalvelujärjestelmien kautta rekisteröidyt kyselymäärät eri aihepiireistä kertovat asukkaiden
yleisimmistä tiedontarpeista. Myös verkkosivujen hakutilastot ja hakukoneanalyysit ovat hyvä
tietolähde.
Taulukko 1: Esimerkkejä Google Insights hakutilastoista seuraaville hakusanoille: tilastokeskus, Helsingin kaupunki,
tilasto ja tietokeskus. Hakusanan alla on esitetty relevantteja poimintoja top-10 listalta kyseiseen sanaan liittyvistä
muista hakusanoista, joita ihmiset ovat syöttäneet Googleen. Esimerkiksi tilastokeskusksen yhteydessä googlesta on
usein haettu elinkustannusindeksiä ja asuntojen hintoja.

      Tilastokeskus                   Helsingin kaupunki                           Tilasto                         Tietokeskus
URL:                                URL:                                URL:                                URL:
http://www.google.com/insights/se   http://www.google.com/insights/se   http://www.google.com/insights/se   http://www.google.com/insights/se
arch/#q=tilastokeskus               arch/#q=helsingin%20kaupunki        arch/#q=tilasto                     arch/#q=tietokeskus

elinkustannusindeksi                työpaikat                           sää                                 Savon tietokeskus
asuntojen hinnat                    avoimet työpaikat                   asuntojen hinnat                    Turun tietokeskus
väestö                              vuokra-asunnot                      lämpötilat                          Helsingin tietokeskus
palkat                              sosiaalivirasto                     palkka                              Sotkamon tietokeskus


Suositus 3: Kerätään ja julkaistaan lataustilastoja systemaattisesti

Kyselyt ja käyttäjäpalaute
Yksinkertainen strategia käyttäjätarpeiden kartoittamiseksi on kysyä eri kohderyhmiltä
(kaupunkilaiset, tutkijat, journalistit, luottamushenkilöt, virkamiehet, yrittäjät), mistä datasta he
olisivat kiinnostuneita tai minkä tiedon saatavuuttaa ja uudelleenkäytettävyyttä tulisi ensisijaisesti
parantaa. Kysely kannattaa suorittaa laajemmin avoimen datan hankkeen alkuvaiheessa.
Myöhemmin kannattaa tarjota jatkuvaluonteinen palaute- ja vuorovaikutuskanava ja mahdollisesti
tehdä kohdennetumpia kyselyitä esimerkiksi tietylle kohderyhmälle suunnattujen tilaisuuksien
yhteydessä. Berliinin kaupunki toteutti 2010 syksyllä kyselyn, jossa vastaajat saivat valita
mielestään kolme tärkeintä datavarantojen luokkaa listalta, jossa oli 20 vaihtoehtoa.

1Civic Commons -wiki http://wiki.civiccommons.org/Open_Data_Priorities
Kuva 1: Berliinin kaupungin toteuttamassa kyselyssä suosituimmat datat julkaistaviksi (kun laskettiin yhteen ykkös-
kakkos- ja kolmosäänet) olivat 1. City planning, 2. Administration, 3. Environment, pollution, 4. Control,
5.Infrastructure ja 6. Citizen.
Kaikki vaihtoehdot (20 kpl) aakkosjärjestyksessä:Administration, Citizen, City markets, City Planning, Control , Crime,
Customers consulting, Education, Environment, pollution, Events , Family, Health, Infrastructure, Law, Living,
Opening hours, Pets, Public transport, Recycling+Waste, Traffic.
Ennakkoon tehtyjen kyselyiden tuloksia tulkittaessa pitää huomioida se, että ihmiset osaavat kysyä
vain aineistoja, joidenka olemassaolo on tunnettu ja suurelle yleisölle tietyn aineiston tarve saattaa
nousta ilmeiseksi vasta sen jälkeen, kun joku on osoittanut toimivalla sovelluksella tai
visualisaatiolla datan hyödyllisyyden. Toisin sanottuna tietyn aineiston suosio nykyhetkessä ei
välttämättä vastaa aineiston tärkeyttä.
Esimerkkinä ravintoloiden hygieniatarkastusten tulokset ovat olleet kysyttyjä aineistoja sen jälkeen,
kun joku ensimmäisenä keksi tehdä mobiilisovelluksen, jossa tämä tieto voidaan yhdistää
ravintoloista tietoja ja suosituksia näyttäviin sijaintipohjaisiin mobiilisovelluksiin. Jälkikäteen
ajateltuna tiedon hyödyllisyys ja käyttötarkoitus ovat ilmeisiä, mutta etukäteen tämä aineisto tuskin
olisi ollut kovin korkealla "suosittuimmuuskyselyssä".
Suositus 4: Kerätään vapaaehtoisia taustatietoja käyttäjiltä sähköpostilistalle liittymisen
yhteydessä
Suositus 5: Tehdään yleinen käyttäjätarvekysely
Suositus 6: Tehdään eri kohderyhmille suunnattuja kyselyitä

Matalalla roikkuvat hedelmät
Useinmiten hallinnon organisaatioilla on joitakin helpommin saatavilla olevia datasettejä, joidenka
avaamiseen ei liity suuria teknisiä, eikä käyttöoikeuksien määrittämiseen liittyviä haasteita ja jotka
ovat sisällöltään kokonaisuudessaan selkeästi julkisia. Tällaiset aineistot kannattaa julkiasta
avoimen datan periaatteiden mukaisesti, vaikka niihin ei kohdistuisi ennakkoon erityisen suurta
kysyntää. Julkaisemalla "matalalla roikkuvia hedelmiä" voidaan kerätä arvokasta kokemusta datan
avaamisprosessista. Lisäksi monet ennalta epäkiinnostaviksi tulkitut datasetit saattavat herättää
yllättävää kiinnostusta, mikäli niiden saatavuus tehdään helpoksi. Esimerkkinä tällaisesta on New
Yorkin puurekisterin julkaisu, joka johti sinänsä mielenkiintoisen Trees near you
-miobiilisovelluksen kehittämiseen.
Yksittäisten ja satunnaisten datasettien julkaiseminen ei kuitenkaan missään tapauksessa ole
yksistään riittävä strategia. Etenkin, mikäli toiminta on lyhytjänteistä on riskinä tuottaa pettymyksiä
dataa julkaisseille organisaatioille: "julkaisimme tämän datasetin jo puoli vuotta sitten, eikä kukaan
ole kiinnostunut siitä".
Suositus 7: Dokumentoidaan tarinamuodossa helppo ja haastava datanavaamistapaus

Korkea investoinnin tuottoaste
Siinä missä matalalla roikkuvien hedelmien strategiassa julkaistaan sitä, minkä julkaisu on helppoa
ja kustannuksiltaan matalaa pyritään korkean investoinnin tuottoasteen strategiassa vertaamaan
julkaisun vaikeutta (kustannuksia) saavutettaviin hyötyihin. Investoinnin hyödyt voivat tulla muun
muassa yleisen hyödyllisyyden (esimerkiksi Reittiopas ja syntyneet mobiilisovellukset),
turvallisuuden, kustannussäästöjen tai taloudellisen aktiivisuuden kautta. Esimerkiksi säädatan ja
karttaaineistojen osalta kohtuullisilla avaamisen kustannuksilla mahdollistetaan suhteessa varsin
laaja käyttötapausten kirjo.
Strategian haasteena on, että monien sinänsä ilmiselvien hyötyjen, kuten hallinnon läpinäkyvyyden
lisääntymisen tai paremmin faktatietoihin pohjautuvan valmistelun ja päätöksenteon arvottaminen
rahallisesti on vaikeaa ellei mahdotonta ja hyvin usein investoinnin tuotot eivät tule samalle taholle,
kuin kustannukset. Myös tämän strategian kohdalla on pidettävä mielessä, että suurimmat tuotot
saattavat tulla ennakoimattomalta taholta. Esimerkiksi ennakkoon arvioituna vähäpätöisen oloinen
ympäristödata saattaa olla merkittävässä vaikkapa syöpätutkimuksessa.
Suositus 8: Identifioidaan sovellusaluekohtaisesti (Luku 4) kullakin alueella merkittävä
datasetti, jonka avaamista tarkastellaan investointina

Tietojärjestelmien luonnollinen uusiutuminen
Aineistojen saattaminen teknisesti ja laillisesti uudelleenkäytettäviksi uusien tietojärjestelmien
hankinnan yhteydessä ei välttämättä aiheuta merkittäviä lisäkustannuksia. Varsin järkeenkäypä
strategia onkin muodostaa toimintatapa, jolla varmistetaan, että avoin data tulee mukaan kaikkiin
uusiin tietojärjestelmähankintoihin.
Strategian haittapuolena on se, että sitä käytetään hanakasti argumenttina kaikkia muita strategioita
vastaan: "meillä on juuri ensivuonna alkamassa tämä suuri järjestelmäuudistus, jonka yhteydessä
tämä varmasti voidaan ottaa esille". Jotta aineistojen avaaminen voidaan tehdä oikein ja kunnolla
järjestelmäuudistusten yhteydessä kannattaa kokemuksia kerätä jo ennen sitä.
Järjestelmäuudistuksenkaan yhteydessäkään tehty rajapinta ei ole edullinen, jos se toteutesta
joudutaan muuttamaan jälkikäteen.
Suositus 9: Tarjotaan virastoille ja yksiköille oikeaaikaista konsultaatiota
hankintaprosesseissa
Suositus 10: Dokumentoidaan hankintacaseja, joissa avoin data on huomioitu

Hallinnon sisäinen datan käyttö
Hallinnon sisäinen datan käyttö tulisi mieltää oikeastaan yhtenä kohdealueena esimerkiksi
tieteellisen käytön, kaupallisen käytön, tutkivan journalismin jne. rinnalla. Esimerkiksi datan
tarvekyselyitä voidaan tehdä hallinnon sisällä ja hallinnon sisäistä datan käyttöä voidaan seurata
erilaisten todistusaineistojen perusteella. Tässä hallinnon sisäinen käyttö on kuitenkin esitetty
erillisenä lähestymistapana, koska sen yhteydessä aiemmin esiteltyä "korkea investoinnin
tuottoaste" strategiaa voidaan soveltaa tehokkaammin.
Tarkasteltaessa mitä julkisia tietovarantoja useat eri viranomaiset jo hyödyntävät tai voisivat
hyödyntää on mahdollista löytää sellaisia aineistoja, joiden avaamiseen kannattaa investoida ja
investoinnin tuotot myös realisoituvat suoremmin esimerkiksi saman kaupungin sisällä. Samalla,
kun tehdään tai suunnitellaan tiedonvaihtoa viranomaisten välillä kannattaa julkiset aineistot avata
kaikkien hyödynnettäväksi, tämä lisää aineistojen löydettävyyttä ja saattaa jopa lisätä kyseisen
aineiston käyttöä hallinnon sisällä.
2. Avoin data kaupunkien palvelukehityksessä
Tämä luku pyrkii antamaan yleisen viitekehyksen siihen, mikä on avoimen datan rooli nimenomaan
kaupungeissa ja kunnissa. Kuvassa 2. esitetty malli on kehitetty Sitran Julkishallinnon johtamisen
ohjelman tuottaman Kuntien palveluevoluutiomallin2 pohjalta.
Alkuperäinen malli kuvaa ihmisten, kunnan ja palvelutuottajien välistä vuorovaikutusta. Nämä
ovat kuntien toiminnan kannalta keskeiset toimijaryhmät, joiden välillä myös tiedon tulisi liikkua ja
rikastua mahdollisimman tehokkaasti. Avoimesta tiedosta puhuttaessa ei tietenkään pidä rajoittua
vain näihin toimijaryhmiin, vaan sama data jaetaan myös kaikille muille tahoille, kuten
tutkimuslaitoksille, muulle julkishallinnolle, muille kun kuntapalveluja tuottaville yrityksille, sekä
kansalaisjärjestöille ja vapaaseen käyttöön.
Palveluevoluutiomalliin on lisätty tiedon koostaminen ja jakaminen omaksi toiminnaksi
korostamaan sitä, että avoimen datan ekosysteemissä kaikki toimijat voivat käyttää ristiin toistensa
tuottamaa dataa. Datan ja tiedon julkaiseminen ja hyödyntäminen helpottuu, kun sen koostamiseen
ja jakamiseen on toimivat käytännöt ja infrastruktuuri.
Mallin pohjalta on mahdollista luoda yhdeksä kuntakontekstissa olevaa erilaista avoimen datan
käytön ja tuotannon skenaariota.




Kuva 2: Avoimen datan rooli kunnan palveluevoluutiossa. Mallin pohjalta on mahdollista muodostaa erilaisia
skenaarioita siitä, kuka tuottaa ja kuka käyttää ja rikastaa kenenkin tuottamaa dataa.

2 http://www.slideshare.net/Uusijohtajuus/sitra-palveluevoluutio-konsepti
Skenaarioita avoimen datan ekosysteemistä
Lätökohtana on, että ihmiset, kunta ja palveluntuottajat voivat kaikki tuottaa ja rikastaa tietoa,
sekä käyttää itsensä ja toistensa tuottamaa ja rikastamaa tietoa.
   • Ihmiset voivat tuottaa (ja korjata) tietoa: ehdotukset, palaute, huomiot, asiantuntijatieto...
   • Ihmiset käyttävät tietoa: osallistuminen, palveluiden vertailu, vertaistieto...
   • Kunta tuottaa tietoa: tilastot, asianhallinta, suunnitelmat, rekisterit...
   • Kunta käyttää tietoa: päätöksenteko, suunnittelu, mallinnus...
   • Palveluiden tuotannossa syntyy tietoa: tilastot, prosessidata, kustannustieto, paikkatieto...
   • Palveluiden tuotannossa käytetään tietoa: palvelukehitys, optimointi, ohjaus...

Taulukko 2: Yhdeksän esimerkkiskenaariota, jossa eri toimijaryhmät (ihmiset, palvelun tuottajat ja kunta)
käyttävät saman ryhmän ja muiden ryhmien tuottamaa tietoa.Vihreällä pohjalla on skenaariot, joissa tiedon
käyttäjänä ovat ihmiset, violetilla pohjalla skenaarioissa tietoa käyttää palveluiden tuottajat ja vaaleansinisellä
pohjalla tiedonkäyttäjänä on kunta.

Skenaario                                 Kuvaus                                   Esimerkki
A: Vertaistieto                           Ihmiset käyttävät ihmisten tuottamaa     Avoimissa palautekanavissa ihmisiä
                                          tietoa                                   usein kiinnostaa toisten vertaisten
                                                                                   kirjoitukset.
B: Viestintä kuntalaisille                Ihmiset käyttävät kunnan tuottamaa       Valmistelu ja päätösprosessien tiedot
                                          tietoa                                   (pyötäkirjat yms.)
C: Viestintä asiakkaille                  Ihmiset käyttävät palveluntuottajan      Aukioloajat, toimipisteiden
                                          tuottamaa tietoa                         yhteystiedot tai vaikka reaaliaikainen
                                                                                   tieto aurauskaluston sijainnista GPS-
                                                                                   paikannuksella
D: Palveluprosessin seuranta              Palveluntuottajat käyttävät              Esimerkiksi kirjastot seuraavat omia
                                          palveluntuottajien tuottamaa tietoa      ja toisten kirjastojen lainaustilastoja
                                                                                   hankintojen ohjauksessa.
E: Asiakaspalaute                         Palveluntuottajat käyttävät ihmisten     Palveluntuottajat voivat parataa
                                          tuottamaa tietoa                         toimintaansa ja jopa kilpailla laadulla,
                                                                                   mikäli asiakaspalautetta on avoimesti
                                                                                   käytettävissä.
F:Kunnan tieto palveluiden                Palveluntuottajat käyttävät kunnan       Esimerkiksi yksityinen
kehityksessä                              tuottamaa dataa                          hoivapalveluyritys voi skaalata
                                                                                   toimintaansa kunnan tuottamien
                                                                                   väestö- ja hoivatarvetilastojen avulla.
G: Valmistelu ja päätösprosessien         Kunta käyttää kunnan tuottamaa tietoa Kunnan eri virastot voivat
seuranta                                                                        synkronoida toimintaansa käyttämällä
                                                                                ristiin toistensa tietovarastoja.
H: Asukkaiden tieto                       Kunta käyttää ihmisten tuottamaa         Asukkaiden kokemuksellista tietoa
                                          tietoa                                   voidaan hyödyntää esimerkiksi
                                                                                   asuinalueiden suunnittelussa.
I: Palveluiden laadunvalvonta             Kunta käyttää palveluntuottajien         Kunta seuraa ulkoisten
                                          tuottamaa tietoa                         palveluntuottajien kanssa tehtyjen
                                                                                   sopimusten toteutumista ja
                                                                                   valmistautuu hankintapäätöksiin
                                                                                   kerättyyn tietoon perustuen.


Suositus 11: Tuetaan pilottitoteutusten syntymistä eri skenaarioiden (Taulukko 2.) mukaisilta
alueilta
Suositus 12: Tarkastellaan, mitä muita merkittäviä tiedon käyttäjäryhmiä (esim.
tutkimuslaitokset ja media) on ja toteutetaan tuettuja pilotteja myös heidän kanssaan
3. Datasettien luokittelu
Datasettien luokittelun tavoitteena olisi luoda kaupunkien tietovarantoihin selkeä yleiskatsaus ja
otsikointi, joka kattaisi ne hyvinkin erilaiset aineistot, joita kaupungit organisaatioina hallinnoivat.
Julkishallinnon datasta puhuttaessa tulee yleensä ensimmäisenä mieleen tunnetut perusrekisterit,
kuten väestörekisteri, kiinteistörekisteri jne. sekä kenties tilastotiedot ja säätiedot. Myös kartta-
aineistot ja paikkatieto on melko laajasti tunnettua ja jotkut muistavat mainita erilaiset
liikennetiedot. Hallinnon data-aineistoja ei Suomessa, eikä maailmalla ole kattavasti kartoitettu,
eikä valmiita luokitteluita kaupunkien dataseteille löytynyt.
Brett Camperin toteuttama Puut lähelläsi (Trees Near You) -palvelu sai kunniamaininnan New
Yorkin kaupungin avoimen datan hyödyntämiseskilpailussa 2010. Ilmainen iPhone-sovellus kertoo
käyttäjälle sijainnin perusteella tietoja yli 500 000 elävästä puustä New Yorkin kaupungissa.
Sovellus yhdistelee puhelimesta saatavaa GPS-sijaintitietoa, Wikipedia-artikkeleita puulajeista ja
kaupungin avoimesti julkaisemaa puurekisteriä. Tämä on kuvaava esimerkki siitä, kuinka paljon
potentiaalisesti hyödyllistä dataa on olemassa mutta jonka olemassaoloa ei yleensä tule
ajatelleeksikaan.
Tarvittava luokittelu on esitetty allaolevassa kuvassa keskellä keltaisessa palkissa. Luokittelun
lisäksi asian yleisen hahmottumisen kannalta olisi erittäin hyödyllistä yhdistää datan sovellukset ja
käyttökohteet ja yksittäiset datasetit toisiinsa yleisen luokittelun kautta. Tämä voitaisiin myös
visualisoida esimerkiksi datakatalogin yhteydessä.




Kuva 3: Malli datan käyttötarkoitusten (sininen) ja datasettien (vihreä) visualisoinnista yleisen luokittelun
(keltainen) avulla.
Paras tutkimuksessa löydetty hallinnon datavarantojen luokittelu on Mepsir -tutkimuksen jaottelu,
joka pohjautuu Euroopan unioinin PSI-direktiivin kattamiin alueisiin. Tätä jaottelua on verrattu eri
datakatalogien ja muiden löydettyjen luokittelujen kanssa (Liite 1.). Monissa datakatalogeissa ei
noudateta mitään erityistä luokittelua, vaan eri tietovarannot on asiasanoitettu enemmän tai
vähemmän vapaasti.
Luokittelun tuottaminen voisi olla mahdollista myös alhaalta ylöspäin tekemällä aineistojen
kuvailuihin tai asiasanoituksiin koneellinen semanttinen analyysi ja klusterointi.
HRI -hankkeen kannalta olennaista on pystyä tarjoamaan datan uudelleenkäyttäjille myös näkemys
siitä kokonaisuudesta, mitä tietovarantoja kaupungilla on hallussaan (vaikka ne eivät vielä olisi
avoimia). Käytännössä kaikki maailmalla olevat julkishallinnon datakatalogit listaavat ainoastaan jo
avoimena olevia datasettejä, mikä on erittäin suuri puute.




Kuva 4: Karkea näkemys kokonaisuudesta julkishallinnon avoimen datan osalta. Kaikki hallinnon tuottama data
ei ole julkista (tietosuoja, yleinen turvallisuus jne. -kysymysten takia). Nykyisin mysöskään kaikki julkinen data
ei ole avointa, eli koneellisesti ja laillisesti uudelleenkäytettävää. Tavoitteena olisi, että mahdollisimman suuri
osa hallinnon tuottamasta lain mukaisesti julkisesta aineistosta olisi saatavilla myös avoimena datana.
Luonnollisesti avointa dataa voivat tuottaa myös muut, kuin hallinnon toimijat.

Yhdenkin kunnan hallinnoimien julkisten tietovarantojen kokonaisuus on hyvin monitahoinen ja
vaikeasti hamottuva, eikä oikein kenelläkään ole nykyisin selvää käsitystä siitä, mitä kaikkea dataa
kunnalla on. Eri tietoaineistojen olemassaolon tunteminen on ensimmäinen askel, niiden
hyötykäytössä. On hyvin vaikea löytää edistyneilläkään hakutoiminnoilla sellaista, minkä
olemassaolosta ei ole tietoa.
Tähän kokonaiskuvan haasteeseen pyrkii vastaamaan kuvan 3. malli, jossa sekä toteutetut
sovellukset, että avoimet ja vielä avaamattomat, mutta kuitenkin julkiset tietovarannot on linkitetty
toisiinsa yleisen tason selkokielisten luokkien kautta. Näin sovelluksia ja datasettejä voi selailla ja
tehdä löytöjä, vaikkei etukäteen tietäisikään tarkalleen, mitä on hakemassa.
Luokittelun valinta on aina haastava tehtävä. Tavoitteena voidaan pitää noin 10-20 luokkaa, joille
on kirjoitettu lauseen tai kahden mittaiset kuvaukset. Yksittäinen datasetti kuuluu yhteen tai
useampaan luokkaan. Yksittäinen sovellus käyttää yhtä tai useampaa datasettiä ja perii niiden
luokat. Sovellus voi olla myös ulkomainen, jolloin se ei välttämättä käytä mitää tiettyä datasettia
HRI-katalogista, mutta se voidaan silti linkittää tiettyihin luokkiin.
HRI-katalogissa on nykyisin käytössä sekä luokittelu että avainsanat eli tagit. Näiden
rinnakkaiskäyttö on mahdollista ja jopa suositeltavaa, mutta luokitusta tulisi kehittää ja
avainsanottaminen tulisi mahdollistaa kaikille käyttäjille, jolloin se alkaisi kehittyä folksonomian
tavoin. Taulukossa 3. on ehdotettu joitain muutoksia nykyiseen HRI-luokitukseen. Suurin puute
nykyisessä luokituksessa on, että luokat ovat hyvin epätasapainoisia (luokkaan kuuluvien
datasettien määrällä mitattuna) ja ilmeisesti kaikkia ainaistoja ei ole luokiteltu mihinkään luokkaan
(luokkien sisältämien aineistojen yhteismäärä 259, on huomattavasti vähemmän, kuin 547
datasettiä, joka on ilmoitettu aineistojen kokonaismääräksi). Lähimpänä mallina on käytetty
Findikaattori- palvelun luokituksia, sekä JHS145 suositusta.
Taulukko 3: HRI datakatalogin nykyinen luokitus (suluissa luokkan kuuluvien datasettien määrä) ja ehdotus
luokitukseskis, joka pohjautuu eri datakatalogeissa käytettyihin luokkiin (Liite 1.).

 Lyhenne                 HRI-luokitus                 Huomioita HRI-luokista                     Ehdotus
HOU         Asuminen (19)                        ok                                 Asuminen
DEM         Demokratia ja osallistuminen (1)     ok                                 Demokratia ja osallistuminen
GEO         Kartat (1)                           Kartat ja paikkatieto (JHS145)     Kartat ja paikkatieto
EDU         Koulutus (4)                         ok                                 Koulutus
CUL         Kulttuuri (1)                        ok                                 Kulttuuri
TRA         Liikenne (1)                         ok                                 Liikenne
PLA         Rakennukset (1)                      Kaavat ja kiinteistöt (JHS145)     Kaavat ja kiinteistöt
CON         Rakentaminen (24)                    ok                                 Rakentaminen
INC         Tulot ja kulutus (4)                 Toimeentulo (Findikaattori)        Toimeentulo
LAB         Työmarkkinat (45)                    ok                                 Työmarkkinat
POP         Väestö ja väestönmuutokset (155)     Väestö (Findikaattori)             Väestö
ENV         Ympäristö (3)                        Ympäristö ja luonto (JHS145)       Ympäristö ja luoto
ECO                                              Talous (Findikaattori)             Talous
ENE                                              Energia (Findikaattori)            Energia
EVE                                              Tapahtumat                         Tapahtumat
HEA                                              Terveys (Findikaattori)            Terveys
INF                                              Infrastruktuuri                    Infrastruktuuri
LAW                                              Laki ja oikeusturva (JHS 145)      Laki ja oikeusturva
SER                                              Palvelut                           Palvelut


Suositus 13: Kerätään datakatalogin metatietokantaan tietoja myös aineistoista, jotka eivät
vielä ole avoimia
Suositus 14: Toteutetaan datakatalogiin visuaalinen luokitus, joka linkittää yhteen datasettejä
ja sovelluksia
Suositus 15: Tehdään automaattinen semanttinen analyysi datasettien metatietoihin ja
muodostetaan tämän perusteella järkeviä luokkalinkityksiä
Suositus 16: Esitellään yksittäisiä sovelluksia yhteydessä niihin datasetteihin tai ainakin
yleisiin luokkiin, mitä dataa sovellus käyttää (tai tuottaa)
Suositus 17: Yksittäisten datasettien esittely massasta erillään
4. Julkishallinnon avoimen datan kysyntä




Kuva 5: Julkishallinnon avoimen datan kysyntää voidaan kuvata sovellusalueilla, jotka ovat osittain
päällekkäisiä. Esimerkiksi samainen sovellus voi olla tietokantajournalismia ja tukea läpinäkyvyyttä ja
osallistumista. Nämä kukan terälehtien muotoon asetetut sovellusalueet eivät vastaa käyttäjäryhmiä (kuten
hallinto, yritykset, kansalaiset, tutkijat), vaan niitä toiminta-alueita, joilla avoimesta datasta voi olla
hyötyä.Esimerkiksi tutkimusta ja tuotekehitystä voidaan tehdä niin yrityksissä, hallinnossa, kuin
tutkimuslaitoksissakin.

Suositus 18: Järjestetään Sreen Scraping -tapahtuma, jolla kannustetaan sovelluskehittäjiä
hyödyntämään dataa ja tarjoamaan scrapattua dataa edelleen
Suositus 19: Tarkastellaan mahdollisuutta tarjota screen scrapatulle datalle uudelleenkäytön
salliva lisenssi
Suositus 20: Valmistellaan HRI-kunnille "avoimen datan deklaraatio", joka voidaan viedä
valtuustojen hyväksyttäväksi
Suositus 21: Toteutetaan Apps for Cities Finland -kilpailu
5. Toimenpidesuosituksia HRI -hankkeelle
Suositus 1: Hyödynnetään eri strategioiden tasapainoisesti datan avaamisen priorisoinnissa



Suositus 2: Julkistetaan datan avaamisen strategiat ja prioriteetit



Suositus 3: Kerätään ja julkaistaan lataustilastoja systemaattisesti



Suositus 4: Kerätään vapaaehtoisia taustatietoja käyttäjiltä sähköpostilistalle liittymisen
yhteydessä



Suositus 5: Tehdään yleinen käyttäjätarvekysely
Toteutetaan ”Berliinin mallin” mukainen kevyt kysely yleisen luokittelun (Luku 3.) mukaisista
luokista, minkä luokkien datalle on kiinnostusta eri kohderyhmissä?
Suositus 6: Tehdään eri kohderyhmille suunnattuja kyselyitä
Yleisen kyselyn lisäksi eri käyttäjäryhmille esim. hallinnon toimijat voidaan tehdä hieman
syvällisempiä kyselyitä, joidenka osana on yleinen käyttäjäkysely, mutta sen lisäksi on muutama
kohderyhmäspecifinen kysymys. Näitä voidaan tehdä kohderyhmille suunnatuissa tilaisuuksissa,
kuten HsOpen (journalistit), MindTrek (yrittäjät)
Suositus 7: Dokumentoidaan tarinamuodossa helppo ja haastava datanavaamistapaus
Sekä datan haltijoita, että uudelleenkäyttäjiä voisi palvella totuudenmukaiset kuvaukset siitä, mitä
asioita aivan käytännössä pitää ratkaista jonkin tietovarannon avaamisessa, esim. pitääkö ostaa
konsulttityönä teknisiä muutoksia jne. HRI:n toiminnassa näitä caseja tulee varmasti vastaan, joten
suositus on kirjoittaa muutama niistä auki ja julkaista.
Suositus 8: Identifioidaan sovellusaluekohtaisesti (Luku 4) kullakin alueella merkittävä
datasetti, jonka avaamista tarkastellaan investointina
Lähestymällä datan avaamista puhtaasti sovellusalueiden kautta voidaan tietoisesti päästä irti pelkän
”matalalla roikuvien hedelmien” strategian käytöstä. Voi olla, että jotkut identifioiduista dataseteistä
on käytännössä mahdottomia avata, mutta kenties tällä tavalla paljastuu jokin datasetti, jonka
avaamiseen kannattaa panostaa. Esimerkiksi budjetti- ja transaktidatan avaaminen palvelisi sekä
tietokantajournalismia, päätöksentekoa, että läpinäkyvyyttä.
Suositus 9: Tarjotaan virastoille ja yksiköille oikeaaikaista konsultaatiota
hankintaprosesseissa
Varmistetaan avoimen datan toteutuminen meneillään olevissa ja tulevissa
tietojärjestelmäuudistuksissa. Tämän toteutumiseksi voi riittää pienikin konsultaatio oikeaaikaisesti
hankintaprosessissa, mutta edellytyksenä on meneillään olevien ja suunnittelilla olevien hankkeiden
järjestelmällistä seurantaa, että tiedetään, milloin ja kenen kanssa kannattaa pitää pieni avoimen
datan palaveri.
Suositus 10: Dokumentoidaan hankintacaseja, joissa avoin data on huomioitu


Suositus 11: Tuetaan pilottitoteutusten syntymistä eri skenaarioiden (Taulukko 2.) mukaisilta
alueilta
Tietojenkäsittelyn ohjelmatyöt muun muassa Aalto Yliopistossa ja Helsingin yliopistossa ovat
kustannustehokkaita mahdollisuuksia tuottaa Suomalaisia esimerkkisovelluksia.
Suositus 12: Tarkastellaan, mitä muita merkittäviä tiedon käyttäjäryhmiä (esim.
tutkimuslaitokset ja media) on ja toteutetaan tuettuja pilotteja myös heidän kanssaan
Kaupunkidataa hyödyntäviä tutkimussuuntauksia ovat muun muassa: kiinteistötalous,
liikennesuunnittelu, yhdyskuntasuunnittelu, kaupunkimaantiede, sosiaali- ja terveystutkimus jne.
Tietokantajournalismista voi etsiä yhteistyömahdollisuuksia mediatalojen kanssa. Vuoden 2012
kunnalisvaalit on tapahtuma, jonka yhteydessä voi olla mahdollista tehdä näkyviä pilottitoteutuksia.
Yhtenä suuntauksena kannattaa etsiä sellaista pilottikohdetta, jossa jokin data voitaisiin avata
käyttöön ja kaupunkilaiset voisivat rikastaa sitää niin, että siitä olisi hyötyä kaupungille.
Esimerkiksi, jos kaupunkisuunnitteluvirastolla on tietoja rakennuksista (pohjapiirrustuksia,
sijainteja, 3d-malleja) voisivat kansalaiset älypuhelimilla kuvata omasta mielestään viihtyisiä ja
rumia ympäristöjä ja yhdistää niitä olemassaolevaan tietoarkistoon.
Suositus 13: Kerätään datakatalogin metatietokantaan tietoja myös aineistoista, jotka eivät
vielä ole avoimia
Kaikkien nykyisten datakatalogien suuri puute on se, että ne eivät tee näkyväksi vielä avaamattomia
tietokantoja. Erityisesti ei kannata panostaa siihen, että etsii vielä avaamattomia tietoaineistoja
katalogia varten, mutta sitä mukaan, kun niitä tulee vastaan ne pitäisi lisätä katalogiin. Tässä olisi
myös crowdsourcing-lähestymistapa hedelmällinen.
Suositus 14: Toteutetaan datakatalogiin visuaalinen luokitus, joka linkittää yhteen datasettejä
ja sovelluksia
Linkitetään visuaalisesti datasetit ja sovellukset toisiinsa yleisen luokittelun kautta (Kuva 3.).
Luokittelu ei poissulje tarvetta ja mahdollisuutta käyttää myös vapaammin asiasanoja tai tageja.
Esimerkiksi wordpress -blogialusta tukee sekä tageja, että luokkia.
Suositus 15: Tehdään automaattinen semanttinen analyysi datasettien metatietoihin ja
muodostetaan tämän perusteella järkeviä luokkalinkityksiä
Luvussa 3. esitettyä yleistä luokittelua voidaan tarkentaa ajamalla semanttinen klusterointi HRI-
katalogissa oleville datasettien metadatoille. Menetelmällä voidaan tarkastella myös datasettien
samankaltaisuutta ja tuottaa asiasanoituksia automaattisesti.
Suositus 16: Esitellään yksittäisiä sovelluksia yhteydessä niihin datasetteihin tai ainakin
yleisiin luokkiin, mitä dataa sovellus käyttää (tai tuottaa)
Monissa katalogeissa on esitelty sovelluksia, mutta niitä ei ole linkitetty varinaisiin datasetteihin
ainakaan kovin näkyvästi. Toisaalta linkittäminen yksittäisiin datasetteihin (esim. vuoden 2005
sademäärät) ei ole informatiivista kokonaisuuden hahmottamisen kannalta. Linkittäminen yleiseen
luokitteluun helpottaisi myös sovellusten vertailua kansainvälisesti.
Suositus 17: Yksittäisten datasettien esittely massasta erillään
Tehdään datakatalogin yhteydessä "viikon datasetti" -tyyppisiä nostoja, joissa esitellään yksittäinen
datasetti yhteydessä sovelluksiin, jotka sitä käyttävät tai erilaisiin maailmalta löytyneisiin
sovelluksiin, jotka käyttävät vastaavaa dataa.
Suositus 18: Järjestetään Sreen Scraping -tapahtuma, jolla kannustetaan sovelluskehittäjiä
hyödyntämään dataa ja tarjoamaan scrapattua dataa edelleen
Suositus 19: Tarkastellaan mahdollisuutta tarjota screen scrapatulle datalle uudelleenkäytön
salliva lisenssi
Tuodaan screen scrappaus mukaan hyväksyttynä nopeana avaamisen keinona.
Suositus 20: Valmistellaan HRI-kunnille "avoimen datan deklaraatio", joka voidaan viedä
valtuustojen hyväksyttäväksi
Tämä on maailmalla yleinen malli, nostaa poliittista kiinnostusta asiaa kohtaan.
Suositus 21: Toteutetaan Apps for Cities Finland -kilpailu
Tällä kertaa kannattaa hakea jo toteutuksia, eikä enää ideoita. Annetaan syötteeksi jo kehitetyt ideat
(apps tietokanta), jos tätä ennen on saatu aktivoitua porukkaa screen scrappaamaan relevantteja
datasettejä, niin tarjonta voisi olla jo laajempaa. Kannattaa myös tiedottaa EU:n laajuisesta Open
Data Challenge -kilpailusta ja sallia samalla tai parannetulla ehdotuksella osallistuminen Suomen
kilpailuun.



Liitteet

Liite 1: Erilaisia yleisen tason luokitteluita

Liite 2: 300 avoimen datan sovellusta ja ideaa

Liite 3: Englanninkielinen blogiartikkeli

More Related Content

Similar to Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

Avoin data ja rajapinnat
Avoin data ja rajapinnatAvoin data ja rajapinnat
Avoin data ja rajapinnatJyrki Kasvi
 
Julkinen data mita_kaikkea_se_onkaan
Julkinen data mita_kaikkea_se_onkaanJulkinen data mita_kaikkea_se_onkaan
Julkinen data mita_kaikkea_se_onkaanFloApps
 
Big data tietoisku julkishallinnolle 2.10.2013
Big data  tietoisku julkishallinnolle 2.10.2013Big data  tietoisku julkishallinnolle 2.10.2013
Big data tietoisku julkishallinnolle 2.10.2013ivoriofinland
 
Tietojohtamisen tutkimuskatsaus
Tietojohtamisen tutkimuskatsausTietojohtamisen tutkimuskatsaus
Tietojohtamisen tutkimuskatsausHarri Laihonen
 
OKRoadshow Mikkeli 13.10.2014: Avoin tieto Lappeenrannassa
OKRoadshow Mikkeli 13.10.2014: Avoin tieto LappeenrannassaOKRoadshow Mikkeli 13.10.2014: Avoin tieto Lappeenrannassa
OKRoadshow Mikkeli 13.10.2014: Avoin tieto LappeenrannassaDigitalmikkeli
 
Citizen data science muuttaa julkishallintoa
Citizen data science muuttaa julkishallintoaCitizen data science muuttaa julkishallintoa
Citizen data science muuttaa julkishallintoaAffecto
 
Näin avaat dataa -koulutuspäivä 27.3.2015
Näin avaat dataa -koulutuspäivä 27.3.2015Näin avaat dataa -koulutuspäivä 27.3.2015
Näin avaat dataa -koulutuspäivä 27.3.2015Helsinki Region Infoshare
 
Avoin data ja avoimet rajapinnat
Avoin data ja avoimet rajapinnatAvoin data ja avoimet rajapinnat
Avoin data ja avoimet rajapinnatJyrki Kasvi
 
Valikoidut kirjoitukset Oskari Lappalainen
Valikoidut kirjoitukset Oskari LappalainenValikoidut kirjoitukset Oskari Lappalainen
Valikoidut kirjoitukset Oskari LappalainenOskari Lappalainen
 
Mitä on avoin data? Onko meillä sitä?
Mitä on avoin data? Onko meillä sitä?Mitä on avoin data? Onko meillä sitä?
Mitä on avoin data? Onko meillä sitä?Antti Poikola
 

Similar to Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti (20)

Fountain Park Loppuraportti 2010
Fountain Park Loppuraportti 2010Fountain Park Loppuraportti 2010
Fountain Park Loppuraportti 2010
 
Avoin data
Avoin data Avoin data
Avoin data
 
Luento Helsingin työväenopistolla 5.10.15
Luento Helsingin työväenopistolla 5.10.15Luento Helsingin työväenopistolla 5.10.15
Luento Helsingin työväenopistolla 5.10.15
 
Hri pks-talousdatan avaaminen-esitys
Hri pks-talousdatan avaaminen-esitysHri pks-talousdatan avaaminen-esitys
Hri pks-talousdatan avaaminen-esitys
 
Avoin data ja rajapinnat
Avoin data ja rajapinnatAvoin data ja rajapinnat
Avoin data ja rajapinnat
 
Datan avaaminan vaatii avoimia rajapintoja
Datan avaaminan vaatii avoimia rajapintojaDatan avaaminan vaatii avoimia rajapintoja
Datan avaaminan vaatii avoimia rajapintoja
 
Hri esitys-pks-koordinaatio-14092012-valmis
Hri esitys-pks-koordinaatio-14092012-valmisHri esitys-pks-koordinaatio-14092012-valmis
Hri esitys-pks-koordinaatio-14092012-valmis
 
Avoin data
Avoin dataAvoin data
Avoin data
 
Hri vantaa-avoin tieto-joulu2012-valmis
Hri vantaa-avoin tieto-joulu2012-valmisHri vantaa-avoin tieto-joulu2012-valmis
Hri vantaa-avoin tieto-joulu2012-valmis
 
Julkinen data mita_kaikkea_se_onkaan
Julkinen data mita_kaikkea_se_onkaanJulkinen data mita_kaikkea_se_onkaan
Julkinen data mita_kaikkea_se_onkaan
 
Big data tietoisku julkishallinnolle 2.10.2013
Big data  tietoisku julkishallinnolle 2.10.2013Big data  tietoisku julkishallinnolle 2.10.2013
Big data tietoisku julkishallinnolle 2.10.2013
 
Tietojohtamisen tutkimuskatsaus
Tietojohtamisen tutkimuskatsausTietojohtamisen tutkimuskatsaus
Tietojohtamisen tutkimuskatsaus
 
OKRoadshow Mikkeli 13.10.2014: Avoin tieto Lappeenrannassa
OKRoadshow Mikkeli 13.10.2014: Avoin tieto LappeenrannassaOKRoadshow Mikkeli 13.10.2014: Avoin tieto Lappeenrannassa
OKRoadshow Mikkeli 13.10.2014: Avoin tieto Lappeenrannassa
 
Citizen data science muuttaa julkishallintoa
Citizen data science muuttaa julkishallintoaCitizen data science muuttaa julkishallintoa
Citizen data science muuttaa julkishallintoa
 
Näin avaat dataa -koulutuspäivä 27.3.2015
Näin avaat dataa -koulutuspäivä 27.3.2015Näin avaat dataa -koulutuspäivä 27.3.2015
Näin avaat dataa -koulutuspäivä 27.3.2015
 
Avoin data ja HRI -esitys 30.11.2016
Avoin data ja HRI -esitys 30.11.2016Avoin data ja HRI -esitys 30.11.2016
Avoin data ja HRI -esitys 30.11.2016
 
Avoin data ja avoimet rajapinnat
Avoin data ja avoimet rajapinnatAvoin data ja avoimet rajapinnat
Avoin data ja avoimet rajapinnat
 
Valikoidut kirjoitukset Oskari Lappalainen
Valikoidut kirjoitukset Oskari LappalainenValikoidut kirjoitukset Oskari Lappalainen
Valikoidut kirjoitukset Oskari Lappalainen
 
Anne Kauhanen-Simanainen: Avoimesta datasta avoimeen tietoon
Anne Kauhanen-Simanainen: Avoimesta datasta avoimeen tietoonAnne Kauhanen-Simanainen: Avoimesta datasta avoimeen tietoon
Anne Kauhanen-Simanainen: Avoimesta datasta avoimeen tietoon
 
Mitä on avoin data? Onko meillä sitä?
Mitä on avoin data? Onko meillä sitä?Mitä on avoin data? Onko meillä sitä?
Mitä on avoin data? Onko meillä sitä?
 

More from Helsinki Region Infoshare

Datan avaamisen perusteet -koulutus 23.11.2022
Datan avaamisen perusteet -koulutus 23.11.2022Datan avaamisen perusteet -koulutus 23.11.2022
Datan avaamisen perusteet -koulutus 23.11.2022Helsinki Region Infoshare
 
Datan avaamisen perusteet -koulutus 1.6.2021
Datan avaamisen perusteet -koulutus 1.6.2021Datan avaamisen perusteet -koulutus 1.6.2021
Datan avaamisen perusteet -koulutus 1.6.2021Helsinki Region Infoshare
 
Datan avaamisen perusteet -koulutus 4.10.2021
Datan avaamisen perusteet -koulutus 4.10.2021Datan avaamisen perusteet -koulutus 4.10.2021
Datan avaamisen perusteet -koulutus 4.10.2021Helsinki Region Infoshare
 
HRI: Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutus ...
HRI: Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutus ...HRI: Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutus ...
HRI: Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutus ...Helsinki Region Infoshare
 
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa (7.11.2019)
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa (7.11.2019)Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa (7.11.2019)
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa (7.11.2019)Helsinki Region Infoshare
 
Open Helsinki - Enhancing the urban development with open data
Open Helsinki - Enhancing the urban development with open dataOpen Helsinki - Enhancing the urban development with open data
Open Helsinki - Enhancing the urban development with open dataHelsinki Region Infoshare
 
HRI-esitys matkailun sovellukset -tilaisuudessa 10.6.2019
HRI-esitys matkailun sovellukset -tilaisuudessa 10.6.2019HRI-esitys matkailun sovellukset -tilaisuudessa 10.6.2019
HRI-esitys matkailun sovellukset -tilaisuudessa 10.6.2019Helsinki Region Infoshare
 
Smart Logistics event in Vantaa on 14th May 2019
Smart Logistics event in Vantaa on 14th May 2019Smart Logistics event in Vantaa on 14th May 2019
Smart Logistics event in Vantaa on 14th May 2019Helsinki Region Infoshare
 
Data hyötykäyttöön – avoin data kaupungin työntekijän arjessa
Data hyötykäyttöön – avoin data kaupungin työntekijän arjessaData hyötykäyttöön – avoin data kaupungin työntekijän arjessa
Data hyötykäyttöön – avoin data kaupungin työntekijän arjessaHelsinki Region Infoshare
 
Data hyötykäyttöön – avoin data kaupungin työntekijän arjessa
Data hyötykäyttöön – avoin data kaupungin työntekijän arjessaData hyötykäyttöön – avoin data kaupungin työntekijän arjessa
Data hyötykäyttöön – avoin data kaupungin työntekijän arjessaHelsinki Region Infoshare
 
Data hyötykäyttön - avoin data kaupungin työntekijän arjessa 5.2.2018
Data hyötykäyttön - avoin data kaupungin työntekijän arjessa 5.2.2018Data hyötykäyttön - avoin data kaupungin työntekijän arjessa 5.2.2018
Data hyötykäyttön - avoin data kaupungin työntekijän arjessa 5.2.2018Helsinki Region Infoshare
 
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessaData hyötykäyttöön - avoin data kaupungin työntekijän arjessa
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessaHelsinki Region Infoshare
 
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutuksen es...
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutuksen es...Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutuksen es...
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutuksen es...Helsinki Region Infoshare
 
HRI presentation for Umeå delegation 1.12.2015
HRI presentation for Umeå delegation 1.12.2015HRI presentation for Umeå delegation 1.12.2015
HRI presentation for Umeå delegation 1.12.2015Helsinki Region Infoshare
 
HRI Kaupunkiakatemian aamukahveilla 23.10.2015
HRI Kaupunkiakatemian aamukahveilla 23.10.2015HRI Kaupunkiakatemian aamukahveilla 23.10.2015
HRI Kaupunkiakatemian aamukahveilla 23.10.2015Helsinki Region Infoshare
 

More from Helsinki Region Infoshare (20)

Datan avaamisen perusteet -koulutus 23.11.2022
Datan avaamisen perusteet -koulutus 23.11.2022Datan avaamisen perusteet -koulutus 23.11.2022
Datan avaamisen perusteet -koulutus 23.11.2022
 
Datan avaamisen perusteet -koulutus 1.6.2021
Datan avaamisen perusteet -koulutus 1.6.2021Datan avaamisen perusteet -koulutus 1.6.2021
Datan avaamisen perusteet -koulutus 1.6.2021
 
Datan avaamisen perusteet -koulutus 4.10.2021
Datan avaamisen perusteet -koulutus 4.10.2021Datan avaamisen perusteet -koulutus 4.10.2021
Datan avaamisen perusteet -koulutus 4.10.2021
 
HRI: Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutus ...
HRI: Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutus ...HRI: Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutus ...
HRI: Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutus ...
 
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa (7.11.2019)
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa (7.11.2019)Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa (7.11.2019)
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa (7.11.2019)
 
Open Helsinki - Enhancing the urban development with open data
Open Helsinki - Enhancing the urban development with open dataOpen Helsinki - Enhancing the urban development with open data
Open Helsinki - Enhancing the urban development with open data
 
HRI-esitys matkailun sovellukset -tilaisuudessa 10.6.2019
HRI-esitys matkailun sovellukset -tilaisuudessa 10.6.2019HRI-esitys matkailun sovellukset -tilaisuudessa 10.6.2019
HRI-esitys matkailun sovellukset -tilaisuudessa 10.6.2019
 
Smart Logistics event in Vantaa on 14th May 2019
Smart Logistics event in Vantaa on 14th May 2019Smart Logistics event in Vantaa on 14th May 2019
Smart Logistics event in Vantaa on 14th May 2019
 
Data hyötykäyttöön – avoin data kaupungin työntekijän arjessa
Data hyötykäyttöön – avoin data kaupungin työntekijän arjessaData hyötykäyttöön – avoin data kaupungin työntekijän arjessa
Data hyötykäyttöön – avoin data kaupungin työntekijän arjessa
 
Korko-hanke 8.5.2019
Korko-hanke 8.5.2019Korko-hanke 8.5.2019
Korko-hanke 8.5.2019
 
Tip to implement open data policy
Tip to implement open data policyTip to implement open data policy
Tip to implement open data policy
 
Open Data in Helsinki Region
Open Data in Helsinki RegionOpen Data in Helsinki Region
Open Data in Helsinki Region
 
Data hyötykäyttöön – avoin data kaupungin työntekijän arjessa
Data hyötykäyttöön – avoin data kaupungin työntekijän arjessaData hyötykäyttöön – avoin data kaupungin työntekijän arjessa
Data hyötykäyttöön – avoin data kaupungin työntekijän arjessa
 
Data hyötykäyttön - avoin data kaupungin työntekijän arjessa 5.2.2018
Data hyötykäyttön - avoin data kaupungin työntekijän arjessa 5.2.2018Data hyötykäyttön - avoin data kaupungin työntekijän arjessa 5.2.2018
Data hyötykäyttön - avoin data kaupungin työntekijän arjessa 5.2.2018
 
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessaData hyötykäyttöön - avoin data kaupungin työntekijän arjessa
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa
 
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutuksen es...
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutuksen es...Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutuksen es...
Data hyötykäyttöön - avoin data kaupungin työntekijän arjessa -koulutuksen es...
 
Data hyotykayttoon -koulutuspaiva 09122016
Data hyotykayttoon -koulutuspaiva 09122016Data hyotykayttoon -koulutuspaiva 09122016
Data hyotykayttoon -koulutuspaiva 09122016
 
HRI presentation for Umeå delegation 1.12.2015
HRI presentation for Umeå delegation 1.12.2015HRI presentation for Umeå delegation 1.12.2015
HRI presentation for Umeå delegation 1.12.2015
 
HRI Kaupunkiakatemian aamukahveilla 23.10.2015
HRI Kaupunkiakatemian aamukahveilla 23.10.2015HRI Kaupunkiakatemian aamukahveilla 23.10.2015
HRI Kaupunkiakatemian aamukahveilla 23.10.2015
 
Avoin data ja HRI -infotilaisuus 9.9.2015
Avoin data ja HRI -infotilaisuus 9.9.2015Avoin data ja HRI -infotilaisuus 9.9.2015
Avoin data ja HRI -infotilaisuus 9.9.2015
 

Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

  • 1. Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta DRAFT 0.9
  • 2. Sisällys Table of Contents Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta.......................................................1 Sisällys.............................................................................................................................................2 Johdanto...........................................................................................................................................3 1. Datan avaamisen strategiat..........................................................................................................4 Todistusaineisto...........................................................................................................................4 Kyselyt ja käyttäjäpalaute...........................................................................................................4 Matalalla roikkuvat hedelmät......................................................................................................5 Korkea investoinnin tuottoaste....................................................................................................6 Tietojärjestelmien luonnollinen uusiutuminen............................................................................6 Hallinnon sisäinen datan käyttö..................................................................................................6 2. Avoin data kaupunkien palvelukehityksessä................................................................................7 Skenaarioita avoimen datan ekosysteemistä...............................................................................8 3. Datasettien luokittelu...................................................................................................................9 4. Julkishallinnon avoimen datan kysyntä.....................................................................................12 5. Toimenpidesuosituksia HRI -hankkeelle...................................................................................13 Liitteet............................................................................................................................................15 Liite 1: Erilaisia yleisen tason luokitteluita...............................................................................15 Liite 2: 300 avoimen datan sovellusta ja ideaa.........................................................................15
  • 3. Johdanto Tämä on Helsinki Region Infoshare (HRI) -hanketta varten tehty selvitystyö julkishallinnon avoimien datasettien tarjonnasta ja saatavuudesta maailmalla. Katsaus toimii strategisena työkaluna HRI hankkeelle. Luvussa 1. Datan avaamisen prioriteetit esitetään viisi eri strategiaa, joiden mukaan voidaan kohdistaa voimavaroja ja priorisoidaan eri datasettien avaamista. Julkishallinnon datan avaaminen edistyy maailmalla nopeasti ja myös sovelluspuolella tapahtuu jatkuvaa kehitystä. Tutkimuksessa on kartoitettu, miten avoimia datasettejä on luokiteltu eri maiden ja kaupunkien datakatalogeissa, sekä millaisia sovelluksia ja palveluita näiden datasettien pohjalta on toteutettu ja millaisia palveluideoita on esitetty. Kartoitus ei pyri olemaan kaiken kattava, vaan tarkoituksena on luoda jäsennysrunko, jota voidaan täydentää jatkuvasti ja jota vasten voi verrata HRI -hankkeen myötä avattuja datasettejä ja niiden pohjalta syntyneitä sovelluksia. Tavoitteena on, että luvut 2. Avoin data kaupunkien palvelukehityksessä, 3. Datasettien luokittelu ja 4. Julkishallinnon avoimen datan kysyntä toimivat selkeänä jäsentelynä datasettien tämänhetkisestä kysynnästä ja luokittelusta erityisesti kuntien ja kaupunkien kontekstissa. Jäsennyksen pohjalta voidaan tulkita avoimen datan nykyistä tarjontaa eri aineistotyyppien (esim. tilastot, reaaliaikainen data, jne.) tai teemojen (esim. liikenne, turvallisuus, terveys, jne.) suhteen. Vastaavasti sovelluspuolella voidaan tulkita millaisille tietoaineistoille tuntuisi olevan eniten kysyntää. Raportin tekstikappaleisiin liittyy suosituksia, jotka on kirjattu oranssilla kunkin kappaleen kohdalle ja avattu laajemmin kappaleessa 5. Toimenpidesuosituksia HRI -hankkeelle.
  • 4. 1. Datan avaamisen strategiat Yleensä datan avaamiseen liittyvät projektit alkavat kysymyksellä "Mitä meidän pitäisi avata ensimmäisenä?" tai "Mitkä ovat kaikkein tärkeimpiä datasettejä avattaviksi?" Tässä osiossa esitetää kuusi strategiaa, joita voidaan käyttää vastaamaan edellämainittuihin kysymyksiin. Neljä ensimmäistä strategiaa on soveltaen suomennettu Civic Commons -wikistä1, joka on laadukas ja tutustumisen arvoinen lähdeaineisto muiltakin osin. Kaksi viimeistä strategiaa: Tietojärjestelmien luonnollinen uusiutuminen ja Hallinnon sisäinen datan käyttö ovat käytännön kautta löydettyjä lisäyksiä. Suositus 1: Hyödynnetään eri strategioiden tasapainoisesti datan avaamisen priorisoinnissa Suositus 2: Julkistetaan datan avaamisen strategiat ja prioriteetit Todistusaineisto Todistusaineistoa avoimen julkishallinnon datan todellisesta käytöstä voidaan kerätä sen jälkeen, kun aineistoja on julkaistu esimerkiksi seuraamalla lataamistilastoja. Epäsuorasti kysyntää voidaan arvioida olemassaolevien prosessien ja tietojärjestelmien tuottamien seurantatietojen perusteella. Moniin palveluprosesseihin, tietojärjestelmiin ja verkkosivustoihin on jo rakennettu mekanismeja käyttäjämäärien ja tietopyyntöjen seurantaan. Esimerkiksi kirjaamojen ja akaspalvelujärjestelmien kautta rekisteröidyt kyselymäärät eri aihepiireistä kertovat asukkaiden yleisimmistä tiedontarpeista. Myös verkkosivujen hakutilastot ja hakukoneanalyysit ovat hyvä tietolähde. Taulukko 1: Esimerkkejä Google Insights hakutilastoista seuraaville hakusanoille: tilastokeskus, Helsingin kaupunki, tilasto ja tietokeskus. Hakusanan alla on esitetty relevantteja poimintoja top-10 listalta kyseiseen sanaan liittyvistä muista hakusanoista, joita ihmiset ovat syöttäneet Googleen. Esimerkiksi tilastokeskusksen yhteydessä googlesta on usein haettu elinkustannusindeksiä ja asuntojen hintoja. Tilastokeskus Helsingin kaupunki Tilasto Tietokeskus URL: URL: URL: URL: http://www.google.com/insights/se http://www.google.com/insights/se http://www.google.com/insights/se http://www.google.com/insights/se arch/#q=tilastokeskus arch/#q=helsingin%20kaupunki arch/#q=tilasto arch/#q=tietokeskus elinkustannusindeksi työpaikat sää Savon tietokeskus asuntojen hinnat avoimet työpaikat asuntojen hinnat Turun tietokeskus väestö vuokra-asunnot lämpötilat Helsingin tietokeskus palkat sosiaalivirasto palkka Sotkamon tietokeskus Suositus 3: Kerätään ja julkaistaan lataustilastoja systemaattisesti Kyselyt ja käyttäjäpalaute Yksinkertainen strategia käyttäjätarpeiden kartoittamiseksi on kysyä eri kohderyhmiltä (kaupunkilaiset, tutkijat, journalistit, luottamushenkilöt, virkamiehet, yrittäjät), mistä datasta he olisivat kiinnostuneita tai minkä tiedon saatavuuttaa ja uudelleenkäytettävyyttä tulisi ensisijaisesti parantaa. Kysely kannattaa suorittaa laajemmin avoimen datan hankkeen alkuvaiheessa. Myöhemmin kannattaa tarjota jatkuvaluonteinen palaute- ja vuorovaikutuskanava ja mahdollisesti tehdä kohdennetumpia kyselyitä esimerkiksi tietylle kohderyhmälle suunnattujen tilaisuuksien yhteydessä. Berliinin kaupunki toteutti 2010 syksyllä kyselyn, jossa vastaajat saivat valita mielestään kolme tärkeintä datavarantojen luokkaa listalta, jossa oli 20 vaihtoehtoa. 1Civic Commons -wiki http://wiki.civiccommons.org/Open_Data_Priorities
  • 5. Kuva 1: Berliinin kaupungin toteuttamassa kyselyssä suosituimmat datat julkaistaviksi (kun laskettiin yhteen ykkös- kakkos- ja kolmosäänet) olivat 1. City planning, 2. Administration, 3. Environment, pollution, 4. Control, 5.Infrastructure ja 6. Citizen. Kaikki vaihtoehdot (20 kpl) aakkosjärjestyksessä:Administration, Citizen, City markets, City Planning, Control , Crime, Customers consulting, Education, Environment, pollution, Events , Family, Health, Infrastructure, Law, Living, Opening hours, Pets, Public transport, Recycling+Waste, Traffic. Ennakkoon tehtyjen kyselyiden tuloksia tulkittaessa pitää huomioida se, että ihmiset osaavat kysyä vain aineistoja, joidenka olemassaolo on tunnettu ja suurelle yleisölle tietyn aineiston tarve saattaa nousta ilmeiseksi vasta sen jälkeen, kun joku on osoittanut toimivalla sovelluksella tai visualisaatiolla datan hyödyllisyyden. Toisin sanottuna tietyn aineiston suosio nykyhetkessä ei välttämättä vastaa aineiston tärkeyttä. Esimerkkinä ravintoloiden hygieniatarkastusten tulokset ovat olleet kysyttyjä aineistoja sen jälkeen, kun joku ensimmäisenä keksi tehdä mobiilisovelluksen, jossa tämä tieto voidaan yhdistää ravintoloista tietoja ja suosituksia näyttäviin sijaintipohjaisiin mobiilisovelluksiin. Jälkikäteen ajateltuna tiedon hyödyllisyys ja käyttötarkoitus ovat ilmeisiä, mutta etukäteen tämä aineisto tuskin olisi ollut kovin korkealla "suosittuimmuuskyselyssä". Suositus 4: Kerätään vapaaehtoisia taustatietoja käyttäjiltä sähköpostilistalle liittymisen yhteydessä Suositus 5: Tehdään yleinen käyttäjätarvekysely Suositus 6: Tehdään eri kohderyhmille suunnattuja kyselyitä Matalalla roikkuvat hedelmät Useinmiten hallinnon organisaatioilla on joitakin helpommin saatavilla olevia datasettejä, joidenka avaamiseen ei liity suuria teknisiä, eikä käyttöoikeuksien määrittämiseen liittyviä haasteita ja jotka ovat sisällöltään kokonaisuudessaan selkeästi julkisia. Tällaiset aineistot kannattaa julkiasta avoimen datan periaatteiden mukaisesti, vaikka niihin ei kohdistuisi ennakkoon erityisen suurta kysyntää. Julkaisemalla "matalalla roikkuvia hedelmiä" voidaan kerätä arvokasta kokemusta datan avaamisprosessista. Lisäksi monet ennalta epäkiinnostaviksi tulkitut datasetit saattavat herättää yllättävää kiinnostusta, mikäli niiden saatavuus tehdään helpoksi. Esimerkkinä tällaisesta on New Yorkin puurekisterin julkaisu, joka johti sinänsä mielenkiintoisen Trees near you -miobiilisovelluksen kehittämiseen. Yksittäisten ja satunnaisten datasettien julkaiseminen ei kuitenkaan missään tapauksessa ole yksistään riittävä strategia. Etenkin, mikäli toiminta on lyhytjänteistä on riskinä tuottaa pettymyksiä dataa julkaisseille organisaatioille: "julkaisimme tämän datasetin jo puoli vuotta sitten, eikä kukaan ole kiinnostunut siitä".
  • 6. Suositus 7: Dokumentoidaan tarinamuodossa helppo ja haastava datanavaamistapaus Korkea investoinnin tuottoaste Siinä missä matalalla roikkuvien hedelmien strategiassa julkaistaan sitä, minkä julkaisu on helppoa ja kustannuksiltaan matalaa pyritään korkean investoinnin tuottoasteen strategiassa vertaamaan julkaisun vaikeutta (kustannuksia) saavutettaviin hyötyihin. Investoinnin hyödyt voivat tulla muun muassa yleisen hyödyllisyyden (esimerkiksi Reittiopas ja syntyneet mobiilisovellukset), turvallisuuden, kustannussäästöjen tai taloudellisen aktiivisuuden kautta. Esimerkiksi säädatan ja karttaaineistojen osalta kohtuullisilla avaamisen kustannuksilla mahdollistetaan suhteessa varsin laaja käyttötapausten kirjo. Strategian haasteena on, että monien sinänsä ilmiselvien hyötyjen, kuten hallinnon läpinäkyvyyden lisääntymisen tai paremmin faktatietoihin pohjautuvan valmistelun ja päätöksenteon arvottaminen rahallisesti on vaikeaa ellei mahdotonta ja hyvin usein investoinnin tuotot eivät tule samalle taholle, kuin kustannukset. Myös tämän strategian kohdalla on pidettävä mielessä, että suurimmat tuotot saattavat tulla ennakoimattomalta taholta. Esimerkiksi ennakkoon arvioituna vähäpätöisen oloinen ympäristödata saattaa olla merkittävässä vaikkapa syöpätutkimuksessa. Suositus 8: Identifioidaan sovellusaluekohtaisesti (Luku 4) kullakin alueella merkittävä datasetti, jonka avaamista tarkastellaan investointina Tietojärjestelmien luonnollinen uusiutuminen Aineistojen saattaminen teknisesti ja laillisesti uudelleenkäytettäviksi uusien tietojärjestelmien hankinnan yhteydessä ei välttämättä aiheuta merkittäviä lisäkustannuksia. Varsin järkeenkäypä strategia onkin muodostaa toimintatapa, jolla varmistetaan, että avoin data tulee mukaan kaikkiin uusiin tietojärjestelmähankintoihin. Strategian haittapuolena on se, että sitä käytetään hanakasti argumenttina kaikkia muita strategioita vastaan: "meillä on juuri ensivuonna alkamassa tämä suuri järjestelmäuudistus, jonka yhteydessä tämä varmasti voidaan ottaa esille". Jotta aineistojen avaaminen voidaan tehdä oikein ja kunnolla järjestelmäuudistusten yhteydessä kannattaa kokemuksia kerätä jo ennen sitä. Järjestelmäuudistuksenkaan yhteydessäkään tehty rajapinta ei ole edullinen, jos se toteutesta joudutaan muuttamaan jälkikäteen. Suositus 9: Tarjotaan virastoille ja yksiköille oikeaaikaista konsultaatiota hankintaprosesseissa Suositus 10: Dokumentoidaan hankintacaseja, joissa avoin data on huomioitu Hallinnon sisäinen datan käyttö Hallinnon sisäinen datan käyttö tulisi mieltää oikeastaan yhtenä kohdealueena esimerkiksi tieteellisen käytön, kaupallisen käytön, tutkivan journalismin jne. rinnalla. Esimerkiksi datan tarvekyselyitä voidaan tehdä hallinnon sisällä ja hallinnon sisäistä datan käyttöä voidaan seurata erilaisten todistusaineistojen perusteella. Tässä hallinnon sisäinen käyttö on kuitenkin esitetty erillisenä lähestymistapana, koska sen yhteydessä aiemmin esiteltyä "korkea investoinnin tuottoaste" strategiaa voidaan soveltaa tehokkaammin. Tarkasteltaessa mitä julkisia tietovarantoja useat eri viranomaiset jo hyödyntävät tai voisivat hyödyntää on mahdollista löytää sellaisia aineistoja, joiden avaamiseen kannattaa investoida ja investoinnin tuotot myös realisoituvat suoremmin esimerkiksi saman kaupungin sisällä. Samalla, kun tehdään tai suunnitellaan tiedonvaihtoa viranomaisten välillä kannattaa julkiset aineistot avata kaikkien hyödynnettäväksi, tämä lisää aineistojen löydettävyyttä ja saattaa jopa lisätä kyseisen aineiston käyttöä hallinnon sisällä.
  • 7. 2. Avoin data kaupunkien palvelukehityksessä Tämä luku pyrkii antamaan yleisen viitekehyksen siihen, mikä on avoimen datan rooli nimenomaan kaupungeissa ja kunnissa. Kuvassa 2. esitetty malli on kehitetty Sitran Julkishallinnon johtamisen ohjelman tuottaman Kuntien palveluevoluutiomallin2 pohjalta. Alkuperäinen malli kuvaa ihmisten, kunnan ja palvelutuottajien välistä vuorovaikutusta. Nämä ovat kuntien toiminnan kannalta keskeiset toimijaryhmät, joiden välillä myös tiedon tulisi liikkua ja rikastua mahdollisimman tehokkaasti. Avoimesta tiedosta puhuttaessa ei tietenkään pidä rajoittua vain näihin toimijaryhmiin, vaan sama data jaetaan myös kaikille muille tahoille, kuten tutkimuslaitoksille, muulle julkishallinnolle, muille kun kuntapalveluja tuottaville yrityksille, sekä kansalaisjärjestöille ja vapaaseen käyttöön. Palveluevoluutiomalliin on lisätty tiedon koostaminen ja jakaminen omaksi toiminnaksi korostamaan sitä, että avoimen datan ekosysteemissä kaikki toimijat voivat käyttää ristiin toistensa tuottamaa dataa. Datan ja tiedon julkaiseminen ja hyödyntäminen helpottuu, kun sen koostamiseen ja jakamiseen on toimivat käytännöt ja infrastruktuuri. Mallin pohjalta on mahdollista luoda yhdeksä kuntakontekstissa olevaa erilaista avoimen datan käytön ja tuotannon skenaariota. Kuva 2: Avoimen datan rooli kunnan palveluevoluutiossa. Mallin pohjalta on mahdollista muodostaa erilaisia skenaarioita siitä, kuka tuottaa ja kuka käyttää ja rikastaa kenenkin tuottamaa dataa. 2 http://www.slideshare.net/Uusijohtajuus/sitra-palveluevoluutio-konsepti
  • 8. Skenaarioita avoimen datan ekosysteemistä Lätökohtana on, että ihmiset, kunta ja palveluntuottajat voivat kaikki tuottaa ja rikastaa tietoa, sekä käyttää itsensä ja toistensa tuottamaa ja rikastamaa tietoa. • Ihmiset voivat tuottaa (ja korjata) tietoa: ehdotukset, palaute, huomiot, asiantuntijatieto... • Ihmiset käyttävät tietoa: osallistuminen, palveluiden vertailu, vertaistieto... • Kunta tuottaa tietoa: tilastot, asianhallinta, suunnitelmat, rekisterit... • Kunta käyttää tietoa: päätöksenteko, suunnittelu, mallinnus... • Palveluiden tuotannossa syntyy tietoa: tilastot, prosessidata, kustannustieto, paikkatieto... • Palveluiden tuotannossa käytetään tietoa: palvelukehitys, optimointi, ohjaus... Taulukko 2: Yhdeksän esimerkkiskenaariota, jossa eri toimijaryhmät (ihmiset, palvelun tuottajat ja kunta) käyttävät saman ryhmän ja muiden ryhmien tuottamaa tietoa.Vihreällä pohjalla on skenaariot, joissa tiedon käyttäjänä ovat ihmiset, violetilla pohjalla skenaarioissa tietoa käyttää palveluiden tuottajat ja vaaleansinisellä pohjalla tiedonkäyttäjänä on kunta. Skenaario Kuvaus Esimerkki A: Vertaistieto Ihmiset käyttävät ihmisten tuottamaa Avoimissa palautekanavissa ihmisiä tietoa usein kiinnostaa toisten vertaisten kirjoitukset. B: Viestintä kuntalaisille Ihmiset käyttävät kunnan tuottamaa Valmistelu ja päätösprosessien tiedot tietoa (pyötäkirjat yms.) C: Viestintä asiakkaille Ihmiset käyttävät palveluntuottajan Aukioloajat, toimipisteiden tuottamaa tietoa yhteystiedot tai vaikka reaaliaikainen tieto aurauskaluston sijainnista GPS- paikannuksella D: Palveluprosessin seuranta Palveluntuottajat käyttävät Esimerkiksi kirjastot seuraavat omia palveluntuottajien tuottamaa tietoa ja toisten kirjastojen lainaustilastoja hankintojen ohjauksessa. E: Asiakaspalaute Palveluntuottajat käyttävät ihmisten Palveluntuottajat voivat parataa tuottamaa tietoa toimintaansa ja jopa kilpailla laadulla, mikäli asiakaspalautetta on avoimesti käytettävissä. F:Kunnan tieto palveluiden Palveluntuottajat käyttävät kunnan Esimerkiksi yksityinen kehityksessä tuottamaa dataa hoivapalveluyritys voi skaalata toimintaansa kunnan tuottamien väestö- ja hoivatarvetilastojen avulla. G: Valmistelu ja päätösprosessien Kunta käyttää kunnan tuottamaa tietoa Kunnan eri virastot voivat seuranta synkronoida toimintaansa käyttämällä ristiin toistensa tietovarastoja. H: Asukkaiden tieto Kunta käyttää ihmisten tuottamaa Asukkaiden kokemuksellista tietoa tietoa voidaan hyödyntää esimerkiksi asuinalueiden suunnittelussa. I: Palveluiden laadunvalvonta Kunta käyttää palveluntuottajien Kunta seuraa ulkoisten tuottamaa tietoa palveluntuottajien kanssa tehtyjen sopimusten toteutumista ja valmistautuu hankintapäätöksiin kerättyyn tietoon perustuen. Suositus 11: Tuetaan pilottitoteutusten syntymistä eri skenaarioiden (Taulukko 2.) mukaisilta alueilta Suositus 12: Tarkastellaan, mitä muita merkittäviä tiedon käyttäjäryhmiä (esim. tutkimuslaitokset ja media) on ja toteutetaan tuettuja pilotteja myös heidän kanssaan
  • 9. 3. Datasettien luokittelu Datasettien luokittelun tavoitteena olisi luoda kaupunkien tietovarantoihin selkeä yleiskatsaus ja otsikointi, joka kattaisi ne hyvinkin erilaiset aineistot, joita kaupungit organisaatioina hallinnoivat. Julkishallinnon datasta puhuttaessa tulee yleensä ensimmäisenä mieleen tunnetut perusrekisterit, kuten väestörekisteri, kiinteistörekisteri jne. sekä kenties tilastotiedot ja säätiedot. Myös kartta- aineistot ja paikkatieto on melko laajasti tunnettua ja jotkut muistavat mainita erilaiset liikennetiedot. Hallinnon data-aineistoja ei Suomessa, eikä maailmalla ole kattavasti kartoitettu, eikä valmiita luokitteluita kaupunkien dataseteille löytynyt. Brett Camperin toteuttama Puut lähelläsi (Trees Near You) -palvelu sai kunniamaininnan New Yorkin kaupungin avoimen datan hyödyntämiseskilpailussa 2010. Ilmainen iPhone-sovellus kertoo käyttäjälle sijainnin perusteella tietoja yli 500 000 elävästä puustä New Yorkin kaupungissa. Sovellus yhdistelee puhelimesta saatavaa GPS-sijaintitietoa, Wikipedia-artikkeleita puulajeista ja kaupungin avoimesti julkaisemaa puurekisteriä. Tämä on kuvaava esimerkki siitä, kuinka paljon potentiaalisesti hyödyllistä dataa on olemassa mutta jonka olemassaoloa ei yleensä tule ajatelleeksikaan. Tarvittava luokittelu on esitetty allaolevassa kuvassa keskellä keltaisessa palkissa. Luokittelun lisäksi asian yleisen hahmottumisen kannalta olisi erittäin hyödyllistä yhdistää datan sovellukset ja käyttökohteet ja yksittäiset datasetit toisiinsa yleisen luokittelun kautta. Tämä voitaisiin myös visualisoida esimerkiksi datakatalogin yhteydessä. Kuva 3: Malli datan käyttötarkoitusten (sininen) ja datasettien (vihreä) visualisoinnista yleisen luokittelun (keltainen) avulla.
  • 10. Paras tutkimuksessa löydetty hallinnon datavarantojen luokittelu on Mepsir -tutkimuksen jaottelu, joka pohjautuu Euroopan unioinin PSI-direktiivin kattamiin alueisiin. Tätä jaottelua on verrattu eri datakatalogien ja muiden löydettyjen luokittelujen kanssa (Liite 1.). Monissa datakatalogeissa ei noudateta mitään erityistä luokittelua, vaan eri tietovarannot on asiasanoitettu enemmän tai vähemmän vapaasti. Luokittelun tuottaminen voisi olla mahdollista myös alhaalta ylöspäin tekemällä aineistojen kuvailuihin tai asiasanoituksiin koneellinen semanttinen analyysi ja klusterointi. HRI -hankkeen kannalta olennaista on pystyä tarjoamaan datan uudelleenkäyttäjille myös näkemys siitä kokonaisuudesta, mitä tietovarantoja kaupungilla on hallussaan (vaikka ne eivät vielä olisi avoimia). Käytännössä kaikki maailmalla olevat julkishallinnon datakatalogit listaavat ainoastaan jo avoimena olevia datasettejä, mikä on erittäin suuri puute. Kuva 4: Karkea näkemys kokonaisuudesta julkishallinnon avoimen datan osalta. Kaikki hallinnon tuottama data ei ole julkista (tietosuoja, yleinen turvallisuus jne. -kysymysten takia). Nykyisin mysöskään kaikki julkinen data ei ole avointa, eli koneellisesti ja laillisesti uudelleenkäytettävää. Tavoitteena olisi, että mahdollisimman suuri osa hallinnon tuottamasta lain mukaisesti julkisesta aineistosta olisi saatavilla myös avoimena datana. Luonnollisesti avointa dataa voivat tuottaa myös muut, kuin hallinnon toimijat. Yhdenkin kunnan hallinnoimien julkisten tietovarantojen kokonaisuus on hyvin monitahoinen ja vaikeasti hamottuva, eikä oikein kenelläkään ole nykyisin selvää käsitystä siitä, mitä kaikkea dataa kunnalla on. Eri tietoaineistojen olemassaolon tunteminen on ensimmäinen askel, niiden hyötykäytössä. On hyvin vaikea löytää edistyneilläkään hakutoiminnoilla sellaista, minkä olemassaolosta ei ole tietoa. Tähän kokonaiskuvan haasteeseen pyrkii vastaamaan kuvan 3. malli, jossa sekä toteutetut sovellukset, että avoimet ja vielä avaamattomat, mutta kuitenkin julkiset tietovarannot on linkitetty toisiinsa yleisen tason selkokielisten luokkien kautta. Näin sovelluksia ja datasettejä voi selailla ja tehdä löytöjä, vaikkei etukäteen tietäisikään tarkalleen, mitä on hakemassa. Luokittelun valinta on aina haastava tehtävä. Tavoitteena voidaan pitää noin 10-20 luokkaa, joille on kirjoitettu lauseen tai kahden mittaiset kuvaukset. Yksittäinen datasetti kuuluu yhteen tai
  • 11. useampaan luokkaan. Yksittäinen sovellus käyttää yhtä tai useampaa datasettiä ja perii niiden luokat. Sovellus voi olla myös ulkomainen, jolloin se ei välttämättä käytä mitää tiettyä datasettia HRI-katalogista, mutta se voidaan silti linkittää tiettyihin luokkiin. HRI-katalogissa on nykyisin käytössä sekä luokittelu että avainsanat eli tagit. Näiden rinnakkaiskäyttö on mahdollista ja jopa suositeltavaa, mutta luokitusta tulisi kehittää ja avainsanottaminen tulisi mahdollistaa kaikille käyttäjille, jolloin se alkaisi kehittyä folksonomian tavoin. Taulukossa 3. on ehdotettu joitain muutoksia nykyiseen HRI-luokitukseen. Suurin puute nykyisessä luokituksessa on, että luokat ovat hyvin epätasapainoisia (luokkaan kuuluvien datasettien määrällä mitattuna) ja ilmeisesti kaikkia ainaistoja ei ole luokiteltu mihinkään luokkaan (luokkien sisältämien aineistojen yhteismäärä 259, on huomattavasti vähemmän, kuin 547 datasettiä, joka on ilmoitettu aineistojen kokonaismääräksi). Lähimpänä mallina on käytetty Findikaattori- palvelun luokituksia, sekä JHS145 suositusta. Taulukko 3: HRI datakatalogin nykyinen luokitus (suluissa luokkan kuuluvien datasettien määrä) ja ehdotus luokitukseskis, joka pohjautuu eri datakatalogeissa käytettyihin luokkiin (Liite 1.). Lyhenne HRI-luokitus Huomioita HRI-luokista Ehdotus HOU Asuminen (19) ok Asuminen DEM Demokratia ja osallistuminen (1) ok Demokratia ja osallistuminen GEO Kartat (1) Kartat ja paikkatieto (JHS145) Kartat ja paikkatieto EDU Koulutus (4) ok Koulutus CUL Kulttuuri (1) ok Kulttuuri TRA Liikenne (1) ok Liikenne PLA Rakennukset (1) Kaavat ja kiinteistöt (JHS145) Kaavat ja kiinteistöt CON Rakentaminen (24) ok Rakentaminen INC Tulot ja kulutus (4) Toimeentulo (Findikaattori) Toimeentulo LAB Työmarkkinat (45) ok Työmarkkinat POP Väestö ja väestönmuutokset (155) Väestö (Findikaattori) Väestö ENV Ympäristö (3) Ympäristö ja luonto (JHS145) Ympäristö ja luoto ECO Talous (Findikaattori) Talous ENE Energia (Findikaattori) Energia EVE Tapahtumat Tapahtumat HEA Terveys (Findikaattori) Terveys INF Infrastruktuuri Infrastruktuuri LAW Laki ja oikeusturva (JHS 145) Laki ja oikeusturva SER Palvelut Palvelut Suositus 13: Kerätään datakatalogin metatietokantaan tietoja myös aineistoista, jotka eivät vielä ole avoimia Suositus 14: Toteutetaan datakatalogiin visuaalinen luokitus, joka linkittää yhteen datasettejä ja sovelluksia Suositus 15: Tehdään automaattinen semanttinen analyysi datasettien metatietoihin ja muodostetaan tämän perusteella järkeviä luokkalinkityksiä Suositus 16: Esitellään yksittäisiä sovelluksia yhteydessä niihin datasetteihin tai ainakin yleisiin luokkiin, mitä dataa sovellus käyttää (tai tuottaa) Suositus 17: Yksittäisten datasettien esittely massasta erillään
  • 12. 4. Julkishallinnon avoimen datan kysyntä Kuva 5: Julkishallinnon avoimen datan kysyntää voidaan kuvata sovellusalueilla, jotka ovat osittain päällekkäisiä. Esimerkiksi samainen sovellus voi olla tietokantajournalismia ja tukea läpinäkyvyyttä ja osallistumista. Nämä kukan terälehtien muotoon asetetut sovellusalueet eivät vastaa käyttäjäryhmiä (kuten hallinto, yritykset, kansalaiset, tutkijat), vaan niitä toiminta-alueita, joilla avoimesta datasta voi olla hyötyä.Esimerkiksi tutkimusta ja tuotekehitystä voidaan tehdä niin yrityksissä, hallinnossa, kuin tutkimuslaitoksissakin. Suositus 18: Järjestetään Sreen Scraping -tapahtuma, jolla kannustetaan sovelluskehittäjiä hyödyntämään dataa ja tarjoamaan scrapattua dataa edelleen Suositus 19: Tarkastellaan mahdollisuutta tarjota screen scrapatulle datalle uudelleenkäytön salliva lisenssi Suositus 20: Valmistellaan HRI-kunnille "avoimen datan deklaraatio", joka voidaan viedä valtuustojen hyväksyttäväksi Suositus 21: Toteutetaan Apps for Cities Finland -kilpailu
  • 13. 5. Toimenpidesuosituksia HRI -hankkeelle Suositus 1: Hyödynnetään eri strategioiden tasapainoisesti datan avaamisen priorisoinnissa Suositus 2: Julkistetaan datan avaamisen strategiat ja prioriteetit Suositus 3: Kerätään ja julkaistaan lataustilastoja systemaattisesti Suositus 4: Kerätään vapaaehtoisia taustatietoja käyttäjiltä sähköpostilistalle liittymisen yhteydessä Suositus 5: Tehdään yleinen käyttäjätarvekysely Toteutetaan ”Berliinin mallin” mukainen kevyt kysely yleisen luokittelun (Luku 3.) mukaisista luokista, minkä luokkien datalle on kiinnostusta eri kohderyhmissä? Suositus 6: Tehdään eri kohderyhmille suunnattuja kyselyitä Yleisen kyselyn lisäksi eri käyttäjäryhmille esim. hallinnon toimijat voidaan tehdä hieman syvällisempiä kyselyitä, joidenka osana on yleinen käyttäjäkysely, mutta sen lisäksi on muutama kohderyhmäspecifinen kysymys. Näitä voidaan tehdä kohderyhmille suunnatuissa tilaisuuksissa, kuten HsOpen (journalistit), MindTrek (yrittäjät) Suositus 7: Dokumentoidaan tarinamuodossa helppo ja haastava datanavaamistapaus Sekä datan haltijoita, että uudelleenkäyttäjiä voisi palvella totuudenmukaiset kuvaukset siitä, mitä asioita aivan käytännössä pitää ratkaista jonkin tietovarannon avaamisessa, esim. pitääkö ostaa konsulttityönä teknisiä muutoksia jne. HRI:n toiminnassa näitä caseja tulee varmasti vastaan, joten suositus on kirjoittaa muutama niistä auki ja julkaista. Suositus 8: Identifioidaan sovellusaluekohtaisesti (Luku 4) kullakin alueella merkittävä datasetti, jonka avaamista tarkastellaan investointina Lähestymällä datan avaamista puhtaasti sovellusalueiden kautta voidaan tietoisesti päästä irti pelkän ”matalalla roikuvien hedelmien” strategian käytöstä. Voi olla, että jotkut identifioiduista dataseteistä on käytännössä mahdottomia avata, mutta kenties tällä tavalla paljastuu jokin datasetti, jonka avaamiseen kannattaa panostaa. Esimerkiksi budjetti- ja transaktidatan avaaminen palvelisi sekä tietokantajournalismia, päätöksentekoa, että läpinäkyvyyttä. Suositus 9: Tarjotaan virastoille ja yksiköille oikeaaikaista konsultaatiota hankintaprosesseissa Varmistetaan avoimen datan toteutuminen meneillään olevissa ja tulevissa tietojärjestelmäuudistuksissa. Tämän toteutumiseksi voi riittää pienikin konsultaatio oikeaaikaisesti hankintaprosessissa, mutta edellytyksenä on meneillään olevien ja suunnittelilla olevien hankkeiden järjestelmällistä seurantaa, että tiedetään, milloin ja kenen kanssa kannattaa pitää pieni avoimen datan palaveri.
  • 14. Suositus 10: Dokumentoidaan hankintacaseja, joissa avoin data on huomioitu Suositus 11: Tuetaan pilottitoteutusten syntymistä eri skenaarioiden (Taulukko 2.) mukaisilta alueilta Tietojenkäsittelyn ohjelmatyöt muun muassa Aalto Yliopistossa ja Helsingin yliopistossa ovat kustannustehokkaita mahdollisuuksia tuottaa Suomalaisia esimerkkisovelluksia. Suositus 12: Tarkastellaan, mitä muita merkittäviä tiedon käyttäjäryhmiä (esim. tutkimuslaitokset ja media) on ja toteutetaan tuettuja pilotteja myös heidän kanssaan Kaupunkidataa hyödyntäviä tutkimussuuntauksia ovat muun muassa: kiinteistötalous, liikennesuunnittelu, yhdyskuntasuunnittelu, kaupunkimaantiede, sosiaali- ja terveystutkimus jne. Tietokantajournalismista voi etsiä yhteistyömahdollisuuksia mediatalojen kanssa. Vuoden 2012 kunnalisvaalit on tapahtuma, jonka yhteydessä voi olla mahdollista tehdä näkyviä pilottitoteutuksia. Yhtenä suuntauksena kannattaa etsiä sellaista pilottikohdetta, jossa jokin data voitaisiin avata käyttöön ja kaupunkilaiset voisivat rikastaa sitää niin, että siitä olisi hyötyä kaupungille. Esimerkiksi, jos kaupunkisuunnitteluvirastolla on tietoja rakennuksista (pohjapiirrustuksia, sijainteja, 3d-malleja) voisivat kansalaiset älypuhelimilla kuvata omasta mielestään viihtyisiä ja rumia ympäristöjä ja yhdistää niitä olemassaolevaan tietoarkistoon. Suositus 13: Kerätään datakatalogin metatietokantaan tietoja myös aineistoista, jotka eivät vielä ole avoimia Kaikkien nykyisten datakatalogien suuri puute on se, että ne eivät tee näkyväksi vielä avaamattomia tietokantoja. Erityisesti ei kannata panostaa siihen, että etsii vielä avaamattomia tietoaineistoja katalogia varten, mutta sitä mukaan, kun niitä tulee vastaan ne pitäisi lisätä katalogiin. Tässä olisi myös crowdsourcing-lähestymistapa hedelmällinen. Suositus 14: Toteutetaan datakatalogiin visuaalinen luokitus, joka linkittää yhteen datasettejä ja sovelluksia Linkitetään visuaalisesti datasetit ja sovellukset toisiinsa yleisen luokittelun kautta (Kuva 3.). Luokittelu ei poissulje tarvetta ja mahdollisuutta käyttää myös vapaammin asiasanoja tai tageja. Esimerkiksi wordpress -blogialusta tukee sekä tageja, että luokkia. Suositus 15: Tehdään automaattinen semanttinen analyysi datasettien metatietoihin ja muodostetaan tämän perusteella järkeviä luokkalinkityksiä Luvussa 3. esitettyä yleistä luokittelua voidaan tarkentaa ajamalla semanttinen klusterointi HRI- katalogissa oleville datasettien metadatoille. Menetelmällä voidaan tarkastella myös datasettien samankaltaisuutta ja tuottaa asiasanoituksia automaattisesti. Suositus 16: Esitellään yksittäisiä sovelluksia yhteydessä niihin datasetteihin tai ainakin yleisiin luokkiin, mitä dataa sovellus käyttää (tai tuottaa) Monissa katalogeissa on esitelty sovelluksia, mutta niitä ei ole linkitetty varinaisiin datasetteihin ainakaan kovin näkyvästi. Toisaalta linkittäminen yksittäisiin datasetteihin (esim. vuoden 2005 sademäärät) ei ole informatiivista kokonaisuuden hahmottamisen kannalta. Linkittäminen yleiseen luokitteluun helpottaisi myös sovellusten vertailua kansainvälisesti. Suositus 17: Yksittäisten datasettien esittely massasta erillään Tehdään datakatalogin yhteydessä "viikon datasetti" -tyyppisiä nostoja, joissa esitellään yksittäinen datasetti yhteydessä sovelluksiin, jotka sitä käyttävät tai erilaisiin maailmalta löytyneisiin sovelluksiin, jotka käyttävät vastaavaa dataa. Suositus 18: Järjestetään Sreen Scraping -tapahtuma, jolla kannustetaan sovelluskehittäjiä hyödyntämään dataa ja tarjoamaan scrapattua dataa edelleen
  • 15. Suositus 19: Tarkastellaan mahdollisuutta tarjota screen scrapatulle datalle uudelleenkäytön salliva lisenssi Tuodaan screen scrappaus mukaan hyväksyttynä nopeana avaamisen keinona. Suositus 20: Valmistellaan HRI-kunnille "avoimen datan deklaraatio", joka voidaan viedä valtuustojen hyväksyttäväksi Tämä on maailmalla yleinen malli, nostaa poliittista kiinnostusta asiaa kohtaan. Suositus 21: Toteutetaan Apps for Cities Finland -kilpailu Tällä kertaa kannattaa hakea jo toteutuksia, eikä enää ideoita. Annetaan syötteeksi jo kehitetyt ideat (apps tietokanta), jos tätä ennen on saatu aktivoitua porukkaa screen scrappaamaan relevantteja datasettejä, niin tarjonta voisi olla jo laajempaa. Kannattaa myös tiedottaa EU:n laajuisesta Open Data Challenge -kilpailusta ja sallia samalla tai parannetulla ehdotuksella osallistuminen Suomen kilpailuun. Liitteet Liite 1: Erilaisia yleisen tason luokitteluita Liite 2: 300 avoimen datan sovellusta ja ideaa Liite 3: Englanninkielinen blogiartikkeli