Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

678 views
610 views

Published on

Antti Poikolan tekemä selvitys HRI-hankkeelle. Aiheena julkishallinnon avoimen datan kysyntä ja tarjonta. Toimenpidesuositukset HRI-hankkeelle tiedon avaamiseksi.

0 Comments
0 Likes
Statistics
Notes
 • Be the first to comment

 • Be the first to like this

No Downloads
Views
Total views
678
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

 1. 1. Selvitys julkishallinnon avoimendatan kysynnästä ja tarjonnasta DRAFT 0.9
 2. 2. SisällysTable of ContentsSelvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta.......................................................1 Sisällys.............................................................................................................................................2 Johdanto...........................................................................................................................................3 1. Datan avaamisen strategiat..........................................................................................................4 Todistusaineisto...........................................................................................................................4 Kyselyt ja käyttäjäpalaute...........................................................................................................4 Matalalla roikkuvat hedelmät......................................................................................................5 Korkea investoinnin tuottoaste....................................................................................................6 Tietojärjestelmien luonnollinen uusiutuminen............................................................................6 Hallinnon sisäinen datan käyttö..................................................................................................6 2. Avoin data kaupunkien palvelukehityksessä................................................................................7 Skenaarioita avoimen datan ekosysteemistä...............................................................................8 3. Datasettien luokittelu...................................................................................................................9 4. Julkishallinnon avoimen datan kysyntä.....................................................................................12 5. Toimenpidesuosituksia HRI -hankkeelle...................................................................................13 Liitteet............................................................................................................................................15 Liite 1: Erilaisia yleisen tason luokitteluita...............................................................................15 Liite 2: 300 avoimen datan sovellusta ja ideaa.........................................................................15
 3. 3. JohdantoTämä on Helsinki Region Infoshare (HRI) -hanketta varten tehty selvitystyö julkishallinnonavoimien datasettien tarjonnasta ja saatavuudesta maailmalla. Katsaus toimii strategisena työkalunaHRI hankkeelle. Luvussa 1. Datan avaamisen prioriteetit esitetään viisi eri strategiaa, joidenmukaan voidaan kohdistaa voimavaroja ja priorisoidaan eri datasettien avaamista.Julkishallinnon datan avaaminen edistyy maailmalla nopeasti ja myös sovelluspuolella tapahtuujatkuvaa kehitystä. Tutkimuksessa on kartoitettu, miten avoimia datasettejä on luokiteltu eri maidenja kaupunkien datakatalogeissa, sekä millaisia sovelluksia ja palveluita näiden datasettien pohjaltaon toteutettu ja millaisia palveluideoita on esitetty. Kartoitus ei pyri olemaan kaiken kattava, vaantarkoituksena on luoda jäsennysrunko, jota voidaan täydentää jatkuvasti ja jota vasten voi verrataHRI -hankkeen myötä avattuja datasettejä ja niiden pohjalta syntyneitä sovelluksia.Tavoitteena on, että luvut 2. Avoin data kaupunkien palvelukehityksessä, 3. Datasettien luokittelu ja4. Julkishallinnon avoimen datan kysyntä toimivat selkeänä jäsentelynä datasettien tämänhetkisestäkysynnästä ja luokittelusta erityisesti kuntien ja kaupunkien kontekstissa. Jäsennyksen pohjaltavoidaan tulkita avoimen datan nykyistä tarjontaa eri aineistotyyppien (esim. tilastot, reaaliaikainendata, jne.) tai teemojen (esim. liikenne, turvallisuus, terveys, jne.) suhteen. Vastaavastisovelluspuolella voidaan tulkita millaisille tietoaineistoille tuntuisi olevan eniten kysyntää.Raportin tekstikappaleisiin liittyy suosituksia, jotka on kirjattu oranssilla kunkin kappaleen kohdalleja avattu laajemmin kappaleessa 5. Toimenpidesuosituksia HRI -hankkeelle.
 4. 4. 1. Datan avaamisen strategiatYleensä datan avaamiseen liittyvät projektit alkavat kysymyksellä "Mitä meidän pitäisi avataensimmäisenä?" tai "Mitkä ovat kaikkein tärkeimpiä datasettejä avattaviksi?" Tässä osiossa esitetääkuusi strategiaa, joita voidaan käyttää vastaamaan edellämainittuihin kysymyksiin. Neljäensimmäistä strategiaa on soveltaen suomennettu Civic Commons -wikistä1, joka on laadukas jatutustumisen arvoinen lähdeaineisto muiltakin osin. Kaksi viimeistä strategiaa: Tietojärjestelmienluonnollinen uusiutuminen ja Hallinnon sisäinen datan käyttö ovat käytännön kautta löydettyjälisäyksiä.Suositus 1: Hyödynnetään eri strategioiden tasapainoisesti datan avaamisen priorisoinnissaSuositus 2: Julkistetaan datan avaamisen strategiat ja prioriteetitTodistusaineistoTodistusaineistoa avoimen julkishallinnon datan todellisesta käytöstä voidaan kerätä sen jälkeen,kun aineistoja on julkaistu esimerkiksi seuraamalla lataamistilastoja.Epäsuorasti kysyntää voidaan arvioida olemassaolevien prosessien ja tietojärjestelmien tuottamienseurantatietojen perusteella. Moniin palveluprosesseihin, tietojärjestelmiin ja verkkosivustoihin onjo rakennettu mekanismeja käyttäjämäärien ja tietopyyntöjen seurantaan. Esimerkiksi kirjaamojenja akaspalvelujärjestelmien kautta rekisteröidyt kyselymäärät eri aihepiireistä kertovat asukkaidenyleisimmistä tiedontarpeista. Myös verkkosivujen hakutilastot ja hakukoneanalyysit ovat hyvätietolähde.Taulukko 1: Esimerkkejä Google Insights hakutilastoista seuraaville hakusanoille: tilastokeskus, Helsingin kaupunki,tilasto ja tietokeskus. Hakusanan alla on esitetty relevantteja poimintoja top-10 listalta kyseiseen sanaan liittyvistämuista hakusanoista, joita ihmiset ovat syöttäneet Googleen. Esimerkiksi tilastokeskusksen yhteydessä googlesta onusein haettu elinkustannusindeksiä ja asuntojen hintoja. Tilastokeskus Helsingin kaupunki Tilasto TietokeskusURL: URL: URL: URL:http://www.google.com/insights/se http://www.google.com/insights/se http://www.google.com/insights/se http://www.google.com/insights/search/#q=tilastokeskus arch/#q=helsingin%20kaupunki arch/#q=tilasto arch/#q=tietokeskuselinkustannusindeksi työpaikat sää Savon tietokeskusasuntojen hinnat avoimet työpaikat asuntojen hinnat Turun tietokeskusväestö vuokra-asunnot lämpötilat Helsingin tietokeskuspalkat sosiaalivirasto palkka Sotkamon tietokeskusSuositus 3: Kerätään ja julkaistaan lataustilastoja systemaattisestiKyselyt ja käyttäjäpalauteYksinkertainen strategia käyttäjätarpeiden kartoittamiseksi on kysyä eri kohderyhmiltä(kaupunkilaiset, tutkijat, journalistit, luottamushenkilöt, virkamiehet, yrittäjät), mistä datasta heolisivat kiinnostuneita tai minkä tiedon saatavuuttaa ja uudelleenkäytettävyyttä tulisi ensisijaisestiparantaa. Kysely kannattaa suorittaa laajemmin avoimen datan hankkeen alkuvaiheessa.Myöhemmin kannattaa tarjota jatkuvaluonteinen palaute- ja vuorovaikutuskanava ja mahdollisestitehdä kohdennetumpia kyselyitä esimerkiksi tietylle kohderyhmälle suunnattujen tilaisuuksienyhteydessä. Berliinin kaupunki toteutti 2010 syksyllä kyselyn, jossa vastaajat saivat valitamielestään kolme tärkeintä datavarantojen luokkaa listalta, jossa oli 20 vaihtoehtoa.1Civic Commons -wiki http://wiki.civiccommons.org/Open_Data_Priorities
 5. 5. Kuva 1: Berliinin kaupungin toteuttamassa kyselyssä suosituimmat datat julkaistaviksi (kun laskettiin yhteen ykkös-kakkos- ja kolmosäänet) olivat 1. City planning, 2. Administration, 3. Environment, pollution, 4. Control,5.Infrastructure ja 6. Citizen.Kaikki vaihtoehdot (20 kpl) aakkosjärjestyksessä:Administration, Citizen, City markets, City Planning, Control , Crime,Customers consulting, Education, Environment, pollution, Events , Family, Health, Infrastructure, Law, Living,Opening hours, Pets, Public transport, Recycling+Waste, Traffic.Ennakkoon tehtyjen kyselyiden tuloksia tulkittaessa pitää huomioida se, että ihmiset osaavat kysyävain aineistoja, joidenka olemassaolo on tunnettu ja suurelle yleisölle tietyn aineiston tarve saattaanousta ilmeiseksi vasta sen jälkeen, kun joku on osoittanut toimivalla sovelluksella taivisualisaatiolla datan hyödyllisyyden. Toisin sanottuna tietyn aineiston suosio nykyhetkessä eivälttämättä vastaa aineiston tärkeyttä.Esimerkkinä ravintoloiden hygieniatarkastusten tulokset ovat olleet kysyttyjä aineistoja sen jälkeen,kun joku ensimmäisenä keksi tehdä mobiilisovelluksen, jossa tämä tieto voidaan yhdistääravintoloista tietoja ja suosituksia näyttäviin sijaintipohjaisiin mobiilisovelluksiin. Jälkikäteenajateltuna tiedon hyödyllisyys ja käyttötarkoitus ovat ilmeisiä, mutta etukäteen tämä aineisto tuskinolisi ollut kovin korkealla "suosittuimmuuskyselyssä".Suositus 4: Kerätään vapaaehtoisia taustatietoja käyttäjiltä sähköpostilistalle liittymisenyhteydessäSuositus 5: Tehdään yleinen käyttäjätarvekyselySuositus 6: Tehdään eri kohderyhmille suunnattuja kyselyitäMatalalla roikkuvat hedelmätUseinmiten hallinnon organisaatioilla on joitakin helpommin saatavilla olevia datasettejä, joidenkaavaamiseen ei liity suuria teknisiä, eikä käyttöoikeuksien määrittämiseen liittyviä haasteita ja jotkaovat sisällöltään kokonaisuudessaan selkeästi julkisia. Tällaiset aineistot kannattaa julkiastaavoimen datan periaatteiden mukaisesti, vaikka niihin ei kohdistuisi ennakkoon erityisen suurtakysyntää. Julkaisemalla "matalalla roikkuvia hedelmiä" voidaan kerätä arvokasta kokemusta datanavaamisprosessista. Lisäksi monet ennalta epäkiinnostaviksi tulkitut datasetit saattavat herättääyllättävää kiinnostusta, mikäli niiden saatavuus tehdään helpoksi. Esimerkkinä tällaisesta on NewYorkin puurekisterin julkaisu, joka johti sinänsä mielenkiintoisen Trees near you-miobiilisovelluksen kehittämiseen.Yksittäisten ja satunnaisten datasettien julkaiseminen ei kuitenkaan missään tapauksessa oleyksistään riittävä strategia. Etenkin, mikäli toiminta on lyhytjänteistä on riskinä tuottaa pettymyksiädataa julkaisseille organisaatioille: "julkaisimme tämän datasetin jo puoli vuotta sitten, eikä kukaanole kiinnostunut siitä".
 6. 6. Suositus 7: Dokumentoidaan tarinamuodossa helppo ja haastava datanavaamistapausKorkea investoinnin tuottoasteSiinä missä matalalla roikkuvien hedelmien strategiassa julkaistaan sitä, minkä julkaisu on helppoaja kustannuksiltaan matalaa pyritään korkean investoinnin tuottoasteen strategiassa vertaamaanjulkaisun vaikeutta (kustannuksia) saavutettaviin hyötyihin. Investoinnin hyödyt voivat tulla muunmuassa yleisen hyödyllisyyden (esimerkiksi Reittiopas ja syntyneet mobiilisovellukset),turvallisuuden, kustannussäästöjen tai taloudellisen aktiivisuuden kautta. Esimerkiksi säädatan jakarttaaineistojen osalta kohtuullisilla avaamisen kustannuksilla mahdollistetaan suhteessa varsinlaaja käyttötapausten kirjo.Strategian haasteena on, että monien sinänsä ilmiselvien hyötyjen, kuten hallinnon läpinäkyvyydenlisääntymisen tai paremmin faktatietoihin pohjautuvan valmistelun ja päätöksenteon arvottaminenrahallisesti on vaikeaa ellei mahdotonta ja hyvin usein investoinnin tuotot eivät tule samalle taholle,kuin kustannukset. Myös tämän strategian kohdalla on pidettävä mielessä, että suurimmat tuototsaattavat tulla ennakoimattomalta taholta. Esimerkiksi ennakkoon arvioituna vähäpätöisen oloinenympäristödata saattaa olla merkittävässä vaikkapa syöpätutkimuksessa.Suositus 8: Identifioidaan sovellusaluekohtaisesti (Luku 4) kullakin alueella merkittävädatasetti, jonka avaamista tarkastellaan investointinaTietojärjestelmien luonnollinen uusiutuminenAineistojen saattaminen teknisesti ja laillisesti uudelleenkäytettäviksi uusien tietojärjestelmienhankinnan yhteydessä ei välttämättä aiheuta merkittäviä lisäkustannuksia. Varsin järkeenkäypästrategia onkin muodostaa toimintatapa, jolla varmistetaan, että avoin data tulee mukaan kaikkiinuusiin tietojärjestelmähankintoihin.Strategian haittapuolena on se, että sitä käytetään hanakasti argumenttina kaikkia muita strategioitavastaan: "meillä on juuri ensivuonna alkamassa tämä suuri järjestelmäuudistus, jonka yhteydessätämä varmasti voidaan ottaa esille". Jotta aineistojen avaaminen voidaan tehdä oikein ja kunnollajärjestelmäuudistusten yhteydessä kannattaa kokemuksia kerätä jo ennen sitä.Järjestelmäuudistuksenkaan yhteydessäkään tehty rajapinta ei ole edullinen, jos se toteutestajoudutaan muuttamaan jälkikäteen.Suositus 9: Tarjotaan virastoille ja yksiköille oikeaaikaista konsultaatiotahankintaprosesseissaSuositus 10: Dokumentoidaan hankintacaseja, joissa avoin data on huomioituHallinnon sisäinen datan käyttöHallinnon sisäinen datan käyttö tulisi mieltää oikeastaan yhtenä kohdealueena esimerkiksitieteellisen käytön, kaupallisen käytön, tutkivan journalismin jne. rinnalla. Esimerkiksi datantarvekyselyitä voidaan tehdä hallinnon sisällä ja hallinnon sisäistä datan käyttöä voidaan seurataerilaisten todistusaineistojen perusteella. Tässä hallinnon sisäinen käyttö on kuitenkin esitettyerillisenä lähestymistapana, koska sen yhteydessä aiemmin esiteltyä "korkea investoinnintuottoaste" strategiaa voidaan soveltaa tehokkaammin.Tarkasteltaessa mitä julkisia tietovarantoja useat eri viranomaiset jo hyödyntävät tai voisivathyödyntää on mahdollista löytää sellaisia aineistoja, joiden avaamiseen kannattaa investoida jainvestoinnin tuotot myös realisoituvat suoremmin esimerkiksi saman kaupungin sisällä. Samalla,kun tehdään tai suunnitellaan tiedonvaihtoa viranomaisten välillä kannattaa julkiset aineistot avatakaikkien hyödynnettäväksi, tämä lisää aineistojen löydettävyyttä ja saattaa jopa lisätä kyseisenaineiston käyttöä hallinnon sisällä.
 7. 7. 2. Avoin data kaupunkien palvelukehityksessäTämä luku pyrkii antamaan yleisen viitekehyksen siihen, mikä on avoimen datan rooli nimenomaankaupungeissa ja kunnissa. Kuvassa 2. esitetty malli on kehitetty Sitran Julkishallinnon johtamisenohjelman tuottaman Kuntien palveluevoluutiomallin2 pohjalta.Alkuperäinen malli kuvaa ihmisten, kunnan ja palvelutuottajien välistä vuorovaikutusta. Nämäovat kuntien toiminnan kannalta keskeiset toimijaryhmät, joiden välillä myös tiedon tulisi liikkua jarikastua mahdollisimman tehokkaasti. Avoimesta tiedosta puhuttaessa ei tietenkään pidä rajoittuavain näihin toimijaryhmiin, vaan sama data jaetaan myös kaikille muille tahoille, kutentutkimuslaitoksille, muulle julkishallinnolle, muille kun kuntapalveluja tuottaville yrityksille, sekäkansalaisjärjestöille ja vapaaseen käyttöön.Palveluevoluutiomalliin on lisätty tiedon koostaminen ja jakaminen omaksi toiminnaksikorostamaan sitä, että avoimen datan ekosysteemissä kaikki toimijat voivat käyttää ristiin toistensatuottamaa dataa. Datan ja tiedon julkaiseminen ja hyödyntäminen helpottuu, kun sen koostamiseenja jakamiseen on toimivat käytännöt ja infrastruktuuri.Mallin pohjalta on mahdollista luoda yhdeksä kuntakontekstissa olevaa erilaista avoimen datankäytön ja tuotannon skenaariota.Kuva 2: Avoimen datan rooli kunnan palveluevoluutiossa. Mallin pohjalta on mahdollista muodostaa erilaisiaskenaarioita siitä, kuka tuottaa ja kuka käyttää ja rikastaa kenenkin tuottamaa dataa.2 http://www.slideshare.net/Uusijohtajuus/sitra-palveluevoluutio-konsepti
 8. 8. Skenaarioita avoimen datan ekosysteemistäLätökohtana on, että ihmiset, kunta ja palveluntuottajat voivat kaikki tuottaa ja rikastaa tietoa,sekä käyttää itsensä ja toistensa tuottamaa ja rikastamaa tietoa. • Ihmiset voivat tuottaa (ja korjata) tietoa: ehdotukset, palaute, huomiot, asiantuntijatieto... • Ihmiset käyttävät tietoa: osallistuminen, palveluiden vertailu, vertaistieto... • Kunta tuottaa tietoa: tilastot, asianhallinta, suunnitelmat, rekisterit... • Kunta käyttää tietoa: päätöksenteko, suunnittelu, mallinnus... • Palveluiden tuotannossa syntyy tietoa: tilastot, prosessidata, kustannustieto, paikkatieto... • Palveluiden tuotannossa käytetään tietoa: palvelukehitys, optimointi, ohjaus...Taulukko 2: Yhdeksän esimerkkiskenaariota, jossa eri toimijaryhmät (ihmiset, palvelun tuottajat ja kunta)käyttävät saman ryhmän ja muiden ryhmien tuottamaa tietoa.Vihreällä pohjalla on skenaariot, joissa tiedonkäyttäjänä ovat ihmiset, violetilla pohjalla skenaarioissa tietoa käyttää palveluiden tuottajat ja vaaleansiniselläpohjalla tiedonkäyttäjänä on kunta.Skenaario Kuvaus EsimerkkiA: Vertaistieto Ihmiset käyttävät ihmisten tuottamaa Avoimissa palautekanavissa ihmisiä tietoa usein kiinnostaa toisten vertaisten kirjoitukset.B: Viestintä kuntalaisille Ihmiset käyttävät kunnan tuottamaa Valmistelu ja päätösprosessien tiedot tietoa (pyötäkirjat yms.)C: Viestintä asiakkaille Ihmiset käyttävät palveluntuottajan Aukioloajat, toimipisteiden tuottamaa tietoa yhteystiedot tai vaikka reaaliaikainen tieto aurauskaluston sijainnista GPS- paikannuksellaD: Palveluprosessin seuranta Palveluntuottajat käyttävät Esimerkiksi kirjastot seuraavat omia palveluntuottajien tuottamaa tietoa ja toisten kirjastojen lainaustilastoja hankintojen ohjauksessa.E: Asiakaspalaute Palveluntuottajat käyttävät ihmisten Palveluntuottajat voivat parataa tuottamaa tietoa toimintaansa ja jopa kilpailla laadulla, mikäli asiakaspalautetta on avoimesti käytettävissä.F:Kunnan tieto palveluiden Palveluntuottajat käyttävät kunnan Esimerkiksi yksityinenkehityksessä tuottamaa dataa hoivapalveluyritys voi skaalata toimintaansa kunnan tuottamien väestö- ja hoivatarvetilastojen avulla.G: Valmistelu ja päätösprosessien Kunta käyttää kunnan tuottamaa tietoa Kunnan eri virastot voivatseuranta synkronoida toimintaansa käyttämällä ristiin toistensa tietovarastoja.H: Asukkaiden tieto Kunta käyttää ihmisten tuottamaa Asukkaiden kokemuksellista tietoa tietoa voidaan hyödyntää esimerkiksi asuinalueiden suunnittelussa.I: Palveluiden laadunvalvonta Kunta käyttää palveluntuottajien Kunta seuraa ulkoisten tuottamaa tietoa palveluntuottajien kanssa tehtyjen sopimusten toteutumista ja valmistautuu hankintapäätöksiin kerättyyn tietoon perustuen.Suositus 11: Tuetaan pilottitoteutusten syntymistä eri skenaarioiden (Taulukko 2.) mukaisiltaalueiltaSuositus 12: Tarkastellaan, mitä muita merkittäviä tiedon käyttäjäryhmiä (esim.tutkimuslaitokset ja media) on ja toteutetaan tuettuja pilotteja myös heidän kanssaan
 9. 9. 3. Datasettien luokitteluDatasettien luokittelun tavoitteena olisi luoda kaupunkien tietovarantoihin selkeä yleiskatsaus jaotsikointi, joka kattaisi ne hyvinkin erilaiset aineistot, joita kaupungit organisaatioina hallinnoivat.Julkishallinnon datasta puhuttaessa tulee yleensä ensimmäisenä mieleen tunnetut perusrekisterit,kuten väestörekisteri, kiinteistörekisteri jne. sekä kenties tilastotiedot ja säätiedot. Myös kartta-aineistot ja paikkatieto on melko laajasti tunnettua ja jotkut muistavat mainita erilaisetliikennetiedot. Hallinnon data-aineistoja ei Suomessa, eikä maailmalla ole kattavasti kartoitettu,eikä valmiita luokitteluita kaupunkien dataseteille löytynyt.Brett Camperin toteuttama Puut lähelläsi (Trees Near You) -palvelu sai kunniamaininnan NewYorkin kaupungin avoimen datan hyödyntämiseskilpailussa 2010. Ilmainen iPhone-sovellus kertookäyttäjälle sijainnin perusteella tietoja yli 500 000 elävästä puustä New Yorkin kaupungissa.Sovellus yhdistelee puhelimesta saatavaa GPS-sijaintitietoa, Wikipedia-artikkeleita puulajeista jakaupungin avoimesti julkaisemaa puurekisteriä. Tämä on kuvaava esimerkki siitä, kuinka paljonpotentiaalisesti hyödyllistä dataa on olemassa mutta jonka olemassaoloa ei yleensä tuleajatelleeksikaan.Tarvittava luokittelu on esitetty allaolevassa kuvassa keskellä keltaisessa palkissa. Luokittelunlisäksi asian yleisen hahmottumisen kannalta olisi erittäin hyödyllistä yhdistää datan sovellukset jakäyttökohteet ja yksittäiset datasetit toisiinsa yleisen luokittelun kautta. Tämä voitaisiin myösvisualisoida esimerkiksi datakatalogin yhteydessä.Kuva 3: Malli datan käyttötarkoitusten (sininen) ja datasettien (vihreä) visualisoinnista yleisen luokittelun(keltainen) avulla.
 10. 10. Paras tutkimuksessa löydetty hallinnon datavarantojen luokittelu on Mepsir -tutkimuksen jaottelu,joka pohjautuu Euroopan unioinin PSI-direktiivin kattamiin alueisiin. Tätä jaottelua on verrattu eridatakatalogien ja muiden löydettyjen luokittelujen kanssa (Liite 1.). Monissa datakatalogeissa einoudateta mitään erityistä luokittelua, vaan eri tietovarannot on asiasanoitettu enemmän taivähemmän vapaasti.Luokittelun tuottaminen voisi olla mahdollista myös alhaalta ylöspäin tekemällä aineistojenkuvailuihin tai asiasanoituksiin koneellinen semanttinen analyysi ja klusterointi.HRI -hankkeen kannalta olennaista on pystyä tarjoamaan datan uudelleenkäyttäjille myös näkemyssiitä kokonaisuudesta, mitä tietovarantoja kaupungilla on hallussaan (vaikka ne eivät vielä olisiavoimia). Käytännössä kaikki maailmalla olevat julkishallinnon datakatalogit listaavat ainoastaan joavoimena olevia datasettejä, mikä on erittäin suuri puute.Kuva 4: Karkea näkemys kokonaisuudesta julkishallinnon avoimen datan osalta. Kaikki hallinnon tuottama dataei ole julkista (tietosuoja, yleinen turvallisuus jne. -kysymysten takia). Nykyisin mysöskään kaikki julkinen dataei ole avointa, eli koneellisesti ja laillisesti uudelleenkäytettävää. Tavoitteena olisi, että mahdollisimman suuriosa hallinnon tuottamasta lain mukaisesti julkisesta aineistosta olisi saatavilla myös avoimena datana.Luonnollisesti avointa dataa voivat tuottaa myös muut, kuin hallinnon toimijat.Yhdenkin kunnan hallinnoimien julkisten tietovarantojen kokonaisuus on hyvin monitahoinen javaikeasti hamottuva, eikä oikein kenelläkään ole nykyisin selvää käsitystä siitä, mitä kaikkea dataakunnalla on. Eri tietoaineistojen olemassaolon tunteminen on ensimmäinen askel, niidenhyötykäytössä. On hyvin vaikea löytää edistyneilläkään hakutoiminnoilla sellaista, minkäolemassaolosta ei ole tietoa.Tähän kokonaiskuvan haasteeseen pyrkii vastaamaan kuvan 3. malli, jossa sekä toteutetutsovellukset, että avoimet ja vielä avaamattomat, mutta kuitenkin julkiset tietovarannot on linkitettytoisiinsa yleisen tason selkokielisten luokkien kautta. Näin sovelluksia ja datasettejä voi selailla jatehdä löytöjä, vaikkei etukäteen tietäisikään tarkalleen, mitä on hakemassa.Luokittelun valinta on aina haastava tehtävä. Tavoitteena voidaan pitää noin 10-20 luokkaa, joilleon kirjoitettu lauseen tai kahden mittaiset kuvaukset. Yksittäinen datasetti kuuluu yhteen tai
 11. 11. useampaan luokkaan. Yksittäinen sovellus käyttää yhtä tai useampaa datasettiä ja perii niidenluokat. Sovellus voi olla myös ulkomainen, jolloin se ei välttämättä käytä mitää tiettyä datasettiaHRI-katalogista, mutta se voidaan silti linkittää tiettyihin luokkiin.HRI-katalogissa on nykyisin käytössä sekä luokittelu että avainsanat eli tagit. Näidenrinnakkaiskäyttö on mahdollista ja jopa suositeltavaa, mutta luokitusta tulisi kehittää jaavainsanottaminen tulisi mahdollistaa kaikille käyttäjille, jolloin se alkaisi kehittyä folksonomiantavoin. Taulukossa 3. on ehdotettu joitain muutoksia nykyiseen HRI-luokitukseen. Suurin puutenykyisessä luokituksessa on, että luokat ovat hyvin epätasapainoisia (luokkaan kuuluviendatasettien määrällä mitattuna) ja ilmeisesti kaikkia ainaistoja ei ole luokiteltu mihinkään luokkaan(luokkien sisältämien aineistojen yhteismäärä 259, on huomattavasti vähemmän, kuin 547datasettiä, joka on ilmoitettu aineistojen kokonaismääräksi). Lähimpänä mallina on käytettyFindikaattori- palvelun luokituksia, sekä JHS145 suositusta.Taulukko 3: HRI datakatalogin nykyinen luokitus (suluissa luokkan kuuluvien datasettien määrä) ja ehdotusluokitukseskis, joka pohjautuu eri datakatalogeissa käytettyihin luokkiin (Liite 1.). Lyhenne HRI-luokitus Huomioita HRI-luokista EhdotusHOU Asuminen (19) ok AsuminenDEM Demokratia ja osallistuminen (1) ok Demokratia ja osallistuminenGEO Kartat (1) Kartat ja paikkatieto (JHS145) Kartat ja paikkatietoEDU Koulutus (4) ok KoulutusCUL Kulttuuri (1) ok KulttuuriTRA Liikenne (1) ok LiikennePLA Rakennukset (1) Kaavat ja kiinteistöt (JHS145) Kaavat ja kiinteistötCON Rakentaminen (24) ok RakentaminenINC Tulot ja kulutus (4) Toimeentulo (Findikaattori) ToimeentuloLAB Työmarkkinat (45) ok TyömarkkinatPOP Väestö ja väestönmuutokset (155) Väestö (Findikaattori) VäestöENV Ympäristö (3) Ympäristö ja luonto (JHS145) Ympäristö ja luotoECO Talous (Findikaattori) TalousENE Energia (Findikaattori) EnergiaEVE Tapahtumat TapahtumatHEA Terveys (Findikaattori) TerveysINF Infrastruktuuri InfrastruktuuriLAW Laki ja oikeusturva (JHS 145) Laki ja oikeusturvaSER Palvelut PalvelutSuositus 13: Kerätään datakatalogin metatietokantaan tietoja myös aineistoista, jotka eivätvielä ole avoimiaSuositus 14: Toteutetaan datakatalogiin visuaalinen luokitus, joka linkittää yhteen datasettejäja sovelluksiaSuositus 15: Tehdään automaattinen semanttinen analyysi datasettien metatietoihin jamuodostetaan tämän perusteella järkeviä luokkalinkityksiäSuositus 16: Esitellään yksittäisiä sovelluksia yhteydessä niihin datasetteihin tai ainakinyleisiin luokkiin, mitä dataa sovellus käyttää (tai tuottaa)Suositus 17: Yksittäisten datasettien esittely massasta erillään
 12. 12. 4. Julkishallinnon avoimen datan kysyntäKuva 5: Julkishallinnon avoimen datan kysyntää voidaan kuvata sovellusalueilla, jotka ovat osittainpäällekkäisiä. Esimerkiksi samainen sovellus voi olla tietokantajournalismia ja tukea läpinäkyvyyttä jaosallistumista. Nämä kukan terälehtien muotoon asetetut sovellusalueet eivät vastaa käyttäjäryhmiä (kutenhallinto, yritykset, kansalaiset, tutkijat), vaan niitä toiminta-alueita, joilla avoimesta datasta voi ollahyötyä.Esimerkiksi tutkimusta ja tuotekehitystä voidaan tehdä niin yrityksissä, hallinnossa, kuintutkimuslaitoksissakin.Suositus 18: Järjestetään Sreen Scraping -tapahtuma, jolla kannustetaan sovelluskehittäjiähyödyntämään dataa ja tarjoamaan scrapattua dataa edelleenSuositus 19: Tarkastellaan mahdollisuutta tarjota screen scrapatulle datalle uudelleenkäytönsalliva lisenssiSuositus 20: Valmistellaan HRI-kunnille "avoimen datan deklaraatio", joka voidaan viedävaltuustojen hyväksyttäväksiSuositus 21: Toteutetaan Apps for Cities Finland -kilpailu
 13. 13. 5. Toimenpidesuosituksia HRI -hankkeelleSuositus 1: Hyödynnetään eri strategioiden tasapainoisesti datan avaamisen priorisoinnissaSuositus 2: Julkistetaan datan avaamisen strategiat ja prioriteetitSuositus 3: Kerätään ja julkaistaan lataustilastoja systemaattisestiSuositus 4: Kerätään vapaaehtoisia taustatietoja käyttäjiltä sähköpostilistalle liittymisenyhteydessäSuositus 5: Tehdään yleinen käyttäjätarvekyselyToteutetaan ”Berliinin mallin” mukainen kevyt kysely yleisen luokittelun (Luku 3.) mukaisistaluokista, minkä luokkien datalle on kiinnostusta eri kohderyhmissä?Suositus 6: Tehdään eri kohderyhmille suunnattuja kyselyitäYleisen kyselyn lisäksi eri käyttäjäryhmille esim. hallinnon toimijat voidaan tehdä hiemansyvällisempiä kyselyitä, joidenka osana on yleinen käyttäjäkysely, mutta sen lisäksi on muutamakohderyhmäspecifinen kysymys. Näitä voidaan tehdä kohderyhmille suunnatuissa tilaisuuksissa,kuten HsOpen (journalistit), MindTrek (yrittäjät)Suositus 7: Dokumentoidaan tarinamuodossa helppo ja haastava datanavaamistapausSekä datan haltijoita, että uudelleenkäyttäjiä voisi palvella totuudenmukaiset kuvaukset siitä, mitäasioita aivan käytännössä pitää ratkaista jonkin tietovarannon avaamisessa, esim. pitääkö ostaakonsulttityönä teknisiä muutoksia jne. HRI:n toiminnassa näitä caseja tulee varmasti vastaan, jotensuositus on kirjoittaa muutama niistä auki ja julkaista.Suositus 8: Identifioidaan sovellusaluekohtaisesti (Luku 4) kullakin alueella merkittävädatasetti, jonka avaamista tarkastellaan investointinaLähestymällä datan avaamista puhtaasti sovellusalueiden kautta voidaan tietoisesti päästä irti pelkän”matalalla roikuvien hedelmien” strategian käytöstä. Voi olla, että jotkut identifioiduista dataseteistäon käytännössä mahdottomia avata, mutta kenties tällä tavalla paljastuu jokin datasetti, jonkaavaamiseen kannattaa panostaa. Esimerkiksi budjetti- ja transaktidatan avaaminen palvelisi sekätietokantajournalismia, päätöksentekoa, että läpinäkyvyyttä.Suositus 9: Tarjotaan virastoille ja yksiköille oikeaaikaista konsultaatiotahankintaprosesseissaVarmistetaan avoimen datan toteutuminen meneillään olevissa ja tulevissatietojärjestelmäuudistuksissa. Tämän toteutumiseksi voi riittää pienikin konsultaatio oikeaaikaisestihankintaprosessissa, mutta edellytyksenä on meneillään olevien ja suunnittelilla olevien hankkeidenjärjestelmällistä seurantaa, että tiedetään, milloin ja kenen kanssa kannattaa pitää pieni avoimendatan palaveri.
 14. 14. Suositus 10: Dokumentoidaan hankintacaseja, joissa avoin data on huomioituSuositus 11: Tuetaan pilottitoteutusten syntymistä eri skenaarioiden (Taulukko 2.) mukaisiltaalueiltaTietojenkäsittelyn ohjelmatyöt muun muassa Aalto Yliopistossa ja Helsingin yliopistossa ovatkustannustehokkaita mahdollisuuksia tuottaa Suomalaisia esimerkkisovelluksia.Suositus 12: Tarkastellaan, mitä muita merkittäviä tiedon käyttäjäryhmiä (esim.tutkimuslaitokset ja media) on ja toteutetaan tuettuja pilotteja myös heidän kanssaanKaupunkidataa hyödyntäviä tutkimussuuntauksia ovat muun muassa: kiinteistötalous,liikennesuunnittelu, yhdyskuntasuunnittelu, kaupunkimaantiede, sosiaali- ja terveystutkimus jne.Tietokantajournalismista voi etsiä yhteistyömahdollisuuksia mediatalojen kanssa. Vuoden 2012kunnalisvaalit on tapahtuma, jonka yhteydessä voi olla mahdollista tehdä näkyviä pilottitoteutuksia.Yhtenä suuntauksena kannattaa etsiä sellaista pilottikohdetta, jossa jokin data voitaisiin avatakäyttöön ja kaupunkilaiset voisivat rikastaa sitää niin, että siitä olisi hyötyä kaupungille.Esimerkiksi, jos kaupunkisuunnitteluvirastolla on tietoja rakennuksista (pohjapiirrustuksia,sijainteja, 3d-malleja) voisivat kansalaiset älypuhelimilla kuvata omasta mielestään viihtyisiä jarumia ympäristöjä ja yhdistää niitä olemassaolevaan tietoarkistoon.Suositus 13: Kerätään datakatalogin metatietokantaan tietoja myös aineistoista, jotka eivätvielä ole avoimiaKaikkien nykyisten datakatalogien suuri puute on se, että ne eivät tee näkyväksi vielä avaamattomiatietokantoja. Erityisesti ei kannata panostaa siihen, että etsii vielä avaamattomia tietoaineistojakatalogia varten, mutta sitä mukaan, kun niitä tulee vastaan ne pitäisi lisätä katalogiin. Tässä olisimyös crowdsourcing-lähestymistapa hedelmällinen.Suositus 14: Toteutetaan datakatalogiin visuaalinen luokitus, joka linkittää yhteen datasettejäja sovelluksiaLinkitetään visuaalisesti datasetit ja sovellukset toisiinsa yleisen luokittelun kautta (Kuva 3.).Luokittelu ei poissulje tarvetta ja mahdollisuutta käyttää myös vapaammin asiasanoja tai tageja.Esimerkiksi wordpress -blogialusta tukee sekä tageja, että luokkia.Suositus 15: Tehdään automaattinen semanttinen analyysi datasettien metatietoihin jamuodostetaan tämän perusteella järkeviä luokkalinkityksiäLuvussa 3. esitettyä yleistä luokittelua voidaan tarkentaa ajamalla semanttinen klusterointi HRI-katalogissa oleville datasettien metadatoille. Menetelmällä voidaan tarkastella myös datasettiensamankaltaisuutta ja tuottaa asiasanoituksia automaattisesti.Suositus 16: Esitellään yksittäisiä sovelluksia yhteydessä niihin datasetteihin tai ainakinyleisiin luokkiin, mitä dataa sovellus käyttää (tai tuottaa)Monissa katalogeissa on esitelty sovelluksia, mutta niitä ei ole linkitetty varinaisiin datasetteihinainakaan kovin näkyvästi. Toisaalta linkittäminen yksittäisiin datasetteihin (esim. vuoden 2005sademäärät) ei ole informatiivista kokonaisuuden hahmottamisen kannalta. Linkittäminen yleiseenluokitteluun helpottaisi myös sovellusten vertailua kansainvälisesti.Suositus 17: Yksittäisten datasettien esittely massasta erilläänTehdään datakatalogin yhteydessä "viikon datasetti" -tyyppisiä nostoja, joissa esitellään yksittäinendatasetti yhteydessä sovelluksiin, jotka sitä käyttävät tai erilaisiin maailmalta löytyneisiinsovelluksiin, jotka käyttävät vastaavaa dataa.Suositus 18: Järjestetään Sreen Scraping -tapahtuma, jolla kannustetaan sovelluskehittäjiähyödyntämään dataa ja tarjoamaan scrapattua dataa edelleen
 15. 15. Suositus 19: Tarkastellaan mahdollisuutta tarjota screen scrapatulle datalle uudelleenkäytönsalliva lisenssiTuodaan screen scrappaus mukaan hyväksyttynä nopeana avaamisen keinona.Suositus 20: Valmistellaan HRI-kunnille "avoimen datan deklaraatio", joka voidaan viedävaltuustojen hyväksyttäväksiTämä on maailmalla yleinen malli, nostaa poliittista kiinnostusta asiaa kohtaan.Suositus 21: Toteutetaan Apps for Cities Finland -kilpailuTällä kertaa kannattaa hakea jo toteutuksia, eikä enää ideoita. Annetaan syötteeksi jo kehitetyt ideat(apps tietokanta), jos tätä ennen on saatu aktivoitua porukkaa screen scrappaamaan relevanttejadatasettejä, niin tarjonta voisi olla jo laajempaa. Kannattaa myös tiedottaa EU:n laajuisesta OpenData Challenge -kilpailusta ja sallia samalla tai parannetulla ehdotuksella osallistuminen Suomenkilpailuun.LiitteetLiite 1: Erilaisia yleisen tason luokitteluitaLiite 2: 300 avoimen datan sovellusta ja ideaaLiite 3: Englanninkielinen blogiartikkeli

×