Predstavitev predloga pilotnega projekta na področju povezanih odprtih podatkov za vodstvo SURS dne 18. 12. 2018
Presentation for executives - decision on implementing LOD or not at the Statistical Office of the Republic of Slovenia (SURS)
4. Linked Open Data (LOD): Zakaj?
• Web of Documents Web of Data
• Human readable Machine readable
• Script/language dependant Universal
• Semantika ni samoumevna (primer: Jaguar kot
žival, avto ali Mac OS 10.2?)
• Povezljivost, decentralizacija, večjezičnost
10. Priložnosti za statistični urad
Krepitev ugleda SURS kot vira uradnih stat. pod.
Notranja koherentnost in boljša integracija podatkov in
metapodatkov
Enoten pogled na podatke
Odkrivanje napak in možnost izboljšav v procesih
Fleksibilna diseminacija podatkov
Inovativna storitev za uporabnike
Neodvisnost od uporabniških rešitev
Povezovanje z viri podatkov v državi in izven
SURS kot uvajalec standardov
11. Mednarodne aktivnosti
• DIGICOM: Strategy for Linked Open Data for
Statistics
• ESSnet: Linked Open Statistics (nov. 2017 – apr. 2019)
• ISA2 projekt
– 2016.06 Sharing statistical production and dissemination services and
solutions in the European Statistical System
– 2018.03 Improving statistical data and metadata discoverability and analysis
• Priporočila ZN – Open Data na področju
Sustainable Develompent Goals (SDGs)
• Ponovna uporaba informacij javnega značaja
(Direktiva 2003/98/EC in 2013/37/EU, ZDIJZ-E)
13. Dobre prakse
• Zürich: LOSD der Stadt Zürich
• Irska: Linked Data Service for Census 2011
• Francija: http://rdf.insee.fr/
• Statistics.gov.scot
• ISTAT LinkedOpenData portal
• FSO Switzerland: Linked Data Pilot
• Poljska: Development of Guidelines for
Publishing Statistical Data as Linked Open
Data. 2018
14. Kako začeti? Preizkus
koncepta in
lastno
učenje
Ustvarimo majhen
lasten povezan
svet,
šele nato ga
povečujemo in se
povezujemo z
zunanjim
Znanja na strani
uporabnikov ne
smemo
podcenjevati!
Sledenje
priporočilom
ESSnet
17. Predlogi:
1. Oblikovanje primera znotraj SURS: Izbor testnih
podatkov, zasnova RDF grafa z ad-hoc ontologijo
2. Sodelovanje s študenti: Prevod enostavnega
primera obstoječih podatkov v RDF s
predstavitvijo uporabljenih metapodatkovnih
standardov [tehnologija]
3. Sodelovanje z uporabniki (razvijalci): Oblikovanje
predloga uporabe izbranih podatkov [vsebina]
4. Sodelovanje z raziskovalci: Izgradnja splošnih
ontologij in postopkov kreiranja URI-jev [LOD
pilot?]
Uvajanje povezanih odprtih podatkov je glede na sedanji način objavljanja podatkov podobna sprememba (tako tehnološko kot v načinu razmišljanja), kot je bil prehod iz objav na papirju v objavljanje v elektronski obliki. Gre za spremembo, ki se v svetu že dogaja, na nas pa je odločitev, kdaj se bomo temu prilagodili.
Ta trenutek še ne moremo poznati pomena, ker ne vemo, kako bo šel razvoj – lahko da bodo čez nekaj let poskusi zaustavljeni ali pa bo priključitev nuja. Ta hip tega še ne vemo. Kar je pomembno, so priložnosti, ki jih priključevanje prinaša. Če jih želimo izkoristiti, bo treba nameniti tudi nekaj virov (kadrovskih znotraj SURS in finančnih za vključevanje zunanjih ekspertov)
Velika količina podatkov na spletu, omejene sposobnosti uporabnikov (branje), vse več je uporabe umetne inteligence za analizo in prikaz podatkov
Tehnologija obstaja in je v uporabi. Ovire pri dosedanjih projektih niso tehnološke, temveč vsebinske narave – tu lahko pričakujemo težave tudi na SURS, vendar je to hkrati priložnost, da se dosedanje dileme, ki jih že dolgo poznamo, tudi rešijo.
Zapletenost RDF podatkovnega modela je ironično v tem, da se nam zdi preveč enostaven. Govorimo o prikazu podatkov v obliki grafa in sicer vse elemente in povezave med njimi opredelimo kot trojice (triples).
Na primeru enega stavka je primer preprost in težko si predstavljamo, da bi s tako poenostavljenim modelom lahko ponazorili nekaj tako kompleksnega, kot so vsi statistični podatki.
Ko govorimo o Linked open data, je vsak element v trojici zapisan kot http povezava do mesta na svetovnem spletu, kjer je ta objekt oz. povezava opredeljen (v skladu z veljavnimi standardi). Lahko si tudi predstavljamo, da ima vsak element trojice (to pomeni, da tudi vsak statistični podatek) svojo spletno stran.
Pa poglejmo samo poskus ponazoritve enega primera iz naših objav.
Osnovni metapodatki o pomenu zapisanega podatka
Metapodatki o objavi
Povezane informacije in vsebine
Mednarodni kontekst (Geonames – data providers!)
Pomembna razlika v načinu objave podatkov: Metapodatki so vezani na vsako celico v tabeli, vsak podatek. Povezave omogočajo poizvedbe in interpretacijo podatkov po sistemu "Follow your nose" – hodi po sledi (klikanje linkov)
Opredeliti je potrebno čisto vsak objekt in vsako povezavo med temi objekti, kar je zahteven proces, ki pa ima tudi veliko prednosti predvsem za nadaljevanje dela (gradnja uporabniških vmesnikov, aplikacij, avtomatizacija posodabljanja posameznih elementov spletne strani, arhiviranje …)
Tako temeljitega popisa metapodatkov na SURS še nikoli nismo naredili - ni več vprašanj, kaj sodi v sistem metapodatkov in kaj ne ter na kateri ravni definirati osnovno entiteto – definirati je potrebno vse objekte ter vse relacije med njimi in to enoznačno.
Primer SURS: Uporaba šifranta področij izobraževanj po KLASIUS – v SI-STAT tabelah v metapodatkih ni nikjer navedeno niti da gre za standardno klasifikacijo niti ni povezave do več informacij o klasifikaciji – kljub temu, da je bilo veliko časa in truda vloženega v poenotenje tabel z uporabo KLASIUS.
3. Vnaprej se moramo zavedati, da bomo s takim načinom objave podatkov dali naprednim uporabnikom nove možnosti za odkrivanje napak. Jasno je treba povedati, da se zavedamo, da so v podatkih lahko tudi napake ter da je naš namen te napake odpraviti ter izboljšati procese. Nekaj napak se bo pokazalo že ob sami pripravi podatkov v LOD obliki za objavo, ne pa vse.
Glede na API-je:
Dostop do podatkov preko API-jev temelji na vnaprejšnji analizi (oz. predvidevanju) uporabniških zahtev. Odpiranje povezanih podatkov uporabnikom omogoča, da podatke samostojno povezujejo na nove načine, ki si jih vnaprej nismo niti zamislili - tako znotraj naših kot z zunanjimi bazami podatkov.
V nasprotju z nekdanjimi "hypi" npr. socialna omrežja oz. obstoječimi: Big data, blockchain, se pri Linked Open Data veliko ne govori, večina jih opozarja na težave in potrebo po uvajanju standardov, na drugi strani pa nastajajo rešitve, ki s prejšnjimi tehnologijami niso bile možne
Seznam najbrž ne vključuje vsega, kar se je na tem področju naredilo…
http://slides.com/ktk/fso-linked-data-pilot
Švicarji: dobili primer podatkov v RDF
Glede na kompleksnost predvidenih rešitev ni niti smiselno niti možno, da končni rezultat predvidimo vnaprej. Potrebno je začeti na manjših primerih, jih testirati, se kaj naučiti, spremeniti zasnovo če je potrebno in šele nato nadaljevati.
Strateški pogled:
"Start small, think big."
Pilotni projekti
Usklajevanja z Eurostatom in ESS
Prilagajanje glede na odziv in potrebe uporabnikov
Podpora vodstva
Kadri in sposobnosti:
Potrebna bodo nova tehnična znanja
Zunanji izvajalci + nadgrajevanje znanj znotraj urada
Kompetence na področju statistike, IT in diseminacije
Notranja skupina za LOD
Podatki in metapodatki:
Osnova so povezani metapodatki
Šifranti, koncepti in klasifikacije
Spoštovanje veljavnih standardov
Identificirati najbolj primerne podatke
Pretvarjanje podatkov v povezane odprte pod.
Poiskati najustreznejši način z vidika arhitekture
Velika sprememba je fokus diseminacije (iz tabele na podatek)
Upravljanje
Koordinacija znotraj urada
Sodelovanje z izvajalci
Sodelovanje na nacionalni ravni
Sodelovanje v okviru ESS
Tehnologija in infrastruktura:
Evalvacija obstoječih orodij
Uporaba standardnega nabora orodij ESS
Izgradnja portala odprtih podatkov z orodji za dostop do podatkov (SPARQL)