Povezani odprti podatki SURS?

•Download as PPTX, PDF•

0 likes•128 views

Predstavitev predloga pilotnega projekta na področju povezanih odprtih podatkov za vodstvo SURS dne 18. 12. 2018 Presentation for executives - decision on implementing LOD or not at the Statistical Office of the Republic of Slovenia (SURS)

Internet

Povezani odprti podatki SURS?
Katja Šnuderl, oktober 2018
#PodatkiSoZakon

Linked Open Data (LOD): Zakaj?
• Web of Documents  Web of Data
• Human readable  Machine readable
• Script/language dependant  Universal
• Semantika ni samoumevna (primer: Jaguar kot
žival, avto ali Mac OS 10.2?)
• Povezljivost, decentralizacija, večjezičnost

Linked Open Data: Standardi
• W3C standard
• Strojna berljivost
• Podatkovni model: RDF (graf, trojice)
• Formati: RDF/XML, Notation-3 (N3), Turtle, N-
Triples, RDFa, RDF/JSON
• Orodja: SPARQL
• Standardizacija metapodatkov (semantični
splet)

RDF trojica (triple):
Alfred
Hitchcock
Pshycho
SUBJEKT OBJEKT
predikat
je ustvaril
link link link

Stopnja anketne brezposelnosti v 3.
četrtletju 2017 je bila 6,3-odstotna
Primer podatkov SURS:

6,3
Stopnja
anketne
brezpo-
selnosti
2017
Q03
končni
podatki
30. 11.
2017
%
… z RDF grafom podatek dobi nedvoumen kontekst.
SI-STAT
tabela MP
PK
SURS
ILO /
Eurostat:
Unemploy-
ment rate
SLO
PC-Axis
PDF
doku-
ment
Geonames:
Slovenia

Priložnosti za statistični urad
 Krepitev ugleda SURS kot vira uradnih stat. pod.
 Notranja koherentnost in boljša integracija podatkov in
metapodatkov
 Enoten pogled na podatke
 Odkrivanje napak in možnost izboljšav v procesih
 Fleksibilna diseminacija podatkov
 Inovativna storitev za uporabnike
 Neodvisnost od uporabniških rešitev
 Povezovanje z viri podatkov v državi in izven
 SURS kot uvajalec standardov

Mednarodne aktivnosti
• DIGICOM: Strategy for Linked Open Data for
Statistics
• ESSnet: Linked Open Statistics (nov. 2017 – apr. 2019)
• ISA2 projekt
– 2016.06 Sharing statistical production and dissemination services and
solutions in the European Statistical System
– 2018.03 Improving statistical data and metadata discoverability and analysis
• Priporočila ZN – Open Data na področju
Sustainable Develompent Goals (SDGs)
• Ponovna uporaba informacij javnega značaja
(Direktiva 2003/98/EC in 2013/37/EU, ZDIJZ-E)

Dobre prakse
• Zürich: LOSD der Stadt Zürich
• Irska: Linked Data Service for Census 2011
• Francija: http://rdf.insee.fr/
• Statistics.gov.scot
• ISTAT LinkedOpenData portal
• FSO Switzerland: Linked Data Pilot
• Poljska: Development of Guidelines for
Publishing Statistical Data as Linked Open
Data. 2018

Kako začeti? Preizkus
koncepta in
lastno
učenje
Ustvarimo majhen
lasten povezan
svet,
šele nato ga
povečujemo in se
povezujemo z
zunanjim
Znanja na strani
uporabnikov ne
smemo
podcenjevati!
Sledenje
priporočilom
ESSnet

Towards a Strategy for Linked Open Data for Statistics

Predlogi:
1. Oblikovanje primera znotraj SURS: Izbor testnih
podatkov, zasnova RDF grafa z ad-hoc ontologijo
2. Sodelovanje s študenti: Prevod enostavnega
primera obstoječih podatkov v RDF s
predstavitvijo uporabljenih metapodatkovnih
standardov [tehnologija]
3. Sodelovanje z uporabniki (razvijalci): Oblikovanje
predloga uporabe izbranih podatkov [vsebina]
4. Sodelovanje z raziskovalci: Izgradnja splošnih
ontologij in postopkov kreiranja URI-jev [LOD
pilot?]

Similar to Povezani odprti podatki SURS?

Načrt ravnanja z raziskovalnimi podatki, prijava Obzorje 2020Arhiv družboslovnih podatkov

Praktični del: preizkus orodja in seznanjanje z navodiliArhiv družboslovnih podatkov

Uvodna predstavitev delavnice. Arhiv družboslovnih podatkov in dostop do poda...Arhiv družboslovnih podatkov

Predstavitev ADP in dostopa do podatkov za študente in raziskovalceArhiv družboslovnih podatkov

Nastopno predavanjeMarko Pahor

Odprti podatki pot k bolj odprti znanosti, 2012Arhiv družboslovnih podatkov

Prezentacija opis stanja 2013_5_2Arhiv družboslovnih podatkov

Iskalniki KnjizniceMiro Pusnik

Arhiv družboslovnih podatkov: Nacionalno podatkovno središče kot infrastruktu...Arhiv družboslovnih podatkov

Poslovna informatika 3: e-poslovanje in digitalizacijaTomislav Rozman

Similar to Povezani odprti podatki SURS? (10)

Načrt ravnanja z raziskovalnimi podatki, prijava Obzorje 2020

Praktični del: preizkus orodja in seznanjanje z navodili

Uvodna predstavitev delavnice. Arhiv družboslovnih podatkov in dostop do poda...

Predstavitev ADP in dostopa do podatkov za študente in raziskovalce

Nastopno predavanje

Odprti podatki pot k bolj odprti znanosti, 2012

Prezentacija opis stanja 2013_5_2

Iskalniki Knjiznice

Arhiv družboslovnih podatkov: Nacionalno podatkovno središče kot infrastruktu...

Poslovna informatika 3: e-poslovanje in digitalizacija

More from Katja Šnuderl

Значение метаданных (2014)Katja Šnuderl

The Importance of MetadataKatja Šnuderl

Современные сайты статистики (2014)Katja Šnuderl

Statistical Website PrinciplesKatja Šnuderl

Tagging: Can User-Generated Content Improve Our Services?Katja Šnuderl

Dissemination: Statistical websitesKatja Šnuderl

Archiving the websiteKatja Šnuderl

Dissemination: Output DatabasesKatja Šnuderl

Metadata and DisseminationKatja Šnuderl

Planning and persuading: the organizational implicationsKatja Šnuderl

Metadata - Implications for UsersKatja Šnuderl

What’s a City Transport System Got to Do With Publishing Data in an Output Da...Katja Šnuderl

More from Katja Šnuderl (12)

Значение метаданных (2014)

The Importance of Metadata

Современные сайты статистики (2014)

Statistical Website Principles

Tagging: Can User-Generated Content Improve Our Services?

Dissemination: Statistical websites

Archiving the website

Dissemination: Output Databases

Metadata and Dissemination

Planning and persuading: the organizational implications

Metadata - Implications for Users

What’s a City Transport System Got to Do With Publishing Data in an Output Da...

Povezani odprti podatki SURS?

1. Povezani odprti podatki SURS? Katja Šnuderl, oktober 2018 #PodatkiSoZakon

2. Potrebne so prilagoditve

3. Svet podatkov

4. Linked Open Data (LOD): Zakaj? • Web of Documents  Web of Data • Human readable  Machine readable • Script/language dependant  Universal • Semantika ni samoumevna (primer: Jaguar kot žival, avto ali Mac OS 10.2?) • Povezljivost, decentralizacija, večjezičnost

5. Linked Open Data: Standardi • W3C standard • Strojna berljivost • Podatkovni model: RDF (graf, trojice) • Formati: RDF/XML, Notation-3 (N3), Turtle, N- Triples, RDFa, RDF/JSON • Orodja: SPARQL • Standardizacija metapodatkov (semantični splet)

6. RDF trojica (triple): Alfred Hitchcock Pshycho SUBJEKT OBJEKT predikat je ustvaril link link link

7. Stopnja anketne brezposelnosti v 3. četrtletju 2017 je bila 6,3-odstotna Primer podatkov SURS:

8. 6,3 Stopnja anketne brezposelnosti 2017 Q03 končni podatki 30. 11. 2017 % … z RDF grafom podatek dobi nedvoumen kontekst. SI-STAT tabela MP PK SURS ILO / Eurostat: Unemploy- ment rate SLO PC-Axis PDF doku- ment Geonames: Slovenia

9. Definicije

10. Priložnosti za statistični urad  Krepitev ugleda SURS kot vira uradnih stat. pod.  Notranja koherentnost in boljša integracija podatkov in metapodatkov  Enoten pogled na podatke  Odkrivanje napak in možnost izboljšav v procesih  Fleksibilna diseminacija podatkov  Inovativna storitev za uporabnike  Neodvisnost od uporabniških rešitev  Povezovanje z viri podatkov v državi in izven  SURS kot uvajalec standardov

11. Mednarodne aktivnosti • DIGICOM: Strategy for Linked Open Data for Statistics • ESSnet: Linked Open Statistics (nov. 2017 – apr. 2019) • ISA2 projekt – 2016.06 Sharing statistical production and dissemination services and solutions in the European Statistical System – 2018.03 Improving statistical data and metadata discoverability and analysis • Priporočila ZN – Open Data na področju Sustainable Develompent Goals (SDGs) • Ponovna uporaba informacij javnega značaja (Direktiva 2003/98/EC in 2013/37/EU, ZDIJZ-E)

12. Opposite of hype

13. Dobre prakse • Zürich: LOSD der Stadt Zürich • Irska: Linked Data Service for Census 2011 • Francija: http://rdf.insee.fr/ • Statistics.gov.scot • ISTAT LinkedOpenData portal • FSO Switzerland: Linked Data Pilot • Poljska: Development of Guidelines for Publishing Statistical Data as Linked Open Data. 2018

14. Kako začeti? Preizkus koncepta in lastno učenje Ustvarimo majhen lasten povezan svet, šele nato ga povečujemo in se povezujemo z zunanjim Znanja na strani uporabnikov ne smemo podcenjevati! Sledenje priporočilom ESSnet

15.

16. Towards a Strategy for Linked Open Data for Statistics

17. Predlogi: 1. Oblikovanje primera znotraj SURS: Izbor testnih podatkov, zasnova RDF grafa z ad-hoc ontologijo 2. Sodelovanje s študenti: Prevod enostavnega primera obstoječih podatkov v RDF s predstavitvijo uporabljenih metapodatkovnih standardov [tehnologija] 3. Sodelovanje z uporabniki (razvijalci): Oblikovanje predloga uporabe izbranih podatkov [vsebina] 4. Sodelovanje z raziskovalci: Izgradnja splošnih ontologij in postopkov kreiranja URI-jev [LOD pilot?]

18. First Step

19. Potrebna je odločitev

Editor's Notes

Uvajanje povezanih odprtih podatkov je glede na sedanji način objavljanja podatkov podobna sprememba (tako tehnološko kot v načinu razmišljanja), kot je bil prehod iz objav na papirju v objavljanje v elektronski obliki. Gre za spremembo, ki se v svetu že dogaja, na nas pa je odločitev, kdaj se bomo temu prilagodili. Ta trenutek še ne moremo poznati pomena, ker ne vemo, kako bo šel razvoj – lahko da bodo čez nekaj let poskusi zaustavljeni ali pa bo priključitev nuja. Ta hip tega še ne vemo. Kar je pomembno, so priložnosti, ki jih priključevanje prinaša. Če jih želimo izkoristiti, bo treba nameniti tudi nekaj virov (kadrovskih znotraj SURS in finančnih za vključevanje zunanjih ekspertov)
Velika količina podatkov na spletu, omejene sposobnosti uporabnikov (branje), vse več je uporabe umetne inteligence za analizo in prikaz podatkov
Tehnologija obstaja in je v uporabi. Ovire pri dosedanjih projektih niso tehnološke, temveč vsebinske narave – tu lahko pričakujemo težave tudi na SURS, vendar je to hkrati priložnost, da se dosedanje dileme, ki jih že dolgo poznamo, tudi rešijo.
Zapletenost RDF podatkovnega modela je ironično v tem, da se nam zdi preveč enostaven. Govorimo o prikazu podatkov v obliki grafa in sicer vse elemente in povezave med njimi opredelimo kot trojice (triples). Na primeru enega stavka je primer preprost in težko si predstavljamo, da bi s tako poenostavljenim modelom lahko ponazorili nekaj tako kompleksnega, kot so vsi statistični podatki. Ko govorimo o Linked open data, je vsak element v trojici zapisan kot http povezava do mesta na svetovnem spletu, kjer je ta objekt oz. povezava opredeljen (v skladu z veljavnimi standardi). Lahko si tudi predstavljamo, da ima vsak element trojice (to pomeni, da tudi vsak statistični podatek) svojo spletno stran.
Pa poglejmo samo poskus ponazoritve enega primera iz naših objav.
Osnovni metapodatki o pomenu zapisanega podatka Metapodatki o objavi Povezane informacije in vsebine Mednarodni kontekst (Geonames – data providers!) Pomembna razlika v načinu objave podatkov: Metapodatki so vezani na vsako celico v tabeli, vsak podatek. Povezave omogočajo poizvedbe in interpretacijo podatkov po sistemu "Follow your nose" – hodi po sledi (klikanje linkov) Opredeliti je potrebno čisto vsak objekt in vsako povezavo med temi objekti, kar je zahteven proces, ki pa ima tudi veliko prednosti predvsem za nadaljevanje dela (gradnja uporabniških vmesnikov, aplikacij, avtomatizacija posodabljanja posameznih elementov spletne strani, arhiviranje …)
Tako temeljitega popisa metapodatkov na SURS še nikoli nismo naredili - ni več vprašanj, kaj sodi v sistem metapodatkov in kaj ne ter na kateri ravni definirati osnovno entiteto – definirati je potrebno vse objekte ter vse relacije med njimi in to enoznačno. Primer SURS: Uporaba šifranta področij izobraževanj po KLASIUS – v SI-STAT tabelah v metapodatkih ni nikjer navedeno niti da gre za standardno klasifikacijo niti ni povezave do več informacij o klasifikaciji – kljub temu, da je bilo veliko časa in truda vloženega v poenotenje tabel z uporabo KLASIUS.
3. Vnaprej se moramo zavedati, da bomo s takim načinom objave podatkov dali naprednim uporabnikom nove možnosti za odkrivanje napak. Jasno je treba povedati, da se zavedamo, da so v podatkih lahko tudi napake ter da je naš namen te napake odpraviti ter izboljšati procese. Nekaj napak se bo pokazalo že ob sami pripravi podatkov v LOD obliki za objavo, ne pa vse. Glede na API-je: Dostop do podatkov preko API-jev temelji na vnaprejšnji analizi (oz. predvidevanju) uporabniških zahtev. Odpiranje povezanih podatkov uporabnikom omogoča, da podatke samostojno povezujejo na nove načine, ki si jih vnaprej nismo niti zamislili - tako znotraj naših kot z zunanjimi bazami podatkov.
V nasprotju z nekdanjimi "hypi" npr. socialna omrežja oz. obstoječimi: Big data, blockchain, se pri Linked Open Data veliko ne govori, večina jih opozarja na težave in potrebo po uvajanju standardov, na drugi strani pa nastajajo rešitve, ki s prejšnjimi tehnologijami niso bile možne
Seznam najbrž ne vključuje vsega, kar se je na tem področju naredilo…
http://slides.com/ktk/fso-linked-data-pilot Švicarji: dobili primer podatkov v RDF
Glede na kompleksnost predvidenih rešitev ni niti smiselno niti možno, da končni rezultat predvidimo vnaprej. Potrebno je začeti na manjših primerih, jih testirati, se kaj naučiti, spremeniti zasnovo če je potrebno in šele nato nadaljevati.
Strateški pogled: "Start small, think big." Pilotni projekti Usklajevanja z Eurostatom in ESS Prilagajanje glede na odziv in potrebe uporabnikov Podpora vodstva Kadri in sposobnosti: Potrebna bodo nova tehnična znanja Zunanji izvajalci + nadgrajevanje znanj znotraj urada Kompetence na področju statistike, IT in diseminacije Notranja skupina za LOD Podatki in metapodatki: Osnova so povezani metapodatki Šifranti, koncepti in klasifikacije Spoštovanje veljavnih standardov Identificirati najbolj primerne podatke Pretvarjanje podatkov v povezane odprte pod. Poiskati najustreznejši način z vidika arhitekture Velika sprememba je fokus diseminacije (iz tabele na podatek) Upravljanje Koordinacija znotraj urada Sodelovanje z izvajalci Sodelovanje na nacionalni ravni Sodelovanje v okviru ESS Tehnologija in infrastruktura: Evalvacija obstoječih orodij Uporaba standardnega nabora orodij ESS Izgradnja portala odprtih podatkov z orodji za dostop do podatkov (SPARQL)

Povezani odprti podatki SURS?

Recommended

Recommended

More Related Content

Similar to Povezani odprti podatki SURS?

Similar to Povezani odprti podatki SURS? (10)

More from Katja Šnuderl

More from Katja Šnuderl (12)

Povezani odprti podatki SURS?

Editor's Notes