SlideShare a Scribd company logo
1 of 19
Povezani odprti podatki SURS?
Katja Šnuderl, oktober 2018
#PodatkiSoZakon
Potrebne so prilagoditve
Svet podatkov
Linked Open Data (LOD): Zakaj?
• Web of Documents  Web of Data
• Human readable  Machine readable
• Script/language dependant  Universal
• Semantika ni samoumevna (primer: Jaguar kot
žival, avto ali Mac OS 10.2?)
• Povezljivost, decentralizacija, večjezičnost
Linked Open Data: Standardi
• W3C standard
• Strojna berljivost
• Podatkovni model: RDF (graf, trojice)
• Formati: RDF/XML, Notation-3 (N3), Turtle, N-
Triples, RDFa, RDF/JSON
• Orodja: SPARQL
• Standardizacija metapodatkov (semantični
splet)
RDF trojica (triple):
Alfred
Hitchcock
Pshycho
SUBJEKT OBJEKT
predikat
je ustvaril
link link link
Stopnja anketne brezposelnosti v 3.
četrtletju 2017 je bila 6,3-odstotna
Primer podatkov SURS:
6,3
Stopnja
anketne
brezpo-
selnosti
2017
Q03
končni
podatki
30. 11.
2017
%
… z RDF grafom podatek dobi nedvoumen kontekst.
SI-STAT
tabela MP
PK
SURS
ILO /
Eurostat:
Unemploy-
ment rate
SLO
PC-Axis
PDF
doku-
ment
Geonames:
Slovenia
Definicije
Priložnosti za statistični urad
 Krepitev ugleda SURS kot vira uradnih stat. pod.
 Notranja koherentnost in boljša integracija podatkov in
metapodatkov
 Enoten pogled na podatke
 Odkrivanje napak in možnost izboljšav v procesih
 Fleksibilna diseminacija podatkov
 Inovativna storitev za uporabnike
 Neodvisnost od uporabniških rešitev
 Povezovanje z viri podatkov v državi in izven
 SURS kot uvajalec standardov
Mednarodne aktivnosti
• DIGICOM: Strategy for Linked Open Data for
Statistics
• ESSnet: Linked Open Statistics (nov. 2017 – apr. 2019)
• ISA2 projekt
– 2016.06 Sharing statistical production and dissemination services and
solutions in the European Statistical System
– 2018.03 Improving statistical data and metadata discoverability and analysis
• Priporočila ZN – Open Data na področju
Sustainable Develompent Goals (SDGs)
• Ponovna uporaba informacij javnega značaja
(Direktiva 2003/98/EC in 2013/37/EU, ZDIJZ-E)
Opposite of hype
Dobre prakse
• Zürich: LOSD der Stadt Zürich
• Irska: Linked Data Service for Census 2011
• Francija: http://rdf.insee.fr/
• Statistics.gov.scot
• ISTAT LinkedOpenData portal
• FSO Switzerland: Linked Data Pilot
• Poljska: Development of Guidelines for
Publishing Statistical Data as Linked Open
Data. 2018
Kako začeti? Preizkus
koncepta in
lastno
učenje
Ustvarimo majhen
lasten povezan
svet,
šele nato ga
povečujemo in se
povezujemo z
zunanjim
Znanja na strani
uporabnikov ne
smemo
podcenjevati!
Sledenje
priporočilom
ESSnet
Towards a Strategy for Linked Open Data for Statistics
Predlogi:
1. Oblikovanje primera znotraj SURS: Izbor testnih
podatkov, zasnova RDF grafa z ad-hoc ontologijo
2. Sodelovanje s študenti: Prevod enostavnega
primera obstoječih podatkov v RDF s
predstavitvijo uporabljenih metapodatkovnih
standardov [tehnologija]
3. Sodelovanje z uporabniki (razvijalci): Oblikovanje
predloga uporabe izbranih podatkov [vsebina]
4. Sodelovanje z raziskovalci: Izgradnja splošnih
ontologij in postopkov kreiranja URI-jev [LOD
pilot?]
First Step
Potrebna je odločitev

More Related Content

Similar to Povezani odprti podatki SURS?

Načrt ravnanja z raziskovalnimi podatki, prijava Obzorje 2020
Načrt ravnanja z raziskovalnimi podatki, prijava Obzorje 2020Načrt ravnanja z raziskovalnimi podatki, prijava Obzorje 2020
Načrt ravnanja z raziskovalnimi podatki, prijava Obzorje 2020Arhiv družboslovnih podatkov
 
Praktični del: preizkus orodja in seznanjanje z navodili
Praktični del: preizkus orodja in seznanjanje z navodiliPraktični del: preizkus orodja in seznanjanje z navodili
Praktični del: preizkus orodja in seznanjanje z navodiliArhiv družboslovnih podatkov
 
Uvodna predstavitev delavnice. Arhiv družboslovnih podatkov in dostop do poda...
Uvodna predstavitev delavnice. Arhiv družboslovnih podatkov in dostop do poda...Uvodna predstavitev delavnice. Arhiv družboslovnih podatkov in dostop do poda...
Uvodna predstavitev delavnice. Arhiv družboslovnih podatkov in dostop do poda...Arhiv družboslovnih podatkov
 
Predstavitev ADP in dostopa do podatkov za študente in raziskovalce
Predstavitev ADP in dostopa do podatkov za študente in raziskovalcePredstavitev ADP in dostopa do podatkov za študente in raziskovalce
Predstavitev ADP in dostopa do podatkov za študente in raziskovalceArhiv družboslovnih podatkov
 
Nastopno predavanje
Nastopno predavanjeNastopno predavanje
Nastopno predavanjeMarko Pahor
 
Iskalniki Knjiznice
Iskalniki KnjizniceIskalniki Knjiznice
Iskalniki KnjizniceMiro Pusnik
 
Arhiv družboslovnih podatkov: Nacionalno podatkovno središče kot infrastruktu...
Arhiv družboslovnih podatkov: Nacionalno podatkovno središče kot infrastruktu...Arhiv družboslovnih podatkov: Nacionalno podatkovno središče kot infrastruktu...
Arhiv družboslovnih podatkov: Nacionalno podatkovno središče kot infrastruktu...Arhiv družboslovnih podatkov
 
Poslovna informatika 3: e-poslovanje in digitalizacija
Poslovna informatika 3: e-poslovanje in digitalizacijaPoslovna informatika 3: e-poslovanje in digitalizacija
Poslovna informatika 3: e-poslovanje in digitalizacijaTomislav Rozman
 

Similar to Povezani odprti podatki SURS? (10)

Načrt ravnanja z raziskovalnimi podatki, prijava Obzorje 2020
Načrt ravnanja z raziskovalnimi podatki, prijava Obzorje 2020Načrt ravnanja z raziskovalnimi podatki, prijava Obzorje 2020
Načrt ravnanja z raziskovalnimi podatki, prijava Obzorje 2020
 
Praktični del: preizkus orodja in seznanjanje z navodili
Praktični del: preizkus orodja in seznanjanje z navodiliPraktični del: preizkus orodja in seznanjanje z navodili
Praktični del: preizkus orodja in seznanjanje z navodili
 
Uvodna predstavitev delavnice. Arhiv družboslovnih podatkov in dostop do poda...
Uvodna predstavitev delavnice. Arhiv družboslovnih podatkov in dostop do poda...Uvodna predstavitev delavnice. Arhiv družboslovnih podatkov in dostop do poda...
Uvodna predstavitev delavnice. Arhiv družboslovnih podatkov in dostop do poda...
 
Predstavitev ADP in dostopa do podatkov za študente in raziskovalce
Predstavitev ADP in dostopa do podatkov za študente in raziskovalcePredstavitev ADP in dostopa do podatkov za študente in raziskovalce
Predstavitev ADP in dostopa do podatkov za študente in raziskovalce
 
Nastopno predavanje
Nastopno predavanjeNastopno predavanje
Nastopno predavanje
 
Odprti podatki pot k bolj odprti znanosti, 2012
Odprti podatki pot k bolj odprti znanosti, 2012Odprti podatki pot k bolj odprti znanosti, 2012
Odprti podatki pot k bolj odprti znanosti, 2012
 
Prezentacija opis stanja 2013_5_2
Prezentacija opis stanja 2013_5_2Prezentacija opis stanja 2013_5_2
Prezentacija opis stanja 2013_5_2
 
Iskalniki Knjiznice
Iskalniki KnjizniceIskalniki Knjiznice
Iskalniki Knjiznice
 
Arhiv družboslovnih podatkov: Nacionalno podatkovno središče kot infrastruktu...
Arhiv družboslovnih podatkov: Nacionalno podatkovno središče kot infrastruktu...Arhiv družboslovnih podatkov: Nacionalno podatkovno središče kot infrastruktu...
Arhiv družboslovnih podatkov: Nacionalno podatkovno središče kot infrastruktu...
 
Poslovna informatika 3: e-poslovanje in digitalizacija
Poslovna informatika 3: e-poslovanje in digitalizacijaPoslovna informatika 3: e-poslovanje in digitalizacija
Poslovna informatika 3: e-poslovanje in digitalizacija
 

More from Katja Šnuderl

Значение метаданных (2014)
Значение метаданных (2014)Значение метаданных (2014)
Значение метаданных (2014)Katja Šnuderl
 
The Importance of Metadata
The Importance of MetadataThe Importance of Metadata
The Importance of MetadataKatja Šnuderl
 
Современные сайты статистики (2014)
Современные сайты статистики (2014)Современные сайты статистики (2014)
Современные сайты статистики (2014)Katja Šnuderl
 
Statistical Website Principles
Statistical Website PrinciplesStatistical Website Principles
Statistical Website PrinciplesKatja Šnuderl
 
Tagging: Can User-Generated Content Improve Our Services?
Tagging: Can User-Generated Content Improve Our Services?Tagging: Can User-Generated Content Improve Our Services?
Tagging: Can User-Generated Content Improve Our Services?Katja Šnuderl
 
Dissemination: Statistical websites
Dissemination: Statistical websitesDissemination: Statistical websites
Dissemination: Statistical websitesKatja Šnuderl
 
Dissemination: Output Databases
Dissemination: Output DatabasesDissemination: Output Databases
Dissemination: Output DatabasesKatja Šnuderl
 
Metadata and Dissemination
Metadata and DisseminationMetadata and Dissemination
Metadata and DisseminationKatja Šnuderl
 
Planning and persuading: the organizational implications
Planning and persuading: the organizational implicationsPlanning and persuading: the organizational implications
Planning and persuading: the organizational implicationsKatja Šnuderl
 
Metadata - Implications for Users
Metadata - Implications for UsersMetadata - Implications for Users
Metadata - Implications for UsersKatja Šnuderl
 
What’s a City Transport System Got to Do With Publishing Data in an Output Da...
What’s a City Transport System Got to Do With Publishing Data in an Output Da...What’s a City Transport System Got to Do With Publishing Data in an Output Da...
What’s a City Transport System Got to Do With Publishing Data in an Output Da...Katja Šnuderl
 

More from Katja Šnuderl (12)

Значение метаданных (2014)
Значение метаданных (2014)Значение метаданных (2014)
Значение метаданных (2014)
 
The Importance of Metadata
The Importance of MetadataThe Importance of Metadata
The Importance of Metadata
 
Современные сайты статистики (2014)
Современные сайты статистики (2014)Современные сайты статистики (2014)
Современные сайты статистики (2014)
 
Statistical Website Principles
Statistical Website PrinciplesStatistical Website Principles
Statistical Website Principles
 
Tagging: Can User-Generated Content Improve Our Services?
Tagging: Can User-Generated Content Improve Our Services?Tagging: Can User-Generated Content Improve Our Services?
Tagging: Can User-Generated Content Improve Our Services?
 
Dissemination: Statistical websites
Dissemination: Statistical websitesDissemination: Statistical websites
Dissemination: Statistical websites
 
Archiving the website
Archiving the websiteArchiving the website
Archiving the website
 
Dissemination: Output Databases
Dissemination: Output DatabasesDissemination: Output Databases
Dissemination: Output Databases
 
Metadata and Dissemination
Metadata and DisseminationMetadata and Dissemination
Metadata and Dissemination
 
Planning and persuading: the organizational implications
Planning and persuading: the organizational implicationsPlanning and persuading: the organizational implications
Planning and persuading: the organizational implications
 
Metadata - Implications for Users
Metadata - Implications for UsersMetadata - Implications for Users
Metadata - Implications for Users
 
What’s a City Transport System Got to Do With Publishing Data in an Output Da...
What’s a City Transport System Got to Do With Publishing Data in an Output Da...What’s a City Transport System Got to Do With Publishing Data in an Output Da...
What’s a City Transport System Got to Do With Publishing Data in an Output Da...
 

Povezani odprti podatki SURS?

  • 1. Povezani odprti podatki SURS? Katja Šnuderl, oktober 2018 #PodatkiSoZakon
  • 4. Linked Open Data (LOD): Zakaj? • Web of Documents  Web of Data • Human readable  Machine readable • Script/language dependant  Universal • Semantika ni samoumevna (primer: Jaguar kot žival, avto ali Mac OS 10.2?) • Povezljivost, decentralizacija, večjezičnost
  • 5. Linked Open Data: Standardi • W3C standard • Strojna berljivost • Podatkovni model: RDF (graf, trojice) • Formati: RDF/XML, Notation-3 (N3), Turtle, N- Triples, RDFa, RDF/JSON • Orodja: SPARQL • Standardizacija metapodatkov (semantični splet)
  • 6. RDF trojica (triple): Alfred Hitchcock Pshycho SUBJEKT OBJEKT predikat je ustvaril link link link
  • 7. Stopnja anketne brezposelnosti v 3. četrtletju 2017 je bila 6,3-odstotna Primer podatkov SURS:
  • 8. 6,3 Stopnja anketne brezpo- selnosti 2017 Q03 končni podatki 30. 11. 2017 % … z RDF grafom podatek dobi nedvoumen kontekst. SI-STAT tabela MP PK SURS ILO / Eurostat: Unemploy- ment rate SLO PC-Axis PDF doku- ment Geonames: Slovenia
  • 10. Priložnosti za statistični urad  Krepitev ugleda SURS kot vira uradnih stat. pod.  Notranja koherentnost in boljša integracija podatkov in metapodatkov  Enoten pogled na podatke  Odkrivanje napak in možnost izboljšav v procesih  Fleksibilna diseminacija podatkov  Inovativna storitev za uporabnike  Neodvisnost od uporabniških rešitev  Povezovanje z viri podatkov v državi in izven  SURS kot uvajalec standardov
  • 11. Mednarodne aktivnosti • DIGICOM: Strategy for Linked Open Data for Statistics • ESSnet: Linked Open Statistics (nov. 2017 – apr. 2019) • ISA2 projekt – 2016.06 Sharing statistical production and dissemination services and solutions in the European Statistical System – 2018.03 Improving statistical data and metadata discoverability and analysis • Priporočila ZN – Open Data na področju Sustainable Develompent Goals (SDGs) • Ponovna uporaba informacij javnega značaja (Direktiva 2003/98/EC in 2013/37/EU, ZDIJZ-E)
  • 13. Dobre prakse • Zürich: LOSD der Stadt Zürich • Irska: Linked Data Service for Census 2011 • Francija: http://rdf.insee.fr/ • Statistics.gov.scot • ISTAT LinkedOpenData portal • FSO Switzerland: Linked Data Pilot • Poljska: Development of Guidelines for Publishing Statistical Data as Linked Open Data. 2018
  • 14. Kako začeti? Preizkus koncepta in lastno učenje Ustvarimo majhen lasten povezan svet, šele nato ga povečujemo in se povezujemo z zunanjim Znanja na strani uporabnikov ne smemo podcenjevati! Sledenje priporočilom ESSnet
  • 15.
  • 16. Towards a Strategy for Linked Open Data for Statistics
  • 17. Predlogi: 1. Oblikovanje primera znotraj SURS: Izbor testnih podatkov, zasnova RDF grafa z ad-hoc ontologijo 2. Sodelovanje s študenti: Prevod enostavnega primera obstoječih podatkov v RDF s predstavitvijo uporabljenih metapodatkovnih standardov [tehnologija] 3. Sodelovanje z uporabniki (razvijalci): Oblikovanje predloga uporabe izbranih podatkov [vsebina] 4. Sodelovanje z raziskovalci: Izgradnja splošnih ontologij in postopkov kreiranja URI-jev [LOD pilot?]

Editor's Notes

  1. Uvajanje povezanih odprtih podatkov je glede na sedanji način objavljanja podatkov podobna sprememba (tako tehnološko kot v načinu razmišljanja), kot je bil prehod iz objav na papirju v objavljanje v elektronski obliki. Gre za spremembo, ki se v svetu že dogaja, na nas pa je odločitev, kdaj se bomo temu prilagodili. Ta trenutek še ne moremo poznati pomena, ker ne vemo, kako bo šel razvoj – lahko da bodo čez nekaj let poskusi zaustavljeni ali pa bo priključitev nuja. Ta hip tega še ne vemo. Kar je pomembno, so priložnosti, ki jih priključevanje prinaša. Če jih želimo izkoristiti, bo treba nameniti tudi nekaj virov (kadrovskih znotraj SURS in finančnih za vključevanje zunanjih ekspertov)
  2. Velika količina podatkov na spletu, omejene sposobnosti uporabnikov (branje), vse več je uporabe umetne inteligence za analizo in prikaz podatkov
  3. Tehnologija obstaja in je v uporabi. Ovire pri dosedanjih projektih niso tehnološke, temveč vsebinske narave – tu lahko pričakujemo težave tudi na SURS, vendar je to hkrati priložnost, da se dosedanje dileme, ki jih že dolgo poznamo, tudi rešijo.
  4. Zapletenost RDF podatkovnega modela je ironično v tem, da se nam zdi preveč enostaven. Govorimo o prikazu podatkov v obliki grafa in sicer vse elemente in povezave med njimi opredelimo kot trojice (triples). Na primeru enega stavka je primer preprost in težko si predstavljamo, da bi s tako poenostavljenim modelom lahko ponazorili nekaj tako kompleksnega, kot so vsi statistični podatki. Ko govorimo o Linked open data, je vsak element v trojici zapisan kot http povezava do mesta na svetovnem spletu, kjer je ta objekt oz. povezava opredeljen (v skladu z veljavnimi standardi). Lahko si tudi predstavljamo, da ima vsak element trojice (to pomeni, da tudi vsak statistični podatek) svojo spletno stran.
  5. Pa poglejmo samo poskus ponazoritve enega primera iz naših objav.
  6. Osnovni metapodatki o pomenu zapisanega podatka Metapodatki o objavi Povezane informacije in vsebine Mednarodni kontekst (Geonames – data providers!) Pomembna razlika v načinu objave podatkov: Metapodatki so vezani na vsako celico v tabeli, vsak podatek. Povezave omogočajo poizvedbe in interpretacijo podatkov po sistemu "Follow your nose" – hodi po sledi (klikanje linkov) Opredeliti je potrebno čisto vsak objekt in vsako povezavo med temi objekti, kar je zahteven proces, ki pa ima tudi veliko prednosti predvsem za nadaljevanje dela (gradnja uporabniških vmesnikov, aplikacij, avtomatizacija posodabljanja posameznih elementov spletne strani, arhiviranje …)
  7. Tako temeljitega popisa metapodatkov na SURS še nikoli nismo naredili - ni več vprašanj, kaj sodi v sistem metapodatkov in kaj ne ter na kateri ravni definirati osnovno entiteto – definirati je potrebno vse objekte ter vse relacije med njimi in to enoznačno. Primer SURS: Uporaba šifranta področij izobraževanj po KLASIUS – v SI-STAT tabelah v metapodatkih ni nikjer navedeno niti da gre za standardno klasifikacijo niti ni povezave do več informacij o klasifikaciji – kljub temu, da je bilo veliko časa in truda vloženega v poenotenje tabel z uporabo KLASIUS.
  8. 3. Vnaprej se moramo zavedati, da bomo s takim načinom objave podatkov dali naprednim uporabnikom nove možnosti za odkrivanje napak. Jasno je treba povedati, da se zavedamo, da so v podatkih lahko tudi napake ter da je naš namen te napake odpraviti ter izboljšati procese. Nekaj napak se bo pokazalo že ob sami pripravi podatkov v LOD obliki za objavo, ne pa vse. Glede na API-je: Dostop do podatkov preko API-jev temelji na vnaprejšnji analizi (oz. predvidevanju) uporabniških zahtev. Odpiranje povezanih podatkov uporabnikom omogoča, da podatke samostojno povezujejo na nove načine, ki si jih vnaprej nismo niti zamislili - tako znotraj naših kot z zunanjimi bazami podatkov.
  9. V nasprotju z nekdanjimi "hypi" npr. socialna omrežja oz. obstoječimi: Big data, blockchain, se pri Linked Open Data veliko ne govori, večina jih opozarja na težave in potrebo po uvajanju standardov, na drugi strani pa nastajajo rešitve, ki s prejšnjimi tehnologijami niso bile možne
  10. Seznam najbrž ne vključuje vsega, kar se je na tem področju naredilo…
  11. http://slides.com/ktk/fso-linked-data-pilot Švicarji: dobili primer podatkov v RDF
  12. Glede na kompleksnost predvidenih rešitev ni niti smiselno niti možno, da končni rezultat predvidimo vnaprej. Potrebno je začeti na manjših primerih, jih testirati, se kaj naučiti, spremeniti zasnovo če je potrebno in šele nato nadaljevati.
  13. Strateški pogled: "Start small, think big." Pilotni projekti Usklajevanja z Eurostatom in ESS Prilagajanje glede na odziv in potrebe uporabnikov Podpora vodstva Kadri in sposobnosti: Potrebna bodo nova tehnična znanja Zunanji izvajalci + nadgrajevanje znanj znotraj urada Kompetence na področju statistike, IT in diseminacije Notranja skupina za LOD Podatki in metapodatki: Osnova so povezani metapodatki Šifranti, koncepti in klasifikacije Spoštovanje veljavnih standardov Identificirati najbolj primerne podatke Pretvarjanje podatkov v povezane odprte pod. Poiskati najustreznejši način z vidika arhitekture Velika sprememba je fokus diseminacije (iz tabele na podatek) Upravljanje Koordinacija znotraj urada Sodelovanje z izvajalci Sodelovanje na nacionalni ravni Sodelovanje v okviru ESS Tehnologija in infrastruktura: Evalvacija obstoječih orodij Uporaba standardnega nabora orodij ESS Izgradnja portala odprtih podatkov z orodji za dostop do podatkov (SPARQL)