SEMANTISKAIS TĪMEKLIS
UN ATVĒRTIE DATI
Uldis Bojārs
Latvijas Nacionālā bibliotēka,
LU Matemātikas un informātikas institūt...
“Data is a 21st century commodity:
it’s the new oil.
There’s almost no limit to the economic and
social wonders it can gen...
Atvērto datu veidi
•
•
•
•
•

Valdības dati
Pašvaldību dati
Kultūras mantojuma dati
Izglītības un zinātnes organizāciju da...
Lai pilnībā izmantotu atvērto datu
potenciālu, datiem jābūt:
–atrodamiem
–lietojamiem
–saprotamiem
http://www.w3.org/2014/Talks/0123_phila_lata/#(14)
“Vieglais” semantiskais tīmeklis
• 5* Linked Data (saistītie dati)
• Datu kopu metadati
• Datu nozīme (semantika)
• Standa...
Tehniskā informācija:

http://www.slideshare.net/CaptSolo/linked-open-data-20184278
Latvijas atvērtie dati
Vai tādi vispār ir?
Kā nodrošināt, ka lietotāji tos var atrast?
http://datahub.io/dataset/bluk-bnb
CKAN programmatūra datu portāliem @ http://ckan.org
• Dati par datiem
• Viss, kas ir jāzin, lai datu kopu varētu
atrast, saprast un lietot
• Pirmkārt: ka te vispār *atrodas* ...
Metadatu publicēšana
• saistīto datu principi (URI, ...)
• anotāciju iekļaušana HTML lapās: RDFa
• schema.org - http://sch...
Ko tas viss nozīmē?

Kā šo informāciju saprast un izmantot?
Lai pilnībā izmantotu atvērto datu
potenciālu, datiem jābūt:
–atrodamiem
–lietojamiem
–saprotamiem
http://okfnlabs.org/bad-data/ex/bls-us-employment/
http://www.w3.org/2014/Talks/0123_phila_lata/#(14)
• “The UK government is convinced linked data
is the best approach available
– for publishing data in a hugely diverse and...
Atvērts standarts:
MARC 21
Bibliotēku speciālisti to
[varbūt] zin no galvas.
Vai šie dati ir ērti
lietojami plašam
interes...
Lietas, ko zinās
speciālists:
001 = identifikators

670 = atsauces
(te parādās saites uz
citiem ierakstiem !!!)
Dati ir atvērti (CSV faili), tomēr lietotājs var nezināt:
– kā atrast saistīto informāciju (piem., Saeimas lēmumi)
– ka va...
4* = Labi identifikatori
• Ļauj norādīt uz datu kopām un atsevišķiem
ierakstiem
– “Šajā adresē ir interesanti dati, vērts ...
• D472BF93A1272030C22579100046C50F
• http://titania.saeima.lv/personal/deputati/sae
ima11_depweb_public.nsf/0/D472BF93A127...
Labi Identifikatori = URI
• 4* open data:
– Lietojam tīmekļa standartus (HTTP URI kā identifikatori)

• Zinot adresi, dati...
Saistītie dati (RDF
formā), MARC21, XML, ...
No tā paša URI var saņemt gan
cilvēkas lasāmus, gan
mašīnlasāmus datus
viens ID -> dažādi formāti

Tīmekļa lapa

MARC-XML
http://viaf.org/viaf/12431977/
#Aspazija,_1868-1943

RDF (saistītie dat...
5* = Saites starp objektiem
• Ļauj ceļot starp datiem, atklāt jaunas datu kopas
– “Tas ir tāpat kā sērfot tīmeklī !”

• Re...
VIAF:
saites ar citiem objektiem
• Aspazija:
– http://viaf.org/viaf/12431977/#Aspazija,_1868-1943
– informācija par person...
• Aspazija @ DBPedia
– http://dbpedia.org/resource/Aspazija
– strukturēti dati, kas savākti no Vikipēdijas

• Atribūti + S...
Linking Open Data cloud diagram,
by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html
Kopsavilkums
• Datiem jābūt:
– atrodamiem, lietojamiem un saprotamiem

• Saistītie atvērtie dati = risinājums:
– datu kopu...
Uldis Bojārs
LNB - Semantiskā tīmekļa eksperts
LU MII - Pētnieks (atvērtie saistītie dati)
• http://www.slideshare.net/Cap...
Semantiskais tīmeklis un Atvērtie dati
Semantiskais tīmeklis un Atvērtie dati
Semantiskais tīmeklis un Atvērtie dati
Upcoming SlideShare
Loading in...5
×

Semantiskais tīmeklis un Atvērtie dati

686

Published on

Saistīto datu (semantiskā tīmekļa) iespējas atvērto datu publicēšanā: datu atrodamība, lietojamība un saprotamība.

LATA konference "Atvērtie dati: iespējas un izaicinājumi" - http://lata.org.lv/?page_id=1210 - 23.01.2014

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
686
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
2
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • http://blog.okfn.org/2012/09/20/rest-assured-the-eu-is-behind-you-says-european-commissioner-neelie-kroes-to-okfestival-participants/
  • parasti: faili (CSV, Excel, ...) valstsiestāžutīmekļalapās
  • hakatonurezultāti
  • piemērskāpublicētdatukopas
  • federētāpieeja - sākums: mašīnlasāmimetadati -- ne tikailatviešuvalodāizlasāms, nestrukturētsteksts (kādiirmūsupieņēmumi?) - publicējamdatuskopāarmetadatiem - automātiskisavācamtosvienotāreģistrā -- reģistrivarapkopotcitureģistruinformāciju
  • http://www.google.com/webmasters/tools/richsnippets?q=http%3A%2F%2Fviaf.org%2Fviaf%2Fdata%2Fhttp://schema.org/DatasetW3C Recommendation 16 January 2014
  • multi-lingualarī ne nozaresekspertiem
  • skat. JeniTblogaierakstu
  • irarī XML formāhttps://lira.lanet.lv/F/?func=full-set-set&set_number=003095&set_entry=000001&format=001
  • irarī XML formāhttps://lira.lanet.lv/F/?func=full-set-set&set_number=003095&set_entry=000001&format=001
  • semantika: kājēgpilniaprakstītdatus
  • irarīpilnsdatu dumps
  • datumodelēšanasjautājums
  • network effect (!!!)
  • Semantiskais tīmeklis un Atvērtie dati

    1. 1. SEMANTISKAIS TĪMEKLIS UN ATVĒRTIE DATI Uldis Bojārs Latvijas Nacionālā bibliotēka, LU Matemātikas un informātikas institūts LATA konference “Atvērtie dati: iespējas un izaicinājumi” 23-Jan-2014
    2. 2. “Data is a 21st century commodity: it’s the new oil. There’s almost no limit to the economic and social wonders it can generate: ...” Neelie Kroes (at OKFN 2012), VP of the European Commission and Commissioner for the Digital Agenda
    3. 3. Atvērto datu veidi • • • • • Valdības dati Pašvaldību dati Kultūras mantojuma dati Izglītības un zinātnes organizāciju dati Portālu un ziņu aģentūru dati – ar rakstiem saistītā informācija • “Crowdsourced” dati – cilvēki, sociālais tīmekli • ... citu organizāciju un cilvēku apkopoti dati ...
    4. 4. Lai pilnībā izmantotu atvērto datu potenciālu, datiem jābūt: –atrodamiem –lietojamiem –saprotamiem
    5. 5. http://www.w3.org/2014/Talks/0123_phila_lata/#(14)
    6. 6. “Vieglais” semantiskais tīmeklis • 5* Linked Data (saistītie dati) • Datu kopu metadati • Datu nozīme (semantika) • Standarti: – URI, HTTP, RDF – SPARQL vaicājumu valoda – datu shēmas: schema.org, DCAT, Dublic Core, u.c. – drīzumā: CSV on the Web
    7. 7. Tehniskā informācija: http://www.slideshare.net/CaptSolo/linked-open-data-20184278
    8. 8. Latvijas atvērtie dati Vai tādi vispār ir? Kā nodrošināt, ka lietotāji tos var atrast?
    9. 9. http://datahub.io/dataset/bluk-bnb CKAN programmatūra datu portāliem @ http://ckan.org
    10. 10. • Dati par datiem • Viss, kas ir jāzin, lai datu kopu varētu atrast, saprast un lietot • Pirmkārt: ka te vispār *atrodas* datu kopa
    11. 11. Metadatu publicēšana • saistīto datu principi (URI, ...) • anotāciju iekļaušana HTML lapās: RDFa • schema.org - http://schema.org/Dataset – meklēšanas servisu (Google, Bing, ...) un lielāko sociālā tīmekļa vietņu (Facebook, ...) izstrādāts standarts • DCAT (Data Catalog Vocabulary) – http://www.w3.org/TR/vocab-dcat/ – W3C standarts datu kopu aprakstiem
    12. 12. Ko tas viss nozīmē? Kā šo informāciju saprast un izmantot?
    13. 13. Lai pilnībā izmantotu atvērto datu potenciālu, datiem jābūt: –atrodamiem –lietojamiem –saprotamiem
    14. 14. http://okfnlabs.org/bad-data/ex/bls-us-employment/
    15. 15. http://www.w3.org/2014/Talks/0123_phila_lata/#(14)
    16. 16. • “The UK government is convinced linked data is the best approach available – for publishing data in a hugely diverse and distributed environment, – in a gradual and sustainable way.” • avots: “Why Linked Data for data.gov.uk?” – http://www.jenitennison.com/blog/node/140
    17. 17. Atvērts standarts: MARC 21 Bibliotēku speciālisti to [varbūt] zin no galvas. Vai šie dati ir ērti lietojami plašam interesentu lokam?
    18. 18. Lietas, ko zinās speciālists: 001 = identifikators 670 = atsauces (te parādās saites uz citiem ierakstiem !!!)
    19. 19. Dati ir atvērti (CSV faili), tomēr lietotājs var nezināt: – kā atrast saistīto informāciju (piem., Saeimas lēmumi) – ka var būt vienādi vārdi + partijas (vairāki Andri Bērziņi?) – latviešu valodu (“noraidīts”, “atturas”, ...) http://data.opendata.lv/jbaiza/11-saeimas-balsojumi
    20. 20. 4* = Labi identifikatori • Ļauj norādīt uz datu kopām un atsevišķiem ierakstiem – “Šajā adresē ir interesanti dati, vērts apskatīt !” • Dod iespēju veidot saites data kopu un to objektu starpā – viss saitēm nepieciešamais jau ir identifikatorā iekšā • Citi nozīmīgi komponenti: – datu shēmas, ar kurām aprakstīt vajadzīgos datus
    21. 21. • D472BF93A1272030C22579100046C50F • http://titania.saeima.lv/personal/deputati/sae ima11_depweb_public.nsf/0/D472BF93A1272 030C22579100046C50F?OpenDocument&lan g=LV • http://lv.wikipedia.org/wiki/Solvita_Āboltiņa
    22. 22. Labi Identifikatori = URI • 4* open data: – Lietojam tīmekļa standartus (HTTP URI kā identifikatori) • Zinot adresi, datiem var pavaicāt: “pastāsti par sevi!” – Vienkārši ierakstam adresi tīmekļa pārlūkā • “Ceļojot” tīmeklī mēs jau lietojam identifikatorus (tīmekļa adreses) un saites lapu starpā – http://lv.wikipedia.org/wiki/Latvija • http://viaf.org/viaf/12431977/#Aspazija,_1868-1943
    23. 23. Saistītie dati (RDF formā), MARC21, XML, ... No tā paša URI var saņemt gan cilvēkas lasāmus, gan mašīnlasāmus datus
    24. 24. viens ID -> dažādi formāti Tīmekļa lapa MARC-XML http://viaf.org/viaf/12431977/ #Aspazija,_1868-1943 RDF (saistītie dati) saites objektu starpā (JSON, XML)
    25. 25. 5* = Saites starp objektiem • Ļauj ceļot starp datiem, atklāt jaunas datu kopas – “Tas ir tāpat kā sērfot tīmeklī !” • Rezultāts: datu tīmeklis • Tehniski: – atsaucoties uz citiem datiem, lieto to URI – katram URI var likt “pastāstīt par sevi”
    26. 26. VIAF: saites ar citiem objektiem • Aspazija: – http://viaf.org/viaf/12431977/#Aspazija,_1868-1943 – informācija par personu • Saites uz: – LIBRIS (Zviedrija), Vācijas nac. bibl., ... • http://libris.kb.se/resource/auth/175510 – DBPedia (Wikipēdijas semantiskais “spogulis”) • http://dbpedia.org/resource/Aspazija
    27. 27. • Aspazija @ DBPedia – http://dbpedia.org/resource/Aspazija – strukturēti dati, kas savākti no Vikipēdijas • Atribūti + Saites uz: – – – – dzīvesbiedrs: http://dbpedia.org/resource/Rainis dz. vieta: http://dbpedia.org/resource/Zaļenieku_parish http://dbpedia.org/resource/Category:Latvian_poets ... • Vēl vairāk dati + saites uz citiem datiem: – saistītie dati no nacionālajām bibliotēkām
    28. 28. Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
    29. 29. http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html
    30. 30. Kopsavilkums • Datiem jābūt: – atrodamiem, lietojamiem un saprotamiem • Saistītie atvērtie dati = risinājums: – datu kopu metadati (atrodamība) – izmanto atvērtus standartus (lietojamība) – apraksta datu nozīmi (saprotamība) Veidojot Latvijas atvērtos datus, darīsim to pareizi !
    31. 31. Uldis Bojārs LNB - Semantiskā tīmekļa eksperts LU MII - Pētnieks (atvērtie saistītie dati) • http://www.slideshare.net/CaptSolo/presentations • uldis.bojars@gmail.com • https://twitter.com/CaptSolo • Atvērto datu diskusiju grupa: – http://groups.google.com/group/opendata_lv
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×