Linked Data pro Evropský sociální fond

5,547 views
5,904 views

Published on

In Czech.

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
5,547
On SlideShare
0
From Embeds
0
Number of Embeds
4,570
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Linked Data pro Evropský sociální fond

  1. 1. Využití principů Linked Data v rámciwebových aplikací ESF ČR Martin Nečaský, Ph.D. necasky@xrg.cz Matematicko-fyzikální fakulta Univerzity Karlovy http://xrg.cz http://opendata.cz
  2. 2. Architektura klasického webu Webový Jednotný globální prostor dokumentů Databáze C prohlížeč Postavený na několika standardech: Databáze HTTP D • HTML jako formát pro publikaci HTML dokumentů • URL jako jednoznačné globální HTML identifikátory dokumentů • HTTP protokol pro vyhledávání a získávání dokumentů dle jejich URL • odkazy pro propojování dokumentů HTML Nad prostorem dokumentů pracují HTML aplikace dvou typů: • webové prohlížeče (přístup kDatabáze HTTP dokumentům dle URL + procházení A přes hypertextové odkazy) Vyhledávač Databáze • vyhledávače (indexace a fulltextové B vyhledávání v dokumentech)
  3. 3. Co umožňuje klasický web? Můžeme publikovat dokumenty tak, aby si je každý mohl ve svém prohlížeči zobrazit, pokud zná jejich URL. Vazby nám umožňují dostat se i na dokumenty, jejichž URL přímo neznáme:  Procházení odkazů vedoucích z jiných dokumentů  Z katalogů odkazů  Fulltextové vyhledání dokumentů (klíčová slova)
  4. 4. Co neumožňuje klasický web? Problém klasického webu je orientace na dokumenty místo na entity, o kterých dokumenty mluví.  entita = entita z reálného světa, o níž chceme na webu publikovat nějaká data  např. instituce, kniha, osoba, smlouva, zakázka, ... Data o jedné entitě jsme nuceni zakódovat do dokumentu na webu v podobě, která neumožňuje  strojové zpracování  propojování a sdílení míst, kde se o entitě mluví  propojování entity na související entity  (viz příklady na následujících slajdech)
  5. 5. Co neumožňuje klasický web? Získat všechna data publikována o entitě „Martin Nečaský“ v dokumentech na webu Sdílení dat mezi portály  Portál může spravovat jen data o entitě, která jsou v jeho primárním zájmu.  Ostatní (sekundární) data může čerpat z jiných portálů.
  6. 6. Co neumožňuje klasický web? Jak pomocí odkazů říci, že stránky pojednávají o stejné entitě? Jak vyznačit, kde jsou data o entitě určená pro sdílení? Jak mohu na své stránce využít data z jiných stránek?
  7. 7. Co neumožňuje klasický web? Odpovídat na složitější vyhledávací dotazy:  Jaká témata Martin vyučuje?  Na jakých školách Martin vyučuje?  Na jakých projektech Martin pracuje?  S kým Martin spolupracuje?
  8. 8. Lze na webu publikovat i data? Současnou výzvou tedy je publikovat nejenom dokumenty, ale i zdrojová data o entitách.  Aby web mohl poskytnout i výše uvedené služby. Již dnes ale přeci na webu publikujeme často právě i zdrojová data určená pro další zpracování. Známe dokonce 2 způsoby publikace dat:  Datové soubory mají také svoje jednoznačné URL a data reprezentují v různých formátech. • XML, CSV, XLS, ...  Pokročilým způsobem publikace dat jsou tzv. datová API (součástí konceptu web 2.0).
  9. 9. Architektura webu 2.0 Různá API poskytují strojově čitelná Databáze Aplikace data pro další zpracování v tzv. C HTTP mashup aplikacích. Databáze D Data HTTP Také postaveny na několika API jednoduchých standardech: Data • XML/JSON jako formáty pro publikaci API dat • HTTP protokol pro získávání dat Data API Ale pozor Data • chybí URL identifikátory (resp. jsou API používány, ale nevhodně) • chybí odkazy mezi datyDatabáze HTTP HTTP A Databáze Aplikace B
  10. 10. Publikace dat na webu  Současné principy a technologie mají řadu nedostatků!  Je potřeba si uvědomit, že jednotkou pro publikaci není soubor s daty ale entita (většinou objekt reálného světa), o které chceme data publikovat. Ale  Publikace dat o entitách ale není postavena na principech, které Máme web nemáme už byly jednou vynalezeny pro publikaci dokumentů. web dat dokumentů Svět dokumentů Svět datHTML jako formát pro publikaci dokumentů formátů pro publikaci dat používáme řadu (XML, JSON, CSV, XLS, ...)URL jako jednoznačné globální entitám nepřiřazujeme žádné globálníidentifikátory dokumentů identifikátoryHTTP protokol pro vyhledávání a získávání HTTP protokol bychom mohli použít (REST),dokumentů dle jejich URL ale nemáme URL identifikátory věcíodkazy pro propojování dokumentů žádný z používaných formátů neumožňuje propojování souvisejících entit
  11. 11. Srovnání webu dokumentů a publikace dat na webu Můžeme publikovat  Můžeme publikovat dokumenty tak, aby si je entity tak, aby si je každý mohl ve svém každý mohl ve svém prohlížeči zobrazit, pokud prohlížeči zobrazit, pokud zná jejich URL. zná jejich URL. Vazby nám umožňují dostat  Vazby nám umožňují dostat se i na dokumenty, jejichž se i na entity, jejichž URL přímo neznáme: URL přímo neznáme:  Procházení odkazů  Procházení odkazů vedoucích z jiných vedoucích z jiných dokumentů entit  Z katalogů odkazů  Z katalogů odkazů  Fulltextové vyhledání  Fulltextové vyhledání dokumentů (klíčová slova) entit (klíčová slova)
  12. 12. Linked Data principy Linked Data = sada „best practices“ pro publikaci, sdílení a propojování entit a dat o nich na webu  využití standardů současného Webu pro publikaci a přístup k entitám a datům o nich ve strojově čitelné podobě (publishing data)  možnost vytvářet vazby mezi souvisejícími entitami a publikovat vazby jako součást dat pro jejich strojové zpracování (linking data)  + tajná zbraň, o které se zmíníme později
  13. 13. Publikace a přístup k datům  data = entity, údaje o nich a vazby mezi nimi  entita = organizace, projekt, zakázka, lék, ...  údaj o věci = název organizace, IČ organizace Máme web  vazba Máme web = zakázka je realizovaná v rámci projektu, organizace je příjemcem projektu, účinná látka je obsažená v léku dat! dokumentů Svět dokumentů Svět Linked DataHTML jako formát pro publikaci dokumentů RDF jako formát pro publikaci entitURL jako jednoznačné globální URL jako jednoznačné globálníidentifikátory dokumentů identifikátory entitHTTP protokol pro vyhledávání a získávání HTTP protokol pro vyhledávání a získávánídokumentů dle jejich URL entit dle jejich URLodkazy pro propojování dokumentů vazby pro propojování entit + a jdeme ještě dál, je tu ta tajná zbraň 
  14. 14. Údaje o entitách a vazby mezi nimi
  15. 15. URL jako identifikátory entit
  16. 16. Vazby jsou chápány také jako entity
  17. 17. RDF reprezentace RDF je datový model reprezentuje entity, datové hodnoty a vazby v podobě RDF grafu  každá entita a datová hodnota tvoří uzel  každá vazba mezi dvěma entitami nebo mezi entitou a datovou hodnotou tvoří hranu  entity i vazby mají svá URL
  18. 18. Zápis RDF reprezentace RDF graf je vždy zapsán jako množina trojic trojice popisuje jednu vazbu ve tvaru subjekt predikát objekt trojice jsou zapisovány ve vhodné notaci  RDF/XML, RDFa, N3, Turtle, JSON
  19. 19. Zápis RDF reprezentace - Turtle<http://esfcr.cz/data/projekt/CZ10421016300169> esf:nazev "INNOSTART" ; esf:registracni_cislo "CZ.1.04/2.1.01/63.00169" ; esf:castka "4711681" ; esf:realizace_od "2011-06-01" ; esf:realizace_do "2013-03-31" ; esf:realizator <http://esfcr.cz/data/institution/25438352> ; esf:partner <http://esfcr.cz/data/institution/25438352> ; esf:kontaktni_osoba <http://esfcr.cz/data/person/8541274571> ; esf:region <http://esfcr.cz/data/kraj/ustecky> .
  20. 20. Přístup přes HTTP protokol Webový prohlížeč Aplikace <http://esfcr.cz/data/projekt/CZ10421016300169> esf:nazev "INNOSTART" ; esf:registracni_cislo "CZ.1.04/2.1.01/63.00169" ; HTTP HTTP esf:castka "4711681" ; esf:realizace_od "2011-06-01" ; (HTML) (RDF) esf:realizace_do "2013-03-31" ; esf:realizator <http://esfcr.cz/.../25438352> ; esf:partner <http://esfcr.cz/.../25438352> ; esf:kontaktni_osoba <http://esfcr.cz/.../8541274571>;http://esfcr.cz/.../projekt/ http://esfcr.cz/.../projekt/ esf:region <http://esfcr.cz/.../ustecky> . CZ10421016300169 CZ10421016300169 esfcr.cz
  21. 21. Propojování objektů napříč datovými zdroji
  22. 22. Propojování objektů napříč datovými zdroji ROP *Rozpočty Zakázky OPPI strukturalniÚzemní -fondy.cz celky OPD Obchodní rejstřík Školy ESFCR ESFDB RISY
  23. 23. LOD cloud ROP * Rozpočty Zakázky Pokud se někdo z OPPI strukturalni- Územní lokálního „cloudu“ napojí fondy.cz celky OPD Obchodní rejstřík ESFCR na LOD cloud, profitují z Školy ESFDB RISY napojení všichni Propojování mohou vznikat postupně a v různé kvalitě; kvantita i kvalita propojení se může postupně zvyšovat
  24. 24. Ukázka z LOD clouduhttp://dbpedia.org/resource/Ústí_nad_Labem_Region http://dbpedia.org/resource/Most
  25. 25. Rekapitulace Linked Data Svět Linked Data RDF jako formát pro publikaci entit URL jako jednoznačné globální identifikátory entit HTTP protokol pro vyhledávání a získávání entit dle jejich URL vazby pro propojování entit + a nyní ta tajná zbraň
  26. 26. Tajná zbraň = Ontologie (slovníky) web dokumentů zná jen dva jednoduché koncepty  dokumenty  hypertextové nevýznamové odkazy mezi dokumenty web dat zná řadu různých konceptů  entity mnoha významů (typů) • osoby, města, projekty, rozpočty, ...  významová propojení mezi entitami a jejich datovými hodnotami i mezi entitami navzájem • jméno osoby, jméno města, region projektu, ....  významy jsou důležité pro strojové zpracování  významy jsou zachyceny v tzv. ontologiích • tento pojem web dokumentů NEZNÁ
  27. 27. Tajná zbraň = Ontologie (slovníky) popisují strukturu a sémantiku dat související ontologie vzájemně propojeny   interoperabilita
  28. 28. Tajná zbraň = Ontologie (slovníky) http://labs.mondeca.com/dataset/lov/
  29. 29. Tajná zbraň = Ontologie (slovníky) schema.org  CreativeWork, Book, Movie, MusicRecording, Recipe, TVSeries ...  AudioObject, ImageObject, VideoObject  Event  Organization  Person  Place, LocalBusiness, Restaurant ...  Product, Offer, AggregateOffer  Review, AggregateRating  + mnoho dalších
  30. 30. Jak s LD pracovat? Bohužel dnes není technicky možné pracovat s celým LOD cloudem Současné projekty využívají LD principů k publikaci a obohacování vlastních dat  Výběr konkrétních obohacujících datasetů (přístup přes HTTP URI nebo pomocí jazyka SPARQL)  Napojení vlastních dat na zvolené externí datasety
  31. 31. Co nabízí MFF UK?Reference: Služby:• veřejné zakázky • semináře, a související Veřejná Linked školení data pro LOD2 a Data • průzkum DG Market Veřejné zdroje možností využití Neveřejná• rozpočty a (HTML, Excel, LD ve vaší interní databáze účetní ...) organizaci informace ze (obohacování systému ÚFIS dat o LD,• OGP pro Vládu - extrakce publikace dat ČR a MV ČR - deduplikace jako LD)• legislativa ČR v ETL - čištění • vývoj aplikací rámci - propojování nad LD výzkumného - odvozování • konverze projektu INTLIB existujících (TAČR) veřejných• vlastní iniciativa Vizualizace APP datových zdrojů OpenData.cz Analýzy do LD (HTML, APP Publikace APP Excel) • ...
  32. 32. Co znamená publikovat vlastní LD? Analýza vlastních dat  Jaká máme data? Co můžeme/chceme publikovat?  Jak data v různých našich databázích spolu souvisí? Jak souvisí s daty jiných subjektů? Strukturovaný popis domény  Popis struktury a sémantiky dat, které chceme zveřejnit? Návrh ontologie  Jaké již existují používané ontologie pokrývající náš doménový model?  Návrh vlastní ontologie pro části nepokryté existujícími ontologiemi.  Mapování vlastní nové ontologie konceptů na existující ontologie. Export dat  Skripty exportující data do podoby navržené ontologie.  Propojení dat s existujícími daty v LOD cloudu. Publikace dat Aplikace nad daty  Lze nechat na někom jiném
  33. 33. Příklad publikace LD (Veřejné zakázky) Analýza a popis domény
  34. 34. Příklad publikace LD (Veřejné zakázky) Návrh ontologie
  35. 35. Příklad publikace LD (Veřejné zakázky) Publikace dat http://ld.opendata.cz/resource/business- entity/00276111  data o Semilech vytvořená v rámci OpenData.cz dle navržené ontologie http://ld.opendata.cz/resource/municipality/0 0276111  jiná data o Semilech všimněte si vazeb sameAs
  36. 36. Příklad publikace LD (Veřejné zakázky) Aplikace nad daty http://ld.opendata.cz/demo  demo aplikace nad Linked Daty o veřejných zakázkách v celé EU  data vytěžená z TED, národních portálů (např. isvzus.cz) + DBPedia
  37. 37. Příklad publikace LD (Veřejné zakázky) Aplikace nad daty http://studentweb.xrg.cz/hospodareni-obci/  aplikace nad Linked Daty o hospodaření obcí  data vytěžená z UFIS + DBPedia • UFIS = http://wwwinfo.mfcr.cz/ufis/ http://studentweb2.xrg.cz/bp-linked-data- rejskol  aplikace nad Linked Daty z rejstříku škol  data vytěžená z rejstříků MŠMT a MPSV • MŠMT = http://rejskol.msmt.cz/ • MPSV = http://portal.mpsv.cz/
  38. 38. LD principy zlepšují atributy kvality datové infrasturktury Propojitelnost  Mohu snadno propojovat svá data na jiná data. Svá data tak obohatím o nová související data, která ale nemusím udržovat ve své databázi. Dohledatelnost  Ostatní mohou efektivněji nalézt má data díky propojením na jiná data. Kontextovost  Na moje data lze nahlížet z různých kontextů daných vazbami na jiná data. Neúplnost  Data o objektech a především propojení mezi objekty lze budovat a zveřejňovat postupně. Propojení nemusejí být zdaleka úplná (jak kvantitativně tak kvalitativně). Už při malém množství propojení se přínosy projeví. Distribuovatelnost  Data a propojení mezi nimi není nutné publikovat „u zdroje“. Může je publikovat kdokoliv a kdekoliv. Souvislost  Díky propojením tvoří data souvislý datový prostor, se kterým mohou aplikace pracovat jako s jednou databází. Pluralita  Různí lidé mohou publikovat různá (i protichůdná) tvrzení o stejném objektu. Lze tak reflektovat běžné situace ve společnosti. Modifikovatelnost (flexibilita)  Datová infrastruktura je odolná vůči změnám. Změny (např. mazání dat) mohou být jen na úrovni jednotlivých trojic a nezasahují jiné trojice. Jsou tak maximálně lokalizovány. A to jak na úrovni instancí, tak na úrovni schémat (ontologií). Transparentnost  V datech lze také zaznamenat, kdo, kde, kdy a pod jakou licencí data publikoval.
  39. 39. Co přinášejí LD pro vydavatele dat rozložení nákladů na různé činnosti s daty  v čase  mezi jednotlivé uživatele  činnosti • publikace – data mohu publikovat postupně a publikuji jen svá primární data (na sekundární se napojím) • aktualizace – aktualizuji ve své databázi jen svá primární data, sekundární data aktualizují jejich správci a díky propojením se o aktualizacích hned dozvím • propojování – nemusím propojení vytvářet sám a nemusím hned vytvářet přesná propojení; ostatní uživatelé infrastruktury mi pomohou s kvantitou i kvalitou propojení obohacování dat  zveřejněním dat v podobě LD a vytvořením relativně malého množství propojení obohatím svá data o všechna související data v LOD cloudu  s obohacováním mi pomáhají všichni uživatelé LOD cloudu  uživatelé mi pomáhají se zvyšováním kvality mých dat (mohou chyby v mých datech opravovat tak, že své opravy publikují v LOD cloudu)
  40. 40. Co přinášejí LD pro tvůrce aplikací? získávají jednotný formát, ve kterém mohou konzumovat data z různých zdrojů z dat se díky propojením snadno dostanou na související data získávají přístup k celosvětové distribuované databázi (LOD cloudu), kterou mohou využít ve své aplikaci  databáze navíc kontinuálně roste a zvyšuje svoji informační hodnotu vědí, od koho data pocházejí a pod jakou licencí jsou publikována
  41. 41. Enterprise Linked Data pojem označující využívání LD principů uvnitř organizace  v případech, kdy se svými daty nemůže nakládat zcela otevřeně (osobní či jiné chráněné údaje) jedná se o architektonický styl budování datové infrastruktury uvnitř organizace  navíc velmi přirozený, neboť je postaven na běžných technologiích (URI, HTTP, ...) – fungují stávající nástroje přináší všechny výhody LD do organizace  viz atributy kvality výše umožňuje využívat externí otevřená LD z LOD cloudu uvnitř organizace pro obohacování vlastních dat organizace
  42. 42. Příklady ze světa BBC US and UK Government NY Times Best Buy Sears Kmart Overstock Google Nature mnoho dalších (viz LOD cloud)

×