Linked Data pro Evropský sociální fond

Využití principů Linked Data v rámci
webových aplikací ESF ČR
Martin Nečaský, Ph.D.
necasky@xrg.cz
Matematicko-fyzikální fakulta Univerzity Karlovy
http://xrg.cz
http://opendata.cz

Architektura klasického webu
Webový Jednotný globální prostor dokumentů
Databáze
C prohlížeč
Postavený na několika standardech:
Databáze
HTTP D • HTML jako formát pro publikaci
HTML dokumentů
• URL jako jednoznačné globální
HTML identifikátory dokumentů
• HTTP protokol pro vyhledávání a
získávání dokumentů dle jejich URL
• odkazy pro propojování dokumentů
HTML
Nad prostorem dokumentů pracují
HTML aplikace dvou typů:
• webové prohlížeče (přístup k
Databáze HTTP
dokumentům dle URL + procházení
A
přes hypertextové odkazy)
Vyhledávač
Databáze • vyhledávače (indexace a fulltextové
B
vyhledávání v dokumentech)

Co umožňuje klasický web?
 Můžeme publikovat dokumenty tak, aby si je
každý mohl ve svém prohlížeči zobrazit, pokud
zná jejich URL.
 Vazby nám umožňují dostat se i na
dokumenty, jejichž URL přímo neznáme:
 Procházení odkazů vedoucích z jiných dokumentů
 Z katalogů odkazů
 Fulltextové vyhledání dokumentů (klíčová slova)

Co neumožňuje klasický web?
 Problém klasického webu je orientace na dokumenty
místo na entity, o kterých dokumenty mluví.
 entita = entita z reálného světa, o níž chceme na webu
publikovat nějaká data
 např. instituce, kniha, osoba, smlouva, zakázka, ...
 Data o jedné entitě jsme nuceni zakódovat do
dokumentu na webu v podobě, která neumožňuje
 strojové zpracování
 propojování a sdílení míst, kde se o entitě mluví
 propojování entity na související entity
 (viz příklady na následujících slajdech)

 Získat všechna data
publikována o entitě
„Martin Nečaský“ v
dokumentech na webu
 Sdílení dat mezi portály
 Portál může spravovat jen
data o entitě, která jsou v
jeho primárním zájmu.
 Ostatní (sekundární) data
může čerpat z jiných
portálů.


Jak pomocí odkazů říci, že
stránky pojednávají o stejné
entitě? Jak vyznačit, kde jsou
data o entitě určená pro sdílení?
Jak mohu na své stránce využít
data z jiných stránek?

 Odpovídat na složitější
vyhledávací dotazy:
 Jaká témata Martin
vyučuje?
 Na jakých školách
Martin vyučuje?
 Na jakých projektech
Martin pracuje?
 S kým Martin
spolupracuje?

Lze na webu publikovat i data?
 Současnou výzvou tedy je publikovat nejenom
dokumenty, ale i zdrojová data o entitách.
 Aby web mohl poskytnout i výše uvedené služby.
 Již dnes ale přeci na webu publikujeme často
právě i zdrojová data určená pro další zpracování.
 Známe dokonce 2 způsoby publikace dat:
 Datové soubory mají také svoje jednoznačné URL a
data reprezentují v různých formátech.
• XML, CSV, XLS, ...
 Pokročilým způsobem publikace dat jsou tzv. datová
API (součástí konceptu web 2.0).

Architektura webu 2.0
Různá API poskytují strojově čitelná
Databáze Aplikace data pro další zpracování v tzv.
C
HTTP mashup aplikacích.
Databáze
D
Data HTTP Také postaveny na několika
API jednoduchých standardech:
Data • XML/JSON jako formáty pro publikaci
API
dat
• HTTP protokol pro získávání dat
Data
API Ale pozor
Data
• chybí URL identifikátory (resp. jsou
API používány, ale nevhodně)
• chybí odkazy mezi daty
Databáze
HTTP HTTP
A

Databáze
Aplikace B

Publikace dat na webu
 Současné principy a technologie mají řadu nedostatků!
 Je potřeba si uvědomit, že jednotkou pro publikaci není soubor s
daty ale entita (většinou objekt reálného světa), o které chceme
data publikovat.
Ale
 Publikace dat o entitách ale není postavena na principech, které
Máme web nemáme
už byly jednou vynalezeny pro publikaci dokumentů. web dat
dokumentů

Svět dokumentů Svět dat
HTML jako formát pro publikaci dokumentů formátů pro publikaci dat používáme řadu
(XML, JSON, CSV, XLS, ...)
URL jako jednoznačné globální entitám nepřiřazujeme žádné globální
identifikátory dokumentů identifikátory
HTTP protokol pro vyhledávání a získávání HTTP protokol bychom mohli použít (REST),
dokumentů dle jejich URL ale nemáme URL identifikátory věcí
odkazy pro propojování dokumentů žádný z používaných formátů neumožňuje
propojování souvisejících entit

Srovnání webu dokumentů a publikace dat
na webu
 Můžeme publikovat  Můžeme publikovat
dokumenty tak, aby si je entity tak, aby si je
každý mohl ve svém každý mohl ve svém
prohlížeči zobrazit, pokud prohlížeči zobrazit, pokud
zná jejich URL. zná jejich URL.
 Vazby nám umožňují dostat  Vazby nám umožňují dostat
se i na dokumenty, jejichž se i na entity, jejichž
URL přímo neznáme: URL přímo neznáme:
 Procházení odkazů  Procházení odkazů
vedoucích z jiných vedoucích z jiných
dokumentů entit
 Z katalogů odkazů  Z katalogů odkazů
 Fulltextové vyhledání  Fulltextové vyhledání
dokumentů (klíčová slova) entit (klíčová slova)

Linked Data
 principy Linked Data = sada „best practices“
pro publikaci, sdílení a propojování entit a dat
o nich na webu
 využití standardů současného Webu pro publikaci
a přístup k entitám a datům o nich ve strojově
čitelné podobě (publishing data)
 možnost vytvářet vazby mezi souvisejícími
entitami a publikovat vazby jako součást dat pro
jejich strojové zpracování (linking data)
 + tajná zbraň, o které se zmíníme později

Publikace a přístup k datům
 data = entity, údaje o nich a vazby mezi nimi
 entita = organizace, projekt, zakázka, lék, ...
 údaj o věci = název organizace, IČ organizace
Máme web
 vazba
Máme web = zakázka je realizovaná v rámci projektu, organizace je
příjemcem projektu, účinná látka je obsažená v léku dat!
dokumentů

Svět dokumentů Svět Linked Data
HTML jako formát pro publikaci dokumentů RDF jako formát pro publikaci entit

URL jako jednoznačné globální URL jako jednoznačné globální
identifikátory dokumentů identifikátory entit
HTTP protokol pro vyhledávání a získávání HTTP protokol pro vyhledávání a získávání
dokumentů dle jejich URL entit dle jejich URL
odkazy pro propojování dokumentů vazby pro propojování entit

+ a jdeme ještě dál, je tu ta tajná zbraň 

Údaje o entitách a vazby mezi nimi

URL jako identifikátory entit

Vazby jsou chápány také jako entity

RDF reprezentace
 RDF je datový model
 reprezentuje entity, datové hodnoty a vazby v podobě RDF
grafu
 každá entita a datová hodnota tvoří uzel
 každá vazba mezi dvěma entitami nebo mezi entitou a datovou
hodnotou tvoří hranu
 entity i vazby mají svá URL

Zápis RDF reprezentace
 RDF graf je vždy zapsán jako množina trojic
 trojice popisuje jednu vazbu ve tvaru

subjekt predikát objekt

 trojice jsou zapisovány ve vhodné notaci
 RDF/XML, RDFa, N3, Turtle, JSON

Zápis RDF reprezentace - Turtle
<http://esfcr.cz/data/projekt/CZ10421016300169>
esf:nazev "INNOSTART" ;
esf:registracni_cislo "CZ.1.04/2.1.01/63.00169" ;
esf:castka "4711681" ;
esf:realizace_od "2011-06-01" ;
esf:realizace_do "2013-03-31" ;
esf:realizator <http://esfcr.cz/data/institution/25438352> ;
esf:partner <http://esfcr.cz/data/institution/25438352> ;
esf:kontaktni_osoba <http://esfcr.cz/data/person/8541274571> ;
esf:region <http://esfcr.cz/data/kraj/ustecky> .

Přístup přes HTTP protokol

Webový prohlížeč Aplikace

<http://esfcr.cz/data/projekt/CZ10421016300169>
esf:nazev "INNOSTART" ;
esf:registracni_cislo "CZ.1.04/2.1.01/63.00169" ;
HTTP HTTP esf:castka "4711681" ;
esf:realizace_od "2011-06-01" ;
(HTML) (RDF) esf:realizace_do "2013-03-31" ;
esf:realizator <http://esfcr.cz/.../25438352> ;
esf:partner <http://esfcr.cz/.../25438352> ;
esf:kontaktni_osoba <http://esfcr.cz/.../8541274571>;
http://esfcr.cz/.../projekt/ http://esfcr.cz/.../projekt/
esf:region <http://esfcr.cz/.../ustecky> .

CZ10421016300169 CZ10421016300169

esfcr.cz

Propojování objektů napříč datovými zdroji

Propojování objektů napříč datovými zdroji

ROP *
Rozpočty Zakázky

OPPI
strukturalni
Územní -fondy.cz
celky
OPD
Obchodní
rejstřík

Školy
ESFCR

ESFDB RISY

LOD cloud
ROP *
Rozpočty Zakázky

 Pokud se někdo z OPPI
strukturalni-
Územní

lokálního „cloudu“ napojí
fondy.cz

celky
OPD
Obchodní
rejstřík
ESFCR

na LOD cloud, profitují z
Školy

ESFDB RISY

napojení všichni
 Propojování mohou
vznikat postupně a v různé
kvalitě; kvantita i kvalita
propojení se může
postupně zvyšovat

Ukázka z LOD cloudu

http://dbpedia.org/resource/Ústí_nad_Labem_Region http://dbpedia.org/resource/Most

Rekapitulace Linked Data

Svět Linked Data
RDF jako formát pro publikaci entit

URL jako jednoznačné globální
identifikátory entit
HTTP protokol pro vyhledávání a získávání
entit dle jejich URL
vazby pro propojování entit

+ a nyní ta tajná zbraň

Tajná zbraň = Ontologie (slovníky)
 web dokumentů zná jen dva jednoduché
koncepty
 dokumenty
 hypertextové nevýznamové odkazy mezi dokumenty
 web dat zná řadu různých konceptů
 entity mnoha významů (typů)
• osoby, města, projekty, rozpočty, ...
 významová propojení mezi entitami a jejich datovými
hodnotami i mezi entitami navzájem
• jméno osoby, jméno města, region projektu, ....
 významy jsou důležité pro strojové zpracování
 významy jsou zachyceny v tzv. ontologiích
• tento pojem web dokumentů NEZNÁ

 popisují strukturu a sémantiku dat
 související ontologie vzájemně propojeny
  interoperabilita


http://labs.mondeca.com/dataset/lov/

 schema.org
 CreativeWork, Book, Movie, MusicRecording, Recipe,
TVSeries ...
 AudioObject, ImageObject, VideoObject
 Event
 Organization
 Person
 Place, LocalBusiness, Restaurant ...
 Product, Offer, AggregateOffer
 Review, AggregateRating
 + mnoho dalších

Jak s LD pracovat?
 Bohužel dnes není technicky možné pracovat s
celým LOD cloudem
 Současné projekty využívají LD principů k
publikaci a obohacování vlastních dat
 Výběr konkrétních obohacujících datasetů (přístup
přes HTTP URI nebo pomocí jazyka SPARQL)
 Napojení vlastních dat na zvolené externí datasety

Co nabízí MFF UK?
Reference: Služby:
• veřejné zakázky • semináře,
a související Veřejná Linked školení
data pro LOD2 a Data • průzkum
DG Market Veřejné zdroje možností využití
Neveřejná
• rozpočty a (HTML, Excel, LD ve vaší
interní databáze
účetní ...) organizaci
informace ze (obohacování
systému ÚFIS dat o LD,
• OGP pro Vládu - extrakce publikace dat
ČR a MV ČR - deduplikace jako LD)
• legislativa ČR v ETL - čištění • vývoj aplikací
rámci - propojování nad LD
výzkumného - odvozování • konverze
projektu INTLIB existujících
(TAČR) veřejných
• vlastní iniciativa Vizualizace APP datových zdrojů
OpenData.cz Analýzy do LD (HTML,
APP Publikace APP Excel)
• ...

Co znamená publikovat vlastní LD?
 Analýza vlastních dat
 Jaká máme data? Co můžeme/chceme publikovat?
 Jak data v různých našich databázích spolu souvisí? Jak souvisí s daty
jiných subjektů?
 Strukturovaný popis domény
 Popis struktury a sémantiky dat, které chceme zveřejnit?
 Návrh ontologie
 Jaké již existují používané ontologie pokrývající náš doménový model?
 Návrh vlastní ontologie pro části nepokryté existujícími ontologiemi.
 Mapování vlastní nové ontologie konceptů na existující ontologie.
 Export dat
 Skripty exportující data do podoby navržené ontologie.
 Propojení dat s existujícími daty v LOD cloudu.
 Publikace dat
 Aplikace nad daty
 Lze nechat na někom jiném

Příklad publikace LD (Veřejné zakázky)
Analýza a popis domény

Návrh ontologie

Publikace dat
 http://ld.opendata.cz/resource/business-
entity/00276111
 data o Semilech vytvořená v rámci OpenData.cz
dle navržené ontologie
 http://ld.opendata.cz/resource/municipality/0
0276111
 jiná data o Semilech
 všimněte si vazeb sameAs

Aplikace nad daty
 http://ld.opendata.cz/demo
 demo aplikace nad Linked Daty o veřejných
zakázkách v celé EU
 data vytěžená z TED, národních portálů (např.
isvzus.cz) + DBPedia

Aplikace nad daty
 http://studentweb.xrg.cz/hospodareni-obci/
 aplikace nad Linked Daty o hospodaření obcí
 data vytěžená z UFIS + DBPedia
• UFIS = http://wwwinfo.mfcr.cz/ufis/
 http://studentweb2.xrg.cz/bp-linked-data-
rejskol
 aplikace nad Linked Daty z rejstříku škol
 data vytěžená z rejstříků MŠMT a MPSV
• MŠMT = http://rejskol.msmt.cz/
• MPSV = http://portal.mpsv.cz/

LD principy zlepšují atributy kvality
datové infrasturktury
 Propojitelnost
 Mohu snadno propojovat svá data na jiná data. Svá data tak obohatím o nová související data, která ale
nemusím udržovat ve své databázi.
 Dohledatelnost
 Ostatní mohou efektivněji nalézt má data díky propojením na jiná data.
 Kontextovost
 Na moje data lze nahlížet z různých kontextů daných vazbami na jiná data.
 Neúplnost
 Data o objektech a především propojení mezi objekty lze budovat a zveřejňovat postupně. Propojení
nemusejí být zdaleka úplná (jak kvantitativně tak kvalitativně). Už při malém množství propojení se přínosy
projeví.
 Distribuovatelnost
 Data a propojení mezi nimi není nutné publikovat „u zdroje“. Může je publikovat kdokoliv a kdekoliv.
 Souvislost
 Díky propojením tvoří data souvislý datový prostor, se kterým mohou aplikace pracovat jako s jednou
databází.
 Pluralita
 Různí lidé mohou publikovat různá (i protichůdná) tvrzení o stejném objektu. Lze tak reflektovat běžné
situace ve společnosti.
 Modifikovatelnost (flexibilita)
 Datová infrastruktura je odolná vůči změnám. Změny (např. mazání dat) mohou být jen na úrovni
jednotlivých trojic a nezasahují jiné trojice. Jsou tak maximálně lokalizovány. A to jak na úrovni instancí, tak
na úrovni schémat (ontologií).
 Transparentnost
 V datech lze také zaznamenat, kdo, kde, kdy a pod jakou licencí data publikoval.

Co přinášejí LD pro vydavatele dat
 rozložení nákladů na různé činnosti s daty
 v čase
 mezi jednotlivé uživatele
 činnosti
• publikace – data mohu publikovat postupně a publikuji jen svá primární data
(na sekundární se napojím)
• aktualizace – aktualizuji ve své databázi jen svá primární data, sekundární data
aktualizují jejich správci a díky propojením se o aktualizacích hned dozvím
• propojování – nemusím propojení vytvářet sám a nemusím hned vytvářet
přesná propojení; ostatní uživatelé infrastruktury mi pomohou s kvantitou i
kvalitou propojení
 obohacování dat
 zveřejněním dat v podobě LD a vytvořením relativně malého množství
propojení obohatím svá data o všechna související data v LOD cloudu
 s obohacováním mi pomáhají všichni uživatelé LOD cloudu
 uživatelé mi pomáhají se zvyšováním kvality mých dat (mohou chyby v
mých datech opravovat tak, že své opravy publikují v LOD cloudu)

Co přinášejí LD pro tvůrce aplikací?
 získávají jednotný formát, ve kterém mohou
konzumovat data z různých zdrojů
 z dat se díky propojením snadno dostanou na
související data
 získávají přístup k celosvětové distribuované
databázi (LOD cloudu), kterou mohou využít ve
své aplikaci
 databáze navíc kontinuálně roste a zvyšuje svoji
informační hodnotu
 vědí, od koho data pocházejí a pod jakou licencí
jsou publikována

Enterprise Linked Data
 pojem označující využívání LD principů uvnitř
organizace
 v případech, kdy se svými daty nemůže nakládat zcela
otevřeně (osobní či jiné chráněné údaje)
 jedná se o architektonický styl budování datové
infrastruktury uvnitř organizace
 navíc velmi přirozený, neboť je postaven na běžných
technologiích (URI, HTTP, ...) – fungují stávající nástroje
 přináší všechny výhody LD do organizace
 viz atributy kvality výše
 umožňuje využívat externí otevřená LD z LOD cloudu
uvnitř organizace pro obohacování vlastních dat
organizace

Příklady ze světa
 BBC
 US and UK Government
 NY Times
 Best Buy
 Sears
 Kmart
 Overstock
 Google
 Nature
 mnoho dalších (viz LOD cloud)

Linked Data pro Evropský sociální fond

Recommended

Recommended

More Related Content

Similar to Linked Data pro Evropský sociální fond

Similar to Linked Data pro Evropský sociální fond (20)

More from Martin Necasky

More from Martin Necasky (14)

Linked Data pro Evropský sociální fond