1. Využití principů Linked Data v rámci
webových aplikací ESF ČR
Martin Nečaský, Ph.D.
necasky@xrg.cz
Matematicko-fyzikální fakulta Univerzity Karlovy
http://xrg.cz
http://opendata.cz
2. Architektura klasického webu
Webový Jednotný globální prostor dokumentů
Databáze
C prohlížeč
Postavený na několika standardech:
Databáze
HTTP D • HTML jako formát pro publikaci
HTML dokumentů
• URL jako jednoznačné globální
HTML identifikátory dokumentů
• HTTP protokol pro vyhledávání a
získávání dokumentů dle jejich URL
• odkazy pro propojování dokumentů
HTML
Nad prostorem dokumentů pracují
HTML aplikace dvou typů:
• webové prohlížeče (přístup k
Databáze HTTP
dokumentům dle URL + procházení
A
přes hypertextové odkazy)
Vyhledávač
Databáze • vyhledávače (indexace a fulltextové
B
vyhledávání v dokumentech)
3. Co umožňuje klasický web?
Můžeme publikovat dokumenty tak, aby si je
každý mohl ve svém prohlížeči zobrazit, pokud
zná jejich URL.
Vazby nám umožňují dostat se i na
dokumenty, jejichž URL přímo neznáme:
Procházení odkazů vedoucích z jiných dokumentů
Z katalogů odkazů
Fulltextové vyhledání dokumentů (klíčová slova)
4. Co neumožňuje klasický web?
Problém klasického webu je orientace na dokumenty
místo na entity, o kterých dokumenty mluví.
entita = entita z reálného světa, o níž chceme na webu
publikovat nějaká data
např. instituce, kniha, osoba, smlouva, zakázka, ...
Data o jedné entitě jsme nuceni zakódovat do
dokumentu na webu v podobě, která neumožňuje
strojové zpracování
propojování a sdílení míst, kde se o entitě mluví
propojování entity na související entity
(viz příklady na následujících slajdech)
5. Co neumožňuje klasický web?
Získat všechna data
publikována o entitě
„Martin Nečaský“ v
dokumentech na webu
Sdílení dat mezi portály
Portál může spravovat jen
data o entitě, která jsou v
jeho primárním zájmu.
Ostatní (sekundární) data
může čerpat z jiných
portálů.
6. Co neumožňuje klasický web?
Jak pomocí odkazů říci, že
stránky pojednávají o stejné
entitě? Jak vyznačit, kde jsou
data o entitě určená pro sdílení?
Jak mohu na své stránce využít
data z jiných stránek?
7. Co neumožňuje klasický web?
Odpovídat na složitější
vyhledávací dotazy:
Jaká témata Martin
vyučuje?
Na jakých školách
Martin vyučuje?
Na jakých projektech
Martin pracuje?
S kým Martin
spolupracuje?
8. Lze na webu publikovat i data?
Současnou výzvou tedy je publikovat nejenom
dokumenty, ale i zdrojová data o entitách.
Aby web mohl poskytnout i výše uvedené služby.
Již dnes ale přeci na webu publikujeme často
právě i zdrojová data určená pro další zpracování.
Známe dokonce 2 způsoby publikace dat:
Datové soubory mají také svoje jednoznačné URL a
data reprezentují v různých formátech.
• XML, CSV, XLS, ...
Pokročilým způsobem publikace dat jsou tzv. datová
API (součástí konceptu web 2.0).
9. Architektura webu 2.0
Různá API poskytují strojově čitelná
Databáze Aplikace data pro další zpracování v tzv.
C
HTTP mashup aplikacích.
Databáze
D
Data HTTP Také postaveny na několika
API jednoduchých standardech:
Data • XML/JSON jako formáty pro publikaci
API
dat
• HTTP protokol pro získávání dat
Data
API Ale pozor
Data
• chybí URL identifikátory (resp. jsou
API používány, ale nevhodně)
• chybí odkazy mezi daty
Databáze
HTTP HTTP
A
Databáze
Aplikace B
10. Publikace dat na webu
Současné principy a technologie mají řadu nedostatků!
Je potřeba si uvědomit, že jednotkou pro publikaci není soubor s
daty ale entita (většinou objekt reálného světa), o které chceme
data publikovat.
Ale
Publikace dat o entitách ale není postavena na principech, které
Máme web nemáme
už byly jednou vynalezeny pro publikaci dokumentů. web dat
dokumentů
Svět dokumentů Svět dat
HTML jako formát pro publikaci dokumentů formátů pro publikaci dat používáme řadu
(XML, JSON, CSV, XLS, ...)
URL jako jednoznačné globální entitám nepřiřazujeme žádné globální
identifikátory dokumentů identifikátory
HTTP protokol pro vyhledávání a získávání HTTP protokol bychom mohli použít (REST),
dokumentů dle jejich URL ale nemáme URL identifikátory věcí
odkazy pro propojování dokumentů žádný z používaných formátů neumožňuje
propojování souvisejících entit
11. Srovnání webu dokumentů a publikace dat
na webu
Můžeme publikovat Můžeme publikovat
dokumenty tak, aby si je entity tak, aby si je
každý mohl ve svém každý mohl ve svém
prohlížeči zobrazit, pokud prohlížeči zobrazit, pokud
zná jejich URL. zná jejich URL.
Vazby nám umožňují dostat Vazby nám umožňují dostat
se i na dokumenty, jejichž se i na entity, jejichž
URL přímo neznáme: URL přímo neznáme:
Procházení odkazů Procházení odkazů
vedoucích z jiných vedoucích z jiných
dokumentů entit
Z katalogů odkazů Z katalogů odkazů
Fulltextové vyhledání Fulltextové vyhledání
dokumentů (klíčová slova) entit (klíčová slova)
12. Linked Data
principy Linked Data = sada „best practices“
pro publikaci, sdílení a propojování entit a dat
o nich na webu
využití standardů současného Webu pro publikaci
a přístup k entitám a datům o nich ve strojově
čitelné podobě (publishing data)
možnost vytvářet vazby mezi souvisejícími
entitami a publikovat vazby jako součást dat pro
jejich strojové zpracování (linking data)
+ tajná zbraň, o které se zmíníme později
13. Publikace a přístup k datům
data = entity, údaje o nich a vazby mezi nimi
entita = organizace, projekt, zakázka, lék, ...
údaj o věci = název organizace, IČ organizace
Máme web
vazba
Máme web = zakázka je realizovaná v rámci projektu, organizace je
příjemcem projektu, účinná látka je obsažená v léku dat!
dokumentů
Svět dokumentů Svět Linked Data
HTML jako formát pro publikaci dokumentů RDF jako formát pro publikaci entit
URL jako jednoznačné globální URL jako jednoznačné globální
identifikátory dokumentů identifikátory entit
HTTP protokol pro vyhledávání a získávání HTTP protokol pro vyhledávání a získávání
dokumentů dle jejich URL entit dle jejich URL
odkazy pro propojování dokumentů vazby pro propojování entit
+ a jdeme ještě dál, je tu ta tajná zbraň
17. RDF reprezentace
RDF je datový model
reprezentuje entity, datové hodnoty a vazby v podobě RDF
grafu
každá entita a datová hodnota tvoří uzel
každá vazba mezi dvěma entitami nebo mezi entitou a datovou
hodnotou tvoří hranu
entity i vazby mají svá URL
18. Zápis RDF reprezentace
RDF graf je vždy zapsán jako množina trojic
trojice popisuje jednu vazbu ve tvaru
subjekt predikát objekt
trojice jsou zapisovány ve vhodné notaci
RDF/XML, RDFa, N3, Turtle, JSON
22. Propojování objektů napříč datovými zdroji
ROP *
Rozpočty Zakázky
OPPI
strukturalni
Územní -fondy.cz
celky
OPD
Obchodní
rejstřík
Školy
ESFCR
ESFDB RISY
23. LOD cloud
ROP *
Rozpočty Zakázky
Pokud se někdo z OPPI
strukturalni-
Územní
lokálního „cloudu“ napojí
fondy.cz
celky
OPD
Obchodní
rejstřík
ESFCR
na LOD cloud, profitují z
Školy
ESFDB RISY
napojení všichni
Propojování mohou
vznikat postupně a v různé
kvalitě; kvantita i kvalita
propojení se může
postupně zvyšovat
24. Ukázka z LOD cloudu
http://dbpedia.org/resource/Ústí_nad_Labem_Region http://dbpedia.org/resource/Most
25. Rekapitulace Linked Data
Svět Linked Data
RDF jako formát pro publikaci entit
URL jako jednoznačné globální
identifikátory entit
HTTP protokol pro vyhledávání a získávání
entit dle jejich URL
vazby pro propojování entit
+ a nyní ta tajná zbraň
26. Tajná zbraň = Ontologie (slovníky)
web dokumentů zná jen dva jednoduché
koncepty
dokumenty
hypertextové nevýznamové odkazy mezi dokumenty
web dat zná řadu různých konceptů
entity mnoha významů (typů)
• osoby, města, projekty, rozpočty, ...
významová propojení mezi entitami a jejich datovými
hodnotami i mezi entitami navzájem
• jméno osoby, jméno města, region projektu, ....
významy jsou důležité pro strojové zpracování
významy jsou zachyceny v tzv. ontologiích
• tento pojem web dokumentů NEZNÁ
27. Tajná zbraň = Ontologie (slovníky)
popisují strukturu a sémantiku dat
související ontologie vzájemně propojeny
interoperabilita
30. Jak s LD pracovat?
Bohužel dnes není technicky možné pracovat s
celým LOD cloudem
Současné projekty využívají LD principů k
publikaci a obohacování vlastních dat
Výběr konkrétních obohacujících datasetů (přístup
přes HTTP URI nebo pomocí jazyka SPARQL)
Napojení vlastních dat na zvolené externí datasety
31. Co nabízí MFF UK?
Reference: Služby:
• veřejné zakázky • semináře,
a související Veřejná Linked školení
data pro LOD2 a Data • průzkum
DG Market Veřejné zdroje možností využití
Neveřejná
• rozpočty a (HTML, Excel, LD ve vaší
interní databáze
účetní ...) organizaci
informace ze (obohacování
systému ÚFIS dat o LD,
• OGP pro Vládu - extrakce publikace dat
ČR a MV ČR - deduplikace jako LD)
• legislativa ČR v ETL - čištění • vývoj aplikací
rámci - propojování nad LD
výzkumného - odvozování • konverze
projektu INTLIB existujících
(TAČR) veřejných
• vlastní iniciativa Vizualizace APP datových zdrojů
OpenData.cz Analýzy do LD (HTML,
APP Publikace APP Excel)
• ...
32. Co znamená publikovat vlastní LD?
Analýza vlastních dat
Jaká máme data? Co můžeme/chceme publikovat?
Jak data v různých našich databázích spolu souvisí? Jak souvisí s daty
jiných subjektů?
Strukturovaný popis domény
Popis struktury a sémantiky dat, které chceme zveřejnit?
Návrh ontologie
Jaké již existují používané ontologie pokrývající náš doménový model?
Návrh vlastní ontologie pro části nepokryté existujícími ontologiemi.
Mapování vlastní nové ontologie konceptů na existující ontologie.
Export dat
Skripty exportující data do podoby navržené ontologie.
Propojení dat s existujícími daty v LOD cloudu.
Publikace dat
Aplikace nad daty
Lze nechat na někom jiném
35. Příklad publikace LD (Veřejné zakázky)
Publikace dat
http://ld.opendata.cz/resource/business-
entity/00276111
data o Semilech vytvořená v rámci OpenData.cz
dle navržené ontologie
http://ld.opendata.cz/resource/municipality/0
0276111
jiná data o Semilech
všimněte si vazeb sameAs
36. Příklad publikace LD (Veřejné zakázky)
Aplikace nad daty
http://ld.opendata.cz/demo
demo aplikace nad Linked Daty o veřejných
zakázkách v celé EU
data vytěžená z TED, národních portálů (např.
isvzus.cz) + DBPedia
37. Příklad publikace LD (Veřejné zakázky)
Aplikace nad daty
http://studentweb.xrg.cz/hospodareni-obci/
aplikace nad Linked Daty o hospodaření obcí
data vytěžená z UFIS + DBPedia
• UFIS = http://wwwinfo.mfcr.cz/ufis/
http://studentweb2.xrg.cz/bp-linked-data-
rejskol
aplikace nad Linked Daty z rejstříku škol
data vytěžená z rejstříků MŠMT a MPSV
• MŠMT = http://rejskol.msmt.cz/
• MPSV = http://portal.mpsv.cz/
38. LD principy zlepšují atributy kvality
datové infrasturktury
Propojitelnost
Mohu snadno propojovat svá data na jiná data. Svá data tak obohatím o nová související data, která ale
nemusím udržovat ve své databázi.
Dohledatelnost
Ostatní mohou efektivněji nalézt má data díky propojením na jiná data.
Kontextovost
Na moje data lze nahlížet z různých kontextů daných vazbami na jiná data.
Neúplnost
Data o objektech a především propojení mezi objekty lze budovat a zveřejňovat postupně. Propojení
nemusejí být zdaleka úplná (jak kvantitativně tak kvalitativně). Už při malém množství propojení se přínosy
projeví.
Distribuovatelnost
Data a propojení mezi nimi není nutné publikovat „u zdroje“. Může je publikovat kdokoliv a kdekoliv.
Souvislost
Díky propojením tvoří data souvislý datový prostor, se kterým mohou aplikace pracovat jako s jednou
databází.
Pluralita
Různí lidé mohou publikovat různá (i protichůdná) tvrzení o stejném objektu. Lze tak reflektovat běžné
situace ve společnosti.
Modifikovatelnost (flexibilita)
Datová infrastruktura je odolná vůči změnám. Změny (např. mazání dat) mohou být jen na úrovni
jednotlivých trojic a nezasahují jiné trojice. Jsou tak maximálně lokalizovány. A to jak na úrovni instancí, tak
na úrovni schémat (ontologií).
Transparentnost
V datech lze také zaznamenat, kdo, kde, kdy a pod jakou licencí data publikoval.
39. Co přinášejí LD pro vydavatele dat
rozložení nákladů na různé činnosti s daty
v čase
mezi jednotlivé uživatele
činnosti
• publikace – data mohu publikovat postupně a publikuji jen svá primární data
(na sekundární se napojím)
• aktualizace – aktualizuji ve své databázi jen svá primární data, sekundární data
aktualizují jejich správci a díky propojením se o aktualizacích hned dozvím
• propojování – nemusím propojení vytvářet sám a nemusím hned vytvářet
přesná propojení; ostatní uživatelé infrastruktury mi pomohou s kvantitou i
kvalitou propojení
obohacování dat
zveřejněním dat v podobě LD a vytvořením relativně malého množství
propojení obohatím svá data o všechna související data v LOD cloudu
s obohacováním mi pomáhají všichni uživatelé LOD cloudu
uživatelé mi pomáhají se zvyšováním kvality mých dat (mohou chyby v
mých datech opravovat tak, že své opravy publikují v LOD cloudu)
40. Co přinášejí LD pro tvůrce aplikací?
získávají jednotný formát, ve kterém mohou
konzumovat data z různých zdrojů
z dat se díky propojením snadno dostanou na
související data
získávají přístup k celosvětové distribuované
databázi (LOD cloudu), kterou mohou využít ve
své aplikaci
databáze navíc kontinuálně roste a zvyšuje svoji
informační hodnotu
vědí, od koho data pocházejí a pod jakou licencí
jsou publikována
41. Enterprise Linked Data
pojem označující využívání LD principů uvnitř
organizace
v případech, kdy se svými daty nemůže nakládat zcela
otevřeně (osobní či jiné chráněné údaje)
jedná se o architektonický styl budování datové
infrastruktury uvnitř organizace
navíc velmi přirozený, neboť je postaven na běžných
technologiích (URI, HTTP, ...) – fungují stávající nástroje
přináší všechny výhody LD do organizace
viz atributy kvality výše
umožňuje využívat externí otevřená LD z LOD cloudu
uvnitř organizace pro obohacování vlastních dat
organizace
42. Příklady ze světa
BBC
US and UK Government
NY Times
Best Buy
Sears
Kmart
Overstock
Google
Nature
mnoho dalších (viz LOD cloud)