SlideShare a Scribd company logo
1 of 42
Download to read offline
Využití principů Linked Data v rámci
webových aplikací ESF ČR
  Martin Nečaský, Ph.D.
  necasky@xrg.cz
  Matematicko-fyzikální fakulta Univerzity Karlovy
  http://xrg.cz
  http://opendata.cz
Architektura klasického webu
                          Webový                                 Jednotný globální prostor dokumentů
   Databáze
      C                   prohlížeč
                                                                 Postavený na několika standardech:
                                                      Databáze
                                      HTTP               D       • HTML jako formát pro publikaci
              HTML                                                 dokumentů
                                                                 • URL jako jednoznačné globální
                                             HTML                  identifikátory dokumentů
                                                                 • HTTP protokol pro vyhledávání a
                                                                   získávání dokumentů dle jejich URL
                                                                 • odkazy pro propojování dokumentů
           HTML
                                                                 Nad prostorem dokumentů pracují
                                        HTML                     aplikace dvou typů:
                                                                 • webové prohlížeče (přístup k
Databáze                      HTTP
                                                                   dokumentům dle URL + procházení
   A
                                                                   přes hypertextové odkazy)
                     Vyhledávač
                                                    Databáze     • vyhledávače (indexace a fulltextové
                                                       B
                                                                   vyhledávání v dokumentech)
Co umožňuje klasický web?
   Můžeme publikovat dokumenty tak, aby si je
    každý mohl ve svém prohlížeči zobrazit, pokud
    zná jejich URL.
   Vazby nám umožňují dostat se i na
    dokumenty, jejichž URL přímo neznáme:
     Procházení odkazů vedoucích z jiných dokumentů
     Z katalogů odkazů
     Fulltextové vyhledání dokumentů (klíčová slova)
Co neumožňuje klasický web?
   Problém klasického webu je orientace na dokumenty
    místo na entity, o kterých dokumenty mluví.
     entita = entita z reálného světa, o níž chceme na webu
      publikovat nějaká data
     např. instituce, kniha, osoba, smlouva, zakázka, ...
   Data o jedné entitě jsme nuceni zakódovat do
    dokumentu na webu v podobě, která neumožňuje
       strojové zpracování
       propojování a sdílení míst, kde se o entitě mluví
       propojování entity na související entity
       (viz příklady na následujících slajdech)
Co neumožňuje klasický web?
   Získat všechna data
    publikována o entitě
    „Martin Nečaský“ v
    dokumentech na webu
   Sdílení dat mezi portály
     Portál může spravovat jen
      data o entitě, která jsou v
      jeho primárním zájmu.
     Ostatní (sekundární) data
      může čerpat z jiných
      portálů.
Co neumožňuje klasický web?




       Jak pomocí odkazů říci, že
       stránky pojednávají o stejné
       entitě? Jak vyznačit, kde jsou
       data o entitě určená pro sdílení?
       Jak mohu na své stránce využít
       data z jiných stránek?
Co neumožňuje klasický web?
   Odpovídat na složitější
    vyhledávací dotazy:
     Jaká témata Martin
      vyučuje?
     Na jakých školách
      Martin vyučuje?
     Na jakých projektech
      Martin pracuje?
     S kým Martin
      spolupracuje?
Lze na webu publikovat i data?
   Současnou výzvou tedy je publikovat nejenom
    dokumenty, ale i zdrojová data o entitách.
     Aby web mohl poskytnout i výše uvedené služby.
   Již dnes ale přeci na webu publikujeme často
    právě i zdrojová data určená pro další zpracování.
   Známe dokonce 2 způsoby publikace dat:
     Datové soubory mají také svoje jednoznačné URL a
      data reprezentují v různých formátech.
       • XML, CSV, XLS, ...
     Pokročilým způsobem publikace dat jsou tzv. datová
      API (součástí konceptu web 2.0).
Architektura webu 2.0
                                                              Různá API poskytují strojově čitelná
   Databáze                  Aplikace                         data pro další zpracování v tzv.
      C
                     HTTP                                     mashup aplikacích.
                                                   Databáze
                                                      D
               Data                  HTTP                     Také postaveny na několika
               API                                            jednoduchých standardech:
                                            Data              • XML/JSON jako formáty pro publikaci
                                            API
                                                                dat
                                                              • HTTP protokol pro získávání dat
              Data
              API                                             Ale pozor
                                            Data
                                                              • chybí URL identifikátory (resp. jsou
                                            API                  používány, ale nevhodně)
                                                              • chybí odkazy mezi daty
Databáze
                HTTP               HTTP
   A

                                             Databáze
                        Aplikace                B
Publikace dat na webu
     Současné principy a technologie mají řadu nedostatků!
        Je potřeba si uvědomit, že jednotkou pro publikaci není soubor s
         daty ale entita (většinou objekt reálného světa), o které chceme
         data publikovat.
                                                                  Ale
        Publikace dat o entitách ale není postavena na principech, které
     Máme web                                                   nemáme
         už byly jednou vynalezeny pro publikaci dokumentů. web dat
     dokumentů


             Svět dokumentů                                  Svět dat
HTML jako formát pro publikaci dokumentů    formátů pro publikaci dat používáme řadu
                                            (XML, JSON, CSV, XLS, ...)
URL jako jednoznačné globální               entitám nepřiřazujeme žádné globální
identifikátory dokumentů                    identifikátory
HTTP protokol pro vyhledávání a získávání   HTTP protokol bychom mohli použít (REST),
dokumentů dle jejich URL                    ale nemáme URL identifikátory věcí
odkazy pro propojování dokumentů            žádný z používaných formátů neumožňuje
                                            propojování souvisejících entit
Srovnání webu dokumentů a publikace dat
               na webu
   Můžeme publikovat                Můžeme publikovat
    dokumenty tak, aby si je          entity tak, aby si je
    každý mohl ve svém                každý mohl ve svém
    prohlížeči zobrazit, pokud        prohlížeči zobrazit, pokud
    zná jejich URL.                   zná jejich URL.
   Vazby nám umožňují dostat        Vazby nám umožňují dostat
    se i na dokumenty, jejichž        se i na entity, jejichž
    URL přímo neznáme:                URL přímo neznáme:
     Procházení odkazů                Procházení odkazů
      vedoucích z jiných                vedoucích z jiných
      dokumentů                         entit
     Z katalogů odkazů                Z katalogů odkazů
     Fulltextové vyhledání            Fulltextové vyhledání
      dokumentů (klíčová slova)         entit (klíčová slova)
Linked Data
   principy Linked Data = sada „best practices“
    pro publikaci, sdílení a propojování entit a dat
    o nich na webu
     využití standardů současného Webu pro publikaci
      a přístup k entitám a datům o nich ve strojově
      čitelné podobě (publishing data)
     možnost vytvářet vazby mezi souvisejícími
      entitami a publikovat vazby jako součást dat pro
      jejich strojové zpracování (linking data)
     + tajná zbraň, o které se zmíníme později
Publikace a přístup k datům
     data = entity, údaje o nich a vazby mezi nimi
        entita = organizace, projekt, zakázka, lék, ...
        údaj o věci = název organizace, IČ organizace
                                                            Máme web
        vazba
     Máme web = zakázka je realizovaná v rámci projektu, organizace je
         příjemcem projektu, účinná látka je obsažená v léku dat!
     dokumentů

             Svět dokumentů                              Svět Linked Data
HTML jako formát pro publikaci dokumentů RDF jako formát pro publikaci entit

URL jako jednoznačné globální               URL jako jednoznačné globální
identifikátory dokumentů                    identifikátory entit
HTTP protokol pro vyhledávání a získávání   HTTP protokol pro vyhledávání a získávání
dokumentů dle jejich URL                    entit dle jejich URL
odkazy pro propojování dokumentů            vazby pro propojování entit

                                            + a jdeme ještě dál, je tu ta tajná zbraň 
Údaje o entitách a vazby mezi nimi
URL jako identifikátory entit
Vazby jsou chápány také jako entity
RDF reprezentace
   RDF je datový model
   reprezentuje entity, datové hodnoty a vazby v podobě RDF
    grafu
     každá entita a datová hodnota tvoří uzel
     každá vazba mezi dvěma entitami nebo mezi entitou a datovou
      hodnotou tvoří hranu
     entity i vazby mají svá URL
Zápis RDF reprezentace
   RDF graf je vždy zapsán jako množina trojic
   trojice popisuje jednu vazbu ve tvaru

           subjekt     predikát     objekt

   trojice jsou zapisovány ve vhodné notaci
     RDF/XML, RDFa, N3, Turtle, JSON
Zápis RDF reprezentace - Turtle
<http://esfcr.cz/data/projekt/CZ10421016300169>
    esf:nazev "INNOSTART" ;
    esf:registracni_cislo "CZ.1.04/2.1.01/63.00169" ;
    esf:castka "4711681" ;
    esf:realizace_od "2011-06-01" ;
    esf:realizace_do "2013-03-31" ;
    esf:realizator <http://esfcr.cz/data/institution/25438352> ;
    esf:partner <http://esfcr.cz/data/institution/25438352> ;
    esf:kontaktni_osoba <http://esfcr.cz/data/person/8541274571> ;
    esf:region <http://esfcr.cz/data/kraj/ustecky> .
Přístup přes HTTP protokol

                 Webový prohlížeč                                       Aplikace




                                                                       <http://esfcr.cz/data/projekt/CZ10421016300169>
                                                                           esf:nazev "INNOSTART" ;
                                                                           esf:registracni_cislo "CZ.1.04/2.1.01/63.00169" ;
         HTTP                                            HTTP              esf:castka "4711681" ;
                                                                           esf:realizace_od "2011-06-01" ;
        (HTML)                                           (RDF)             esf:realizace_do "2013-03-31" ;
                                                                           esf:realizator <http://esfcr.cz/.../25438352> ;
                                                                           esf:partner <http://esfcr.cz/.../25438352> ;
                                                                           esf:kontaktni_osoba <http://esfcr.cz/.../8541274571>;
http://esfcr.cz/.../projekt/                    http://esfcr.cz/.../projekt/
                                                                           esf:region <http://esfcr.cz/.../ustecky> .

   CZ10421016300169                                CZ10421016300169




                                     esfcr.cz
Propojování objektů napříč datovými zdroji
Propojování objektů napříč datovými zdroji


                               ROP *
Rozpočty   Zakázky


                               OPPI
                                              strukturalni
Územní                                         -fondy.cz
 celky
                               OPD
           Obchodní
            rejstřík

  Školy
                               ESFCR



                       ESFDB           RISY
LOD cloud
                                                                 ROP *
                                  Rozpočty   Zakázky


   Pokud se někdo z                                             OPPI
                                                                                strukturalni-
                                  Územní


    lokálního „cloudu“ napojí
                                                                                  fondy.cz

                                   celky
                                                                 OPD
                                             Obchodní
                                              rejstřík
                                                                 ESFCR

    na LOD cloud, profitují z
                                    Školy




                                                         ESFDB           RISY


    napojení všichni
   Propojování mohou
    vznikat postupně a v různé
    kvalitě; kvantita i kvalita
    propojení se může
    postupně zvyšovat
Ukázka z LOD cloudu




http://dbpedia.org/resource/Ústí_nad_Labem_Region   http://dbpedia.org/resource/Most
Rekapitulace Linked Data


                Svět Linked Data
   RDF jako formát pro publikaci entit

   URL jako jednoznačné globální
   identifikátory entit
   HTTP protokol pro vyhledávání a získávání
   entit dle jejich URL
   vazby pro propojování entit

   + a nyní ta tajná zbraň
Tajná zbraň = Ontologie (slovníky)
   web dokumentů zná jen dva jednoduché
    koncepty
     dokumenty
     hypertextové nevýznamové odkazy mezi dokumenty
   web dat zná řadu různých konceptů
     entity mnoha významů (typů)
       • osoby, města, projekty, rozpočty, ...
     významová propojení mezi entitami a jejich datovými
      hodnotami i mezi entitami navzájem
       • jméno osoby, jméno města, region projektu, ....
     významy jsou důležité pro strojové zpracování
     významy jsou zachyceny v tzv. ontologiích
       • tento pojem web dokumentů NEZNÁ
Tajná zbraň = Ontologie (slovníky)
   popisují strukturu a sémantiku dat
   související ontologie vzájemně propojeny
      interoperabilita
Tajná zbraň = Ontologie (slovníky)




                    http://labs.mondeca.com/dataset/lov/
Tajná zbraň = Ontologie (slovníky)
   schema.org
     CreativeWork, Book, Movie, MusicRecording, Recipe,
      TVSeries ...
     AudioObject, ImageObject, VideoObject
     Event
     Organization
     Person
     Place, LocalBusiness, Restaurant ...
     Product, Offer, AggregateOffer
     Review, AggregateRating
     + mnoho dalších
Jak s LD pracovat?
   Bohužel dnes není technicky možné pracovat s
    celým LOD cloudem
   Současné projekty využívají LD principů k
    publikaci a obohacování vlastních dat
     Výběr konkrétních obohacujících datasetů (přístup
      přes HTTP URI nebo pomocí jazyka SPARQL)
     Napojení vlastních dat na zvolené externí datasety
Co nabízí MFF UK?
Reference:                                                              Služby:
• veřejné zakázky                                                       • semináře,
   a související                     Veřejná Linked                        školení
   data pro LOD2 a                        Data                          • průzkum
   DG Market           Veřejné zdroje                                      možností využití
                                                     Neveřejná
• rozpočty a           (HTML, Excel,                                       LD ve vaší
                                                  interní databáze
   účetní              ...)                                                organizaci
   informace ze                                                            (obohacování
   systému ÚFIS                                                            dat o LD,
• OGP pro Vládu                                         - extrakce         publikace dat
   ČR a MV ČR                                           - deduplikace      jako LD)
• legislativa ČR v                         ETL          - čištění       • vývoj aplikací
   rámci                                                - propojování      nad LD
   výzkumného                                           - odvozování    • konverze
   projektu INTLIB                                                         existujících
   (TAČR)                                                                  veřejných
• vlastní iniciativa                  Vizualizace                APP       datových zdrojů
   OpenData.cz         Analýzy                                             do LD (HTML,
                                     APP         Publikace       APP       Excel)
                                                                        • ...
Co znamená publikovat vlastní LD?
   Analýza vlastních dat
      Jaká máme data? Co můžeme/chceme publikovat?
      Jak data v různých našich databázích spolu souvisí? Jak souvisí s daty
       jiných subjektů?
   Strukturovaný popis domény
      Popis struktury a sémantiky dat, které chceme zveřejnit?
   Návrh ontologie
      Jaké již existují používané ontologie pokrývající náš doménový model?
      Návrh vlastní ontologie pro části nepokryté existujícími ontologiemi.
      Mapování vlastní nové ontologie konceptů na existující ontologie.
   Export dat
      Skripty exportující data do podoby navržené ontologie.
      Propojení dat s existujícími daty v LOD cloudu.
   Publikace dat
   Aplikace nad daty
      Lze nechat na někom jiném
Příklad publikace LD (Veřejné zakázky)
          Analýza a popis domény
Příklad publikace LD (Veřejné zakázky)
             Návrh ontologie
Příklad publikace LD (Veřejné zakázky)
                     Publikace dat
   http://ld.opendata.cz/resource/business-
    entity/00276111
     data o Semilech vytvořená v rámci OpenData.cz
      dle navržené ontologie
   http://ld.opendata.cz/resource/municipality/0
    0276111
     jiná data o Semilech
   všimněte si vazeb sameAs
Příklad publikace LD (Veřejné zakázky)
                   Aplikace nad daty
   http://ld.opendata.cz/demo
     demo aplikace nad Linked Daty o veřejných
      zakázkách v celé EU
     data vytěžená z TED, národních portálů (např.
      isvzus.cz) + DBPedia
Příklad publikace LD (Veřejné zakázky)
                     Aplikace nad daty
   http://studentweb.xrg.cz/hospodareni-obci/
     aplikace nad Linked Daty o hospodaření obcí
     data vytěžená z UFIS + DBPedia
       • UFIS = http://wwwinfo.mfcr.cz/ufis/
   http://studentweb2.xrg.cz/bp-linked-data-
    rejskol
     aplikace nad Linked Daty z rejstříku škol
     data vytěžená z rejstříků MŠMT a MPSV
       • MŠMT = http://rejskol.msmt.cz/
       • MPSV = http://portal.mpsv.cz/
LD principy zlepšují atributy kvality
            datové infrasturktury
   Propojitelnost
        Mohu snadno propojovat svá data na jiná data. Svá data tak obohatím o nová související data, která ale
         nemusím udržovat ve své databázi.
   Dohledatelnost
        Ostatní mohou efektivněji nalézt má data díky propojením na jiná data.
   Kontextovost
        Na moje data lze nahlížet z různých kontextů daných vazbami na jiná data.
   Neúplnost
        Data o objektech a především propojení mezi objekty lze budovat a zveřejňovat postupně. Propojení
         nemusejí být zdaleka úplná (jak kvantitativně tak kvalitativně). Už při malém množství propojení se přínosy
         projeví.
   Distribuovatelnost
        Data a propojení mezi nimi není nutné publikovat „u zdroje“. Může je publikovat kdokoliv a kdekoliv.
   Souvislost
        Díky propojením tvoří data souvislý datový prostor, se kterým mohou aplikace pracovat jako s jednou
         databází.
   Pluralita
        Různí lidé mohou publikovat různá (i protichůdná) tvrzení o stejném objektu. Lze tak reflektovat běžné
         situace ve společnosti.
   Modifikovatelnost (flexibilita)
        Datová infrastruktura je odolná vůči změnám. Změny (např. mazání dat) mohou být jen na úrovni
         jednotlivých trojic a nezasahují jiné trojice. Jsou tak maximálně lokalizovány. A to jak na úrovni instancí, tak
         na úrovni schémat (ontologií).
   Transparentnost
        V datech lze také zaznamenat, kdo, kde, kdy a pod jakou licencí data publikoval.
Co přinášejí LD pro vydavatele dat
   rozložení nákladů na různé činnosti s daty
      v čase
      mezi jednotlivé uživatele
      činnosti
         • publikace – data mohu publikovat postupně a publikuji jen svá primární data
           (na sekundární se napojím)
         • aktualizace – aktualizuji ve své databázi jen svá primární data, sekundární data
           aktualizují jejich správci a díky propojením se o aktualizacích hned dozvím
         • propojování – nemusím propojení vytvářet sám a nemusím hned vytvářet
           přesná propojení; ostatní uživatelé infrastruktury mi pomohou s kvantitou i
           kvalitou propojení
   obohacování dat
      zveřejněním dat v podobě LD a vytvořením relativně malého množství
       propojení obohatím svá data o všechna související data v LOD cloudu
      s obohacováním mi pomáhají všichni uživatelé LOD cloudu
      uživatelé mi pomáhají se zvyšováním kvality mých dat (mohou chyby v
       mých datech opravovat tak, že své opravy publikují v LOD cloudu)
Co přinášejí LD pro tvůrce aplikací?
   získávají jednotný formát, ve kterém mohou
    konzumovat data z různých zdrojů
   z dat se díky propojením snadno dostanou na
    související data
   získávají přístup k celosvětové distribuované
    databázi (LOD cloudu), kterou mohou využít ve
    své aplikaci
     databáze navíc kontinuálně roste a zvyšuje svoji
      informační hodnotu
   vědí, od koho data pocházejí a pod jakou licencí
    jsou publikována
Enterprise Linked Data
   pojem označující využívání LD principů uvnitř
    organizace
     v případech, kdy se svými daty nemůže nakládat zcela
      otevřeně (osobní či jiné chráněné údaje)
   jedná se o architektonický styl budování datové
    infrastruktury uvnitř organizace
     navíc velmi přirozený, neboť je postaven na běžných
      technologiích (URI, HTTP, ...) – fungují stávající nástroje
   přináší všechny výhody LD do organizace
     viz atributy kvality výše
   umožňuje využívat externí otevřená LD z LOD cloudu
    uvnitř organizace pro obohacování vlastních dat
    organizace
Příklady ze světa
   BBC
   US and UK Government
   NY Times
   Best Buy
   Sears
   Kmart
   Overstock
   Google
   Nature
   mnoho dalších (viz LOD cloud)

More Related Content

Similar to Linked Data pro Evropský sociální fond

Linked Data for Czech Legislation - 2nd year of our project
Linked Data for Czech Legislation - 2nd year of our projectLinked Data for Czech Legislation - 2nd year of our project
Linked Data for Czech Legislation - 2nd year of our projectMartin Necasky
 
Identifikátory a lokátory
Identifikátory a lokátoryIdentifikátory a lokátory
Identifikátory a lokátorykadlec
 
Webgis, Cloud computing, OGC OWS
Webgis, Cloud computing, OGC OWSWebgis, Cloud computing, OGC OWS
Webgis, Cloud computing, OGC OWSJachym Cepicky
 
Semantický web a Drupal
Semantický web a Drupal Semantický web a Drupal
Semantický web a Drupal devmates
 
Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)
Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)
Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)Jakub Fiala
 
Dynamica: Komunikační centrum zlepšuje komfort občanů, ISSS 2014
Dynamica:  Komunikační centrum zlepšuje komfort občanů, ISSS 2014Dynamica:  Komunikační centrum zlepšuje komfort občanů, ISSS 2014
Dynamica: Komunikační centrum zlepšuje komfort občanů, ISSS 2014ivovrana
 
06 prez4(tvorba webu)
06 prez4(tvorba webu)06 prez4(tvorba webu)
06 prez4(tvorba webu)olc_user
 
LoCloud Technical Poster - Nad mraky
LoCloud Technical Poster -  Nad mrakyLoCloud Technical Poster -  Nad mraky
LoCloud Technical Poster - Nad mrakylocloud
 
5was 100524062135-phpapp02
5was 100524062135-phpapp025was 100524062135-phpapp02
5was 100524062135-phpapp02simon680
 

Similar to Linked Data pro Evropský sociální fond (20)

Screen scraping se ScraperWiki (Jindřich Mynarz)
Screen scraping se ScraperWiki (Jindřich Mynarz)Screen scraping se ScraperWiki (Jindřich Mynarz)
Screen scraping se ScraperWiki (Jindřich Mynarz)
 
Linked Data for Czech Legislation - 2nd year of our project
Linked Data for Czech Legislation - 2nd year of our projectLinked Data for Czech Legislation - 2nd year of our project
Linked Data for Czech Legislation - 2nd year of our project
 
Identifikátory a lokátory
Identifikátory a lokátoryIdentifikátory a lokátory
Identifikátory a lokátory
 
Webgis, Cloud computing, OGC OWS
Webgis, Cloud computing, OGC OWSWebgis, Cloud computing, OGC OWS
Webgis, Cloud computing, OGC OWS
 
TNPW2-2013-02
TNPW2-2013-02TNPW2-2013-02
TNPW2-2013-02
 
TNPW2-2016-02
TNPW2-2016-02TNPW2-2016-02
TNPW2-2016-02
 
TNPW2-2014-05
TNPW2-2014-05TNPW2-2014-05
TNPW2-2014-05
 
TNPW2-2014-02
TNPW2-2014-02TNPW2-2014-02
TNPW2-2014-02
 
TNPW2-2011-04
TNPW2-2011-04TNPW2-2011-04
TNPW2-2011-04
 
Semantický web a Drupal
Semantický web a Drupal Semantický web a Drupal
Semantický web a Drupal
 
Sexy infrastruktura
Sexy infrastrukturaSexy infrastruktura
Sexy infrastruktura
 
TNPW2-2012-07
TNPW2-2012-07TNPW2-2012-07
TNPW2-2012-07
 
Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)
Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)
Knihovny 2020: Praktické využití principů sémantického webu (projekt Dáme práci)
 
Dynamica: Komunikační centrum zlepšuje komfort občanů, ISSS 2014
Dynamica:  Komunikační centrum zlepšuje komfort občanů, ISSS 2014Dynamica:  Komunikační centrum zlepšuje komfort občanů, ISSS 2014
Dynamica: Komunikační centrum zlepšuje komfort občanů, ISSS 2014
 
06 prez4(tvorba webu)
06 prez4(tvorba webu)06 prez4(tvorba webu)
06 prez4(tvorba webu)
 
Softecon 2010
Softecon 2010Softecon 2010
Softecon 2010
 
LoCloud Technical Poster - Nad mraky
LoCloud Technical Poster -  Nad mrakyLoCloud Technical Poster -  Nad mraky
LoCloud Technical Poster - Nad mraky
 
5was 100524062135-phpapp02
5was 100524062135-phpapp025was 100524062135-phpapp02
5was 100524062135-phpapp02
 
Web Application Scanning (WAS)
Web Application Scanning (WAS)Web Application Scanning (WAS)
Web Application Scanning (WAS)
 
Instalace WordPress
Instalace WordPressInstalace WordPress
Instalace WordPress
 

More from Martin Necasky

Linked Open Data - Masaryk University in Brno 8.11.2016
Linked Open Data - Masaryk University in Brno 8.11.2016Linked Open Data - Masaryk University in Brno 8.11.2016
Linked Open Data - Masaryk University in Brno 8.11.2016Martin Necasky
 
Tutoriál : Otevřená a propojitelná data veřejné správy
Tutoriál : Otevřená a propojitelná data veřejné správyTutoriál : Otevřená a propojitelná data veřejné správy
Tutoriál : Otevřená a propojitelná data veřejné správyMartin Necasky
 
Linked Open Data for Public Contracts
Linked Open Data for Public ContractsLinked Open Data for Public Contracts
Linked Open Data for Public ContractsMartin Necasky
 
Linked Data for Czech Legislation
Linked Data for Czech LegislationLinked Data for Czech Legislation
Linked Data for Czech LegislationMartin Necasky
 
Web Services - Business Process Execution Language
Web Services - Business Process Execution LanguageWeb Services - Business Process Execution Language
Web Services - Business Process Execution LanguageMartin Necasky
 
Otevrena data v CR - aktualni stav (brezen 2013)
Otevrena data v CR - aktualni stav (brezen 2013)Otevrena data v CR - aktualni stav (brezen 2013)
Otevrena data v CR - aktualni stav (brezen 2013)Martin Necasky
 
Web Services - Architecture and SOAP (part 1)
Web Services - Architecture and SOAP (part 1)Web Services - Architecture and SOAP (part 1)
Web Services - Architecture and SOAP (part 1)Martin Necasky
 
Web Services - SOAP (part 2)
Web Services - SOAP (part 2)Web Services - SOAP (part 2)
Web Services - SOAP (part 2)Martin Necasky
 
Otevrene problemy architektury elektronickeho zdravotnictvi
Otevrene problemy architektury elektronickeho zdravotnictviOtevrene problemy architektury elektronickeho zdravotnictvi
Otevrene problemy architektury elektronickeho zdravotnictviMartin Necasky
 
Vysledek souteze o navrh hospodarneho a funkcniho elektronickeho zdravotnictvi
Vysledek souteze o navrh hospodarneho a funkcniho elektronickeho zdravotnictviVysledek souteze o navrh hospodarneho a funkcniho elektronickeho zdravotnictvi
Vysledek souteze o navrh hospodarneho a funkcniho elektronickeho zdravotnictviMartin Necasky
 
Web Services - Introduction
Web Services - IntroductionWeb Services - Introduction
Web Services - IntroductionMartin Necasky
 

More from Martin Necasky (14)

Linked Open Data - Masaryk University in Brno 8.11.2016
Linked Open Data - Masaryk University in Brno 8.11.2016Linked Open Data - Masaryk University in Brno 8.11.2016
Linked Open Data - Masaryk University in Brno 8.11.2016
 
Tutoriál : Otevřená a propojitelná data veřejné správy
Tutoriál : Otevřená a propojitelná data veřejné správyTutoriál : Otevřená a propojitelná data veřejné správy
Tutoriál : Otevřená a propojitelná data veřejné správy
 
Linked Open Data for Public Contracts
Linked Open Data for Public ContractsLinked Open Data for Public Contracts
Linked Open Data for Public Contracts
 
Linked Data for Czech Legislation
Linked Data for Czech LegislationLinked Data for Czech Legislation
Linked Data for Czech Legislation
 
Web Services - Business Process Execution Language
Web Services - Business Process Execution LanguageWeb Services - Business Process Execution Language
Web Services - Business Process Execution Language
 
WS-Addressing
WS-AddressingWS-Addressing
WS-Addressing
 
RESTful Web Services
RESTful Web ServicesRESTful Web Services
RESTful Web Services
 
Web Services - WSDL
Web Services - WSDLWeb Services - WSDL
Web Services - WSDL
 
Otevrena data v CR - aktualni stav (brezen 2013)
Otevrena data v CR - aktualni stav (brezen 2013)Otevrena data v CR - aktualni stav (brezen 2013)
Otevrena data v CR - aktualni stav (brezen 2013)
 
Web Services - Architecture and SOAP (part 1)
Web Services - Architecture and SOAP (part 1)Web Services - Architecture and SOAP (part 1)
Web Services - Architecture and SOAP (part 1)
 
Web Services - SOAP (part 2)
Web Services - SOAP (part 2)Web Services - SOAP (part 2)
Web Services - SOAP (part 2)
 
Otevrene problemy architektury elektronickeho zdravotnictvi
Otevrene problemy architektury elektronickeho zdravotnictviOtevrene problemy architektury elektronickeho zdravotnictvi
Otevrene problemy architektury elektronickeho zdravotnictvi
 
Vysledek souteze o navrh hospodarneho a funkcniho elektronickeho zdravotnictvi
Vysledek souteze o navrh hospodarneho a funkcniho elektronickeho zdravotnictviVysledek souteze o navrh hospodarneho a funkcniho elektronickeho zdravotnictvi
Vysledek souteze o navrh hospodarneho a funkcniho elektronickeho zdravotnictvi
 
Web Services - Introduction
Web Services - IntroductionWeb Services - Introduction
Web Services - Introduction
 

Linked Data pro Evropský sociální fond

  • 1. Využití principů Linked Data v rámci webových aplikací ESF ČR Martin Nečaský, Ph.D. necasky@xrg.cz Matematicko-fyzikální fakulta Univerzity Karlovy http://xrg.cz http://opendata.cz
  • 2. Architektura klasického webu Webový Jednotný globální prostor dokumentů Databáze C prohlížeč Postavený na několika standardech: Databáze HTTP D • HTML jako formát pro publikaci HTML dokumentů • URL jako jednoznačné globální HTML identifikátory dokumentů • HTTP protokol pro vyhledávání a získávání dokumentů dle jejich URL • odkazy pro propojování dokumentů HTML Nad prostorem dokumentů pracují HTML aplikace dvou typů: • webové prohlížeče (přístup k Databáze HTTP dokumentům dle URL + procházení A přes hypertextové odkazy) Vyhledávač Databáze • vyhledávače (indexace a fulltextové B vyhledávání v dokumentech)
  • 3. Co umožňuje klasický web?  Můžeme publikovat dokumenty tak, aby si je každý mohl ve svém prohlížeči zobrazit, pokud zná jejich URL.  Vazby nám umožňují dostat se i na dokumenty, jejichž URL přímo neznáme:  Procházení odkazů vedoucích z jiných dokumentů  Z katalogů odkazů  Fulltextové vyhledání dokumentů (klíčová slova)
  • 4. Co neumožňuje klasický web?  Problém klasického webu je orientace na dokumenty místo na entity, o kterých dokumenty mluví.  entita = entita z reálného světa, o níž chceme na webu publikovat nějaká data  např. instituce, kniha, osoba, smlouva, zakázka, ...  Data o jedné entitě jsme nuceni zakódovat do dokumentu na webu v podobě, která neumožňuje  strojové zpracování  propojování a sdílení míst, kde se o entitě mluví  propojování entity na související entity  (viz příklady na následujících slajdech)
  • 5. Co neumožňuje klasický web?  Získat všechna data publikována o entitě „Martin Nečaský“ v dokumentech na webu  Sdílení dat mezi portály  Portál může spravovat jen data o entitě, která jsou v jeho primárním zájmu.  Ostatní (sekundární) data může čerpat z jiných portálů.
  • 6. Co neumožňuje klasický web? Jak pomocí odkazů říci, že stránky pojednávají o stejné entitě? Jak vyznačit, kde jsou data o entitě určená pro sdílení? Jak mohu na své stránce využít data z jiných stránek?
  • 7. Co neumožňuje klasický web?  Odpovídat na složitější vyhledávací dotazy:  Jaká témata Martin vyučuje?  Na jakých školách Martin vyučuje?  Na jakých projektech Martin pracuje?  S kým Martin spolupracuje?
  • 8. Lze na webu publikovat i data?  Současnou výzvou tedy je publikovat nejenom dokumenty, ale i zdrojová data o entitách.  Aby web mohl poskytnout i výše uvedené služby.  Již dnes ale přeci na webu publikujeme často právě i zdrojová data určená pro další zpracování.  Známe dokonce 2 způsoby publikace dat:  Datové soubory mají také svoje jednoznačné URL a data reprezentují v různých formátech. • XML, CSV, XLS, ...  Pokročilým způsobem publikace dat jsou tzv. datová API (součástí konceptu web 2.0).
  • 9. Architektura webu 2.0 Různá API poskytují strojově čitelná Databáze Aplikace data pro další zpracování v tzv. C HTTP mashup aplikacích. Databáze D Data HTTP Také postaveny na několika API jednoduchých standardech: Data • XML/JSON jako formáty pro publikaci API dat • HTTP protokol pro získávání dat Data API Ale pozor Data • chybí URL identifikátory (resp. jsou API používány, ale nevhodně) • chybí odkazy mezi daty Databáze HTTP HTTP A Databáze Aplikace B
  • 10. Publikace dat na webu  Současné principy a technologie mají řadu nedostatků!  Je potřeba si uvědomit, že jednotkou pro publikaci není soubor s daty ale entita (většinou objekt reálného světa), o které chceme data publikovat. Ale  Publikace dat o entitách ale není postavena na principech, které Máme web nemáme už byly jednou vynalezeny pro publikaci dokumentů. web dat dokumentů Svět dokumentů Svět dat HTML jako formát pro publikaci dokumentů formátů pro publikaci dat používáme řadu (XML, JSON, CSV, XLS, ...) URL jako jednoznačné globální entitám nepřiřazujeme žádné globální identifikátory dokumentů identifikátory HTTP protokol pro vyhledávání a získávání HTTP protokol bychom mohli použít (REST), dokumentů dle jejich URL ale nemáme URL identifikátory věcí odkazy pro propojování dokumentů žádný z používaných formátů neumožňuje propojování souvisejících entit
  • 11. Srovnání webu dokumentů a publikace dat na webu  Můžeme publikovat  Můžeme publikovat dokumenty tak, aby si je entity tak, aby si je každý mohl ve svém každý mohl ve svém prohlížeči zobrazit, pokud prohlížeči zobrazit, pokud zná jejich URL. zná jejich URL.  Vazby nám umožňují dostat  Vazby nám umožňují dostat se i na dokumenty, jejichž se i na entity, jejichž URL přímo neznáme: URL přímo neznáme:  Procházení odkazů  Procházení odkazů vedoucích z jiných vedoucích z jiných dokumentů entit  Z katalogů odkazů  Z katalogů odkazů  Fulltextové vyhledání  Fulltextové vyhledání dokumentů (klíčová slova) entit (klíčová slova)
  • 12. Linked Data  principy Linked Data = sada „best practices“ pro publikaci, sdílení a propojování entit a dat o nich na webu  využití standardů současného Webu pro publikaci a přístup k entitám a datům o nich ve strojově čitelné podobě (publishing data)  možnost vytvářet vazby mezi souvisejícími entitami a publikovat vazby jako součást dat pro jejich strojové zpracování (linking data)  + tajná zbraň, o které se zmíníme později
  • 13. Publikace a přístup k datům  data = entity, údaje o nich a vazby mezi nimi  entita = organizace, projekt, zakázka, lék, ...  údaj o věci = název organizace, IČ organizace Máme web  vazba Máme web = zakázka je realizovaná v rámci projektu, organizace je příjemcem projektu, účinná látka je obsažená v léku dat! dokumentů Svět dokumentů Svět Linked Data HTML jako formát pro publikaci dokumentů RDF jako formát pro publikaci entit URL jako jednoznačné globální URL jako jednoznačné globální identifikátory dokumentů identifikátory entit HTTP protokol pro vyhledávání a získávání HTTP protokol pro vyhledávání a získávání dokumentů dle jejich URL entit dle jejich URL odkazy pro propojování dokumentů vazby pro propojování entit + a jdeme ještě dál, je tu ta tajná zbraň 
  • 14. Údaje o entitách a vazby mezi nimi
  • 16. Vazby jsou chápány také jako entity
  • 17. RDF reprezentace  RDF je datový model  reprezentuje entity, datové hodnoty a vazby v podobě RDF grafu  každá entita a datová hodnota tvoří uzel  každá vazba mezi dvěma entitami nebo mezi entitou a datovou hodnotou tvoří hranu  entity i vazby mají svá URL
  • 18. Zápis RDF reprezentace  RDF graf je vždy zapsán jako množina trojic  trojice popisuje jednu vazbu ve tvaru subjekt predikát objekt  trojice jsou zapisovány ve vhodné notaci  RDF/XML, RDFa, N3, Turtle, JSON
  • 19. Zápis RDF reprezentace - Turtle <http://esfcr.cz/data/projekt/CZ10421016300169> esf:nazev "INNOSTART" ; esf:registracni_cislo "CZ.1.04/2.1.01/63.00169" ; esf:castka "4711681" ; esf:realizace_od "2011-06-01" ; esf:realizace_do "2013-03-31" ; esf:realizator <http://esfcr.cz/data/institution/25438352> ; esf:partner <http://esfcr.cz/data/institution/25438352> ; esf:kontaktni_osoba <http://esfcr.cz/data/person/8541274571> ; esf:region <http://esfcr.cz/data/kraj/ustecky> .
  • 20. Přístup přes HTTP protokol Webový prohlížeč Aplikace <http://esfcr.cz/data/projekt/CZ10421016300169> esf:nazev "INNOSTART" ; esf:registracni_cislo "CZ.1.04/2.1.01/63.00169" ; HTTP HTTP esf:castka "4711681" ; esf:realizace_od "2011-06-01" ; (HTML) (RDF) esf:realizace_do "2013-03-31" ; esf:realizator <http://esfcr.cz/.../25438352> ; esf:partner <http://esfcr.cz/.../25438352> ; esf:kontaktni_osoba <http://esfcr.cz/.../8541274571>; http://esfcr.cz/.../projekt/ http://esfcr.cz/.../projekt/ esf:region <http://esfcr.cz/.../ustecky> . CZ10421016300169 CZ10421016300169 esfcr.cz
  • 22. Propojování objektů napříč datovými zdroji ROP * Rozpočty Zakázky OPPI strukturalni Územní -fondy.cz celky OPD Obchodní rejstřík Školy ESFCR ESFDB RISY
  • 23. LOD cloud ROP * Rozpočty Zakázky  Pokud se někdo z OPPI strukturalni- Územní lokálního „cloudu“ napojí fondy.cz celky OPD Obchodní rejstřík ESFCR na LOD cloud, profitují z Školy ESFDB RISY napojení všichni  Propojování mohou vznikat postupně a v různé kvalitě; kvantita i kvalita propojení se může postupně zvyšovat
  • 24. Ukázka z LOD cloudu http://dbpedia.org/resource/Ústí_nad_Labem_Region http://dbpedia.org/resource/Most
  • 25. Rekapitulace Linked Data Svět Linked Data RDF jako formát pro publikaci entit URL jako jednoznačné globální identifikátory entit HTTP protokol pro vyhledávání a získávání entit dle jejich URL vazby pro propojování entit + a nyní ta tajná zbraň
  • 26. Tajná zbraň = Ontologie (slovníky)  web dokumentů zná jen dva jednoduché koncepty  dokumenty  hypertextové nevýznamové odkazy mezi dokumenty  web dat zná řadu různých konceptů  entity mnoha významů (typů) • osoby, města, projekty, rozpočty, ...  významová propojení mezi entitami a jejich datovými hodnotami i mezi entitami navzájem • jméno osoby, jméno města, region projektu, ....  významy jsou důležité pro strojové zpracování  významy jsou zachyceny v tzv. ontologiích • tento pojem web dokumentů NEZNÁ
  • 27. Tajná zbraň = Ontologie (slovníky)  popisují strukturu a sémantiku dat  související ontologie vzájemně propojeny   interoperabilita
  • 28. Tajná zbraň = Ontologie (slovníky) http://labs.mondeca.com/dataset/lov/
  • 29. Tajná zbraň = Ontologie (slovníky)  schema.org  CreativeWork, Book, Movie, MusicRecording, Recipe, TVSeries ...  AudioObject, ImageObject, VideoObject  Event  Organization  Person  Place, LocalBusiness, Restaurant ...  Product, Offer, AggregateOffer  Review, AggregateRating  + mnoho dalších
  • 30. Jak s LD pracovat?  Bohužel dnes není technicky možné pracovat s celým LOD cloudem  Současné projekty využívají LD principů k publikaci a obohacování vlastních dat  Výběr konkrétních obohacujících datasetů (přístup přes HTTP URI nebo pomocí jazyka SPARQL)  Napojení vlastních dat na zvolené externí datasety
  • 31. Co nabízí MFF UK? Reference: Služby: • veřejné zakázky • semináře, a související Veřejná Linked školení data pro LOD2 a Data • průzkum DG Market Veřejné zdroje možností využití Neveřejná • rozpočty a (HTML, Excel, LD ve vaší interní databáze účetní ...) organizaci informace ze (obohacování systému ÚFIS dat o LD, • OGP pro Vládu - extrakce publikace dat ČR a MV ČR - deduplikace jako LD) • legislativa ČR v ETL - čištění • vývoj aplikací rámci - propojování nad LD výzkumného - odvozování • konverze projektu INTLIB existujících (TAČR) veřejných • vlastní iniciativa Vizualizace APP datových zdrojů OpenData.cz Analýzy do LD (HTML, APP Publikace APP Excel) • ...
  • 32. Co znamená publikovat vlastní LD?  Analýza vlastních dat  Jaká máme data? Co můžeme/chceme publikovat?  Jak data v různých našich databázích spolu souvisí? Jak souvisí s daty jiných subjektů?  Strukturovaný popis domény  Popis struktury a sémantiky dat, které chceme zveřejnit?  Návrh ontologie  Jaké již existují používané ontologie pokrývající náš doménový model?  Návrh vlastní ontologie pro části nepokryté existujícími ontologiemi.  Mapování vlastní nové ontologie konceptů na existující ontologie.  Export dat  Skripty exportující data do podoby navržené ontologie.  Propojení dat s existujícími daty v LOD cloudu.  Publikace dat  Aplikace nad daty  Lze nechat na někom jiném
  • 33. Příklad publikace LD (Veřejné zakázky) Analýza a popis domény
  • 34. Příklad publikace LD (Veřejné zakázky) Návrh ontologie
  • 35. Příklad publikace LD (Veřejné zakázky) Publikace dat  http://ld.opendata.cz/resource/business- entity/00276111  data o Semilech vytvořená v rámci OpenData.cz dle navržené ontologie  http://ld.opendata.cz/resource/municipality/0 0276111  jiná data o Semilech  všimněte si vazeb sameAs
  • 36. Příklad publikace LD (Veřejné zakázky) Aplikace nad daty  http://ld.opendata.cz/demo  demo aplikace nad Linked Daty o veřejných zakázkách v celé EU  data vytěžená z TED, národních portálů (např. isvzus.cz) + DBPedia
  • 37. Příklad publikace LD (Veřejné zakázky) Aplikace nad daty  http://studentweb.xrg.cz/hospodareni-obci/  aplikace nad Linked Daty o hospodaření obcí  data vytěžená z UFIS + DBPedia • UFIS = http://wwwinfo.mfcr.cz/ufis/  http://studentweb2.xrg.cz/bp-linked-data- rejskol  aplikace nad Linked Daty z rejstříku škol  data vytěžená z rejstříků MŠMT a MPSV • MŠMT = http://rejskol.msmt.cz/ • MPSV = http://portal.mpsv.cz/
  • 38. LD principy zlepšují atributy kvality datové infrasturktury  Propojitelnost  Mohu snadno propojovat svá data na jiná data. Svá data tak obohatím o nová související data, která ale nemusím udržovat ve své databázi.  Dohledatelnost  Ostatní mohou efektivněji nalézt má data díky propojením na jiná data.  Kontextovost  Na moje data lze nahlížet z různých kontextů daných vazbami na jiná data.  Neúplnost  Data o objektech a především propojení mezi objekty lze budovat a zveřejňovat postupně. Propojení nemusejí být zdaleka úplná (jak kvantitativně tak kvalitativně). Už při malém množství propojení se přínosy projeví.  Distribuovatelnost  Data a propojení mezi nimi není nutné publikovat „u zdroje“. Může je publikovat kdokoliv a kdekoliv.  Souvislost  Díky propojením tvoří data souvislý datový prostor, se kterým mohou aplikace pracovat jako s jednou databází.  Pluralita  Různí lidé mohou publikovat různá (i protichůdná) tvrzení o stejném objektu. Lze tak reflektovat běžné situace ve společnosti.  Modifikovatelnost (flexibilita)  Datová infrastruktura je odolná vůči změnám. Změny (např. mazání dat) mohou být jen na úrovni jednotlivých trojic a nezasahují jiné trojice. Jsou tak maximálně lokalizovány. A to jak na úrovni instancí, tak na úrovni schémat (ontologií).  Transparentnost  V datech lze také zaznamenat, kdo, kde, kdy a pod jakou licencí data publikoval.
  • 39. Co přinášejí LD pro vydavatele dat  rozložení nákladů na různé činnosti s daty  v čase  mezi jednotlivé uživatele  činnosti • publikace – data mohu publikovat postupně a publikuji jen svá primární data (na sekundární se napojím) • aktualizace – aktualizuji ve své databázi jen svá primární data, sekundární data aktualizují jejich správci a díky propojením se o aktualizacích hned dozvím • propojování – nemusím propojení vytvářet sám a nemusím hned vytvářet přesná propojení; ostatní uživatelé infrastruktury mi pomohou s kvantitou i kvalitou propojení  obohacování dat  zveřejněním dat v podobě LD a vytvořením relativně malého množství propojení obohatím svá data o všechna související data v LOD cloudu  s obohacováním mi pomáhají všichni uživatelé LOD cloudu  uživatelé mi pomáhají se zvyšováním kvality mých dat (mohou chyby v mých datech opravovat tak, že své opravy publikují v LOD cloudu)
  • 40. Co přinášejí LD pro tvůrce aplikací?  získávají jednotný formát, ve kterém mohou konzumovat data z různých zdrojů  z dat se díky propojením snadno dostanou na související data  získávají přístup k celosvětové distribuované databázi (LOD cloudu), kterou mohou využít ve své aplikaci  databáze navíc kontinuálně roste a zvyšuje svoji informační hodnotu  vědí, od koho data pocházejí a pod jakou licencí jsou publikována
  • 41. Enterprise Linked Data  pojem označující využívání LD principů uvnitř organizace  v případech, kdy se svými daty nemůže nakládat zcela otevřeně (osobní či jiné chráněné údaje)  jedná se o architektonický styl budování datové infrastruktury uvnitř organizace  navíc velmi přirozený, neboť je postaven na běžných technologiích (URI, HTTP, ...) – fungují stávající nástroje  přináší všechny výhody LD do organizace  viz atributy kvality výše  umožňuje využívat externí otevřená LD z LOD cloudu uvnitř organizace pro obohacování vlastních dat organizace
  • 42. Příklady ze světa  BBC  US and UK Government  NY Times  Best Buy  Sears  Kmart  Overstock  Google  Nature  mnoho dalších (viz LOD cloud)