Introduktion till länkade data

233 views
187 views

Published on

Svenska myndigheters arkitekturnätverk

2013-10-01

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
233
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Introduktion till länkade data

  1. 1. Introduktion till Länkade Data Arkitekturnätverket 2013-10-01 Hannes Ebner hannes@metasolutions.se Matthias Palmér matthias@metasolutions.se
  2. 2. Vilka är vi Matthias Palmér ● ● Bakgrund: datalogi, matematik Tekn. dr. i medieteknik, fokus på hur man bygger moderna webbapplikationer mha Semantic Web/Länkade Data Hannes Ebner ● ● Bakgrund: telekommunikation, informationssystem Doktorsavhandling med fokus på samarbetsmiljöer som är baserade på semantiska teknologier och länkade data
  3. 3. Om MetaSolutions produkter RForms – Konfigurerbara webbformulär för redigera grafbaserad information (RDF) EntryStore – Repository för hantera kombinationen av resurser och tillhörande metadata EntryScape – Webbapplikation som ger gränsnitt till EntryStore, påminner om filutforskaren på windows/mac... (Dvs, inte bara teori, vi har omfattande erfarenhet med att utveckla system för/med Länkade data.)
  4. 4. Några av våra kunder och partners
  5. 5. Innehåll 1. Introduktion till länkade data 2. Kort om Publicering av länkade data (12 slides) (3 slides) 3. Vokabulärer och vokabulärspråk (7 slides) 4. Dataintegration och länkade data (9 slides) 5. Lösningar för att exponera länkade data (2 slides)
  6. 6. Om stjärnor ★★★★★ ★★★★★ ★★★★★ ★★★★★ ★★★★★ ★★★★★ ★★★★★ gör din information tillgänglig på Webben (oberoende av format) under en öppen licens gör informationen tillgänglig som strukturerad data (t. ex., Excel format istället för en bild av en tabell) använd icke-proprietära format (t. ex., CSV istället för Excel) använd URI:er för att identifiera ting, och RDF för att uttrycka påståenden om dem ★★★★★ länka dina data till andras data, det ger sammanhang 1. Introduktion
  7. 7. Länkade data ● ● ● ● ● ● 1. Introduktion Påståenden om ting Länkar mellan ting Hämta påståenden om ting över HTTP Ett språk (RDF) många format Ett frågespråk (SPARQL) Vokabulärer är också länkade data
  8. 8. Påståenden om ting ● Data om ting identifierade av URI:er ● Påståenden om dessa ting kan vara: ○ ○ ● 1. Introduktion egenskaper som titel, storlek, datum, osv. länkar till andra ting som “känner”, “är del av”, osv. Hämtning av ett ting (mha dess URI) ger en samling påståenden, några länkar vidare
  9. 9. Resource Description Format (RDF) Tre enkla regler: 1. Ett påstående uttrycks som “trippel” (“statement”), med subjekt, predikat och object 2. Alla delar av ett trippel är namn (identifierare) för entiteter (konkret eller abstrakt) 3. Objekt kan även ha ett text- eller datavärde (literaler) 1. Introduktion
  10. 10. Hämta påståenden om ting 1. Introduktion
  11. 11. Samma i “Turtle” format GET http://data.nobelprize.org/resource/nobelprize/Physics/1903 @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> . @prefix dbpedia: <http://dbpedia.org/ontology/> . @prefix nobel: <http://data.nobelprize.org/resource/terms/> . http://data.nobelprize.org/resource/nobelprize/Physics/1903 rdf:type nobel:nobelPrize ; rdf:type dbpedia:Award ; nobel:laureate http://data.nobelprize.org/resource/laureate/4 ; nobel:laureate http://data.nobelprize.org/resource/laureate/5 ; nobel:laureate http://data.nobelprize.org/resource/laureate/6 ; nobel:category http://data.nobelprize.org/resource/category/Physics ; nobel:year 1903 ; rdfs:label “Physics 1903”@en . 1. Introduktion
  12. 12. Webben vs. länkade data “Gamla” webben ● ● ● ● ● Nätverk av sidor Varje sida har en identifierare (URL) Bakom varje URL ligger ett dokument Sidor är ihopkopplade via länkar “Open world” 1. Introduktion Länkade data (“Web of Data”) ● ● ● ● ● Nätverk av ting (4★) Varje ting har en identifierare (URI) (4★) Bakom varje URI ligger “statements” (5★) Ting är ihopkopplade via länkar (5★) “Open world”
  13. 13. 2007 1. Introduktion
  14. 14. 2008 1. Introduktion
  15. 15. 2009 1. Introduktion
  16. 16. 2010 1. Introduktion
  17. 17. 2011 1. Introduktion
  18. 18. Datapublicering – initiala frågor ● ● ● ● ● 2. Publicering Identifiera vad man vill göra tillgängligt Vad är nyttigt/användbart? Var ligger det nu? Hur är det underhållet nu? Kan det bli identifierat?
  19. 19. Datapublicering – licensiering (!) Säkerställa att licensiering är entydig ● Creative Commons (CC0) ● Open Data Commons ● Egen licens Data != Metadata ● Blandas ihop ofta 2. Publicering
  20. 20. Publicering - länkning Vanligt att använda DBpedia och andra stora dataset som “länkningscentraler” ● Leder automatiskt till ett flertal av indirekta länkar pga att andra data redan länkar till dem ● Hur skapas länkar? ○ ○ ○ ○ 2. Publicering Bra utgångsmaterial underlättar automatisk länkning Textanalys (“named entity extraction”) Disambiguering (Homonymer) Manuellt
  21. 21. DCMI Terms Qualified Dublin Core Properties: abstract, accessRights, accrualMethod, accrualPeriodicity, accrualPolicy, alternative, audience, available, bibliographicCitation, conformsTo, contributor, coverage, created, creator, date, dateAccepted, dateCopyrighted, dateSubmitted, description, educationLevel, extent, format, hasFormat, hasPart, hasVersion, identifier, instructionalMethod, isFormatOf, isPartOf, isReferencedBy, isReplacedBy, isRequiredBy, issued, isVersionOf, language, license, mediator, medium, modified, provenance, publisher, references, relation, replaces, requires, rights, rightsHolder, source, spatial, subject, tableOfContents, temporal, title, type, valid Intoducerades 1995 på Workshop i Dublin Ohio av olika biblioteksorganisationer Fokus: beskriva resurser/verk av olika slag Underhålls av DCMI (Dublin Core Metadata Initiative) 3. Vokabulärer
  22. 22. FOAF - Friend Of A Friend Properties: account | age | based_near | birthday | currentProject | depicts | dnaChecksum | gender | givenName | holdsAccount | img | interest | knows | lastName | mbox | member | nick | openid | page | phone | plan | status | surname | thumbnail | title | topic | weblog Specification: http://xmlns.com/foaf/spec Introduced in 2000, latest update 2010 Builds upon Dublin Core 3. Vokabulärer
  23. 23. Schema.org Bing, Google och Yahoo Introducerade schema.org 2011 Mer än 800 typer och 600 egenskaper Används för att förbättra sökresultat 3. Vokabulärer
  24. 24. Koncept-, vokabulär- och ontologispråk SKOS, RDFS och OWL SKOS - “Simple Knowledge Organisation System” ● ● ● ● Concepts in ConceptSchemes Namn via prefLabel, altLabel Hierarkier via narrow/broader relationer via related RDFS - “RDF Vocabulary Description Language” ● Definera klasser och properties i RDF ● subClassOf och subPropertyOf för att förfina OWL - “Web Ontology Language” ● Kraftfullare än RDFS 3. Vokabulärer
  25. 25. SNOMED CT och ICD9 i SKOS id (URI): 61462000 Namn (prefLabel): Malaria Synonymer (altLabel): Plasmodiosis, Paludism Förfining av (broader): 105649009 Närbesläktad (closeMatch): ICD9:084_6 id (URI): Namn (prefLabel): 105649009 Disease due to Plasmodiidae Snomed CT id (URI): Namn (prefLabel): 3. Vokabulärer Snomed CT 084_6 Malaria, Unspecified ICD9
  26. 26. SNOMED CT och ICD9 i SKOS Utforska själv på: http://schemes.caregraf.info/snomed#! 61462000 3. Vokabulärer
  27. 27. Mer om SKOS Notes: note, changeNote, definition, historyNote, editorialNote, example, scopeNote transitivity: broaderTransitive, narrowTransitive Match: closeMatch, relatedMatch, narrowMatch, broaderMatch Concept Collections 3. Vokabulärer
  28. 28. Problembild - Dataintegration ● ● ● Många disparata datakällor och silos Många punkt-till-punkt gränssnitt Datakällor med liknande eller inkonsistent information Data IN - Använda andras data korrekt Data UT - Egen data förstådd och rätt använd Helst på ett enkelt, hållbart och skalbart sätt! 4. Dataintegration
  29. 29. Förstådd och rätt använd Hitta/anpassa den bästa standarden ● Hur avgränsa ett område ● Hur komma överens, legitimitet Använd många vokabulärer och Länkade data ● Kombinera existerande vokabulärer + egna ● Best practise växer fram, dubblera där så saknas 4. Dataintegration
  30. 30. Interoperabilitet vs. Harmonisering En enskild standard ger interoperabilitet ● Maskiner kan utbyta data efter noggrann programmering ● Oftast punkt till punkt Länkade data ger harmonisering mellan standarder/vokabulärer ● Olika data kan blandas och samexistera ● Maskiner förstår de delar de programmerats för ● Ibland genom att förgrova och dra slutsatser enligt förberedda regler 4. Dataintegration
  31. 31. Importera eller länka Importera data som behövs ● Hur mycket ska man importera? ● Kvalité och underhåll ditt ansvar ● Hur länge är data korrekt? ● Vilka protokoll ska användas? (WS* vs. REST) Länka till data som behövs ● Kvalité och underhåll leverantörens ansvar ● HTTP och SPARQL väl etablerade, ● kan kombineras med t. ex. SRU ● Cacha bara nödvändig data (förlita dig på http) 4. Dataintegration
  32. 32. Datamodell för disparata data Egen datamodell ● Datamodellen blir en union av alla behov ● Dokumentation och underhåll ● Ursprung bör hanteras noga (provenance) Utnyttja RDF ● Datamodellen är given av RDF abstract model ● Ursprung hanteras via URI:er (och named graphs) ● Många format finns att välja på 4. Dataintegration
  33. 33. Länkade data ger möjligheter (1) Förenkling av informationsintegrationsprocesser ● Flexibelt och enkelt för evolverande datamodeller ● Ignorera det du inte förstår eller behöver ● Integrera data av olika informationskvalite ● Hantera synonymer och homonymer i data (reconciliation och disambiguation) Tillhandahålla ett enterprise metadatalager ● Enhetliga metadatavokabulär inom organisationen ● Harmonisera “legacy” datasilos ● Förbättring av informationsspridning ● Agilt “Master Data Management” 4. Dataintegration
  34. 34. Länkade data ger möjligheter (2) Identifiering och förädling av information ● Länka ihop personer, organisationer, händelser, … ● Förädla organisationsinnehåll med strukturerade annotationer ● Identifiera implicita länkar och relationer Enhetlig tillgång till information inom organisationen ● Förenklad infrastruktur baserad på öppna standarder Informationsutbyte mellan olika organisationer ● Enkel publicering och konsumtion av länkade data 4. Dataintegration
  35. 35. Typiska enterprise use cases Publicering och konsumtion av länkade data ● Länkade data behöver inte vara öppna / gratis ● Stödjer datautbyte inom värdekedjan Informationsintegration ● Integrerad asset-hantering / harmonisering av data silos) ● Master Data Management Knowledge discovery och semantisk sökning 4. Dataintegration
  36. 36. Framgångshistorier Linked Life Data ● Semantisk warehouse som integrerar och länkar fler än 25 öppna biomedicinska datakällor ● Interaktiv utforskning Dynamisk semantisk publicering ● BBC World Cup 2010 och London Olympics 2012 ● Länkade data för att automatisera dynamisk publicering av innehåll Data om Nobelpris ● Länkar ihop pristagare, dokumentation och externa datakällor 4. Dataintegration
  37. 37. Olika kategorier av lösningar för att exponera länkade data Mål - exponera sina data som länkade data Givet - en plattform som inte stöder länkade data Påverkan Ändra arkitektur Lösning Byta plattform Utvidga plattformen Lager ovanpå plattformen Använda en molntjänst 5. Lösningar X Extra teknisk kompetens krävs Påverkan på Driftsäkerhet Underhåll krävs X X X ? ? X X X X ? ?
  38. 38. Arkitekturskiss LODify WebbApp entrystore.js LOD EntryStore - molntjänst Resurser Config Sökindex Kalkylb lad 5. Lösningar Config Tabular importer Relational importer RDB Rättigheter Config Triple store Webbdokument importer API based importer Doku ment API Config
  39. 39. Tack för er uppmärksamhet! Frågestund! Hannes Ebner <hannes@metasolutions.se> Matthias Palmér <matthias@metasolutions.se> Kontakta oss gärna, tex om ni: - har frågor om länkade data - vill bli informerade om LODify MetaSolutions AB www.metasolutions.se info@metasolutions.se

×