Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

526 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
526
On SlideShare
0
From Embeds
0
Number of Embeds
87
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

  1. 1. Hoe maken we semantische data? Ervaringen van Erfgoedplus.be en Europeana Informatie aan Zee, Oostende, 13 september 2013 Jef Malliet Erfgoedplus.be, Provincie Limburg
  2. 2. Inhoud 1. Semantisch web 2. Kwaliteit van data 3. Uitdagingen & Antwoorden 4. Best practices 2013-09-13 IaZ 2013 - Jef Malliet
  3. 3. 1.1 Semantisch web Web 3.0 Semantic Web Linked Data RDF 2013-09-13 IaZ 2013 - Jef Malliet
  4. 4. 1.2 Semantisch Web Semantische data  Betekenissen i.p.v. woorden • Semantic web: netwerk van concepten i.p.v. woorden  Eigenschappen • Links met concepten/objecten • Precisie • Redeneringen • Hergebruik • Eenduidigheid, ondubbelzinnigheid  Kwaliteitsvereisten??? 2013-09-13 IaZ 2013 - Jef Malliet
  5. 5. … Accuracy Correctness Currency Completeness Relevance 2.1 Kwaliteit van data Theorieën: dimensies Complete Unambiguous Meaningful Correct Integrity Consistency Timeliness Completeness Validity Accuraatheid Consistentie Tijd Volledigheid Begrijpbaarheid Veiligheid Huang et al., 1999 Sebastian-Coleman, 2013 Dejaeger et al., 2009 Fouten Ontbrekende gegevens Onnauwkeurig of bedrieglijk exact Inconsistent van Keulen, 2010 + _ 2013-09-13 IaZ 2013 - Jef Malliet Wang et al., 1993
  6. 6. 2.2 Kwaliteit van data Dimensies 2013-09-13 IaZ 2013 - Jef Malliet
  7. 7. 2.3 Kwaliteit van data Afhankelijk van de context  Aard • Feiten, berichten, achtergrond, … • Onderzoeksdata, meetresultaten, statistische, financiële data, … • Modellen, hypothesen, interpretaties, … •  Gebruik • Berichtgeving, recreatief, wetenschappelijk, wettelijk, … • Hergebruik (meerdere gebruiken, contexten) • Duurzaamheid (technisch, inhoudelijk) 2013-09-13 IaZ 2013 - Jef Malliet Checkland and Holwell, 1997 Data gegeven Capta selectie Informatie betekenis Kennis (re)constructie
  8. 8. 2.4 Kwaliteit van data Semantisch Web AAA: ‘Anyone can say anything about anything’ Uitdagingen voor het Semantisch web:  Omvang (vastness)  Vaagheid (vagueness)  Onzekerheid (uncertainty)  Inconsistentie (inconsistency)  Misleiding (deceit) 2013-09-13 IaZ 2013 - Jef Malliet http://en.wikipedia.org/wiki/Semantic_web
  9. 9. 3.1 Omvang (vastness) Uitdagingen & Antwoorden  Duplicatie • Geen universele identificatoren • Meerdere bronnen van informatie over objecten – autoriteit? • Meerdere publiatiekanalen voor dezelfde informatie  Relevantie • UGC: alle stadia van verkeerde informatie, gemengd met goede • Controle? = censuur! • tegen regels van Web 2,0 • tegen rechten van de mens • Kleinere gemeenschap = minder controle = meer gevaar voor vervuiling  Duplicatie controleren • PID (persistent identifiers): begint bij collectiebeheer • Opvolgen van secondary sources door primary sources • Uniforme communicatie in alle gebruikte kanalen  Relevantie vergroten • UGC: we willen het want het kan verrijkend zijn • Eigen data regelmatig opvolgen: nalezen, controleren, corrigeren, aanvullen, incl. Reacties van gebruikers 2013-09-13 IaZ 2013 - Jef Malliet AAA
  10. 10. 3.2 Vaagheid (vagueness) Uitdagingen & Antwoorden  Betekenis • Behoefte aan goede, meertalige authority files (thesauri)  Interpretatie • Verschillende bronnen / contexten • Bron vs. Gebruiker  Volledigheid • Informatie ontstaan in bepaalde context • Gemaakt voor specifieke gebruikersgroep  Thesauri • Bestaande thesauri gebruiken • Systematisch gebruik, precisie  ‘Verrijking’ a/d bron • Linking • Impliciete context expliciteren  Abstractie van specifieke context en doelgroepen • Buiten eigen context denken • Geen selectie van informatie 2013-09-13 IaZ 2013 - Jef Malliet AAA
  11. 11. 3.3 Onzekerheid (uncertainty) Uitdagingen & Antwoorden  (On)Waarheid van feiten • Verschillende versies  Benaderingen • Schattingen vs. Gemeten feiten • Observaties vs. Voorspellingen of gissingen  Opinies  Mengeling  Bronvermelding • Betrouwbaarheid van de bron  Graad van onzekerheid  Oorsprong van opinies • Verklaringen i.v.m. uiteenlopende opinies 2013-09-13 IaZ 2013 - Jef Malliet AAA
  12. 12. 3.4 Inconsistentie (inconsistency) Uitdagingen & Antwoorden  Tegenstrijdige feiten • Vele bronnen • Andere interpretaties • Verschillende tijdstippen  Niet genormaliseerde data • Informatie in verkeerde velden • Gemengde soorten informatie in eenzelfde veld  Andere contexten • Ander woordgebruik • Ander model van de realiteit  Bronvermelding  Standaarden gebruiken en strikt opvolgen  Contexten erkennen • Relateren aan concept- gebaseerde thesaurus • Relateren aan gemeenschappelijk ontologisch model 2013-09-13 IaZ 2013 - Jef Malliet AAA
  13. 13. 3.5 Misleiding (deceit) Uitdagingen & Antwoorden  Foute informatie • Te goeder trouw • Met slechte bedoelingen  Oude informatie  Vervorming  Gemengde precisie / kwaliteit  Controles achteraf • Feedback gebruiken • Interactie met eindgebruiker  Duiden en aanvullen  Bronaanduiding  Aanduiding van precisie 2013-09-13 IaZ 2013 - Jef Malliet AAA
  14. 14. 3.6 Conclusies Kwaliteit van semantische data  Weinig dat door techniek alleen kan opgelost worden • Techniek is noodzakelijk • Vereiste precisie moet door mensen geleverd worden  Verrijking aan kant van het portaal is moeilijk • Verhoogde risico’s op duplicatie, fouten en onzekerheid • Controle op kwaliteit kan slechts oppervlakkig  Meest betrouwbaar dichter bij de primaire bron • Aanmaken van data en informatie vraagt meer werk en aandacht • Geen nieuwe vereisten: standaarden en voorschriften bestaan al lang • Kwaliteitsverbetering vergroot herbruikbaarheid en duurzaamheid  Hulp van de eindgebruiker (UGC- crowdsourcing) • Voorzichtig, risico op vervuiling • Vereist deelname door de ‘primaire bron’ 2013-09-13 IaZ 2013 - Jef Malliet AAA
  15. 15. 4.1 Europeana  Top-down model  Grote instellingen  Landelijke aggregatoren  Geen direct contact met de bronnen  Cross-domain  Digitale dimensie doet grenzen vervagen  Naar mekaar toe groeien  Internationaal  Dialoog  Meertaligheid  Evolutie  Sterke nadruk op kwantiteit (politieke redenen)  Nu overschakeling naar semantisch datamodel  Nog geen goed zicht op ‘kwaliteit’  Experimenten met crowdsourcing (vb. Europeana1914-1918) 2013-09-13 IaZ 2013 - Jef Malliet
  16. 16. 4.2 Erfgoedplus.be  Bottom-up model  Ook kleine, lokale collecties moeten kunnen deelnemen  ‘Aggregator’: positie tussen bron en www / Europeana  Draagvlakverbreding  Provincie op de goede schaal (erkend in nieuw CE decreet)  Lokaal erfgoed is opstap naar breder erfgoedbewustzijn  Begeleiding, ondersteuning, netwerk  Direct contact met de (primaire) bronnen  Kwaliteit is belangrijke bekommernis aan de bron  Hergebruik en duurzaamheid  Semantisch-web technologie toegepast van bij de aanvang  Complementair met Europeana 2013-09-13 IaZ 2013 - Jef Malliet
  17. 17. 4.3 AAT & AAT-Ned  Thesaurus AAT(-Ned)  Ontstaan bij Getty AHIP einde jaren ‘70 (nu Research Institute)  Oorsprong: trefwoorden voor bibliografische databases  Sinds 1994: Nederlands vertalingsproject, met doorstart in 2007  Eigenschappen  Neutrale context  Meertalig (Engels, Nederlands, Frans, Spaans, Chinees, Duits, …)  Semantische voorloper (onbewust)  Vernieuwde interesse door semantisch web  Ontwikkeling en onderhoud  Actieve samenwerking binnen de erfgoedsector  Gedeelde verantwoordelijkheid  Deelname: correctie van fouten en aanvullingen  Erfgoedbeheerders zijn zelf de specialisten  Dynamisch, is nooit af 2013-09-13 IaZ 2013 - Jef Malliet
  18. 18. 4.4 LoCloud  Verder bouwen op reeds ontwikkelde instrumenten en ervaring  Aandacht voor lokale erfgoedcollecties  ‘Lightweight digital library’  Aggregatie, koppeling naar Europeana  Linken met thesauri, plaatsnamenlijsten, …  Goede laagdrempelige instrumenten  Cloud technologie ?  Benodigde ondersteuning ? Opleiding ?  Duurzaamheid van de infrastructuur ?  Duurzaamheid van de organisatie ? 2013-09-13 IaZ 2013 - Jef Malliet
  19. 19. Vragen ? Opmerkingen ? Suggesties ? jef.malliet@limburg.be 2013-09-13 IaZ 2013 - Jef Malliet

×