Your SlideShare is downloading. ×
Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

214

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
214
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Hoe maken we semantische data? Ervaringen van Erfgoedplus.be en Europeana Informatie aan Zee, Oostende, 13 september 2013 Jef Malliet Erfgoedplus.be, Provincie Limburg
  • 2. Inhoud 1. Semantisch web 2. Kwaliteit van data 3. Uitdagingen & Antwoorden 4. Best practices 2013-09-13 IaZ 2013 - Jef Malliet
  • 3. 1.1 Semantisch web Web 3.0 Semantic Web Linked Data RDF 2013-09-13 IaZ 2013 - Jef Malliet
  • 4. 1.2 Semantisch Web Semantische data  Betekenissen i.p.v. woorden • Semantic web: netwerk van concepten i.p.v. woorden  Eigenschappen • Links met concepten/objecten • Precisie • Redeneringen • Hergebruik • Eenduidigheid, ondubbelzinnigheid  Kwaliteitsvereisten??? 2013-09-13 IaZ 2013 - Jef Malliet
  • 5. … Accuracy Correctness Currency Completeness Relevance 2.1 Kwaliteit van data Theorieën: dimensies Complete Unambiguous Meaningful Correct Integrity Consistency Timeliness Completeness Validity Accuraatheid Consistentie Tijd Volledigheid Begrijpbaarheid Veiligheid Huang et al., 1999 Sebastian-Coleman, 2013 Dejaeger et al., 2009 Fouten Ontbrekende gegevens Onnauwkeurig of bedrieglijk exact Inconsistent van Keulen, 2010 + _ 2013-09-13 IaZ 2013 - Jef Malliet Wang et al., 1993
  • 6. 2.2 Kwaliteit van data Dimensies 2013-09-13 IaZ 2013 - Jef Malliet
  • 7. 2.3 Kwaliteit van data Afhankelijk van de context  Aard • Feiten, berichten, achtergrond, … • Onderzoeksdata, meetresultaten, statistische, financiële data, … • Modellen, hypothesen, interpretaties, … •  Gebruik • Berichtgeving, recreatief, wetenschappelijk, wettelijk, … • Hergebruik (meerdere gebruiken, contexten) • Duurzaamheid (technisch, inhoudelijk) 2013-09-13 IaZ 2013 - Jef Malliet Checkland and Holwell, 1997 Data gegeven Capta selectie Informatie betekenis Kennis (re)constructie
  • 8. 2.4 Kwaliteit van data Semantisch Web AAA: ‘Anyone can say anything about anything’ Uitdagingen voor het Semantisch web:  Omvang (vastness)  Vaagheid (vagueness)  Onzekerheid (uncertainty)  Inconsistentie (inconsistency)  Misleiding (deceit) 2013-09-13 IaZ 2013 - Jef Malliet http://en.wikipedia.org/wiki/Semantic_web
  • 9. 3.1 Omvang (vastness) Uitdagingen & Antwoorden  Duplicatie • Geen universele identificatoren • Meerdere bronnen van informatie over objecten – autoriteit? • Meerdere publiatiekanalen voor dezelfde informatie  Relevantie • UGC: alle stadia van verkeerde informatie, gemengd met goede • Controle? = censuur! • tegen regels van Web 2,0 • tegen rechten van de mens • Kleinere gemeenschap = minder controle = meer gevaar voor vervuiling  Duplicatie controleren • PID (persistent identifiers): begint bij collectiebeheer • Opvolgen van secondary sources door primary sources • Uniforme communicatie in alle gebruikte kanalen  Relevantie vergroten • UGC: we willen het want het kan verrijkend zijn • Eigen data regelmatig opvolgen: nalezen, controleren, corrigeren, aanvullen, incl. Reacties van gebruikers 2013-09-13 IaZ 2013 - Jef Malliet AAA
  • 10. 3.2 Vaagheid (vagueness) Uitdagingen & Antwoorden  Betekenis • Behoefte aan goede, meertalige authority files (thesauri)  Interpretatie • Verschillende bronnen / contexten • Bron vs. Gebruiker  Volledigheid • Informatie ontstaan in bepaalde context • Gemaakt voor specifieke gebruikersgroep  Thesauri • Bestaande thesauri gebruiken • Systematisch gebruik, precisie  ‘Verrijking’ a/d bron • Linking • Impliciete context expliciteren  Abstractie van specifieke context en doelgroepen • Buiten eigen context denken • Geen selectie van informatie 2013-09-13 IaZ 2013 - Jef Malliet AAA
  • 11. 3.3 Onzekerheid (uncertainty) Uitdagingen & Antwoorden  (On)Waarheid van feiten • Verschillende versies  Benaderingen • Schattingen vs. Gemeten feiten • Observaties vs. Voorspellingen of gissingen  Opinies  Mengeling  Bronvermelding • Betrouwbaarheid van de bron  Graad van onzekerheid  Oorsprong van opinies • Verklaringen i.v.m. uiteenlopende opinies 2013-09-13 IaZ 2013 - Jef Malliet AAA
  • 12. 3.4 Inconsistentie (inconsistency) Uitdagingen & Antwoorden  Tegenstrijdige feiten • Vele bronnen • Andere interpretaties • Verschillende tijdstippen  Niet genormaliseerde data • Informatie in verkeerde velden • Gemengde soorten informatie in eenzelfde veld  Andere contexten • Ander woordgebruik • Ander model van de realiteit  Bronvermelding  Standaarden gebruiken en strikt opvolgen  Contexten erkennen • Relateren aan concept- gebaseerde thesaurus • Relateren aan gemeenschappelijk ontologisch model 2013-09-13 IaZ 2013 - Jef Malliet AAA
  • 13. 3.5 Misleiding (deceit) Uitdagingen & Antwoorden  Foute informatie • Te goeder trouw • Met slechte bedoelingen  Oude informatie  Vervorming  Gemengde precisie / kwaliteit  Controles achteraf • Feedback gebruiken • Interactie met eindgebruiker  Duiden en aanvullen  Bronaanduiding  Aanduiding van precisie 2013-09-13 IaZ 2013 - Jef Malliet AAA
  • 14. 3.6 Conclusies Kwaliteit van semantische data  Weinig dat door techniek alleen kan opgelost worden • Techniek is noodzakelijk • Vereiste precisie moet door mensen geleverd worden  Verrijking aan kant van het portaal is moeilijk • Verhoogde risico’s op duplicatie, fouten en onzekerheid • Controle op kwaliteit kan slechts oppervlakkig  Meest betrouwbaar dichter bij de primaire bron • Aanmaken van data en informatie vraagt meer werk en aandacht • Geen nieuwe vereisten: standaarden en voorschriften bestaan al lang • Kwaliteitsverbetering vergroot herbruikbaarheid en duurzaamheid  Hulp van de eindgebruiker (UGC- crowdsourcing) • Voorzichtig, risico op vervuiling • Vereist deelname door de ‘primaire bron’ 2013-09-13 IaZ 2013 - Jef Malliet AAA
  • 15. 4.1 Europeana  Top-down model  Grote instellingen  Landelijke aggregatoren  Geen direct contact met de bronnen  Cross-domain  Digitale dimensie doet grenzen vervagen  Naar mekaar toe groeien  Internationaal  Dialoog  Meertaligheid  Evolutie  Sterke nadruk op kwantiteit (politieke redenen)  Nu overschakeling naar semantisch datamodel  Nog geen goed zicht op ‘kwaliteit’  Experimenten met crowdsourcing (vb. Europeana1914-1918) 2013-09-13 IaZ 2013 - Jef Malliet
  • 16. 4.2 Erfgoedplus.be  Bottom-up model  Ook kleine, lokale collecties moeten kunnen deelnemen  ‘Aggregator’: positie tussen bron en www / Europeana  Draagvlakverbreding  Provincie op de goede schaal (erkend in nieuw CE decreet)  Lokaal erfgoed is opstap naar breder erfgoedbewustzijn  Begeleiding, ondersteuning, netwerk  Direct contact met de (primaire) bronnen  Kwaliteit is belangrijke bekommernis aan de bron  Hergebruik en duurzaamheid  Semantisch-web technologie toegepast van bij de aanvang  Complementair met Europeana 2013-09-13 IaZ 2013 - Jef Malliet
  • 17. 4.3 AAT & AAT-Ned  Thesaurus AAT(-Ned)  Ontstaan bij Getty AHIP einde jaren ‘70 (nu Research Institute)  Oorsprong: trefwoorden voor bibliografische databases  Sinds 1994: Nederlands vertalingsproject, met doorstart in 2007  Eigenschappen  Neutrale context  Meertalig (Engels, Nederlands, Frans, Spaans, Chinees, Duits, …)  Semantische voorloper (onbewust)  Vernieuwde interesse door semantisch web  Ontwikkeling en onderhoud  Actieve samenwerking binnen de erfgoedsector  Gedeelde verantwoordelijkheid  Deelname: correctie van fouten en aanvullingen  Erfgoedbeheerders zijn zelf de specialisten  Dynamisch, is nooit af 2013-09-13 IaZ 2013 - Jef Malliet
  • 18. 4.4 LoCloud  Verder bouwen op reeds ontwikkelde instrumenten en ervaring  Aandacht voor lokale erfgoedcollecties  ‘Lightweight digital library’  Aggregatie, koppeling naar Europeana  Linken met thesauri, plaatsnamenlijsten, …  Goede laagdrempelige instrumenten  Cloud technologie ?  Benodigde ondersteuning ? Opleiding ?  Duurzaamheid van de infrastructuur ?  Duurzaamheid van de organisatie ? 2013-09-13 IaZ 2013 - Jef Malliet
  • 19. Vragen ? Opmerkingen ? Suggesties ? jef.malliet@limburg.be 2013-09-13 IaZ 2013 - Jef Malliet

×