Een semantisch Web voor archieven:
bouw bruggen, geen muren




Jacco van Ossenbruggen
VU/CWI Amsterdam




              ...
hool
Informatie stechnologie
       old c
“Sorry meneer, u heeft helemaal
  gelijk, maar dat past nu eenmaal
  niet in de ...
3
Image by Thierry Noir, see http://commons.wikimedia.org/wiki/Image:Berlinermauer.jpg
4
© CERN http://mediaarchive.cern.ch/MediaArchive/Photo/Public/2009/0903028/0903028_01/0903028_01-A4-at-144-dpi.jpg
Web technologie
  “The vision we share with others is to
    allow the Web to be accessible by
    anyone, anywhere, anyti...
Image courtesy of Paul Gramen Raven, CC-SA license,6see 

http://www.flickr.com/photos/armchairanarchist/2869662267/
Image by Jacco van Ossenbruggen, CC-SA license, see 

                                                7
 http://www.flickr....
The Web:
“open” documents and links




  URL       Web link    URL
                              8
The Semantic, or Data Web:
    “open” data and links
         Painting                                        Painter
“Gre...
10
http://www.w3.org/2001/sw/
12
http://richard.cyganiak.de/2007/10/lod/
13
http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-03-27.html
1
6
1
7
http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-03-27.html   1
                                               ...
Soorten interoperabiliteit
• Syntactische interoperabiliteit
  – gebruik data formaten waarmee je
    kunt delen
  – De XM...
21
22
Multilingual labels for concepts




                                   23
24
25
http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-03-27.html
http://e-culture.multimedian.nl
•  BSIK (aardgasbaten) project       The image cannot be displayed. Your computer may not ...
Principe 1: semantische annotatie

•  Beschrijf
   objecten met
   “concepten”
   uit een
   gecontroleerd
   vocabulair

...
Principe 2: semantisch zoeken
                            Query
•  gebruik betekenis bij    “Paris”
   het helpen formuler...
Principe 3: vocabulaires verbinden

       “Tokugawa”




  AAT style/period               SVCN period
   Edo (Japanese pe...
De mythe van de
geünificeerde thesaurus
•  In grote virtuele collecties heb je altijd
   meerdere vocabulaires
  – In meer...
Voorbeeld metadata (XML)




                           31
Resultaat:
hyperlinks voor mens & machine




                                 32
33
34
http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-03-27.html
pkonline
pprime semantic
annotation
waisda home
Recept
• Technologie is niet het belangrijkste
• Sociale & juridische barrières wel
• Willen wij eigenlijk wel delen
  – W...
39
http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-03-27.html
Open formaten & “cool” URLs
•  Op het web heeft alles een URL
  –  dus URLs voor:
     •  metadata records
     •  gedigit...
From metadata to
semantic metadata




                    41
Thesaurus alignment
 Linguïstisch & structuur

 Overlap in termen

 Overlap/gelijkenis in records

 Gedeelde achtergro...
alignments “leren”
• Bijv. relaties tussen kunststijlen in
  AAT and schilders in ULAN door het
  scannen van kunsthistori...
Open formaten & “cool” URLs
•  Op het web heeft alles een URL
  –  dus URLs voor:
     •  metadata records
     •  gedigit...
Een semantisch Web voor archieven:bouw bruggen, geen muren
Een semantisch Web voor archieven:bouw bruggen, geen muren
Een semantisch Web voor archieven:bouw bruggen, geen muren
Upcoming SlideShare
Loading in …5
×

Een semantisch Web voor archieven: bouw bruggen, geen muren

1,865 views

Published on

Lezing op uitnodiging van de KVAN, 16 juni 2009, door Jacco van Ossenbruggen

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,865
On SlideShare
0
From Embeds
0
Number of Embeds
13
Actions
Shares
0
Downloads
4
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Een semantisch Web voor archieven: bouw bruggen, geen muren

  1. 1. Een semantisch Web voor archieven: bouw bruggen, geen muren Jacco van Ossenbruggen VU/CWI Amsterdam 1
  2. 2. hool Informatie stechnologie old c “Sorry meneer, u heeft helemaal gelijk, maar dat past nu eenmaal niet in de computer.” – star, gesloten, beperkend, van boven af opgelegd, moeilijk of niet te veranderen – scheidt wat verbonden zou moeten zijn – metafoor: de muur 2
  3. 3. 3 Image by Thierry Noir, see http://commons.wikimedia.org/wiki/Image:Berlinermauer.jpg
  4. 4. 4 © CERN http://mediaarchive.cern.ch/MediaArchive/Photo/Public/2009/0903028/0903028_01/0903028_01-A4-at-144-dpi.jpg
  5. 5. Web technologie “The vision we share with others is to allow the Web to be accessible by anyone, anywhere, anytime, anyhow.” 1) – flexibel, open, ”enabling”, van onder af opgebouwd, constant veranderend – verbind wat voorheen gescheiden was – metafoor: de brug 1) http://www.w3.org/TR/di-princ/ 5
  6. 6. Image courtesy of Paul Gramen Raven, CC-SA license,6see 
 http://www.flickr.com/photos/armchairanarchist/2869662267/
  7. 7. Image by Jacco van Ossenbruggen, CC-SA license, see 
 7 http://www.flickr.com/photos/jrvosse/3618454739/
  8. 8. The Web: “open” documents and links URL Web link URL 8
  9. 9. The Semantic, or Data Web: “open” data and links Painting Painter “Green Stripe (Mme Matisse)” “Henri Matisse” Royal Museum of Fine Arts, Copenhagen Getty ULAN creator Dublin Core URL Web link URL 9
  10. 10. 10
  11. 11. http://www.w3.org/2001/sw/
  12. 12. 12 http://richard.cyganiak.de/2007/10/lod/
  13. 13. 13 http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-03-27.html
  14. 14. 1 6
  15. 15. 1 7
  16. 16. http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-03-27.html 1 9
  17. 17. Soorten interoperabiliteit • Syntactische interoperabiliteit – gebruik data formaten waarmee je kunt delen – De XML familie heeft vaak de voorkeur • Semantische interoperabiliteit – Hoe deel je betekenis en concepten – Technologie voor het vinden en representeren van betekenisvolle links 20
  18. 18. 21
  19. 19. 22
  20. 20. Multilingual labels for concepts 23
  21. 21. 24
  22. 22. 25 http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-03-27.html
  23. 23. http://e-culture.multimedian.nl •  BSIK (aardgasbaten) project The image cannot be displayed. Your computer may not have enough memory to open the image, or the image may have been corrupted. Restart your computer, and then open the file again. If the red x still appears, you may have to delete the image and then insert it again. MultimediaN •  Partners: VU, CWI, UvA, DEN, ICN •  People: Alia Amin, Lora Aroyo, Mark van Assem, Victor de Boer, Lynda Hardman, Michiel Hildebrand, Laura Hollink, Marco de Niet, Borys Omelayenko, Marie-France van Orsouw, Jacco van Ossenbruggen, Guus Schreiber Jos Taekema, Annemiek Teesing, Anna Tordai, Jan Wielemaker, Bob Wielinga •  Artchive.com, RKD, Rijksmuseum Amsterdam, Dutch ethnology musea (Amsterdam, Leiden), National Library (Bibliopolis) 26
  24. 24. Principe 1: semantische annotatie •  Beschrijf objecten met “concepten” uit een gecontroleerd vocabulair 27
  25. 25. Principe 2: semantisch zoeken Query •  gebruik betekenis bij “Paris” het helpen formuleren van de zoekvraag Paris •  vind objecten die een betekenisvolle relatie PartOf met de zoek term hebben •  gebruik het soort Montmartre relatie om de presentatie van de resultaten te verbeteren 28
  26. 26. Principe 3: vocabulaires verbinden “Tokugawa” AAT style/period SVCN period Edo (Japanese period) Edo Tokugawa AAT is Getty’s SVCN is local in-house Art & Architecture Thesaurus ethnology thesaurus 29
  27. 27. De mythe van de geünificeerde thesaurus •  In grote virtuele collecties heb je altijd meerdere vocabulaires – In meerdere talen •  Elk vocabulaire kent zijn eigen perspectief – Je kunt ze niet zomaar samenvoegen •  Maar je kunt verschillende vocabulaires samen gebruiken met slechts een beperkt aantal links – “Vocabulary alignment” •  Slechts een paar links kunnen al verassende resultaten leveren 30
  28. 28. Voorbeeld metadata (XML) 31
  29. 29. Resultaat: hyperlinks voor mens & machine 32
  30. 30. 33
  31. 31. 34 http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-03-27.html
  32. 32. pkonline
  33. 33. pprime semantic annotation
  34. 34. waisda home
  35. 35. Recept • Technologie is niet het belangrijkste • Sociale & juridische barrières wel • Willen wij eigenlijk wel delen – Wat als anderen “enge” dingen gaan doen met onze data? – Hoe blijven we de kwaliteit garanderen? – etc. • Maar stel je wil het echt, wat dan? 38
  36. 36. 39 http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-03-27.html
  37. 37. Open formaten & “cool” URLs •  Op het web heeft alles een URL –  dus URLs voor: •  metadata records •  gedigitaliseerde bronnen •  termen (uit de archiefwiki?) •  ... –  let op: “cool URLs don’t change”! •  Op het web is alle data ook beschikbaar voor andere applicaties •  elk formaat is prima, maar hoe meer applicaties het kunnen lezen hoe beter •  internationalisation (i18n) •  toegankelijkheid (voice browsers, mobiele telefoons, ...) •  gebruik vocabulaires die andere applicaties ook al begrijpen: Dublin Core, SKOS, (EAD), ... 40
  38. 38. From metadata to semantic metadata 41
  39. 39. Thesaurus alignment  Linguïstisch & structuur  Overlap in termen  Overlap/gelijkenis in records  Gedeelde achtergrond kennis 42 Original slide by Frank van Harmelen
  40. 40. alignments “leren” • Bijv. relaties tussen kunststijlen in AAT and schilders in ULAN door het scannen van kunsthistorische teksten – “Welke schilders waren Impressionisten” 43
  41. 41. Open formaten & “cool” URLs •  Op het web heeft alles een URL –  dus URLs voor: •  metadata records •  gedigitaliseerde bronnen •  termen (uit de archiefwiki?) •  ... –  let op: “cool URLs don’t change”! •  Op het web is alle data ook beschikbaar voor andere applicaties •  elk formaat is prima, maar hoe meer applicaties het kunnen lezen hoe beter •  internationalisation (i18n) •  toegankelijkheid (voice browsers, mobiele telefoons, ...) •  gebruik vocabulaires die andere applicaties ook al begrijpen: Dublin Core, SKOS, (EAD), ... 44

×