DE Conferentie 2007 - Hennie Brugman

356 views
317 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
356
On SlideShare
0
From Embeds
0
Number of Embeds
40
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • CATCH Continuous Access To Cultural Heritage N.w.o. Programma 10 informatica research projecten, gehuisvest bij grote cultureel erfgoedinstellingen 10 teams van ieder 3 personen: postdoc, aio en wetenschappelijk programmeur Resultaten Research: publicaties, proefschrift Software Acronym wordt in loop presentatie duidelijker ‘ landschap’ verrijken door nieuwe beschrijvingen en verbanden te genereren Dat verrijkte landschap toegankelijk maken voor eindgebruikers
  • Handmatige ontsluiting: ongeveer 40 documentalisten Verregaande en up-to-date ICT ondersteuning Metadata specificatie: 10-tallen velden, hierarchisch van opzet Beschrijvingsregels: leiden tot behoorlijke constistentie in beschrijvingen. Blijkt ook uit evaluaties door CHOICE. Programma-soorten: bijna nooit radio uitzendingen afgeluisterd
  • Documentalist: bronnen: av document, context documenten Gebruikt thesaurus (via lijsten) en metadata formulier Vrije tekst velden en aan thesaurus gebonden velden Kent beschrijvingsregels Choice: gebruikt alleen context documenten Analyse dmv natural language processing Geeft alleen suggesties voor aan thesaurus gekoppelde metadata velden
  • Stappen, nodig om te komen tot aan aanbeveling aan de documentalist. Sommige stappen zijn offline, andere online. Tevens outline van de presentatie GTAA is eigen thesaurus van Beeld en Geluid. Enkele jaren ontwikkeltijd. Concepten: dus, meer tekstwaarden gelinkt aan zelfde concept. Voorbeeld: ‘soldaat’ en ‘militairen’ Selecteer context documenten, en daarmee een set annotaties voor deze documenten
  • SKOS: van term-gebaseerd naar concept-gebaseerd. Alexander II , tsaar Rusland
  • Programma-beschrijvingen. Programma websites.
  • Gegeven een tekst, bepaal hieruit mogelijke thesauruswaarden voor ieder van de velden in de catalogusbeschrijving.
  • Stap 1: zoek letterlijke labels van thesaurustermen op in de tekst. Stap 2: annoteer met voorkeursterm
  • Gaat over politieke besluitvorming rond militaire missie naar Afghanistan. Gevonden: trefwoorden, sommige lijken goed, andere slecht. Bijvoorbeeld ‘meren’
  • Meest voorkomende trefwoord: ‘missies’. Blijkt om missies in de zin van ‘evangelisatie’ te gaan. Is dus incorrect. Vraag: hoe zorgen we dat het lager op de lijst komt?
  • Alle termen afbeelden op voorkeurstermen Kijk welke van deze termen direct gerelateerd zijn in de thesaurus. Idee: geïsoleerde termen beschrijven de tekst waarschijnlijk minder goed dan samenhangende termen. Kijk welke via 1 andere thesaurusterm gerelateerd zijn
  • 4 groepen: Direct en indirect verbonden Direct verbonden Indirect verbonden Rest Sorteer per groep op hoevaak een term voorkomt.
  • Observaties: missies omlaag, meren omlaag ‘ vredestroepen’ en ‘militaire operaties’ komen in de automatische lijst niet voor. Toch lijken de automatisch trefwoorden relevant: brengen je in de buurt van gewenste suggesties Catalogusbeheer noemt niets over politieke besluitvorming. Automatisch proces doet dat wel (en documentalisten soms ook) Er zijn meer automatische trefwoorden dan de 2 uit de gouden standaard van catalogusbeheer.
  • Versie documentalisten: we gaan gebruikerstests uitvoeren.
  • UI design of our envisioned end product. Web based front end, using, updating, searching resources via web services Search: text: in metadata/catalog in context document text content concepts: in “annotation repository” Edit context document metadata Show (and manage) bundling of text with catalog records (and indirectly with AV) Top: IMMIX metadata Bottom: Context documents and derivatives Left: search results Middle: content Right: annotation
  • Interpretatie: kijken naar av, begrijpen van teksten. Automatisch daarentegen neemt eenvoudigweg alles wat voorkomt in de teksten. 2 bepalen van meest relevante trefwoorden: volgens regels, of middels ranking
  • Zoekvraag: gegeven een document (of tv programma), vind semantisch vergelijkbare documenten. Doe dat op basis van aantal overeenkomende trefwoorden.
  • Alles stroomt sinds vorig jaar digitaal in, en moet zeer snel ontsloten zijn. Extra instroom door groot digitalisatie-project: beelden voor de toekomst Volledige annotatie is niet haalbaar, maar ook niet noodzakelijk. Streven: 80/20
  • Choice staat dicht bij het Beeld en Geluid bedrijfsproces, en dat moet zo blijven. Openingen naar de rest van de erfgoedwereld tot stand brengen: 1. Thesaurus. 2. Software en algoritmen toepasbaar op andere collecties
  • DE Conferentie 2007 - Hennie Brugman

    1. 1. Trefwoorden en context de semantische annotatie H e t p r o j e c t CHOICE b i j Beeld en Geluid ` V é ronique Malaisé Hennie Brugman Luit Gazendam Lora Aroyo Guus Schreiber Mettina Veenstra Annemieke de Jong Johan Oomen
    2. 2. Introductie
    3. 3. Introductie C.H.O.I.C.E. <ul><li>Context: CATCH program ma </li></ul><ul><li>CH arting the uncharted inf O rmation landscape </li></ul><ul><li>employ I ng C ont E xt information </li></ul><ul><li>Samenwerking VU, MPI, TI en Beeld en Geluid </li></ul><ul><li>Research gebieden: </li></ul><ul><li>Automatische metadata suggestie </li></ul><ul><li>Semantisch zoeken en browsen </li></ul>
    4. 4. Werkproces van de av-documentalist <ul><li>Ontsluiting (digitale) radio- en televisieprogramma’s Publieke Omroep </li></ul><ul><li>Geïntegreerd catalogussysteem IMMIX : metadata specificatie, workflowclient en metadata-editor </li></ul><ul><li>Beschrijvingsregels per genre/programmaformat </li></ul><ul><li>Viewing/afluisteren alleen bij bepaalde programmasoorten </li></ul><ul><li>Gebruik contextbronnen (websites, recensies, kijk-luisteronderzoeken, presentatieteksten, logboeken) </li></ul>
    5. 5. CHOICE’s belangrijkste doel is om automatisch afgeleide thesaurusterm en te suggereren voor specifieke metadata velden. Deze suggesti es worden ontleend aan contextu ele tekstbronnen die zijn verbonden met radio o f televisie-programma’s
    6. 6. Catalogus beschrijving Metadata model Beschrijvingsregels Thesaurus Audiovisueel document Context documenten documentalist natural language processing thesaurus velden
    7. 7. De ‘annotatiepijplijn’ 1. Convert eren en verrijken van de GTAA Gemeenschappelijke Thesaurus Audiovisuele Archieven 2. Het annoteren van contextdocument en T e kst- segment en linken aan GTAA concep ten 3. Select eren van contextdocumenten Die welke zijn verbonden aan een bepaald TV program ma 4. Rangschikken van de annotatiewaarden Meest relevante bovenaan de lijst 5. Presenteren Termen uit de lijst aan de documentalist de d
    8. 8. Conversie en verrijking GTAA
    9. 9. Conversie en uitbreiding GTAA <ul><li>Facet - thesaurus </li></ul><ul><li>Onderwerp , Genre, Perso onsnaam , Naam , Maker, Locati e </li></ul><ul><li>B roader Term/Narrower Term, Related Term, use/use for, scope note </li></ul><ul><li>Omzetting naar SKOS /OWL </li></ul><ul><li>Toegevoegd </li></ul><ul><li>- synon iemen </li></ul><ul><li>- enkelvoudsvormen </li></ul><ul><li>- eng else vertalingen </li></ul><ul><li>Automatisch links aangebracht tussen termen van verschillende facetten </li></ul>
    10. 10. Annoteren van context-documenten
    11. 11. Voorbeelden context documenten Verlenging missie? Afghanistan missie
    12. 12. Ontlenen metadata aan context-documenten <ul><li>Missie Afghanistan uiterst onzeker. S teeds meer partijen beginnen te twijfelen aan de voorgenomen missie van 1100 Nederlandse soldaten naar Afghanistan. Morgen komen er twee hoge functionarissen van het Pentagon en het State Department naar Den Haag voor overleg met Nederlandse t opambtenaren. Vrijdag hakt het kabinet zo goed als zeker de knoop door. Het lijkt een ware worsteling te worden. </li></ul>Makers Sprekers Locaties Namen Persoonsnamen Onderwerp Genre Samenvatting Titel
    13. 13. <ul><li>Missie Afghanistan uiterst onzeker </li></ul><ul><li>Steeds meer partijen beginnen te twijfelen aan de voorgenomen missie van 1100 Nederlandse soldaten naar Afghanistan. Morgen komen er twee hoge functionarissen van het Pentagon en het State Department naar Den Haag voor overleg met Nederlandse topambtenaren. Vrijdag hakt het kabinet zo goed als zeker de knoop door. Het lijkt een ware worsteling te worden. </li></ul>Semantische annotatie GTAA-concept:missie GTAA-concept:militairen GTAA-altlabel:soldaten GTAA-altlabel:kabinetten GTAA-concept:regeringen
    14. 14. Resultaten (detecteren mogelijke GTAA-trefwoorden)                                                                                                                                     1 Europa     7 Afghanistan makers genres N locaties 1 soldaten 1 ambtenaren 1 christenen 1 democratisering 1 gevangenissen 1 kampen 1 kranten 1 krijgsgevangenen 1 meren 1 ministerraad 1 ministers 1 premiers 1 schrijven 1 stemmen 2 overeenkomsten 4 kabinetten 4 militairen 5 missies N Trefwoorden (voorlopig)                                                                     1 Balkenende N personen                                             1 Europa 1 CIA 1 Pentagon 1 NAVO 1 Taliban 1 VVD 2 CDA N namen
    15. 15. Het trefwoord missies in de GTAA <ul><li>missies </li></ul><ul><ul><li>1D01.03 (levensbeschouwing - christendom) </li></ul></ul><ul><ul><li>RT evangelisatie </li></ul></ul><ul><ul><li>RT Katholicisme </li></ul></ul><ul><ul><li>RT missionarissen </li></ul></ul><ul><ul><li>RT ontwikkelingshulp </li></ul></ul><ul><ul><li>RT zending </li></ul></ul><ul><ul><li>SN rooms-katholiek </li></ul></ul>
    16. 16. Rankschikken van annotatie-waarden
    17. 17. gevangenissen (1) ministers (1) ambtenaren (1) kampen (1) stemmen (1) democratisering (1) premier (1) ministerraad (1) kabinet (4) soldaten (1) militairen (4) krijgsgevangenen (1) ministers-president (1) regeringen (5)
    18. 18. gevangenissen (1) ministers (1) ministers-president (1) regeringen (5) ambtenaren (1) militairen (5) krijgsgevangenen (1) kampen (1) stemmen (1) democratisering (1) ministeries beroepen dienstverlenende beroepen gevangenen gevangenkampen verkiezingen overheidsdiensten staatshoofden kabinets-formaties
    19. 19. 9 schrijven 9 kranten 9 meren 8 christenen 7 akkoorden 6 missie 5 democratisering 5 stemmen 5 kampen 4 ambtenaren 4 gevangenissen 3 ministers-president 3 ministers 3 krijgsgevangenen 1 militairen 1 regeringen rang geordende trefwoorden     militaire operaties vredestroepen Catalogus beheer         2 militairen 2 regeringsbeleid 3 krijgsmacht 5 militaire operaties 6 vredestroepen documentalisten N trefwoorden
    20. 20. Presenteren aan documentalist
    21. 21. De CHOICE Documentalist support omgeving <ul><li>Doelen </li></ul><ul><ul><li>Het bieden van een gebruikersomgeving waarbinnen het trefwoord suggestie-systeem past </li></ul></ul><ul><ul><li>Prototype voor een Beeld en Geluid context document database </li></ul></ul><ul><ul><li>Geintegreerde zoek- en browse omgeving voor metadata, teksten, semantische annotaties en AV </li></ul></ul><ul><ul><li>Status </li></ul></ul><ul><ul><li>Eerste versie van benodigde (web) repositories en services klaar </li></ul></ul><ul><ul><li>User interface design ontworpen in overleg met Beeld en Geluid </li></ul></ul><ul><ul><li>Demonstratie-applicatie klaar </li></ul></ul><ul><ul><li>Eerste versie tbv documentalisten : januari 2008 </li></ul></ul><ul><ul><li>Documentalist support systeem op de Beeld en Geluid ‘roadmap’ voor 2008 </li></ul></ul>
    22. 22. Metadata recommendation tool Search for Afghanistan Search results: Annotations: 1 2 Immix title1 Immix title2 Immix title3 Immix results AT14nov06-text AT14nov06-website Context document 3 Context results Primary language Archiving date Creation date Document type Context document metadata Text 11/14/2006 09/23/2006 Dutch Context documents Immix metadata Recommendations Add context document… Show all Show all Edit Options… Show graph… Show annotations… militairen regeringen krijgsgevangenen ministers-presidenten ministers ambtenaren gevangenissen democratisering kampen stemmen missie akkoorden Advanced search… Subject Genre Person Person Maker Maker Name Location + + + + + +
    23. 23. Semantisch browsen en zoeken
    24. 24. <ul><li>MANUEEL </li></ul><ul><li>Interpretatie </li></ul><ul><li>Beschrijvingsregels  centrale onderwerp(en) van het programma </li></ul><ul><li>Weinig trefwoorden, zo specifiek mogelijk </li></ul><ul><li>AUTOMATISCH </li></ul><ul><li>Termen die voorkomen in het contextdocument of in andere beschrijvingen </li></ul><ul><li>Ranking  meerdere, mogelijke onderwerpen </li></ul><ul><li>Lange lijst trefwoorden </li></ul>Wat voegen semantische annotaties toe? Wat is het meest geschikt voor het thematisch browsen door de catalogus en door contextdocumenten?
    25. 25. Soortgelijke documenten <ul><li>MANUEEL </li></ul><ul><li>De hoeveelheid trefwoorden per iMMiX beschrijving: 2 tot 26 (onderwerpen, locaties, persoonsnamen, organisaties) </li></ul><ul><li>Precieze, maar weinig overlappende trefwoorden </li></ul><ul><li>Moeilijk om op grond daarvan ‘soortgelijke’ beschrijvingen te bepalen </li></ul><ul><li>AUTOMATISCH </li></ul><ul><li>Hoeveelheid trefwoorden per beschrijving loopt uiteen van 2 tot 242 </li></ul><ul><li>Veel meer overlappende trefwoorden (vaak 50 of meer per document) </li></ul><ul><li>Geeft betere maat voor ‘soortgelijkheid’ tussen documenten </li></ul><ul><ul><li>25 weinig precieze overlappende trefwoorden zijn toch goede maat voor overeenkomsten tussen documenten </li></ul></ul>
    26. 26. Waar gaat het naartoe?
    27. 27. Uitdagingen Beeld en Geluid <ul><li>Digitalisering av-productieproces </li></ul><ul><li>Pro ject Beelden voor de Toekomst </li></ul><ul><li>Toename te beschrijven digital e programm a’s ( 3 0.000 uur radio, 10.000 televisi e / j r) </li></ul><ul><li>Behoeften gebruikersgroepen </li></ul><ul><li>Op termijn </li></ul><ul><li>80% automat isch e annotati e </li></ul><ul><li>20 % handmatig </li></ul>
    28. 28. Verwachtingen mbt CHOICE <ul><li>Goede aansluiting: innovatie dicht op het daadwerkelijke proces </li></ul><ul><li>Ontwerp, implementatie en gebruikstesten van een semi-geautomatiseerde annotatietool </li></ul><ul><li>K oppelen GTAA- termen aan andere thesauri (semantisch web) </li></ul><ul><li>Hergebruik van services en component en door andere CATCH project en en erfgoedinstellingen </li></ul><ul><li>Ondersteuning catalogiseerproces & verbetering zoekmogelijkheden </li></ul>
    29. 29. Trefwoorden en context de semantische annotatie H e t p r o j e c t CHOICE b i j Beeld en Geluid ` V é ronique Malaisé Hennie Brugman Luit Gazendam Lora Aroyo Guus Schreiber Mettina Veenstra Annemieke de Jong Johan Oomen

    ×