Zoeken in collecties van Openbare Bibliotheken

918 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
918
On SlideShare
0
From Embeds
0
Number of Embeds
17
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Jeugd non-fictie Minder gebruik van gelede trefwoorden Aangespast woordgebruik Eerder postcoördinatie
  • 10 bestanden/indexen met verwijzingsstructuren
  • 58.000 tags
  • http://en.wikipedia.org/wiki/Query_expansion
  • http://en.wikipedia.org/wiki/Stemming Hoe bepaal je de stam van een werkwoord? De stam van een werkwoord vind je door van het hele werkwoord -en af te halen; wat je overhoudt, is de stam. De stam van worden is word, de stam van leiden is leid, de stam van houden is houd, enz. Bij sommige werkwoorden lijkt dit mis te gaan: de stam van beloven (belov) ziet er raar uit. Toch is belov echt de stam van beloven. Als er werkwoordsvormen mee gevormd worden, moet deze stam wel wat aangepast worden. Om bijvoorbeeld de juiste ik-vorm ik beloof te krijgen, moet de o verdubbeld worden (ik belof wordt verkeerd uitgesproken). Ook moet de v een f worden. Ooit is namelijk de afspraak gemaakt dat de v nooit aan het einde van een lettergreep in een Nederlands woord kan voorkomen. Daarom is het ik beloof en ik beloofde (f aan het eind van een lettergreep), naast zij beloven (de lettergreepgrens ligt nu na de o: be-lo-ven). Nog een voorbeeld: de stam van reizen is reiz; de ik-vorm wordt ik reis. Ook de z kan niet aan het einde van een lettergreep in een Nederlands woord voorkomen . Het is ook zij reisden (s aan het einde van een lettergreep), naast zij reizen met een z (lettergreepgrens na de ei: rei-zen). Sommige stammen wijken iets af: de stam van staan (en bestaan, weerstaan, enz.) is sta; de stam van zien (en herzien, omzien, enz.) is zie; de stam van doen (en omdoen, uitdoen, enz.) is doe
  • Er wordt niets gevonden -> fuzzy termsuggestie is niet de enige die er op lijkt -> zie ook wolk. Termsuggestie is wel diegene die het meest voorkomt in de index
  • Zoek de “juiste” spellingsvariant. Waar zijn de thesaurustermen?
  • Zoeken in collecties van Openbare Bibliotheken

    1. 1. zoeken in collecties van openbare bibliotheken onder de loep Rosemie Callewaert, Metadata Architectuur bij Bibnet Bibliotheekschool Gent , 1 juni 2010 Gastles
    2. 2. <ul><li>Metadata en indexering </li></ul><ul><ul><li>Impliciete en expliciete metadata </li></ul></ul><ul><ul><li>Herkomst metadata zoeken.bibliotheek.be </li></ul></ul><ul><ul><li>Doel zoeken.bibliotheek.be </li></ul></ul><ul><li>Manuele indexering </li></ul><ul><ul><li>Bibliografische records </li></ul></ul><ul><ul><li>Authority records </li></ul></ul><ul><li>Machine indexering </li></ul><ul><ul><li>Relevantie sortering </li></ul></ul><ul><ul><li>Query expansion </li></ul></ul><ul><ul><li>Stemming en compound </li></ul></ul><ul><ul><li>Fuzzy search </li></ul></ul><ul><ul><li>Recommendations </li></ul></ul>
    3. 3. <ul><li>data </li></ul><ul><li>metadata </li></ul>over object
    4. 4. data metadata object
    5. 5. Data en metadata objecten
    6. 6. Impliciet en expliciet object
    7. 7. Doel van indexering terugvindbaar maken ordening Doel van metadata data terugvinden mogelijk maken ordening mogelijk maken informeren over data etaleren van data
    8. 8. Herkomst metadata zoeken.bibliotheek.be <ul><li>Open Vlacc </li></ul><ul><ul><li>Fysieke collectie 6 grote openbare bibliotheken </li></ul></ul><ul><ul><li>Muziekcollectie Centrale Discotheek Rotterdam </li></ul></ul><ul><ul><li>Selectie van websites </li></ul></ul><ul><li>Vakorganisaties </li></ul><ul><ul><li>Boekbesprekingen Leeswolf en Leeswelp </li></ul></ul><ul><ul><li>Covers van Bowker en de Centrale Discotheek van Rotterdam (CDR) </li></ul></ul><ul><ul><li>Meer Over Media van NBD/Biblion </li></ul></ul><ul><li>Uitgevers </li></ul><ul><ul><li>Aankondigingen van uitgevers via Boekbank </li></ul></ul><ul><ul><li>Flapteksten en covers </li></ul></ul><ul><ul><li>Metadata bij krantenartikelen </li></ul></ul><ul><li>Internet </li></ul><ul><ul><li>Leestips LibraryThing </li></ul></ul><ul><ul><li>Luistertips Last.fm </li></ul></ul><ul><li>Publiek </li></ul><ul><ul><li>Tags </li></ul></ul><ul><ul><li>Besprekingen </li></ul></ul><ul><ul><li>Lijstjes </li></ul></ul>gecontroleerd niet gecontroleerd
    9. 9. data en metadata impliciet en expliciet
    10. 10. Doel zoeken.bibliotheek.be <ul><li>Voorbeeld publiekscatalogus voor openbare bibliotheken </li></ul><ul><ul><li>Model zal uitgebreid worden naar de Provinciale en VGC Bibliotheeksystemen (PBS) </li></ul></ul><ul><ul><li>Elke Openbare bibliotheek aangesloten op het PBS een publiekscatalogus geënt op zoeken.bibliotheek.be </li></ul></ul><ul><li>Integratie fysieke en digitale bibliotheekcollectie </li></ul><ul><li>Verdeelplatform data en metadata </li></ul><ul><ul><li>Persmappen Mediargus </li></ul></ul><ul><ul><li>Boekbesprekingen </li></ul></ul><ul><ul><li>Digileen </li></ul></ul><ul><ul><li>Digitale Bibliotheek voor de Nederlandse Letteren (DBNL) </li></ul></ul><ul><ul><li>… </li></ul></ul><ul><li>Zoeken in collecties van verschillende bibliotheken </li></ul>
    11. 11. Metadata Open Vlacc
    12. 12. <ul><li>Titelbeschrijving, explicite metadata, manuele indexering </li></ul><ul><li>Beschrijving van formele en inhoudelijke kenmerken </li></ul><ul><li>Open Vlacc invoerregelgeving </li></ul><ul><ul><li>verschillende soorten en materialen </li></ul></ul><ul><ul><ul><li>tekst, beeld, klank, boek, bladmuziek, cd, dvd, tijdchrift, artikel, … </li></ul></ul></ul><ul><ul><li>verschillende doelgroepen en inhoudelijke types </li></ul></ul><ul><ul><ul><li>volwassenen, jeugd, fictie, non-fictie </li></ul></ul></ul><ul><ul><li>verschillende bibliografische types </li></ul></ul><ul><ul><ul><li>monografie, onderdelen, meerdelig, serieel, koepel, deel </li></ul></ul></ul><ul><ul><li>uniforme ingangen </li></ul></ul><ul><ul><ul><li>auteurs, titels, onderwerpen </li></ul></ul></ul><ul><ul><li>inhoudelijke ontsluiting </li></ul></ul><ul><ul><ul><li>trefwoorden, thema’s, genres </li></ul></ul></ul><ul><ul><li>classificaties </li></ul></ul><ul><ul><ul><li>SISO, ZIZO, Vlaamse muziekclassificatie, NBLC </li></ul></ul></ul>Bibliografisch record
    13. 16. Authority Record <ul><li>Gebruik van consequente terminologie bij het toevoegen van nieuwe gegevens </li></ul><ul><li>Mogelijkheid om items van dezelfde auteur, hetzelfde onderwerp, hetzelfde werk, …. te groeperen </li></ul>= databankrecord waarin een term vastgelegd wordt voor het uniek benoemen van een concept, onderwerp, auteur, … Waarom? Hoe? <ul><li>Zie verwijzingen (see references): een term die hetzelfde impliceert en verwijst naar de vastgelegde term </li></ul><ul><li>Zie ook verwijzingen (see also references): een term die verwant is aan de vastgelegde term en ook als term kan gebruikt worden in de databank </li></ul>
    14. 17. Voor catalogusbouw
    15. 18. Authority Bestanden <ul><li>Auteurs </li></ul><ul><ul><li>Persoonsnamen </li></ul></ul><ul><ul><li>Organisaties en instellingen (corportaties) </li></ul></ul><ul><li>Onderwerpen </li></ul><ul><ul><li>Trefwoorden volwassenen </li></ul></ul><ul><ul><li>Trefwoorden jeugd </li></ul></ul><ul><ul><li>Thema’s jeugd </li></ul></ul><ul><ul><li>Thema’s volwassenen </li></ul></ul><ul><li>Genres </li></ul><ul><ul><li>Muziek </li></ul></ul><ul><ul><li>Volwassenen (film, literatuur) </li></ul></ul><ul><ul><li>Jeugd (film, muziek, literatuur) </li></ul></ul><ul><li>Titels </li></ul><ul><ul><li>Uniforme titels en reekstitels </li></ul></ul>
    16. 19. Verwijzing van Nicci French naar 2 andere namen
    17. 20. jaargetijden = seizoenen zie ook verwijzingen naar afzonderlijke seizoenen
    18. 21. Metadata van het publiek T ags B espreking W aardering
    19. 22. bibliotheek publiek Andere organistaties
    20. 23. 25.000 getagde titels 2,5% van alle titels
    21. 24. 1.500 besproken titels 0,15% van alle titels
    22. 25. 11.O00 titels met steraanduidingen 1,1% van alle titels
    23. 27. Machine indexeringen <ul><ul><li>Relevance ranking </li></ul></ul><ul><ul><li>Query expansion </li></ul></ul><ul><ul><li>Stemming en compound </li></ul></ul><ul><ul><li>Fuzzy search </li></ul></ul><ul><ul><li>Recommendations </li></ul></ul>
    24. 28. Relevantie sortering <ul><li>Exacte match </li></ul><ul><li>Frequentie zoekwoord(en) in geïndexeerde gegevens van een publicatie * </li></ul><ul><li>Locatie van zoekwoord(en) in geïndexeerde gegevens van een publicatie * </li></ul><ul><li>Aantal edities van een publicatie/werk </li></ul><ul><li>Aantal bibliotheken met publicatie/werk in bezit </li></ul><ul><li>Materiaaltype </li></ul><ul><li>Niet exacte match </li></ul><ul><li>* gewicht per soort informatie: titel, auteur, onderwerp, fulltext, … </li></ul>= relatie tussen zoekwoord(en) en volgorde van titels in het zoekresultaat
    25. 29. Relevantiesortering Zichtbare invloed van aantal edities en bezit
    26. 30. Relevantiesortering Zichtbare invloed van aantal voorkomens van de zoekterm
    27. 31. Query expansion = De zoekvraag (query) achter de schermen uitgebreiden (expanding) met andere zoektermen http://en.wikipedia.org/wiki/Query_expansion <ul><li>Op zoeken.bibliotheek.be </li></ul><ul><li>machine uitbreidingen </li></ul><ul><li>uitbreidingen op basis van Authority Records </li></ul>
    28. 32. Seizoenen = Seizoenen OR Jaargetijden Zoekterm heeft meer gewicht in relevantiesortering
    29. 33. Luc Zeebroek = Luc Zeebroek OR Kamagurka Luc Zeebroek komt niet voor
    30. 34. Authority Records hebben ruimere werking dan enkel het zoeken in bibliografische records ondersteunen. Ook relevant voor full text!
    31. 35. Stemming = Gebruik van computeralgoritmes die gebouwd zijn op de taalkundige morfologie die bepaalt dat een werkwoord voor vervoeging herleid moet worden tot de stam. De computer zou hierdoor mits voldoende interpretatiemogelijkheden woorden kunnen vervoegen. De algoritmes die dit doen worden “stemmers” genoemd. Eerste stemmer °1970: Porter Stemmer http://en.wikipedia.org/wiki/Stemming
    32. 36. Enkelvoud zoeken, meervoud vinden
    33. 38. Compound = Compound is een samengesteld begrip waarvan de stam een onderdeel is. De samenstelling wordt gebouwd door het gebruik van bestaande woorden. Door het hersamenstellen van woorden kan een begrip een afgeleide betekenis of een bijna niet meer verwante betekenis hebben. http://en.wikipedia.org/wiki/Compound_%28linguistics%29
    34. 39. “ Fietsen” wordt herleid tot “fiets” (stemming) “ Techniek” wordt gecombineerd met “fiets” (compound)
    35. 40. Fuzzy search
    36. 41. In de woordenwolk worden spellingsverianten getoond Het woord dat meest voorkomt wordt gesuggereerd
    37. 42. Zoek de “juiste” spellingsvariant. Waar zijn de thesaurustermen? http://zoeken.bibliotheek.be/?q=dostoyevsky
    38. 43. Authority Bestanden van Nationale Bibliotheken Verzameld virtueel internationale Authority Records
    39. 44. Recommendations
    40. 45. Leestips
    41. 46. Luistertips

    ×