Automatische classificatie van e-boeken Aanpak bij TU Delft Library (TUDL) Dirk Jan Ligtenbelt ( [email_address] ), TU Del...
Inhoud <ul><li>Classificatiesysteem bij TUDL </li></ul><ul><li>Waarom dit project? </li></ul><ul><li>Verloop van het proje...
Classificatiesysteem bij TUDL (1) <ul><li>AB-AP   Naslagwerken algemeen / Reference sources general </li></ul><ul><li>AR-A...
Classificatiesysteem bij TUDL (2) <ul><li>Gebruik </li></ul><ul><ul><li>Ontsluiten van documenten in catalogus </li></ul><...
Gebruikcijfers zoeken via CC’s (2006)
Waarom dit project? <ul><li>Doel </li></ul><ul><ul><li>Sneller verwerken van grote aantallen (pakketten) e-boeken </li></u...
Voorgestelde opties <ul><li>Loslaten classificatiesysteem </li></ul><ul><li>Overgaan naar classificatiesysteem van LCC of ...
Optie 1. Loslaten classificatiesysteem <ul><li>Gebruikers zoeken nauwelijks op classificatiecode </li></ul><ul><li>Intern ...
Optie 2. Overgaan naar Classificatie-systeem LCC of Dewey <ul><li>Meeste MARC-records voorzien van bekende CC’s </li></ul>...
MARC record (2) Bron: Library of Congress website,  http://www.loc.gov/marc/umb/um01to06.html  (Accessed April 22, 2010)
MARC record (2)
Optie 3. Conversie van LCC/Dewey naar TUDL classificatiesysteem <ul><li>Meeste meegeleverde MARC-records bevatten CC’s LCC...
Voorstel werkwijze pilot <ul><li>Beginnen met een vakgebied/onderwerpsgebied: </li></ul><ul><ul><li>waarvan veel records a...
Uitgangspunten pilot <ul><li>Harvesten van een grote set records uit catalogi vergelijkbaar met catalogus TUDL en die LCC ...
Stappen en resultaten pilot <ul><li>Eerste analyse na harvesten van ca. 80.000 records </li></ul><ul><ul><li>   Minder st...
Hoe verder? <ul><li>Mapping zal gedeeltelijk handmatig moeten plaatsvinden </li></ul><ul><li>Combinaties van titelwoorden ...
Het nieuwe traject <ul><li>Meeste e-boeken door uitgever voorzien van subjectveld/ subjectcodes (SC’s) </li></ul><ul><li>H...
Concordantietabel
Classificatiesysteem bij TUDL (1)
Zoeken in catalogus (1a)
Zoeken in catalogus (2a)
Zoeken in catalogus (3a)
Concordantietabel
Het nieuwe traject - Resultaten <ul><li>In maart 2009 project Automatisch Classificeren E-books succesvol afgerond </li></...
Het vervolg (Eindrapport) <ul><li>Op eenzelfde automatische manier alle bestaande en nieuwe e-titels classificeren </li></...
Het vervolg <ul><li>Ontbrekende SC’s vergaard door SC’s LLC te harvesten </li></ul><ul><ul><li>Aan ruim 142.000 records in...
Beheersprocedure <ul><li>Consistente procedure(s) voor: </li></ul><ul><li>Automatisch toekennen van CC’s aan monografieën ...
Catalogus-records voor concordantie <ul><li>Catalogus-record bevat op zijn minst één of meer bruikbare subjectcodes (SC’s)...
Concordantie maken in ACCB <ul><li>Tweeledig doel ACCB </li></ul><ul><li>Maken en beheren van concordantie tussen SC’s en ...
Concordantietabel
Vragen ?
Upcoming SlideShare
Loading in …5
×

26 04 10 Automatische Classificatie E Boeken (New House Style) (Ver.2)

731 views

Published on

Presentatie over automatische classificatie gegeven bij SIG-CI vergadering van 26 april 2010

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
731
On SlideShare
0
From Embeds
0
Number of Embeds
7
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

26 04 10 Automatische Classificatie E Boeken (New House Style) (Ver.2)

  1. 1. Automatische classificatie van e-boeken Aanpak bij TU Delft Library (TUDL) Dirk Jan Ligtenbelt ( [email_address] ), TU Delft Library
  2. 2. Inhoud <ul><li>Classificatiesysteem bij TUDL </li></ul><ul><li>Waarom dit project? </li></ul><ul><li>Verloop van het project </li></ul><ul><li>Resultaten </li></ul><ul><li>Het nieuwe traject </li></ul><ul><li>Vervolg </li></ul>
  3. 3. Classificatiesysteem bij TUDL (1) <ul><li>AB-AP Naslagwerken algemeen / Reference sources general </li></ul><ul><li>AR-AZ Wetenschappen algemeen / Sciences general </li></ul><ul><li>BB-CN Wiskunde / Mathematics </li></ul><ul><li>CP-DZ Informatica / Computer science </li></ul><ul><li>EB-FP Fysica / Physics </li></ul><ul><li>FR-GZ Elektrotechniek / Electrical engineering </li></ul><ul><li>HB-HZ Materiaalkunde / Materials engineering </li></ul><ul><li>JB-JZ Chemie / Chemistry </li></ul><ul><li>KB-KZ Biologie / Biology </li></ul><ul><li>LB-LN Milieu- en veiligheidskunde / Environmental and safety engineering </li></ul><ul><li>LP-LZ Energievoorziening / Energy supply </li></ul><ul><li>MB-MZ Regeltechniek / Control engineering </li></ul><ul><li>NB-NZ Werktuigbouwkunde / Mechanical engineering </li></ul><ul><li>PB-PZ Mechanische fabricage technologie / Manufacturing technology </li></ul><ul><li>QC-QL Maritieme techniek / Marine technology </li></ul><ul><li>QM-QZ Luchtvaart- en ruimtevaarttechniek / Aerospace engineering </li></ul><ul><li>RB-RZ Geodesie / Geodesy </li></ul><ul><li>SB-SZ Aardwetenschappen / Geosciences </li></ul><ul><li>TB-TZ Civiele techniek / Civil engineering </li></ul><ul><li>UB-UZ Bouwtechniek / Buiklding technology </li></ul><ul><li>VB-VZ Architectuur, stedebouw en ruimtelijke ordening / Architecture, urbanism and physical planning </li></ul><ul><li>WB-WZ Industrieel ontwerpen / Design engineering </li></ul><ul><li>XC-XP Sociale wetenschappen / Social sciences </li></ul><ul><li>XV-ZJ Bedrijfskunde / Management sciences </li></ul><ul><li>ZK-ZP Recht en bestuurswetenschappen / Law and policy sciences </li></ul><ul><li>ZR-ZZ Kunst en humanoria / Arts and hyumanities </li></ul>
  4. 4. Classificatiesysteem bij TUDL (2) <ul><li>Gebruik </li></ul><ul><ul><li>Ontsluiten van documenten in catalogus </li></ul></ul><ul><ul><li>Plaatsen van documenten in open opstelling </li></ul></ul><ul><ul><li>Tonen van documenten (e-boeken, e-tijdschriften, nieuwe aanwinsten) voor bepaald vakgebied in VKC’s </li></ul></ul><ul><ul><li>Aanbieden van RSS-feeds voor nieuwe aanwinsten op bepaald vakgebied </li></ul></ul><ul><li>Argumenten voor behoud TUDL classificatiesysteem </li></ul><ul><ul><li>Enige vorm van inhoudelijke ontsluiting binnen TUDL </li></ul></ul><ul><ul><li>CC-codes gebruikt voor plaatsen documenten in open opstelling </li></ul></ul><ul><ul><li>Zonder CC-codes documenten niet op onderwerp aan te bieden </li></ul></ul><ul><ul><li>Verdelen van onderwerpen en budgetten </li></ul></ul>
  5. 5. Gebruikcijfers zoeken via CC’s (2006)
  6. 6. Waarom dit project? <ul><li>Doel </li></ul><ul><ul><li>Sneller verwerken van grote aantallen (pakketten) e-boeken </li></ul></ul><ul><li>Motivatie </li></ul><ul><ul><li>Strategische keuze TUDL voor e-only beleid </li></ul></ul><ul><ul><li>Huidige ontsluitingsproces niet geschikt voor bulkverwerking </li></ul></ul><ul><ul><li>Huidige ontsluitingsproces inefficiënt, vertraging in toegankelijk maken nieuwe e-titels </li></ul></ul>
  7. 7. Voorgestelde opties <ul><li>Loslaten classificatiesysteem </li></ul><ul><li>Overgaan naar classificatiesysteem van LCC of Dewey </li></ul><ul><li>Conversie van LLC/Dewey naar TUDL classificatiesysteem </li></ul>
  8. 8. Optie 1. Loslaten classificatiesysteem <ul><li>Gebruikers zoeken nauwelijks op classificatiecode </li></ul><ul><li>Intern gebruik veelvuldig </li></ul><ul><ul><li>Open opstelling </li></ul></ul><ul><ul><li>VKC’s </li></ul></ul><ul><ul><li>TUDL website </li></ul></ul><ul><li>Enige vorm van inhoudelijke ontsluiting binnen TUDL </li></ul><ul><li>Conclusie: lijkt niet verantwoord om classificatiesysteem los te laten </li></ul>
  9. 9. Optie 2. Overgaan naar Classificatie-systeem LCC of Dewey <ul><li>Meeste MARC-records voorzien van bekende CC’s </li></ul><ul><ul><li>LLC (in veld 50) </li></ul></ul><ul><ul><li>Dewey (in veld 82) </li></ul></ul><ul><li>Dezelfde informatie geleverd naar alle bibliotheken wereldwijd </li></ul><ul><li>Misschien op termijn gezamenlijk classificatiesysteem met TU Eindhoven en Universiteit Twente </li></ul><ul><li>Echter, andere Nederlandse universiteiten geen LCC of Dewey </li></ul><ul><li>Conclusie: (nog) geen toegevoegde waarde aan inhoudelijke ontsluiting </li></ul>
  10. 10. MARC record (2) Bron: Library of Congress website, http://www.loc.gov/marc/umb/um01to06.html (Accessed April 22, 2010)
  11. 11. MARC record (2)
  12. 12. Optie 3. Conversie van LCC/Dewey naar TUDL classificatiesysteem <ul><li>Meeste meegeleverde MARC-records bevatten CC’s LCC en/of Dewey </li></ul><ul><ul><li>Concordantie lijkt mogelijk </li></ul></ul><ul><li>Onderzoek gebruik oude MARC-records voor uitvoeren match tussen CC’s TUDL en CC’s LCC/Dewey </li></ul><ul><ul><li>Welke codes oude MARC-records (van Blackwell) corresponderen met welke CC’s TUDL </li></ul></ul><ul><ul><li>Slechts 3000 records beschikbaar vanaf 2005, te weinig </li></ul></ul><ul><ul><li>Lijst Blackwell concordantie thesaurus en CC’s LLC, mogelijk eerste basis voor concordantielijst tussen CC’s LLC en TUDL </li></ul></ul><ul><li>Conclusie: keuze voor deze optie, uitvoeren pilot </li></ul>
  13. 13. Voorstel werkwijze pilot <ul><li>Beginnen met een vakgebied/onderwerpsgebied: </li></ul><ul><ul><li>waarvan veel records aanwezig zijn en </li></ul></ul><ul><ul><li>waarvoor corresponderende CC’s TUDL al bekend zijn </li></ul></ul><ul><li>Codes alvast invoeren in concordantielijst </li></ul><ul><li>Bij nieuwe aankopen CC’s uit bestaande lijst via automatische </li></ul><ul><li> procedure toekennen </li></ul><ul><li>Indien CC TUDL ontbreekt, dan handmatig door IS ingevoerd </li></ul><ul><li>Concordantielijst met handmatige CC’s steeds aanvullen </li></ul><ul><li>Controle door IS </li></ul><ul><li>In het begin handmatig, steeds meer automatisch </li></ul><ul><li>In twijfelgevallen altijd IS inschakelen </li></ul><ul><li>Op termijn werkwijze uitbreiden naar andere (alle) onderwerpen </li></ul>
  14. 14. Uitgangspunten pilot <ul><li>Harvesten van een grote set records uit catalogi vergelijkbaar met catalogus TUDL en die LCC gebruiken </li></ul><ul><ul><li>Selectiecriterium ISBN’s TUDL </li></ul></ul><ul><ul><li>Op basis van eigen bezit groot aantal records met CC’s LLC en CC’s TUDL </li></ul></ul><ul><li>Correlatiematrix tussen LCC en TUDL classificatie maken </li></ul><ul><ul><li>Afleiding concordantie tussen LCC en TUDL classificatie </li></ul></ul><ul><ul><li>Handmatige controle en eventueel bijstelling </li></ul></ul><ul><li>Veel meer records te gebruiken dan alleen Blackwell records </li></ul><ul><ul><li>In korte tijd basis voor concordantie </li></ul></ul><ul><li>Uiteindelijk gekozen catalogi </li></ul><ul><ul><li>Berkeley, Cornell, Georgiatech, Library of Congress, MIT, Princeton </li></ul></ul>
  15. 15. Stappen en resultaten pilot <ul><li>Eerste analyse na harvesten van ca. 80.000 records </li></ul><ul><ul><li> Minder sterke verbanden dan verwacht </li></ul></ul><ul><li>Uitbreiding aantal records naar alle catalogusrecords met ISBN </li></ul><ul><ul><li> Te veel ruis; 1:1 relaties bleven uit; n:n relaties gevonden </li></ul></ul><ul><li>Weging laten plaatsvinden op basis van bijvoorbeeld: </li></ul><ul><ul><li>Betrouwbaarheid instituut </li></ul></ul><ul><ul><li>Hoe vaak eenzelfde CC LCC consequent door meerdere catalogi wordt genoemd </li></ul></ul><ul><ul><li>Elk catalogusrecord koppelen aan één CC LCC </li></ul></ul><ul><ul><li> Correlatie nog niet sterk genoeg, te grote spreiding aan beide kanten (CC’s TUDL en CC’s LLC) </li></ul></ul><ul><li>Onderzoek eenmalige handmatige mapping met behulp van Classification Web LoC </li></ul><ul><ul><li>Mapping tussen (ranges) CC’s LLC en ca. 1.400 CC’s TUDL </li></ul></ul><ul><ul><li> Gedeeltelijk handmatige mapping nodig, zeer tijdrovend </li></ul></ul>
  16. 16. Hoe verder? <ul><li>Mapping zal gedeeltelijk handmatig moeten plaatsvinden </li></ul><ul><li>Combinaties van titelwoorden en CC’s met als doel de spreiding te verkleinen </li></ul><ul><li>Mapping van subjectcodes (SC’s) van de bron (bv. Springerlink, Blackwell SC’s) en daar handmatig een CC TUDL bijzetten </li></ul><ul><ul><li>Voordeel: eenmalig en accuraat, niet al te grote operatie </li></ul></ul><ul><ul><li>Nadeel: herhaling proces noodzakelijk bij e-boeken van andere bronnen </li></ul></ul><ul><li>Besluit: geheel nieuw traject ingaan </li></ul>
  17. 17. Het nieuwe traject <ul><li>Meeste e-boeken door uitgever voorzien van subjectveld/ subjectcodes (SC’s) </li></ul><ul><li>Handmatig en zorgvuldig eigen CC’s TUDL gekoppeld aan de subjects (ca. 800 termen) </li></ul><ul><li>Basisconcordantie, redelijk betrouwbaar en in relatief korte tijd verwezenlijkt </li></ul><ul><li>Alle Springer e-boeken uit catalogus voorzien van CC’s TUDL op basis van concordantie </li></ul><ul><li>Resultaat: geclassificeerde testset, die door IS’en is beoordeeld, bijgesteld, aangevuld en goedgekeurd </li></ul>
  18. 18. Concordantietabel
  19. 19. Classificatiesysteem bij TUDL (1)
  20. 20. Zoeken in catalogus (1a)
  21. 21. Zoeken in catalogus (2a)
  22. 22. Zoeken in catalogus (3a)
  23. 23. Concordantietabel
  24. 24. Het nieuwe traject - Resultaten <ul><li>In maart 2009 project Automatisch Classificeren E-books succesvol afgerond </li></ul><ul><li>Alle Springer e-boeken (ca. 9.500 van totaal ca. 15.000) in catalogus inmiddels voorzien van CC’s TUDL </li></ul><ul><ul><li>Maximaal 4 per titel, wegingsfactoren bij teveel codes </li></ul></ul><ul><ul><li>Eerder toegekende CC’s worden overschreven </li></ul></ul><ul><ul><li>Eenduidige en consequent ontsloten e-collectie </li></ul></ul><ul><ul><li>Eerste stap naar verdere ontsluiting van overige e-titels gezet </li></ul></ul><ul><li>Een concordantietabel vanuit SC’s van Springer </li></ul><ul><ul><li>Voorzien van wegingsfactoren (A, B, C, X en Z) </li></ul></ul><ul><ul><li>Flexibel in onderhoud </li></ul></ul><ul><ul><li>Eenvoudig uitbreidbaar </li></ul></ul><ul><ul><li>Inhoudelijk getoetst door IS’en </li></ul></ul>
  25. 25. Het vervolg (Eindrapport) <ul><li>Op eenzelfde automatische manier alle bestaande en nieuwe e-titels classificeren </li></ul><ul><ul><li>Voorwaarde: voorzien van subjectveld door uitgever </li></ul></ul><ul><ul><li>Handmatige ontsluiting voor beperkt aantal titels </li></ul></ul><ul><li>Nieuwe subjects zullen binnenkomen, moeten worden toegevoegd aan concordantietabel </li></ul><ul><li>Implementatiestappen in nieuw project </li></ul>
  26. 26. Het vervolg <ul><li>Ontbrekende SC’s vergaard door SC’s LLC te harvesten </li></ul><ul><ul><li>Aan ruim 142.000 records in de catalogus SC-informatie toegevoegd </li></ul></ul><ul><ul><li>Geen beperking meer tot uitgevers die subjectvelden leveren </li></ul></ul><ul><ul><li>Algemene methodiek voor vrijwel alle e-boeken </li></ul></ul><ul><li>Opschonen en eenduidig maken subjectvelden in concordantie-tabel en aanwezige lijst CC’s </li></ul><ul><li>Opzetten beheersprocedure automatische classificatie </li></ul><ul><ul><li>Inbedden automatische classificatie in organisatie </li></ul></ul><ul><ul><li>Proces is in volle gang </li></ul></ul><ul><ul><li>Aanzet gemaakt voor onderliggende procesbeschrijvingen </li></ul></ul>
  27. 27. Beheersprocedure <ul><li>Consistente procedure(s) voor: </li></ul><ul><li>Automatisch toekennen van CC’s aan monografieën in catalogus (Aleph), in eerste instantie alleen m.b.t. e-boeken </li></ul><ul><li>Beheer van de CC’s door de IS’en </li></ul><ul><li>Twee platforms: </li></ul><ul><li>Aleph-TUD (Aleph), catalogus TUDL </li></ul><ul><ul><li>Hieraan moeten uiteindelijk de automatisch toegekende classificaties worden toegevoegd </li></ul></ul><ul><li>Access Classificatiecode Bestand (ACCB) </li></ul><ul><ul><li>Primaire tool om bovenstaande mogelijk te maken </li></ul></ul>
  28. 28. Catalogus-records voor concordantie <ul><li>Catalogus-record bevat op zijn minst één of meer bruikbare subjectcodes (SC’s) </li></ul><ul><li>Tekstuele onderwerpsomschrijvingen </li></ul><ul><li>Kunnen in verschillende subvelden van MARC-record voorkomen </li></ul><ul><li>Voorwaarde: inhoudelijk geschikt voor handmatige mapping met CC’s TUDL en correct en consistent qua spelling en opbouw </li></ul><ul><li>Eventueel verrijking om geschikt te maken </li></ul><ul><ul><li>Extern harvesten van SC’s </li></ul></ul><ul><ul><li>Inkopen en toevoegen van SC’s </li></ul></ul><ul><ul><li>Zelf (handmatig) bruikbaar maken van SC’s </li></ul></ul><ul><ul><li>Directe bulkcorrecties </li></ul></ul>
  29. 29. Concordantie maken in ACCB <ul><li>Tweeledig doel ACCB </li></ul><ul><li>Maken en beheren van concordantie tussen SC’s en CC’s </li></ul><ul><ul><li>Structuur aanpassen en consistenter voordat kan worden opgeschaald en ingezet als permanente tool </li></ul></ul><ul><li>Beheer van CC’s door IS’en </li></ul><ul><ul><li>Concordantie tussen SC’s en CC’s per subjectcode handmatig toegekend door IS’en </li></ul></ul><ul><ul><li>ACCB inrichten om als primair CC beheersinstrument dienst te kunnen doen </li></ul></ul>
  30. 30. Concordantietabel
  31. 31. Vragen ?

×