• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen
 

Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen über Verbundgrenzen

on

  • 762 views

Vortrag im Workshop on Classification and Subject Indexing in Library and ...

Vortrag im Workshop on Classification and Subject Indexing in Library and
Information Science (LIS'2012)
im Rahmen der Jahrestagung der Deutschen Gesellschaft für Klassifikation vom 1. bis 3. August 2012 in Hildesheim.

Statistics

Views

Total Views
762
Views on SlideShare
762
Embed Views
0

Actions

Likes
1
Downloads
5
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-ShareAlike LicenseCC Attribution-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen über Verbundgrenzen Presentation Transcript

    • Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen über Verbundgrenzen Prof. Magnus Pfeffer Hochschule der Medien, Stuttgart pfeffer@hdm-stuttgart.de
    • Überblick Ausgangslage Ansatz Erste Projektphase Zweite Projektphase Ausblick 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 2
    • Ausgangslage2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 3
    • Anlass Retroklassifikation Freihandbestand UB Mannheim  Seit 2001  5 große Bibliotheksbereiche statt 11 kleine Bereichsbibliotheken  RVK als einheitliche Klassifikation  Wunsch nach mehr Fremddaten  2004: Weniger als 50% der Titel mit RVK 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 4
    • Inkonsistente Erschließung Aus einem deutschen Verbundkatalog  Herzfeld, Hans: Der erste Weltkrieg  18 Titelsätze  davon 11 mit RSWK, 8 mit RVK  Friedell, Egon: Kulturgeschichte der Neuzeit  31 Titelsätze  davon 21 mit RSWK, 17 mit RVK  Tanenbaum, Andrew S.: Computer Networks  44 Titelsätze  davon 19 Deutsch, 15 Englisch, 1 Chinesisch  davon 38 mit RSWK, 31 mit RVK 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 5
    • Inkonsistente Erschließung Tanenbaum, Andrew S.: Computer Networks  RVK Notationen  ST 200: 31 Titel  Informatik-Monografien-Vernetzung, verteilte Systeme-Allgemeines, Netzmanagement  ST 205: 3 Titel  Informatik-Monografien-Vernetzung, verteilte Systeme-Internet allgemein  QH 500: 2 Titel  Wirtschaftswissenschaften-Mathematik. Statistik. Ökonometrie. Unternehmensforschung-Wirtschaftsinformatik. Datenverarbeitung  MS 7965: 1 Titel  Soziologie-Spezielle Soziologien-Soziologie der Massenkommunikation und öffentlichen Meinung, Mediensoziologie- Internet, neue Medien 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 6
    • Ansatz2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 7
    • Grundidee Übernahme von RSWK und RVK aus  Vor- und Folgeauflagen  Parallelausgaben  Übersetzungen Annahmen  Titelgleichheit über Auflagen und Ausgaben  Mindestens ein Autor/Herausgeber bleibt bei Neuauflage 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 8
    • Grobes Matching Ausgangsdaten: MAB2 Match bei  Nur monografische Titel identischem (Einheitsach-)Titel UND einer Übereinstimmung Vergleich auf Basis von bei Person/Körperschaft  Einheitssachtitel  Feld 304_  Titel und Untertitel  Felder 331_, 335_  Autoren und Urheber  Felder 100_, 104a, 108a, 200_, 204a, 208a  beteiligte Personen und Körperschaften  Felder 100b, 104b, 108b, 200b, 204b, 208b 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 9
    • Konsolidierung der Erschließung Clustering  Basis: Matching-Ergebnisse  Ergebnis: Inhaltlich konsistente Cluster  „Werksebene“ Verarbeitung innerhalb der Cluster  Sammeln der Erschließungsinformationen  Verteilen auf alle Elemente des Clusters 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 10
    • Erste Projektphase2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 11
    • Projektzeitraum: 2010-2011 Ausgangsdaten: Verbunddatenbanken  Katalog des Südwestdeutschen Bibliotheksverbundes (SWB)  12.777.191 Monografien  3.979.796 (31,1%) mit RSWK-Schlagwörtern  3.235.958 (25,3%) mit RVK-Notationen  Katalog des Hessischen Bibliotheks- und Informationssystems (HeBIS)  8.844.188 Monografien  2.237.659 (25,3%) mit RSWK-Schlagwörtern  1.933.081 (21,8%) mit RVK-Notationen 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 12
    • Umsetzung Algorithmus  Berechne für alle Titel  Wenn Feld 304_ vorhanden  Suche Titel mit identischem Feld 304_  Vergleiche Autoren, Urheber und beteiligte  MATCH, wenn eine Übereinstimmung vorhanden  Sonst (nur Feld 331_ und 335_ vorhanden)  Suche Titel mit identischen Feldern 331_ und 335_  Vergleiche Autoren, Urheber und beteiligte  MATCH, wenn eine Übereinstimmung vorhanden Technische Umsetzung  Perl / Linux  Indexstrukturen im Hauptspeicher (>4GB) 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 13
    • Ergebnisse: SWB 5.809.349 Titel mit mindestens einem Match  Davon  3.269.340 ohne RSWK  3.627.017 ohne RVK  Anreicherung durch Übernahme möglich bei  636.462 mit RSWK  959.419 mit RVK 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 14
    • Ergebnisse: Hebis 4.535.618 Titel mit mindestens einem Match  Davon  3.068.968 ohne RSWK  3.071.022 ohne RVK  Anreicherung durch Übernahme möglich bei  1.179.133 mit RSWK  992.046 mit RVK 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 15
    • Bereitstellung der Ergebnisse Daten zum Download  Textformat, bz2-Archiv  Titel-ID und gefundene Matches Linked Open Data  RDF-Tripel der Form ID-equalsForClassification-ID  http://data.bib.uni-mannheim.de Daten an die Verbundzentralen  Titel und gefundene SWD-IDs und RVK-Notationen 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 16
    • Evaluation Online im Linked-Data Web  Verbünde erlaubten Titeldarstellung  Matches untereinander verlinkt  Wer: Externe Interessierte Testdatenbanken der Verbünde  Einspielung der gelieferten Daten in Auszügen  Stichproben und Recherchen möglich  Wer: Sacherschließer und interessierte Verbundnutzer→ Hohe Qualität der Ergebnisse bestätigt 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 17
    • Nutzung Beispiel RVK UB Mannheim  Bibliotheksbereich A5, Sozialwissenschaften  63.300 Titel zu bearbeiten  44.991 Titel mit RVK-Notationen im SWB  45.610 Titel mit Übernahme aus SWB und Hebis  48.454 Titel mit Übernahme aus SWB, Hebis, BVB  (Nur experimentell; Suchen der Titel über den BVB- Verbundkatalog) 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 18
    • Zweite Projektphase2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 19
    • Projektzeitraum: 2012 Aggregation möglichst vieler Fremddaten Daten  SWB  Katalog des Südwestdeutschen Bibliotheksverbundes  Hebis  Katalog des Hessischen Bibliotheks- und Informationssystems  HBZ  Katalog des Hochschulbibliothekszentrum des Landes Nordrhein- Westfalen  B3Kat  Gemeinsamer Verbundkatalog von Bibliotheksverbund Bayern und dem Kooperativen Bibliotheksverbund Berlin-Brandenburg 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 20
    • Ergebnisse Katalog Monografien Anteil Anteil Zuwachs Zuwachs RVK RSWK RVK RSWK SWB 13.330.743 4.217.226 4.083.113 581.780 957.275 Hebis 8.844.188 1.933.081 2.237.659 1.097.992 1.308.581 HBZ 13.271.840 1.018.298 3.322.100 2.272.558 1.080.162 B3Kat 22.685.738 5.750.295 6.055.164 2.969.381 2.765.967 Update 21.09.2012: Korrekte Zahlen für B3Kat (vorher: Copy-Paste Fehler mit Zahlen von Hebis) 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 21
    • Ausblick2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 22
    • Mehr... Mehr Titeldaten  Gemeinsamer Bibliotheksverbund (GBV)  Deutsche Nationalbibliothek (DNB)  Schweizer und Österreichische Katalogdaten  Open Data aus anderen (Verbund-)Katalogen Mehr Klassifikationssysteme  LCC  LCSH  DDC / UDC 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 23
    • … und nachhaltiger Probleme  Eigenentwicklung ist weder wartbar noch portabel  Datenmengen wachsen rapide  >100 Mio. Titeldatensätze als Open Data verfügbar  Vielzahl von Statistiken / Clusteringmethoden für unterschiedlichste Anwendungen → Aufbau einer offenen Infrastruktur für die Analyse von Metadaten 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 24
    • Culturegraph.org Initiative von DNB und HBZ  Ziel: Zusammenführen von bibliografischen Informationen, die als Linked Open Data zur Verfügung stehen Open Source Infrastruktur  Parametrisierbare Metadatenverarbeitung  Erweiterbar (Java)  Skalierbar (Hadoop)  http://sourceforge.net/projects/culturegraph/ 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 25
    • Weitere Anwendungen Konkordanzen zwischen Erschließungssystemen Analyse der Nutzung von Erschließungssystemen  Statistiken  Doppelstellen / Unscharfe Klassentrennung Verknüpfungen und Anreicherungen  Explizite Beziehungen zwischen Titeln  Nicht-bibliografische Ontologien  z.B. Ortsnamen → Ihre Ideen sind gefragt! 2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 26
    • Danke für Ihre Aufmerksamkeit! Folien online unter http://www.slideshare.net/MagnusPfeffer/ Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 27