Clustering auf Werksebene      Prof. Magnus Pfeffer Hochschule der Medien, Stuttgart  pfeffer@hdm-stuttgart.de
Überblick   Idee und Verfahren   Anwendung   Experimentelle Ergebnisse                   5. Kongress Bibliothek und Inf...
Idee und Verfahren 5. Kongress Bibliothek und Information
Ziel   Zusammenfassen möglichst aller       Auflagen       Ausgaben       Übersetzungen                        5. Kong...
Nutzbare Angaben   Auflagen und Ausgaben       Titel bleiben in der Regel gleich           Bei Änderungen Angaben in de...
Grobes Matching   Ausgangsdaten: MAB2                                                             Match bei       Nur mo...
Anwendung5. Kongress Bibliothek und Information
Lückenhafte Erschließung   Aus einem deutschen Verbundkatalog       Herzfeld, Hans: Der erste Weltkrieg           18 Ti...
Inkonsistente Erschließung   Tanenbaum, Andrew S.: Computer Networks       RVK Notationen           ST 200: 31 Titel   ...
Grundidee   Bilden der Cluster   Innerhalb der Cluster       Sammeln der Erschließungsinformationen       Anreichern d...
Experimentelle Überprüfung     5. Kongress Bibliothek und Information
Projektzeitraum: 2011   Test mit zwei Katalogen als Basis   Daten       SWB           Katalog des Südwestdeutschen Bib...
Ergebnisse: SWB   5.809.349 Titel mit mindestens einem Match       Davon           3.269.340 ohne RSWK           3.627...
Ergebnisse: Hebis   4.535.618 Titel mit mindestens einem Match       Davon           3.068.968 ohne RSWK           3.0...
Projektzeitraum: 2012   Aggregation möglichst vieler Fremddaten   Daten       SWB           Katalog des Südwestdeutsch...
Ergebnisse  Katalog Monografien   Anteil           Anteil            Zuwachs         Zuwachs                        RVK   ...
Danke für Ihre Aufmerksamkeit!                   Folien online unter        http://www.slideshare.net/MagnusPfeffer/      ...
Upcoming SlideShare
Loading in...5
×

Clustering auf Werksebene

464

Published on

Vortrag im Rahmen des Workshops "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" auf dem 5. Kongress Bibliothek und Information Deutschland vom 11. bis 14. März 2013 in Leipzig.

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
464
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
12
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Transcript of "Clustering auf Werksebene"

  1. 1. Clustering auf Werksebene Prof. Magnus Pfeffer Hochschule der Medien, Stuttgart pfeffer@hdm-stuttgart.de
  2. 2. Überblick Idee und Verfahren Anwendung Experimentelle Ergebnisse 5. Kongress Bibliothek und Information
  3. 3. Idee und Verfahren 5. Kongress Bibliothek und Information
  4. 4. Ziel Zusammenfassen möglichst aller  Auflagen  Ausgaben  Übersetzungen 5. Kongress Bibliothek und Information
  5. 5. Nutzbare Angaben Auflagen und Ausgaben  Titel bleiben in der Regel gleich  Bei Änderungen Angaben in den Fußnoten  „1. Aufl. u.d.T. [...]“  Mindestens ein Autor/Herausgeber bleibt gleich  „Alt“autoren /-herausgeber mitunter als beteiligte Personen Übersetzungen  Einheitssachtitel 5. Kongress Bibliothek und Information
  6. 6. Grobes Matching Ausgangsdaten: MAB2 Match bei  Nur monografische Titel identischem (Einheitsach-)Titel UND einer Übereinstimmung Vergleich auf Basis von bei Person/Körperschaft  Einheitssachtitel  Feld 304_  Titel und Untertitel  Felder 331_, 335_  Autoren und Urheber  Felder 100_, 104a, 108a, 200_, 204a, 208a  beteiligte Personen und Körperschaften  Felder 100b, 104b, 108b, 200b, 204b, 208b 5. Kongress Bibliothek und Information
  7. 7. Anwendung5. Kongress Bibliothek und Information
  8. 8. Lückenhafte Erschließung Aus einem deutschen Verbundkatalog  Herzfeld, Hans: Der erste Weltkrieg  18 Titelsätze  davon 11 mit RSWK, 8 mit RVK  Friedell, Egon: Kulturgeschichte der Neuzeit  31 Titelsätze  davon 21 mit RSWK, 17 mit RVK  Tanenbaum, Andrew S.: Computer Networks  44 Titelsätze  davon 19 Deutsch, 15 Englisch, 1 Chinesisch  davon 38 mit RSWK, 31 mit RVK 5. Kongress Bibliothek und Information
  9. 9. Inkonsistente Erschließung Tanenbaum, Andrew S.: Computer Networks  RVK Notationen  ST 200: 31 Titel  Informatik-Monografien-Vernetzung, verteilte Systeme-Allgemeines, Netzmanagement  ST 205: 3 Titel  Informatik-Monografien-Vernetzung, verteilte Systeme-Internet allgemein  QH 500: 2 Titel  Wirtschaftswissenschaften-Mathematik. Statistik. Ökonometrie. Unternehmensforschung-Wirtschaftsinformatik. Datenverarbeitung  MS 7965: 1 Titel  Soziologie-Spezielle Soziologien-Soziologie der Massenkommunikation und öffentlichen Meinung, Mediensoziologie- Internet, neue Medien 5. Kongress Bibliothek und Information
  10. 10. Grundidee Bilden der Cluster Innerhalb der Cluster  Sammeln der Erschließungsinformationen  Anreichern der nicht erschlossenen Titel  Optional: Angleichen der Erschließung aller Titel 5. Kongress Bibliothek und Information
  11. 11. Experimentelle Überprüfung 5. Kongress Bibliothek und Information
  12. 12. Projektzeitraum: 2011 Test mit zwei Katalogen als Basis Daten  SWB  Katalog des Südwestdeutschen Bibliotheksverbundes  Hebis  Katalog des Hessischen Bibliotheks- und Informationssystems 5. Kongress Bibliothek und Information
  13. 13. Ergebnisse: SWB 5.809.349 Titel mit mindestens einem Match  Davon  3.269.340 ohne RSWK  3.627.017 ohne RVK  Anreicherung durch Übernahme möglich bei  636.462 mit RSWK  959.419 mit RVK 5. Kongress Bibliothek und Information
  14. 14. Ergebnisse: Hebis 4.535.618 Titel mit mindestens einem Match  Davon  3.068.968 ohne RSWK  3.071.022 ohne RVK  Anreicherung durch Übernahme möglich bei  1.179.133 mit RSWK  992.046 mit RVK 5. Kongress Bibliothek und Information
  15. 15. Projektzeitraum: 2012 Aggregation möglichst vieler Fremddaten Daten  SWB  Katalog des Südwestdeutschen Bibliotheksverbundes  Hebis  Katalog des Hessischen Bibliotheks- und Informationssystems  HBZ  Katalog des Hochschulbibliothekszentrum des Landes Nordrhein- Westfalen  B3Kat  Gemeinsamer Verbundkatalog von Bibliotheksverbund Bayern und dem Kooperativen Bibliotheksverbund Berlin-Brandenburg 5. Kongress Bibliothek und Information
  16. 16. Ergebnisse Katalog Monografien Anteil Anteil Zuwachs Zuwachs RVK RSWK RVK RSWK SWB 13.330.743 4.217.226 4.083.113 581.780 957.275 Hebis 8.844.188 1.933.081 2.237.659 1.097.992 1.308.581 HBZ 13.271.840 1.018.298 3.322.100 2.272.558 1.080.162 B3Kat 22.685.738 5.750.295 6.055.164 2.969.381 2.765.967 5. Kongress Bibliothek und Information
  17. 17. Danke für Ihre Aufmerksamkeit! Folien online unter http://www.slideshare.net/MagnusPfeffer/ Dieses Werk bzw. Inhalt steht unter einerCreative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz. 5. Kongress Bibliothek und Information
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×