Your SlideShare is downloading. ×
Heidrun Wiesenmüller: Anreichern, abgleichen, verknüpfen - Anwendungsideen für das Werk-Clustering
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Heidrun Wiesenmüller: Anreichern, abgleichen, verknüpfen - Anwendungsideen für das Werk-Clustering

889
views

Published on

Vortrag "Anreichern, abgleichen, verknüpfen" von Heidrun Wiesenmüller auf dem Workshop "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" (gemeinsam mit Magnus Pfeffer) …

Vortrag "Anreichern, abgleichen, verknüpfen" von Heidrun Wiesenmüller auf dem Workshop "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" (gemeinsam mit Magnus Pfeffer) beim Leipziger Bibliothekskongress 2013.

Published in: Education

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
889
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
18
Comments
0
Likes
3
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Hochschule der Medien Anreichern, abgleichen, verknüpfen Anwendungsideen für das Werk-ClusteringHeidrun Wiesenmüller (Beitrag im Workshop „Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten“) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 1
  • 2. Hochschule der Medien Agenda 1. Individualisierung 2. Differenzierung von Normsätzen 3. Maschinell erstellte Werk-Normsätze 4. Optimierungspotenziale für das ClusteringHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 2
  • 3. Hochschule der Medien Agenda 1. Individualisierung 2. Differenzierung von Normsätzen 3. Maschinell erstellte Werk-Normsätze 4. Optimierungspotenziale für das ClusteringHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 3
  • 4. Hochschule der Medien Individualisierung von Personen • in angloamerikanischer Welt schon immer üblich Lebensdaten sind sogar Teil der Ansetzungsform • von RAK ursprünglich nicht vorgesehen in deutschsprachigem Raum erst seit einigen Jahren praktiziert • erheblicher Aufwand für die Erschließung Differenzieren von Autoren, Erfassen zusätzlicher Informationen, Bearbeiten von Altdaten (z.B. Auflösen von „Sammeltöpfen“)Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 4
  • 5. Beispiel für Individualisierung dreimal „Heiner Müller“13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 5
  • 6. Hochschule der Medien Probleme bei Individualisierung • Altdaten bisher nur zum Teil aufgearbeitet • Informationen nicht ausreichend bzw. gesichert Individualisierung z.T. anhand der vorliegenden Angaben nicht möglich, Zuordnen zu vorhandenen Datensätzen oft schwierig, keine Zeit für zusätzliche Recherchen • Verzicht auf Individualisierung aus unterschiedlichen Gründen (z.B. keine Zeit,Heidrun Wiesenmüller mangelnde Erfahrung mit GND bei kleinen Bibliotheken) • ohne manuelle Bearbeitung eingespielte Fremddaten z.B. E-Book-Pakete, Daten für Nationallizenzen (oft ganz ohne Verknüpfung zu Personensätzen) bisher noch sehr unvollkommen umgesetzt 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 6
  • 7. Hochschule der Medien Chance für Werk-Clustering • Verfasser auf Werk-Ebene angesiedelt auch bei Herausgebern von Aufsatzbänden u.ä. möglich • ein einziger Datensatz aus dem Cluster genügt wenn in irgendeinem Verbund eine Ausgabe mit einem individualisierten Satz verknüpft ist, kann dies für alle anderen Mitglieder im Cluster übernommen werden • kann auch zum Auffinden von Fehlern dienen z.B. könnte nach Fällen gesucht werden, in denen zweiHeidrun Wiesenmüller Mitglieder desselben Clusters mit unterschiedlichen individualisierten Personensätzen verknüpft sind • Einbezug angloamerikanischer Daten könnte die Ergebnisse weiter verbessern 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 7
  • 8. SWB GBV• SWB: nicht individualisiert• GBV: individualisiert (ebenso DNB und HBZ) GND-Satz 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 8
  • 9. GBV SWB• SWB: individualisiert• GBV: nicht indiv. (so auch HBZ und OBV) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 9
  • 10. SWB• SWB: nur Online-Ausgabe, dort nicht individualisiert (so auch im GBV und OBV)• Daten von E-Book-Paketen werden häufig eingekauft und ohne intellektuelle Nach- bearbeitung eingespielt 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 10
  • 11. HBZ • HBZ: nur Druck-Ausgabe, dort Tp-Satz• HBZ: nur Druck-Ausg., dort individualisiert 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 11
  • 12. GBV im selben Verbund: E-Book-Ausgabe ohne Individualisierung, Druckausgabe mit!13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 12
  • 13. GBV Variante: E-Book-Ausgabe steht nicht unter Ansetzungs- form, sondern unter einer Verweisungsform (im Tp-Satz enthalten)13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 13
  • 14. Hochschule der Medien SWB: Titel dieser Person sind auf nicht weniger als drei Normsätze verteiltHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 14
  • 15. Hochschule der Medien SWB: Beispiel für einen „Sammeltopf“ (Tn- Satz für einen gängigen Namen), mit dem über 600 Titel verknüpft sindHeidrun Wiesenmüller • bisher manuelle Bearbeitung sehr aufwendig, im laufenden Betrieb kaum zu leisten • Clustering könnte helfen könnte künftig ein weitgehend automatisches „Auseinandernehmen“ solcher Sammeltöpfe ermöglichen 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 15
  • 16. Ausschnitt aus Trefferliste zum „Sammeltopf“ bei DNB individualisiert: Kunsthistoriker, geb. 1936 bei DNB individualisiert: Historiker, geb. 1956 bei DNB individualisiert: Theologe, geb. 195013.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 16
  • 17. SWB HBZdasselbe Werk:einmal verknüpft mit Kunsthistoriker, geb. 1947, einmalverknüpft mit Kunsthistoriker, geb. 1936 (so auch DNB).Hier kann etwas nicht stimmen! 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 17
  • 18. Hochschule der MedienHeidrun Wiesenmüller Wikipedia Recherche ergibt: beide Zuordnungen sind falsch, der Richtige ist ein Dritter (für den es ebenfalls Datensatz gibt) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 18
  • 19. SWB Zwei Ausgaben von Middlemarch: E-Book-Ausgabe aus Nationallizenz-Daten, dort ist nur der Name als Text eingetragen13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 19
  • 20. SWB LoCAlleinbesitz im SWB:individualisierende Informationen könnten ausangloamerikanischen Daten übernommen werden 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 20
  • 21. Hochschule der Medien Kataloge Individualisierungsinfos bisher kaum genutzt: • in manchen Katalogen zumindest Anzeige beim Titel z.B. über Klick auf spezielles Icon • in Trefferlisten i.d.R. bisher nicht genutzt Titel aller gleichnamigen Autoren zusammengeworfen (Ausnahme: Freiburger Katalog plus) • Suche vom Titel aus: unterschiedlich realisiert entweder nur Anzeige der mit dieser Person verknüpftenHeidrun Wiesenmüller Titel (Problem: ergibt evtl. nur Teil der relevanten Titel) oder Recherche nach Titeln aller gleichnamigen Personen bei besserer Qualität der Daten wären auch verbesserte Katalog-Funktionen möglich 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 21
  • 22. Beispiel für Individualisierung dreimal „Heiner Müller“13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 22
  • 23. Suche nach Heiner Müller: Personen werden in der Trefferliste „zusammengeworfen“Hochschule der Medien der Verfasser von Unterrichtsmaterialien der SchriftstellerHeidrun Wiesenmüller SWB 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 23
  • 24. reales Beispiel: http://www.viaf.org Lösungsweg 1: Vorschläge bei der Eingabe Müller, Heiner 1925-1995 / Schriftsteller Müller, Heiner 1970- / Arzt Müller, Heiner 1982- / Publizist von Unterrichts- materialien für die Schule Müller, Heiner weitere Personen dieses Namens Müller, Heinrichfiktiv (Designstudie), 1873-1956 / Lehrer Müller, HeinrichBasis: HEIDI-Katalog 1845-1910 / Apothekerder UB Heidelberg 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 24
  • 25. Lösungsweg 2: Drill-down Treffer einschränken auf: Müller, Heiner 1925-1995 / Schriftsteller Müller, Heiner 1970- / Arzt Müller, Heiner 1982- / Publizist von Unterrichtsmaterialien für die Schule Müller, Heiner weitere Personen dieses Namensfiktiv (Designstudie), Basis: SWB 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 25
  • 26. umgesetzt im Katalog plus der UB Freiburg13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 26
  • 27. Hochschule der Medien Agenda 1. Individualisierung 2. Differenzierung von Normsätzen 3. Maschinell erstellte Werk-Normsätze 4. Optimierungspotenziale für das ClusteringHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 27
  • 28. Hochschule der Medien Angloamerikanische Tradition Stärkere Differenzierung bei Normdaten, z.B.: • Pseudonyme schreibt jemand teils unter einem Pseudonym, teils unter seinem wirklichen Namen (oder unter mehreren Pseudo- nymen), so werden unterschiedliche „bibliographische Identitäten“ angenommen • Person in offizieller Funktion Unterscheidung zwischen einer Person als Amtsträger und derselben Person als „Privatmann/-frau“Heidrun Wiesenmüller Aufspaltung in mehrere Normdatensätze mit Siehe-auch-Verweisung (5XX) dagegen bei uns jeweils nur ein Normsatz 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 28
  • 29. Hochschule der Medien Normdatensatz 1 (Personensatz, stark gekürzt):Heidrun Wiesenmüller 100 1# |a Hobb, Robin 500 1# |a Lindholm, Megan • Autorin veröffentlicht teils unter dem Pseudonym „Robin Hobb“, teils unter „Megan Lindholm“ 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 29
  • 30. Hochschule der Medien Normdatensatz 2 (Personensatz, stark gekürzt):Heidrun Wiesenmüller 100 1# |a Lindholm, Megan 500 1# |a Hobb, Robin 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 30
  • 31. Hochschule der Medien Beispiel für Titel am Normsatz 1Heidrun Wiesenmüller Beispiel für Titel am Normsatz 2 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 31
  • 32. GNDHochschule der MedienHeidrun Wiesenmüller GND: nur ein Datensatz, der für alle Titel verwendet wird; Pseudonym ist eine normale Verweisung (400) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 32
  • 33. Hochschule der Medien Normdatensatz 1 (Personensatz, stark gekürzt):Heidrun Wiesenmüller 100 0# |a Benedict |b XVI, |c Pope, |d 1927- 400 1# |a Ratzinger, Joseph, |d 1927- 510 2# |a Catholic Church |b Pope (2005-2013 : Benedict XVI) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 33
  • 34. Beispiel für einen Titel am Normsatz 1Hochschule der MedienHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 34
  • 35. Hochschule der Medien Normdatensatz 2 (Körperschaftssatz, stark gekürzt):Heidrun Wiesenmüller 110 2# |a Catholic Church. |b Pope (2005-2013 : Benedict XVI) 500 0# |a Benedict |b XVI, |c Pope, |d 1927- 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 35
  • 36. Hochschule der Medien Beispiel für einen Titel am Normsatz 2Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 36
  • 37. Hochschule der Medien RDA-Umstieg • Wenn entschieden wird, RDA voll zu implementieren Aufspaltung der betroffenen Normsätze sowie neue Zuordnung nötig • Clustering könnte Zuordnungsprozess unterstützen alle Ausgaben eines Werkes sollten am selben Normsatz hängen • Einbezug angloamerikanischer Daten ins Clustering könnte bei korrekter Zuordnung helfenHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 37
  • 38. Hochschule der Medien Agenda 1. Individualisierung 2. Differenzierung von Normsätzen 3. Maschinell erstellte Werk-Normsätze 4. Optimierungspotenziale für das ClusteringHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 38
  • 39. Hochschule der Medien Clustering von Ausgaben • bisher nur als Funktion von Recherchesystemen nicht „fest verdrahtet“, sondern durch Algorithmen erzeugt Primo MannheimHeidrun Wiesenmüller funktioniert jeweils nur in bestimmten System 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 39
  • 40. Hochschule der Medien Datentechnische Verknüpfung bisher nur in wenigen Fällen praktiziert: • Verknüpfung von Ausgaben nur in besonderen Fällen z.B. parallele Druck- und Online-AusgabeHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 40
  • 41. Hochschule der Medien Werknormsätze • in Formalerschließung bisher nur für Musik-Werke werden manuell erstellt und verknüpft nicht nur Text, sondern echte VerknüpfungHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 41
  • 42. Hochschule der Medien zugehöriger Normsatz für das Werk in der GNDHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 42
  • 43. Hochschule der Medien RDA • basiert auf FRBR Abbildung der Primärbeziehungen zwischen einem Werk, seinen Expressionen, Manifestationen und Exemplaren ist grundsätzlich angestrebt • wichtig ist insbesondere die Beziehung zum Werk das „manifestierte Werk“ ist ein Kern-Element (d.h. muss stets erfasst werden) • RDA erlaubt zwar ein Weitermachen wie bisher in der sog. „composite description“ kann die BeschreibungHeidrun Wiesenmüller der Manifestation mit Informationen der Werk- und Expressionsebene kombiniert werden • aber: wünschenswert wären Werk-Verknüpfungen jedoch: manuelle Erstellung und Verknüpfung wäre zu aufwendig, nötig ist maschinelle Lösung 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 43
  • 44. Hochschule der Medien Automatische Werkverknüpfung Grundidee für den Ablauf: 1. Erstellen von Werkclustern gemäß Pfeffer-Algorithmus (evtl. noch optimiert) 2. Extrahieren werkrelevanter Informationen jeweils aus dem Gesamtcluster 3. maschinelles Erzeugen eines Werknormsatzes gemäß festgelegter Ableitungsregeln (z.B. könnte das Jahr der frühesten Manifestation im Cluster als Jahr desHeidrun Wiesenmüller Werkes behandelt werden) 4. maschinelles Eintragen der Identnummer des Werks bei allen Titelsätzen, die zum Cluster gehören 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 44
  • 45. 1100 1972 1500 gerHochschule der Medien 2000 3-7940-2607-1 3000 !PPN!Hacker, Rupert*1935-* 4000 Bibliothekarisches Grundwissen$hRupert Hacker 4030 München-Pullach [u.a.]$nVerl. Dokumentation 4060 368 S. Beispiel 1: 1100 2008 zwei Mitglieder desselben 1500 ger Clusters (SWB, gekürzt) 2000 978-3-598-11771-8 3000 !PPN!Gantert, Klaus*1968-*Heidrun Wiesenmüller 3001 !PPN!Hacker, Rupert*1935-* 4000 Bibliothekarisches Grundwissen$hKlaus Gantert; Rupert Hacker 4020 8., vollst. neu bearb. und erw. Aufl. 4030 München$nSaur 4060 414 S. 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 45
  • 46. Hochschule der Medien aus dem Cluster erzeugter Werknormsatz 005 Tu7 neuer Code „7“: maschinell 006 http://d-nb.info/gnd/xyz erstellt aus Clustering 008 wit 011 f neues Nutzungskennzeichen „q“: 012 q für maschinelle Verknüpfungen 035 gnd/xyz 130 Bibliothekarisches Grundwissen 377 ger 500 !PPN!Hacker, Rupert*1935-* $4aut1Heidrun Wiesenmüller 500 !PPN!Gantert, Klaus*1968-* $4auta 548 $c1972$4datj 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 46
  • 47. Hochschule der Medien aus dem Cluster erzeugter Werknormsatz 005 Tu7 006 http://d-nb.info/gnd/xyz Werktitel: Sachtitel der 008 wit frühesten Manifestation 011 f 012 q 035 gnd/xyz 130 Bibliothekarisches Grundwissen 377 ger 500 mutmaßliche Sprache des Werks !PPN!Hacker, Rupert*1935-* $4aut1Heidrun Wiesenmüller 500 (nur deutsche Manifestationen) !PPN!Gantert, Klaus*1968-* $4auta 548 $c1972$4datj Jahr der frühesten Manifestation als mutmaßliches Jahr des Werks 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 47
  • 48. Hochschule der Medien aus dem Cluster erzeugter Werknormsatz 005 Tu7 006 http://d-nb.info/gnd/xyz 008 wit 011 f erster Verfasser der 012 q frühesten Manifestation 035 gnd/xyz 130 Bibliothekarisches Grundwissen 377 ger 500 !PPN!Hacker, Rupert*1935-* $4aut1Heidrun Wiesenmüller 500 !PPN!Gantert, Klaus*1968-* $4auta 548 $c1972$4datj weiterer Verfasser (aus späterer Manifestation) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 48
  • 49. Hochschule der Medien alle Mitglieder des Clusters werden mit Werknormsatz verknüpft 1100 2008 1500 ger 2000 978-3-598-11771-8 3000 !PPN!Gantert, Klaus*1968-* 3001 !PPN!Hacker, Rupert*1935-* 3012 !PPN!Bibliothekarisches Grundwissen / Hacker, Rupert*1935-* 4000 Bibliothekarisches Grundwissen$hKlaus Gantert; Rupert HackerHeidrun Wiesenmüller 4020 8., vollst. neu bearb. und erw. Aufl. zum Werk- Verknüpfung 4030 München$nSaur normsatz über Identnummer 4060 414 S. 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 49
  • 50. 1100 2012 1500 engHochschule der Medien 2000 978-1-4087-0420-2 3000 !PPN!Rowling, Joanne K.*1965-* 4000 The @casual vacancy$hJ. K. Rowling 4030 London$nLittle, Brown 4060 503 S. Beispiel 2: 1100 2012 zwei Mitglieder desselben 1500 ger$ceng Clusters (SWB, gekürzt) 2000 978-3-551-58888-3 3000 !PPN!Rowling, Joanne K.*1965-*Heidrun Wiesenmüller 3010 !PPN!Aeckerle, Susanne*1942-*[Übers.] 3211 The @casual vacancy <dt.> 4000 Ein @plötzlicher Todesfall$dRoman$hJ. K. Rowling. Aus dem Engl. von Susanne Aeckerle ... 4030 Hamburg$nCarlsen 4060 574 S. 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 50
  • 51. Hochschule der Medien aus dem Cluster erzeugter Werknormsatz 005 Tu7 006 http://d-nb.info/gnd/xyz 008 wit Werktitel: Einheitssachtitel 011 f 012 q 035 gnd/xyz 130 The @casual vacancy 377 eng 430 Ein @plötzlicher Todesfall$vgerHeidrun Wiesenmüller 500 !PPN!Rowling, Joanne K.*1965-* $4aut1 548 $c2012$4datj Sachtitel einer Manifestation, der nicht mit Werktitel übereinstimmt (mit Sprachcode) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 51
  • 52. Hochschule der Medien alle Mitglieder des Clusters werden mit Werknormsatz verknüpft 1100 2012 1500 ger$ceng 2000 978-3-551-58888-3 3000 !PPN!Rowling, Joanne K.*1965-* 3010 !PPN!Aeckerle, Susanne*1942-*[Übers.] 3211 The @casual vacancy <dt.> 3212 !PPN!The @casual vacancy / Rowling, Joanne K.*1965-* 4000 Ein @plötzlicher Todesfall$dRoman$hJ. K.Heidrun Wiesenmüller Rowling. Aus dem Engl. von Susanne Aeckerle ... 4030 Hamburg$nCarlsen Verknüpfung zum Werk- 4060 574 S. normsatz über Identnummer 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 52
  • 53. Hochschule der Medien offene Fragen • intellektuell erstellter Werknormsatz vorhanden (z.B. aus Sacherschließung), Feststellen durch Abgleich der maschinell erstellten Werknormätze mit GND; Merging oder Verknüpfung der beiden Normsätze? • Werke mit nur einer Manifestation (Einer-Cluster) sollte auch in diesen Fällen ein Werknormsatz angelegt werden? • technische UmsetzbarkeitHeidrun Wiesenmüller lässt sich das geschilderte Szenario unter den derzeitigen technischen Rahmenbedingungen (mehreren Verbund- kataloge) umsetzen? 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 53
  • 54. Hochschule der Medien Agenda 1. Individualisierung 2. Differenzierung von Normsätzen 3. Maschinell erstellte Werk-Normsätze 4. Optimierungspotenziale für das ClusteringHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 54
  • 55. Hochschule der Medien Optimierungsmöglichkeiten • bisher sehr scharfes Clustern z.B. exakte Übereinstimmung von Sachtitel und Zusätzen notwendig vermeidet Fehl-Zusammenführungen umgekehrt: nicht alles wird zusammengeführt Verbesserungsansätze: • Einbezug von VerweisungsformenHeidrun Wiesenmüller z.B. Person einmal „Hills, John“, einmal „Hills, John R.“ • Auswertung von Fußnoten insbes. bei Titeländerungen • keine 100%-ige Übereinstimmung bei Zusätzen diese ändern sich vergleichsweise oft 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 55
  • 56. Hochschule der Medien Fußnote bei Titeländerung als Text oder mit VerknüpfungHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 56
  • 57. Hochschule der Medien Unterschiede bei Zusätzen Zusatz fehlt in manchen Ausgaben SWBHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 57
  • 58. Unterschiede bei Zusätzen vier deutsche Ausgaben, drei Varianten SWB13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 58
  • 59. Unterschiede bei Zusätzen drei Ausgaben, drei Varianten (z.T. auch erfassungsbedingt) SWB Verfeinerung des Algorithmus sinnvoll evtl. mit intellektueller Überprüfung, wenn das System sich nicht sicher ist13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 59
  • 60. Hochschule der Medien Vielen Dank für Ihre Aufmerksamkeit! Kontakt: wiesenmueller@hdm-stuttgart.deHeidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 60

×