Automatisches Generieren von Konkordanzen

1,024 views

Published on

Vortrag im Rahmen des Workshops "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" auf dem 5. Kongress Bibliothek und Information Deutschland vom 11. bis 14. März 2013 in Leipzig.

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,024
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
11
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Automatisches Generieren von Konkordanzen

  1. 1. Automatisches Generieren von Konkordanzen Prof. Magnus Pfeffer Hochschule der Medien, Stuttgart pfeffer@hdm-stuttgart.de
  2. 2. Überblick Grundidee Optimierung durch Clustering Projekt: Konkordanz RVK ↔ DDC 13. März 2013 5. Kongress Bibliothek und Information
  3. 3. Grundidee13. März 2013 5. Kongress Bibliothek und Information
  4. 4. Instanzbasierter Vergleich Datenbasis: Mehrfach erschlossene Einträge in Katalogen 13. März 2013 5. Kongress Bibliothek und Information
  5. 5. Instanzbasierter Vergleich Annahmen  Inhaltlich überlappende Klassen treten zusammen auf  Häufigkeit des Auftretens ist ein Indiz für die Stärke des Zusammenhangs Aufbereitung  Extraktion aller Paare aus zwei Erschließungssystemen  Aufsummieren der vorkommenden Paare 13. März 2013 5. Kongress Bibliothek und Information
  6. 6. Beispiel 13. März 2013 5. Kongress Bibliothek und Information
  7. 7. Beispiel Titel 1  Paare  DDC: 179.9  179.9 / CC 7200  RVK: CC 7200  179.9 / CC 7250  RVK: CC 7250  179.9 / CC 7200 Titel 2  DDC: 179.9  RVK: CC 7200 13. März 2013 5. Kongress Bibliothek und Information
  8. 8. Instanzbasierter Vergleich Auswertung  am Beispiel zweier Klassifikationen A und B  Zwei Klassen treten ausschließlich als Paar auf  1:1 Zuordnung = exakte Übereinstimmung  Klasse aus A hat immer denselben Partner aus B, der hat aber auch andere Partner aus A  N:1 Zuordnung = Klasse aus A ist engeres Konzept  Klasse aus A tritt mit mehreren Partnern auf  1:N Zuordnung = Klasse aus A ist weiter gefasstes Konzept  Aber: Klasse tritt nicht auf  Keine Folgerung möglich 13. März 2013 5. Kongress Bibliothek und Information
  9. 9. Beispiel Auswertung für DDC  2 mal 179.9 / CC 7200  1 mal 179.9 / CC 7250 Ergebnis  179.9 narrowMatch CC 7200  179.9 narrowMatch CC 7250 13. März 2013 5. Kongress Bibliothek und Information
  10. 10. Beispiel Auswertung für RVK  2 mal CC 7200 / 179.9  1 mal CC 7250 / 179.9 Ergebnis  CC 7200 broadMatch 179.9  CC 7250 broadMatch 179.9 13. März 2013 5. Kongress Bibliothek und Information
  11. 11. Optimierung durch Clustering13. März 2013 5. Kongress Bibliothek und Information
  12. 12. Titeldaten sind anders Mehrere Auflagen Mehrere Ausgaben 13. März 2013 5. Kongress Bibliothek und Information
  13. 13. Titeldaten Mehrere Ausgaben und Auflagen verfälschen die Statistik  Paare werden mehrfach erfasst  Keine Vergleichbarkeit der absoluten Häufigkeiten Lösung: Auswertung der Cluster anstelle der einzelnen Titel  Häufigkeiten werden direkt vergleichbar  „Stärke“ der Korrelationen können ermittelt werden  „Ausreißer“ können sicher erkannt und entfernt werden 13. März 2013 5. Kongress Bibliothek und Information
  14. 14. Projekt: Konkordanz RVK ↔ DDC13. März 2013 5. Kongress Bibliothek und Information
  15. 15. Datenbasis Alle deutschen Verbundkataloge  SWB  BVB  GBV  HeBIS  HBZ DNB 13. März 2013 5. Kongress Bibliothek und Information
  16. 16. Umsetzung Metafactory  Aufbereiten von MAB2 und MARC21 Daten  Clustering auf Werksebene  Keygenerierung für Matching-Prozess  Matching und Clusterbildung (transitive Hülle)  Sammeln der Erschließungsinformationen im Cluster  Statistik  Auszählen des gemeinsamen Auftretens von Klassen  Ausgabe  Mappings einzelner Klassen  Beide Richtungen 13. März 2013 5. Kongress Bibliothek und Information
  17. 17. Offene Fragen Enthalten die Titeldaten nach dem Clustering genügend auswertbare Erschließungen? Macht es Sinn, einen globalen Cut-Off zu verwenden, um Ausreißer zu verwerfen?  Oder ist es besser, jede Klasse gesondert auszuwerten? Wie kann eine effiziente Qualitätssicherung betrieben werden? 13. März 2013 5. Kongress Bibliothek und Information
  18. 18. Danke für Ihre Aufmerksamkeit! Folien online unter http://www.slideshare.net/MagnusPfeffer/ Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.13. März 2013 5. Kongress Bibliothek und Information

×