Automatisches Generieren von Konkordanzen
Upcoming SlideShare
Loading in...5
×
 

Automatisches Generieren von Konkordanzen

on

  • 601 views

Vortrag im Rahmen des Workshops "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" auf dem 5. Kongress Bibliothek und Information Deutschland vom 11. bis 14. März 2013 ...

Vortrag im Rahmen des Workshops "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" auf dem 5. Kongress Bibliothek und Information Deutschland vom 11. bis 14. März 2013 in Leipzig.

Statistics

Views

Total Views
601
Slideshare-icon Views on SlideShare
601
Embed Views
0

Actions

Likes
2
Downloads
9
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Automatisches Generieren von Konkordanzen Automatisches Generieren von Konkordanzen Presentation Transcript

    • Automatisches Generieren von Konkordanzen Prof. Magnus Pfeffer Hochschule der Medien, Stuttgart pfeffer@hdm-stuttgart.de
    • Überblick Grundidee Optimierung durch Clustering Projekt: Konkordanz RVK ↔ DDC 13. März 2013 5. Kongress Bibliothek und Information
    • Grundidee13. März 2013 5. Kongress Bibliothek und Information
    • Instanzbasierter Vergleich Datenbasis: Mehrfach erschlossene Einträge in Katalogen 13. März 2013 5. Kongress Bibliothek und Information
    • Instanzbasierter Vergleich Annahmen  Inhaltlich überlappende Klassen treten zusammen auf  Häufigkeit des Auftretens ist ein Indiz für die Stärke des Zusammenhangs Aufbereitung  Extraktion aller Paare aus zwei Erschließungssystemen  Aufsummieren der vorkommenden Paare 13. März 2013 5. Kongress Bibliothek und Information
    • Beispiel 13. März 2013 5. Kongress Bibliothek und Information
    • Beispiel Titel 1  Paare  DDC: 179.9  179.9 / CC 7200  RVK: CC 7200  179.9 / CC 7250  RVK: CC 7250  179.9 / CC 7200 Titel 2  DDC: 179.9  RVK: CC 7200 13. März 2013 5. Kongress Bibliothek und Information
    • Instanzbasierter Vergleich Auswertung  am Beispiel zweier Klassifikationen A und B  Zwei Klassen treten ausschließlich als Paar auf  1:1 Zuordnung = exakte Übereinstimmung  Klasse aus A hat immer denselben Partner aus B, der hat aber auch andere Partner aus A  N:1 Zuordnung = Klasse aus A ist engeres Konzept  Klasse aus A tritt mit mehreren Partnern auf  1:N Zuordnung = Klasse aus A ist weiter gefasstes Konzept  Aber: Klasse tritt nicht auf  Keine Folgerung möglich 13. März 2013 5. Kongress Bibliothek und Information
    • Beispiel Auswertung für DDC  2 mal 179.9 / CC 7200  1 mal 179.9 / CC 7250 Ergebnis  179.9 narrowMatch CC 7200  179.9 narrowMatch CC 7250 13. März 2013 5. Kongress Bibliothek und Information
    • Beispiel Auswertung für RVK  2 mal CC 7200 / 179.9  1 mal CC 7250 / 179.9 Ergebnis  CC 7200 broadMatch 179.9  CC 7250 broadMatch 179.9 13. März 2013 5. Kongress Bibliothek und Information
    • Optimierung durch Clustering13. März 2013 5. Kongress Bibliothek und Information
    • Titeldaten sind anders Mehrere Auflagen Mehrere Ausgaben 13. März 2013 5. Kongress Bibliothek und Information
    • Titeldaten Mehrere Ausgaben und Auflagen verfälschen die Statistik  Paare werden mehrfach erfasst  Keine Vergleichbarkeit der absoluten Häufigkeiten Lösung: Auswertung der Cluster anstelle der einzelnen Titel  Häufigkeiten werden direkt vergleichbar  „Stärke“ der Korrelationen können ermittelt werden  „Ausreißer“ können sicher erkannt und entfernt werden 13. März 2013 5. Kongress Bibliothek und Information
    • Projekt: Konkordanz RVK ↔ DDC13. März 2013 5. Kongress Bibliothek und Information
    • Datenbasis Alle deutschen Verbundkataloge  SWB  BVB  GBV  HeBIS  HBZ DNB 13. März 2013 5. Kongress Bibliothek und Information
    • Umsetzung Metafactory  Aufbereiten von MAB2 und MARC21 Daten  Clustering auf Werksebene  Keygenerierung für Matching-Prozess  Matching und Clusterbildung (transitive Hülle)  Sammeln der Erschließungsinformationen im Cluster  Statistik  Auszählen des gemeinsamen Auftretens von Klassen  Ausgabe  Mappings einzelner Klassen  Beide Richtungen 13. März 2013 5. Kongress Bibliothek und Information
    • Offene Fragen Enthalten die Titeldaten nach dem Clustering genügend auswertbare Erschließungen? Macht es Sinn, einen globalen Cut-Off zu verwenden, um Ausreißer zu verwerfen?  Oder ist es besser, jede Klasse gesondert auszuwerten? Wie kann eine effiziente Qualitätssicherung betrieben werden? 13. März 2013 5. Kongress Bibliothek und Information
    • Danke für Ihre Aufmerksamkeit! Folien online unter http://www.slideshare.net/MagnusPfeffer/ Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.13. März 2013 5. Kongress Bibliothek und Information