Englischsprachige Erweiterung des AV-Portals. Ein GND-DBpedia-Mapping zur Gewinnung eines englischen Begriffssystems.

727 views

Published on

Vortrag von Sven Strobel (Technische Informationsbibliothek) auf dem 103. Deutschen Bibliothekartag am 05. Juni 2014 in Bremen

Blogbeitrag zum Thema des Vortrags: http://wp.me/p4vD5k-19F

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
727
On SlideShare
0
From Embeds
0
Number of Embeds
76
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Englischsprachige Erweiterung des AV-Portals. Ein GND-DBpedia-Mapping zur Gewinnung eines englischen Begriffssystems.

  1. 1. Sven Strobel 103. Deutscher Bibliothekartag 05. Juni 2014, Bremen Englischsprachige Erweiterung des AV-Portals Ein GND-DBpedia-Mapping zur Gewinnung eines englischen Begriffssystems
  2. 2. 2 Englischsprachige Erweiterung des AV-Portals 1. Das TIB|AV-Portal 2. Automatische Verschlagwortung deutschsprachiger Videos mit Hilfe der GND • Problem: Fehlende englischsprachige Bezeichner 3. Mapping der GND-Entitäten auf DBpedia und andere Normdaten • Gewinnung von englischsprachigen Bezeichnern 4. Ergebnisse 5. Ausblick Inhalt
  3. 3. 3 1. Das TIB|AV-Portal… • … wurde entwickelt in einem gemeinsamen Projekt des Kompetenzzentrums für nicht-textuelle Materialien an der Technischen Informationsbibliothek mit dem Hasso-Plattner- Institut für Softwaresystemtechnik. • … ermöglicht den webbasierten Zugang zu wissenschaftlichen Videos wie z.B. Computervisualisierungen, Experimenten, Interviews, Vorlesungs- oder Konferenzaufzeichnungen aus Technik und Naturwissenschaft. • … ist am 29. April 2014 online gegangen: https://av.getinfo.de. • … hat bislang 520 Stunden Videomaterial archiviert. • … nutzt Multimedia-Retrieval-Techniken zur automatischen Videoanalyse.
  4. 4. Automatische Videoanalyse des AV-Portals Skorupka, Sascha: Experiment der Woche, 2012 1. Sprache 2. Visuelle Merkmale 4. Strukturelle Informationen (Segmente) 3. Texteinblendungen
  5. 5. 5 Englischsprachige Erweiterung des AV-Portals 1. Das TIB|AV-Portal 2. Automatische Verschlagwortung deutschsprachiger Videos mit Hilfe der GND • Problem: Fehlende englischsprachige Bezeichner 3. Mapping der GND-Entitäten auf DBpedia und andere Normdaten • Gewinnung von englischsprachigen Bezeichnern 4. Ergebnisse 5. Ausblick Inhalt
  6. 6. 6 2. Automatische Verschlagwortung deutschsprachiger Videos mit Hilfe der GND • Textanalyse: OCR-Analyse der Texteinblendungen (z.B. auf Folien)  OCR-Transkript • Audioanalyse: Speech-to-Text  Audiotranskript • Named Entity Recognition (NER) - Zuordnung von Begriffen aus einem Referenzvokabular auf analysierte Textinhalte - Referenzvokabular: Sachbegriffe der Gemeinsamen Normdatei (GND) - Analysierte Textinhalte: OCR- und Audiotranskripte
  7. 7. 7 Gemeinsame Normdatei • GND-Datensätze sind unter CC0-Lizenz als Linked Data publiziert.1 • Normdatensätze sind durch Relationen miteinander verknüpft. Aufbau einer semantischen Suche möglich • Bezeichner der GND sind vorwiegend auf Deutsch. • Fachbezogene Verschlagwortung der deutschsprachigen Videos des AV-Portals: Jedes der sechs TIB-Fächer hat seinen eigenen Fachausschnitt aus der GND (insg. 63.356 Sachbegriffe). 1 Siehe GND Dump des Linked Data Service der Deutschen Nationalbibliothek.
  8. 8. 8 Automatische Verschlagwortung der Videos auf Segmentebene • Die einzelnen Segmente des Videos werden mit GND- Sachbegriffen automatisch verschlagwortet. Zielgenaue, segmentbasierte Suche innerhalb des Videos Skorupka, Sascha: Experiment der Woche, 2011
  9. 9. 9 GND-Sachbegriffe als Entitäten Orange http://d-nb.info/gnd/4172698-4 Orange Apfelsine Zitrusfrucht http://d-nb.info/gnd/4139288-7 Oberbegriff Hauptbezeichner Alternativbezeichner Apfelsinen- baum http://d-nb.info/gnd/4372979-4 verwandter Begriff
  10. 10. 10 Problem: Fehlende englischsprachige Bezeichner • GND enthält zu den in der AV-Portal Wissensbasis verwendeten Sachbegriffen (63.356) aus Naturwissenschaft und Technik nur sehr wenige englischsprachige Bezeichner. • Problem - Für die automatische Verschlagwortung der englischsprachigen Videos des AV-Portals fehlen englischsprachige Bezeichner. - Konsequenz: Keine segmentbasierte Suche innerhalb von englischsprachigen Videos mit Hilfe von Schlagwörtern
  11. 11. 11 Englischsprachige Erweiterung des AV-Portals 1. Das TIB|AV-Portal 2. Automatische Verschlagwortung deutschsprachiger Videos mit Hilfe der GND • Problem: Fehlende englischsprachige Bezeichner 3. Mapping der GND-Entitäten auf DBpedia und andere Normdaten • Gewinnung von englischsprachigen Bezeichnern 4. Ergebnisse 5. Ausblick Inhalt
  12. 12. 12 3. Mapping der GND-Entitäten auf DBpedia und andere Normdaten • Lösung des Problems - Gewinnung von englischsprachigen Bezeichnern für die GND-Entitäten der AV-Portal Wissensbasis (63.356 GND- Sachbegriffe) mit Hilfe eines Mappings der GND-Entitäten auf DBpedia, LCSH, MACS-Ergebnisse und WTI- Thesaurus
  13. 13. 13 Mapping der GND-Entitäten auf DBpedia • GND-Entität  DBpedia deutsch  DBpedia englisch  englischer Bezeichner • DBpedia enthält strukturierte Informationen aus Wikipedia (Infoboxen, Tabellen, Weblinks etc.), die als Linked Data zur Verfügung stehen.
  14. 14. 14 DBpedia
  15. 15. 15 Mapping der GND-Entitäten auf DBpedia2 http://d-nb.info/gnd/4000537-9 labels Advent Vorweihnachtszeit Adventszeit Vorweihnachtsfest find DBpedia candidate(s) dbpde:Advent dbpde:The_Advent dbpde:Advent_Cornwall dbpde:Advent_Creek dbpde:Advent_Computers dbpde:Advent_(Band) dbpde:Advent_(publisher) dbpde:Advent_Records dbpde:Advent_International disambiguate dbpde:Advent language link dbp:Advent context 2 Abbildung: Steinmetz, N. / Sack, H.: Cross-Lingual Semantic Mapping of Authority Files. SWIB 2013, Hamburg. Foliennr. 36. 28.691 (45%) GND-Sachbegriffe der AV-Portal Wissensbasis wurden auf englische DBpedia- Entitäten gemappt.
  16. 16. 16 Mapping der GND-Entitäten auf LCSH • GND-Entität  LCSH Mapping (LCSH -> GND)  englischer Bezeichner • Library of Congress Subject Headings (LCSH) enthält Mappings von LCSH-Entitäten in die GND (LCSH -> GND). • Identifikation der GND-Entitäten der AV-Portal Wissensbasis unter den LCSH Mappings Extraktion der englischen Bezeichner der LCSH-Entitäten
  17. 17. 17 LCSH Von den LCSH Mappings verweisen 11.169 (18%) auf GND-Sachbegriffe der AV- Portal Wissensbasis.
  18. 18. 18 Mapping der GND-Entitäten auf MACS- Ergebnisse • GND-Entität  MACS Mapping (GND -> LCSH)  englischer Bezeichner • Im Projekt MACS (Multi Lingual Access to Subjects) wurden u.a. manuelle Verlinkungen zwischen Sachbegriffen der GND und LCSH (GND -> LCSH) erstellt.3 • Identifikation der GND-Entitäten der AV-Portal Wissensbasis unter den MACS Mappings Extraktion der englischen Bezeichner der LCSH-Entitäten 3 Die Ergebnisse des MACS-Projekts waren zum damaligen Zeitpunkt noch nicht im GND-Dump der DNB veröffentlicht. Die TIB konnte die Ergebnisse - in Absprache mit der DNB - mit Hilfe der WinIBW extrahieren.
  19. 19. 19 MACS-Ergebnisse Von den MACS Mappings verweisen 13.692 (22%) auf GND-Sachbegriffe der AV- Portal Wissensbasis.
  20. 20. 20 Mapping der GND-Entitäten auf WTI-Thesaurus • Thesaurus für Technik und Management des WTI-Frankfurt ist ein maschinenlesbarer Thesaurus, der von der TIB lizenziert wurde. • WTI-Thesaurus enthält Begriffssätze mit deutschen Haupt- und Alternativbezeichnern und (mindestens) einem englischen Bezeichner. • Haupt- und Alternativbezeichner der GND-Entitäten werden im WTI-Thesaurus nachgeschlagen. Extraktion der englischen Bezeichner der Begriffssätze
  21. 21. 21 WTI-Thesaurus Für 14.719 (23%) GND- Sachbegriffe der AV-Portal Wissensbasis konnte mindestens ein englischer Bezeichner aus dem WTI- Thesaurus ermittelt werden.
  22. 22. 22 Englischsprachige Erweiterung des AV-Portals 1. Das TIB|AV-Portal 2. Automatische Verschlagwortung deutschsprachiger Videos mit Hilfe der GND • Problem: Fehlende englischsprachige Bezeichner 3. Mapping der GND-Entitäten auf DBpedia und andere Normdaten • Gewinnung von englischsprachigen Bezeichnern 4. Ergebnisse 5. Ausblick Inhalt
  23. 23. 23 4. Ergebnisse Sachbegriffe Sachbegriffe mit englischem  Bezeichner Sachbegriffe o. englischen Bezeichner,  aber mit verknüpftem „übersetzten“ Oberbegriff 63.356 35.025 55% 11.694 19% • 35.025 GND-Sachbegriffe haben einen englischen Bezeichner ermittelt bekommen, der zur Verschlagwortung der englischsprachigen Videos verwendet werden kann. • 11.694 GND-Sachbegriffe ohne englischen Bezeichner sind mit einem Oberbegriff assoziiert, der einen englischen Bezeichner hat. Suche nach „übersetztem“ Oberbegriff (Waste heat (Abwärme)) liefert auch Ergebnisse zum nicht-übersetzbaren Unterbegriff (Industrieabwärme) Englischsprachige Bezeichner
  24. 24. 24 Englischsprachige Erweiterung des AV-Portals 1. Das TIB|AV-Portal 2. Automatische Verschlagwortung deutschsprachiger Videos mit Hilfe der GND • Problem: Fehlende englischsprachige Bezeichner 3. Mapping der GND-Entitäten auf DBpedia und andere Normdaten • Gewinnung von englischsprachigen Bezeichnern 4. Ergebnisse 5. Ausblick Inhalt
  25. 25. 25 5. Ausblick • Veröffentlichung der Mappingergebnisse als Linked Open Data • Reguläre Updates der Wissensbasen GND, DBpedia, LCSH (neue Sachbegriffe, Bezeichner, Kontextinformationen) Wahrung der Aktualität der AV-Portal Wissensbasis
  26. 26. Vielen Dank für Ihre Aufmerksamkeit! Besuchen Sie uns am Stand 136 in Halle 5! ;-)

×