Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Von der (Zeitungs-)Digitalisierung zu historischen Netzwerken: Methoden und Herausforderungen

311 views

Published on

Zeitschriften als Netzwerke.
Perspektiven digitaler Erforschung und Darstellung
ZfL Workshop, Berlin, 13.07.2017

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Von der (Zeitungs-)Digitalisierung zu historischen Netzwerken: Methoden und Herausforderungen

  1. 1. Von der (Zeitungs-)Digitalisierung zu historischen Netzwerken: Methoden und Herausforderungen Clemens Neudecker (@cneudecker) Staatsbibliothek zu Berlin – Preußischer Kulturbesitz clemens.neudecker@europeana-newspapers.eu Zeitschriften als Netzwerke Perspektiven digitaler Erforschung und Darstellung Berlin, 13.07.2017
  2. 2. Europeana Newspapers • EU-Projekt (2012 - 2015) http://www.europeana-newspapers.eu/ • Ziele: – Entwicklung eines gemeinsamen europäischen Portals für digitalisierte historische Zeitungen: http://www.theeuropeanlibrary.org/tel4/newspapers – Nachweis von > 20 Mio. Seiten digitalisierter historischer Zeitungen in der Europeana – Volltexterkennung (OCR) von > 10 Mio. Seiten digitalisierter historischer Zeitungen
  3. 3. Europeana Newspapers (2014 – 2017)
  4. 4. Titelsuche
  5. 5. Kalendersuche
  6. 6. Volltextsuche
  7. 7. Anzeige
  8. 8. Europeana Newspapers (2018 - ?)
  9. 9. Volltexterkennung (OCR) • Volltexterkennung (Optical Character Recognition, OCR) dient der Umwandlung von Bildern (Scans) in editierbare und durchsuchbare elektronische Texte
  10. 10. Herausforderungen
  11. 11. Evaluation 82.4% 85.3% 80.9% 75.9% 67.5% 83.4% 84.1% 68.1% 93.1% 57.6% 87.0% 68.3% 76.1% 82.6% 54.1% 32.7% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% SuccessRate Language Setting Bag of Words OCR Evaluation Per Language 79.1% 62.2% 55.9% 58.8% 94.7% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Keyword search Phrase search Access via content structure Print/ebook on demand Content based image retrieval SuccessRate(harmonic,areabased) Evaluation Profile Layout Analysis Performance Per evaluation profile  Ca. 20% Fehlerrate Wortgenauigkeit  Ca. 20% Fehlerrate Layouterkennung
  12. 12. Named Entity Recognition (NER) • Analyse der Benutzung der digitalisierten Zeitungen der National Library of Wales - 9/10 Suchanfragen sind Personen oder Orte (Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, Digital Humanities 2014, Lausanne)
  13. 13. Named Entity Recognition (NER) • Named Entity Recognition (NER) dient der Erkennung und Klassifikation von Entitäten in Texten/Dokumenten • Typische Anwendungsfälle: Person, Ort, Organisation, Ereignis, Zeit
  14. 14. Evaluation Personen Orte Organisationen Precision 0.940 0.950 0.942 Recall 0.588 0.760 0.559 F-measure 0.689 0.838 0.671  Ca. 5% Fehlerrate Genauigkeit  Ca. 35% Fehlerrate Erkennung
  15. 15. Herausforderungen • Qualität der Volltexte/OCR • Sprachabhängig (im Projekt: Deutsch, Französisch, Niederländisch) • Historische Ortsnamen, Schreibvarianten – Przemyśl, Peremyschl, Premissel • Ambiguität – z.B. – „Der Reichskanzler“ (Identifikation – wer/wann?) – „Jordan“ (Klassifikation – Ort? Person?)
  16. 16. Named Entity Disambiguation • Auflösen der Ambiguität über Kontext (nicht immer vorhanden), z.B. – „Der Reichskanzler“ + Zeitung aus 1880 = Bismarck – „Der Reichskanzler“ + Zeitung aus 1905 = von Bülow – „Jordan“ + „Chicago“ = Michael Jordan – „Jordan“ + „Palästina“ = Jordanien
  17. 17. Named Entity Linking • Verlinkung der Entitäten mit Normdaten erlaubt eindeutige und sprachunabhängige Zuordnung: – „Bismarck“ (Otto von)  Wikidata = Q8442 / GND = 11851136X – „Bismarck“ (Schlachtschiff)  Wikidata = Q150857 / GND = ??? – „Jordan“ (Michael)  Wikidata = Q41421 / GND = 119184486 – „Jordan“ (Land)  Wikidata = Q810 / GND = 040287505
  18. 18. Hypothesen sind Netze, nur der wird fangen, der auswirft. Novalis
  19. 19. Weitere relevante Bestände • Digitalisierte Zeitungen – ZEFYS http://zefys.staatsbibliothek-berlin.de/ • Zeitschriftendatenbank – ZDB http://www.zeitschriftendatenbank.de/ • Kalliope Verbundkatalog – KPE http://kalliope-verbund.info/
  20. 20. ZEFYS
  21. 21. Reprinting Networks • Oceanic Exchanges (Digging Into Data)
  22. 22. Zeitschriftendatenbank • Bezugspunkte: – Personen (Autoren und Herausgeber) – Zeitschriften/Zeitungen – (Erscheinungs-)Orte – Körperschaften (Verlage, Vereinigungen) – Gattungen
  23. 23. http://beta.zdb-katalog.de/title.xhtml?idn=011476532
  24. 24. Kalliope • Bezugspunkte: – Personen (Briefwechsel/Korrespondenzen!) – Körperschaften und Kongresse – Sachschlagwörter – Gattungen/Materialarten – Geographika (Entstehungsorte) – Werktitel
  25. 25. http://kalliope-verbund.info/de/graph?q=ead.genre.gnd="4008240-4" and ead_participant_gnd="118763784"
  26. 26. Nächste Schritte • Verknüpfung von Entitäten in Zeitungen, ZDB, Kalliope und weiteren relevanten Beständen bzw. Projekten (z.B. Berliner Intellektuelle, Social Networks and Archival Context) • Innovative & interaktive Visualisierung(en) • Statistische Abfragen & Auswertungen  DFG-Antrag „Interfaces to Data for Historical Social Network Analysis Research“ (SoNAR)
  27. 27. Vielen Dank für die Aufmerksamkeit! Clemens Neudecker (@cneudecker) Staatsbibliothek zu Berlin – Preußischer Kulturbesitz clemens.neudecker@europeana-newspapers.eu

×