Der Einsatz automatisierter
Verfahren zur vertieften
Erschließung historischer
Zeitungsbestände. Ein DFG-
Pilotprojekt der...
Einführung
Teilprojekt der
ULB Sachsen-Anhalt
Digitalisierung des Halleschen Tageblattes
∙Laufzeit von Mai 2013 bis April 2015
∙Digitalisierung von 117 Bänden
unterschi...
Digitalisierung des Halleschen Tageblattes
Zeitraum Format Anzahl der
Bände
Anzahl der
Seiten
1799 - 1855 Oktav 68 74.280
...
TEIL I
Rahmenbedingungen
DFG-Positionspapier (2012): Digitalisierung
Ausschuss für Wissen-
schaftliche Bibliotheken und
Informationssysteme: Die
di...
DFG-Positionspapier (2012): Förderschwerpunkte
Zur weiteren Umsetzung der
digitalen Transformation analoger
Überlieferung ...
DFG-Positionspapier (2012): Pilotprojekt Zeitungen
Bei der […] Förderung von
Digitalisierungsmaßnahmen im
Bereich historis...
DFG-Positionspapier (2012): Automatisierung
Vor dem Hintergrund technischer
Weiterentwicklungen sollte […]
eruiert werden,...
TEIL II
Ziele des Projektes
Herausforderung: Inhaltliche Erschließung aller
in Deutschland erschienenen Zeitungen bis 1945
o Zeitungen in der ZDB:
~ 5...
Mindestanforderung: Von der ZDB zu einer
strukturierten Navigation im DFG-Viewer
Umsetzung der Mindestanforderung: Erschließung
bis auf Ausgabeebene (Jahr/Monat/Tag)
Ist-Stand: Manuelle Strukturdatenerfassung
Mengengerüst und Kosten: Minimal-Erschließung
o Umfang: ~ 160 Mio. Strukturdaten (~ 16.000 Titel,
~ 1 Mrd. Seiten)
o Aufwa...
TEIL II
Lösungsansätze
Lösungsoption I: Nutzung der Layout-Analyse
und Text-Erkennung von Abbyy-Finereader
Lösungsoption I: Kernproblem ist die Erkennung von
Frakturschriften
Kosten der Lösungsoption I:
Einsatz von Abbyy Finereader
o ~ 10 Mio. EUR Lizenzkosten OCR
o ~ 0,25 Mio. EUR Verarbeitungsk...
Lösungsoption II: Mustererkennung
Lösungsoption II: Musterwiederholungen bei
periodischen Werken
Lösungsoption II: Ermittlung eines Fingerprints
Lösungsoption II: Technische Parameter zur
Ermittlung des Fingerprints
o Ziel: Identifikation hinreichend eindeutiger
Obje...
Einsatz in der Projekt-Praxis: Automatische
Segmentierung eines Jahrgangs
Einsatz in der Projekt-Praxis: Qualitätssicherung der
segmentierten Jahrgänge
Einsatz in der Projekt-Praxis: Zuweisung von
konkreten Datumswerten je Tagesausgabe
Einsatz in der Projekt-Praxis: Zuweisung von
konkreten Datumswerten je Tagesausgabe II
Kosten der Lösungsoption II:
Einsatz von Mustererkennung
o ~ ? EUR Entwicklungs-/Lizenzkosten
o ~ ? EUR Verarbeitungskoste...
TEIL IV
Ausblick
Ausblick I: Vertiefte Erschließung von Rubriken,
Artikeln, Einzelseiten
Ausblick II: Nutzung von OCR / Vertiefte
Volltextrecherche (im DFG-Viewer)
Ausblick III: Persistente Adressierung
von Artikeln
Ausblick III: Persistente Adressierung
von Einzelseiten
Upcoming SlideShare
Loading in …5
×

Europeana Newspapers German infoday - Semantics

280 views
174 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
280
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Europeana Newspapers German infoday - Semantics

  1. 1. Der Einsatz automatisierter Verfahren zur vertieften Erschließung historischer Zeitungsbestände. Ein DFG- Pilotprojekt der ULB Sachsen- Anhalt Europeana Newspapers Project Information Day Berlin, 27. Februar 2014 Kay Heiligenhaus semantics GmbH, Aachen
  2. 2. Einführung Teilprojekt der ULB Sachsen-Anhalt
  3. 3. Digitalisierung des Halleschen Tageblattes ∙Laufzeit von Mai 2013 bis April 2015 ∙Digitalisierung von 117 Bänden unterschiedlichen Formats (vom Original in Farbe) ∙durch Strukturdaten inhaltlich erschlossen ∙durch Fraktur-OCR im Volltext erschlossen ∙persistent adressierbar bis auf Ausgabe-, Artikel- und Seitenebene
  4. 4. Digitalisierung des Halleschen Tageblattes Zeitraum Format Anzahl der Bände Anzahl der Seiten 1799 - 1855 Oktav 68 74.280 1856 - 1864 Quart 9 13.611 1865 -1871 Folio 4° 8 11.586 1872 -1892 Folio 2° 32 42.922 Gesamt 117 142.399
  5. 5. TEIL I Rahmenbedingungen
  6. 6. DFG-Positionspapier (2012): Digitalisierung Ausschuss für Wissen- schaftliche Bibliotheken und Informationssysteme: Die digitale Transformation weiter gestalten – Der Beitrag der Deutschen Forschungs- gemeinschaft zu einer innovativen Informations- infrastruktur für die Forschung, Bonn, 3. Juli 2012. http://www.dfg.de/download/pdf/foerderung/programme/lis/positionspapier_digitale_transformation.pdf
  7. 7. DFG-Positionspapier (2012): Förderschwerpunkte Zur weiteren Umsetzung der digitalen Transformation analoger Überlieferung wird sich der Schwerpunkt der Förderaktivitäten im Bereich Digitalisierung nach und nach von Drucken hin zu historischen Zeitungen und unikalem Material […] verschieben. (S. 10)
  8. 8. DFG-Positionspapier (2012): Pilotprojekt Zeitungen Bei der […] Förderung von Digitalisierungsmaßnahmen im Bereich historischer Zeitungen […] wird es in erster Linie darum gehen, im Rahmen von Pilotphasen methodische, organisatorische und technische Rahmen- bedingungen […] zu definieren. (S. 10)
  9. 9. DFG-Positionspapier (2012): Automatisierung Vor dem Hintergrund technischer Weiterentwicklungen sollte […] eruiert werden, wie automatisierte Verfahren zur vertieften Erschließung […] Anwendung finden können. Dabei soll auch die Entwicklung neuer Methoden, zum Beispiel im Bereich des Machine Learning, gefördert werden. (S. 12)
  10. 10. TEIL II Ziele des Projektes
  11. 11. Herausforderung: Inhaltliche Erschließung aller in Deutschland erschienenen Zeitungen bis 1945 o Zeitungen in der ZDB: ~ 50.000 Titel; o Zeitungen, eingeschränkt auf Deutschland: ~ 30.000 Titel; o Zeitungen, eingeschränkt auf Deutschland vor 1945: ~ 16.000 Titel. http://dispatch.opac.d-nb.de/DB=1.1/ZEITUNG
  12. 12. Mindestanforderung: Von der ZDB zu einer strukturierten Navigation im DFG-Viewer
  13. 13. Umsetzung der Mindestanforderung: Erschließung bis auf Ausgabeebene (Jahr/Monat/Tag)
  14. 14. Ist-Stand: Manuelle Strukturdatenerfassung
  15. 15. Mengengerüst und Kosten: Minimal-Erschließung o Umfang: ~ 160 Mio. Strukturdaten (~ 16.000 Titel, ~ 1 Mrd. Seiten) o Aufwand: ~ 1.000 Personenjahre (80 Strukturdaten/Stunde, 8 Stunden/Tag, 250 Arbeitstage/Jahr) o Kosten: ~ 35 Mio. EUR (~ 2.161 EUR/pro Titel, ~ 0,035 EUR/pro Seite) Herausforderung: Reduktion der Erschließungskosten.
  16. 16. TEIL II Lösungsansätze
  17. 17. Lösungsoption I: Nutzung der Layout-Analyse und Text-Erkennung von Abbyy-Finereader
  18. 18. Lösungsoption I: Kernproblem ist die Erkennung von Frakturschriften
  19. 19. Kosten der Lösungsoption I: Einsatz von Abbyy Finereader o ~ 10 Mio. EUR Lizenzkosten OCR o ~ 0,25 Mio. EUR Verarbeitungskosten (64 Rechenjahre auf aktueller Server-Hardware) o ~ 7 Mio. EUR Personalkosten (80% Effizienzsteigerung) ~ 17,25 Mio. EUR Gesamtkosten (~ 50% Einsparung)
  20. 20. Lösungsoption II: Mustererkennung
  21. 21. Lösungsoption II: Musterwiederholungen bei periodischen Werken
  22. 22. Lösungsoption II: Ermittlung eines Fingerprints
  23. 23. Lösungsoption II: Technische Parameter zur Ermittlung des Fingerprints o Ziel: Identifikation hinreichend eindeutiger Objekte (Pixelhaufen) von bestimmter Größe auf einer Seite, um eine Segmentierung eines Seitenstroms (Jahrgang) in homogene Segmente zur erreichen. o Objektgröße o Erosion/Dilation o Position o Objektanzahl(min/max) o 11 Mio. Kombinationen (50 x 15 x 250 x 600) o ~ 1 Seite/Sekunde pro Core
  24. 24. Einsatz in der Projekt-Praxis: Automatische Segmentierung eines Jahrgangs
  25. 25. Einsatz in der Projekt-Praxis: Qualitätssicherung der segmentierten Jahrgänge
  26. 26. Einsatz in der Projekt-Praxis: Zuweisung von konkreten Datumswerten je Tagesausgabe
  27. 27. Einsatz in der Projekt-Praxis: Zuweisung von konkreten Datumswerten je Tagesausgabe II
  28. 28. Kosten der Lösungsoption II: Einsatz von Mustererkennung o ~ ? EUR Entwicklungs-/Lizenzkosten o ~ ? EUR Verarbeitungskosten o ~ 3,5 Mio. EUR Personalkosten (90% Effizienzsteigerung) ~ ? Mio. EUR Gesamtkosten (> 75% Einsparung)
  29. 29. TEIL IV Ausblick
  30. 30. Ausblick I: Vertiefte Erschließung von Rubriken, Artikeln, Einzelseiten
  31. 31. Ausblick II: Nutzung von OCR / Vertiefte Volltextrecherche (im DFG-Viewer)
  32. 32. Ausblick III: Persistente Adressierung von Artikeln
  33. 33. Ausblick III: Persistente Adressierung von Einzelseiten

×