Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

174 views

Published on

Workshop Texterfassung historischer Dokumente, 6-7 September 2016, Berlin, Germany.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

  1. 1. Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse Clemens Neudecker Staatsbibliothek zu Berlin @cneudecker
  2. 2. Inhalt 1. Überblick Zeitungsdigitalisierung 2. Stand der Technik 3. Qualität a) OCR / Texterkennung b) OLR / Layoutanalyse 4. Herausforderungen 5. Ausblick
  3. 3. Zeitungsdigitalisierung • EU: Europeana Newspapers (12 Mio. Seiten) – ANNO Austrian Newspapers Online (17 Mio.) – KBNL Historische Kranten (10 Mio.) • US: Chronicling America (10 Mio.) • UK: British Newspaper Archive (15 Mio.) • AU: Trove Newspapers (16,5 Mio.) • DE: DFG Pilotprojekt Zeitungsdigitalisierung Massendigitalisierung von Zeitungen ist Realität  OCR inzwischen auch bei Zeitungen Standard  Meist Retro-Digitalisierung von Mikrofilm
  4. 4. Stand der Technik • Üblicherweise: ABBYY FineReader + X – CCS docWORKS – Fraunhofer IAIS – GFaI Dacapo – P.P.S. – ZISSOR – uvm. • Open Source Alternativen?
  5. 5. Formate • Üblicherweise: METS (Struktur) + ALTO (OCR) • „In the wild“: – PDF (mit/ohne eingebetteten Volltext) – hOCR (Google Tesseract/OCRopy) – TEI (Text Encoding Initiative) – Proprietäre Formate, XML-basiert (z.B. Olive) – Plain text, keine Strukturdaten/Koordinaten – MS Word .DOC (ja, wirklich…)
  6. 6. Qualität: Texterkennung • Europeana Newspapers Evaluation: OCR Qualität von rund 80% Wortgenauigkeit 82.4% 85.3% 80.9% 75.9% 67.5% 83.4% 84.1% 68.1% 93.1% 57.6% 87.0% 68.3% 76.1% 82.6% 54.1% 32.7% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% SuccessRate Language Setting Bag of Words OCR Evaluation Per Language
  7. 7. Qualität: Layoutanalyse (I) • ICDAR Competition HNLA2013 58.3% 83.7% 83.2% 85.6% 86.4% 86.9% 85.5% 50% 60% 70% 80% 90% 100% Tesseract3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013 Fraunhofer 2011 SuccessRate Segmentation
  8. 8. Qualität: Layoutanalyse (II) • ICDAR Competition HNLA2013 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Tesseract 3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013 Fraunhofer 2011 Missclas- sification False Detection Miss/ Partial Miss Split Merge
  9. 9. Besondere Herausforderungen • Qualität der Vorlage (Original) • Qualität Mikrofilmdigitalisierung • Komplexität Layout und Struktur • Artikelsegmentierung, teilweise über mehrere Seiten • Tabellen • Werbung, Anzeigen
  10. 10. Layoutanalyse • Artikel, Überschriften, Abbildungen, …
  11. 11. Artikelsegmentierung • Inhalte und Reihenfolge von Artikeln erfassen
  12. 12. Tabellen • Bsp. HEBIS Projekt „Historische Finanzdaten“
  13. 13. Werbung, Anzeigen • Vielfalt an Schriftarten, grafischen Elementen
  14. 14. Strukturanalyse (I) • Deep structuring (Mühlberger, 2016)
  15. 15. Strukturanalyse (II) • Structify (Universität Innsbruck)
  16. 16. Ausblick • Verbesserte Layoutanalysewerkzeuge speziell für (historische) Zeitungen - bevorzugt Open Source • Nachkorrekturmöglichkeiten für Layouterkennung und -klassifikation • Modelle und Werkzeuge zur inhaltlichen Tiefenstrukturierung
  17. 17. Danke für ihre Aufmerksamkeit! Fragen? Clemens Neudecker Staatsbibliothek zu Berlin @cneudecker

×