Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

405 views

Published on

Workshop Texterfassung historischer Dokumente, 6-7 September 2016, Berlin, Germany.

Published in: Technology
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

  1. 1. Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse Clemens Neudecker Staatsbibliothek zu Berlin @cneudecker
  2. 2. Inhalt 1. Überblick Zeitungsdigitalisierung 2. Stand der Technik 3. Qualität a) OCR / Texterkennung b) OLR / Layoutanalyse 4. Herausforderungen 5. Ausblick
  3. 3. Zeitungsdigitalisierung • EU: Europeana Newspapers (12 Mio. Seiten) – ANNO Austrian Newspapers Online (17 Mio.) – KBNL Historische Kranten (10 Mio.) • US: Chronicling America (10 Mio.) • UK: British Newspaper Archive (15 Mio.) • AU: Trove Newspapers (16,5 Mio.) • DE: DFG Pilotprojekt Zeitungsdigitalisierung Massendigitalisierung von Zeitungen ist Realität  OCR inzwischen auch bei Zeitungen Standard  Meist Retro-Digitalisierung von Mikrofilm
  4. 4. Stand der Technik • Üblicherweise: ABBYY FineReader + X – CCS docWORKS – Fraunhofer IAIS – GFaI Dacapo – P.P.S. – ZISSOR – uvm. • Open Source Alternativen?
  5. 5. Formate • Üblicherweise: METS (Struktur) + ALTO (OCR) • „In the wild“: – PDF (mit/ohne eingebetteten Volltext) – hOCR (Google Tesseract/OCRopy) – TEI (Text Encoding Initiative) – Proprietäre Formate, XML-basiert (z.B. Olive) – Plain text, keine Strukturdaten/Koordinaten – MS Word .DOC (ja, wirklich…)
  6. 6. Qualität: Texterkennung • Europeana Newspapers Evaluation: OCR Qualität von rund 80% Wortgenauigkeit 82.4% 85.3% 80.9% 75.9% 67.5% 83.4% 84.1% 68.1% 93.1% 57.6% 87.0% 68.3% 76.1% 82.6% 54.1% 32.7% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% SuccessRate Language Setting Bag of Words OCR Evaluation Per Language
  7. 7. Qualität: Layoutanalyse (I) • ICDAR Competition HNLA2013 58.3% 83.7% 83.2% 85.6% 86.4% 86.9% 85.5% 50% 60% 70% 80% 90% 100% Tesseract3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013 Fraunhofer 2011 SuccessRate Segmentation
  8. 8. Qualität: Layoutanalyse (II) • ICDAR Competition HNLA2013 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Tesseract 3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013 Fraunhofer 2011 Missclas- sification False Detection Miss/ Partial Miss Split Merge
  9. 9. Besondere Herausforderungen • Qualität der Vorlage (Original) • Qualität Mikrofilmdigitalisierung • Komplexität Layout und Struktur • Artikelsegmentierung, teilweise über mehrere Seiten • Tabellen • Werbung, Anzeigen
  10. 10. Layoutanalyse • Artikel, Überschriften, Abbildungen, …
  11. 11. Artikelsegmentierung • Inhalte und Reihenfolge von Artikeln erfassen
  12. 12. Tabellen • Bsp. HEBIS Projekt „Historische Finanzdaten“
  13. 13. Werbung, Anzeigen • Vielfalt an Schriftarten, grafischen Elementen
  14. 14. Strukturanalyse (I) • Deep structuring (Mühlberger, 2016)
  15. 15. Strukturanalyse (II) • Structify (Universität Innsbruck)
  16. 16. Ausblick • Verbesserte Layoutanalysewerkzeuge speziell für (historische) Zeitungen - bevorzugt Open Source • Nachkorrekturmöglichkeiten für Layouterkennung und -klassifikation • Modelle und Werkzeuge zur inhaltlichen Tiefenstrukturierung
  17. 17. Danke für ihre Aufmerksamkeit! Fragen? Clemens Neudecker Staatsbibliothek zu Berlin @cneudecker

×