Europeana Newspapers German infoday - OCR @ CCS

355 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
355
On SlideShare
0
From Embeds
0
Number of Embeds
13
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Europeana Newspapers German infoday - OCR @ CCS

  1. 1. 28. Februar 2014 Seite 1 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives CCS Content Conversion Specialists europeana newspapers Information Day, Berlin, 28.2.2014 Optical Layout Recognition (OLR) Generierung und Nutzung von Strukturdaten Claus Gravenhorst
  2. 2. 28. Februar 2014 Seite 2 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Agenda Über CCS Allgemeiner OLR-Workflow für Massendigitalisierung Layout- und Struktur-Analyse ENP OLR Workflow Qualitätssicherung Output - METS/ALTO package Nutzung von Strukturdaten
  3. 3. 28. Februar 2014 Seite 3 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Über CCS Als technischer Projektpartner bringt CCS Content Conversion Specialists GmbH (Hamburg) seine Erfahrung und die docWorks-Technologie ein, um über einen Massendigitalisierungs-Workflow für 2,2 Millionen Zeitungsseiten einen qualitativ hochwertigen, Artikel-strukturierten Content zu generieren. Seitenvolumen der 5 Partner: BNF=1.000 k, NLE=500 k , SUB HH=580 k, NLF=90 k, SBB=10 k Verteilter OLR Workflow ermöglicht die Beteiligung der Projektpartner (content provider) am integrierten Qualitätssicherungs-Prozess CCS arbeitet auch an der Spezifikation des ENMAP Metadaten-Modells mit
  4. 4. 28. Februar 2014 Seite 4 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Allgemeiner OLR-Workflow für Massendigitalisierung Re-Scan Conversion Imaging Layout Analysis OCR ISR Reject Condition Delivery QA random Final Output Scanning Image Metadata Database ---------------- Repository Automated QA Document UID Barcode Item Tracking Manual QA • in-house • near-shore • off-shore • multiple locations Manual QA • in-house • near-shore Check in Check out Scanner • Robot- • Book- • Document- • Microfilm- QA+Correcti onQA+Correcti on QA + Correction Z 39.50 Metadata
  5. 5. 28. Februar 2014 Seite 5 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Layout- und Struktur-Analyse Layout-Analyse basiert auf „bottom up“-Verfahren Regelwerk ermöglicht Erkennung von Wörtern, Textzeilen, Textblöcken, Spalten sowie Klassifikation von Textblöcken, Illustrationen, Werbung, Tabellen und der folgenden Seitentypen: - title page (Titelseite einer Ausgabe) - content page (Seite die nur Content/Text enthält) - illustration page (Seite mit mindestens einer Illustration) - advertisement page (Seite mit ausschließlich Werbung) Struktur-Analyse durch Erkennung/Klassifikation der Überschriften und Gruppierung von Zonen zu Artikeln (inkl. Fortsetzung)
  6. 6. 28. Februar 2014 Seite 6 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives ENP OLR Workflow | Konvertierung ohne Scanning Digital Image Metadata Delivery Digital Image Metadata Delivery Digital Object Return Digital Object Return Inspection / Automatic QA Inspection / Automatic QA Doc DeliveryDoc Delivery RejectReject Conversion facility Material location Conversion MD Recording optional PDF METS/ALTO ENMAP
  7. 7. 28. Februar 2014 Seite 7 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Mögliche Konvertierungs-Szenarien A) Konvertierung in-house B) Konvertierung off-shore über CCS-Rechenzentrum, finale QS an der Bibliothek über Internet Transfer (remote QS) C) Konvertierung off-shore bei CCS, finale QS an der Bibliothek über Backup-Lieferung
  8. 8. 28. Februar 2014 Seite 8 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Szenario B | Remote QS an der Bibliothek Internet Storage IN OUTPOOL dW Share Master Offshore Processing @ CCS OUTPUT METS ALTO Storage POOL dW Share RQA QA on-site @ Library INPUT
  9. 9. 28. Februar 2014 Seite 9 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Qualitätssicherung @ CCS | Automatisches Tagging/Markup und Basis-Korrektur: - Artikelüberschriften, Illustrationen, Bilder, Untertitel, Werbung, etc. - Artikel-Segmentierung und Gruppierung der Zonen zu Artikeln (inkl. Fortsetzung) @ Content Provider (Bibliothek): Empfohlen - Zonenerkennung: Korrektur der Block-Klassifikation als „Text“ oder „Illustration“ - Artikel Segmentierung: Korrektur der Identifikation von Überschriften, Textblöcken, Untertiteln - Gruppierung: Korrektur der Gruppierung von Blöcken (Text, Illustration) zu Artikeln - Metadaten: Korrektur von Titel, Ausgabe-Datum und -Nummer Optional - Seitentypen: Korrektur der Typen - Seitennummern: Korrektur der Seitenreihenfolge - OCR: Textkorrektur für spezifische Zonen (z.B. Überschriften, Untertitel)
  10. 10. 28. Februar 2014 Seite 10 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Output | METS/ALTO package METS/ALTO Metadaten-Schemas zur Beschreibung des strukturierten digitalen Objekts Eine Zeitungsausgabe wird in eine METS XML Datei konvertiert, die die gesamte physikalische und logische Struktur beschreibt. Es werden alle Links zu den Image- und verbundenen ALTO/XML-Dateien verwaltet. ALTO basiert auf einem standardisierten Schema zur Seitenbeschreibung und enthält alle Informationen einer Seite (Satzspiegel, Ränder, Koordinaten, OCR-Ergebnisse). Vorteile des strukturellen Markup‘s: - besseres Durchsuchen und präzisere Textsuche - besserer Zugriff und Anzeige auf mobilen und Tablet-Geräten - aktive Rolle des Benutzers: manuelle Textkorrektur, Artikelklassifikation, Annotation, persönliche Kollektion, etc. - automatische Artikel-Klassifizierung und -Gruppierung durch data/text-mining und linguistische Technologien - Verteilung von Artikeln z.B. über Social Media Plattformen _______________ METS = Metadada Encoding and Transmission Standard ALTO = Analyzed Layout and Text Object
  11. 11. 28. Februar 2014 Seite 11 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Recherche & Präsentation Recherche über Portale von TEL (Europeana Newspaper Browser) und der Content Provider Existierende Präsentationssysteme [Artikel-Struktur]: - The British Library (The British Newspaper Archive, brightsolid) - Holländische Nationalbibliothek (DDD) - Nationalbibliothek Luxemburg (eLuxemburgensia) - Nationalbibliothek Australien (Trove) - Nationalbibliothek Neuseeland (Papers Past) Beispiele von bereits prozessierten ENP-Titeln: - BNF: L‘Ouest Eclair (1919) - SBB: Deutsches Nachrichtenbüro (1936) - NLE: Livländische Gouvernements-Zeitung (1852)
  12. 12. 28. Februar 2014 Seite 12 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Suche Recherche Textsuche
  13. 13. 28. Februar 2014 Seite 13 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Auswahl Titel/Datum Ausgabe Inhaltsverzeichnis
  14. 14. 28. Februar 2014 Seite 14 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Artikel Artikel-Bild/Text Zusatzfunktionen
  15. 15. 28. Februar 2014 Seite 15 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Artikelimage Separierter Artikel Verteilung
  16. 16. 28. Februar 2014 Seite 16 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Artikeltext Artikel Text
  17. 17. 28. Februar 2014 Seite 17 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Artikelkorrektur Online-Textkorrektur durch Benutzer
  18. 18. 28. Februar 2014 Seite 18 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Suche nach „poulet“ Trefferliste Artikel-basiert
  19. 19. 28. Februar 2014 Seite 19 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – Artikelanzeige Artikel Wortmarkierung
  20. 20. 28. Februar 2014 Seite 20 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – SBB Deutsches Nachrichtenbüro
  21. 21. 28. Februar 2014 Seite 21 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Nutzung von Strukturdaten – NLE Livländische Gouvernements- Zeitung
  22. 22. 28. Februar 2014 Seite 22 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Fragen + Antworten
  23. 23. 28. Februar 2014 Seite 23 Content Conversion Specialists Europeana Newspapers Infoday Berlin Claus Gravenhorst Director Strategic Initiatives Kontakt Claus Gravenhorst Director Strategic Initiatives CCS Content Conversion Specialists GmbH Weidestr. 134 22083 Hamburg Germany c.gravenhorst@content-conversion.com www.content-conversion.com

×