Your SlideShare is downloading. ×

DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

530

Published on

In den letzten Jahren konnten beachtliche Fortschritte in Bezug auf die Erkennungsqualität von OCR-Verfahren – auch bei schwierigen Vorlagen – erzielt werden. Zugleich fallen die Preise …

In den letzten Jahren konnten beachtliche Fortschritte in Bezug auf die Erkennungsqualität von OCR-Verfahren – auch bei schwierigen Vorlagen – erzielt werden. Zugleich fallen die Preise kontinuierlich, sei es bei Dienstleistern oder beim Aufsetzen einer eigenen OCR-Render-Farm. Die flächendeckende Bereitstellung von OCR-Volltexten scheint demnach zum Greifen nahe – der Durchbruch lässt jedoch aus Sicht der NutzerInnen weiter auf sich warten.

Einer der Hauptgründe dafür liegt in der komplizierten Orchestrierung der OCR-Workflows. Wirft man einen Blick auf die Details, so zerfasert der vermeintlich übersichtliche Dreiklang aus Digitalisierung, OCR und Indexierung/Bereitstellung schnell in 10 oder auch 20 Einzelschritte mit komplexen Abhängigkeiten. Selbst wenn diese Herausforderungen gemeistert wurden, stehen die nächsten Aufgaben an: Prozesse für die kontinuierliche Verbesserung der Volltexte (auch durch NutzerInnen/Croudsourcing) sowie Rückkanäle für veredelte Volltexte – etwa durch Normdatenauszeichnung – in die Repositorien sind weitestgehend Neuland.

Der Impulsvortrag wird das Problembewusstsein dafür zu schärfen, dass die OCR-Erkennungsqualität an sich zwar ein hochrelevanter Aspekt ist - im Orchester der Operationalisierung durch die Institutionen und Projekte aber nur als einer von vielen zu begreifen ist. Wenn das Projekt einer nationalen Volltext-Initiative gelingen soll, muss die gesamte Prozesskette Beachtung finden.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
530
On Slideshare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Workshop „Verfahren zur Verbesserung von OCR-Ergebnissen“ Workflow Volltextgenerierung über OCR Ralf Stockmann
  • 2. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 2 Digitalisierung OCR Bereitstellung Oberflächliche Sicht eines OCR-Workflows
  • 3. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 3 Digitalisierung OCR Bereitstellung Fehlende Workflowschritte an den Schnittstellen
  • 4. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 4 Digitalisierung OCR Bereitstellung Fehlende Workflowschritte gewichtet nach Aufwand
  • 5. Vorbereitung für OCR 14.03.2014 | S. 5 Welche Sprache hat das Dokument? Welche Schrift (Fraktur / Antiqua)? Datum abweichende Schreibweisen / Historische Lexika Region unverlässliche Daten hierzu im OPAC...?
  • 6. Die Produktivität der Digitalisierung steigt an unseren Einrichtungen kontinuierlich 14.03.2014 | S. 6 Jahre ScansproTag
  • 7. Um die Tagesproduktion durch OCR bearbeiten zu können muss diese ebenfalls skalieren 14.03.2014 | S. 7 Jahre ScansproTag OCR
  • 8. 14.03.2014 | S. 8 Tagesaktuelle OCR für Strukturdatenerfassung
  • 9. 14.03.2014 | S. 9 Tagesaktuelle OCR für Strukturdatenerfassung
  • 10. Das Problem ist nicht nur die Tagesproduktion... 14.03.2014 | S. 10 Jahre ScansproTag OCR
  • 11. 14.03.2014 | S. 11 Jahre ScansproTag OCR ArchivallerbisherigenScans ...sondern unser bestehender Berg der letzten 12 Jahre
  • 12. Massen-OCR  Beispiel: Staatsbibliothek zu Berlin  Ca. 15 Mio. Images vorliegend  OCR-Dauer pro Image und CPU: ca. 20 Sekunden (optimistischer Wert)  Ca. 3.472 Tage oder 9,5 Jahre  Ziel: 5 Tage also ca. Faktor 700 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 12
  • 13. Paketierung – Sammlung von Images 14.03.2014 | S. 13 Scans
  • 14. Paketierung – Verteilung auf OCR-Cluster 14.03.2014 | S. 14 Scans CPU CPU CPURenderfarm
  • 15. Paketierung – Zusammenführung der Ergebnisse 14.03.2014 | S. 15 Scans CPU CPU CPURenderfarm Ergebnis
  • 16. Paketierung – wie robust ist der (wahrscheinliche) Fehlerfall? 14.03.2014 | S. 16 Scans CPU CPU CPURenderfarm Ergebnis
  • 17. Flowshart Projekt „Digitextmath“ mit ABBYY Recognition Server 14.03.2014 | S. 17
  • 18. Nur dieser Schritt ist die eigentliche OCR, der Rest ist Workflow-Management 14.03.2014 | S. 18
  • 19. Datenformate – Quelle ist Sammlung von Images 14.03.2014 | S. 19 Scans
  • 20. Datenformate Alt: eine XML-Datei Pro Seite 14.03.2014 | S. 20 Scans ALTO
  • 21. Datenformate TEI: Eine Datei pro Dokument mit Pagebreaks im XML 14.03.2014 | S. 21 Scans ALTO TEI <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb>
  • 22. Datenmanagement – viele Importformate 14.03.2014 | S. 22 Import ALTO TEI Finereader XML LaTeX PDF ... hOCR
  • 23. Datenmanagement – nur ein Zentralformat? 14.03.2014 | S. 23 ALTO TEI Finereader XML LaTeX PDF ... Zentralformat? Import Archiv hOCR
  • 24. Datenmanagement – auf jeden Fall flexible Exportformate benötigt 14.03.2014 | S. 24 Zentralformat? PDF TEI Mobi ePub LaTeX hOCR Markdown ... Import ExportArchiv ALTO TEI Finereader XML LaTeX PDF ... hOCR
  • 25. Volltexte sind agil 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 25
  • 26. Quelle für Agilität: Korrekturen  Nutzerfreundliches Crowdsourcing direkt im Browser  Bessere OCR-Engines  bei tendenziell sinkenden Preisen 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 26
  • 27. Quelle für Agilität: Veredelung  Normdaten  Personen  Orte  Zeit  Schlagwörter  Annotationen  Referenzen  ...  Erfolgen nicht zwangsläufig in unseren Oberflächen sondern in VREs, ... 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 27
  • 28. Problemfelder agiler Volltextdaten  Gleichermaßen für Korrekturen wie Veredelung  Langzeitarchivierung (etwa: Updates auf langsamen Tape-Speicher)  Persistente Adressierung  Versionierung? 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 28
  • 29. Lösung: Volltexte auf GitHub?! (unser Grundgesetz ist schon da...) S. 29 http://gg.docpatch.org
  • 30. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 30 Digitalisierung OCR Bereitstellung
  • 31. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 31 D OCR B... ... ... ... ... ... Wenig bis keine Grundlagen für diese Bereiche vorhanden
  • 32. Identifizierte Aktionsfelder 1. Pretest-Werkzeuge um Fehler/Lücken im OPAC auszugleichen 2. Interoperabilitätsbibliothek für Volltextformate 3. Getrennte (?) Strategien für  den Abbau des vorhandenen Scan-Berges  die laufende Produktion in den Einrichtungen 4. Robuste und transparente Workflows zur Anbindung von  eigenen Renderfarmen  zentralen Renderfarmen  Dienstleistern  ...auch in Mischformen 5. Konzepte um die Agilität von Volltexten mit dem Bedürfnis nach seriösem Datenmanagement zu versöhnen
  • 33. 14.03.2014 | S. 33 Projekte werden nicht aufgrund schlechter OCR-Qualität scheitern – sondern aufgrund nicht verstandener und wenig beherrschter Workflows Workflow Volltextgenerierung über OCR Ralf Stockmann

×