BSB Demo Day - Pletschacher - Evaluationswerkzeuge
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
448
On Slideshare
256
From Embeds
192
Number of Embeds
2

Actions

Shares
Downloads
3
Comments
0
Likes
0

Embeds 192

http://impactocr.wordpress.com 190
https://impactocr.wordpress.com 2

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Evaluierung im Rahmen von OCR-Workflows Stefan Pletschacher
  • 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Überblick Digitalisierungsworkflows Evaluierungsinfrastruktur Werkzeuge zur Ground-Truth Erstellung Evaluierungswerkzeuge Bespiel 1: Segmentierung und Layout Beispiel 2: OCR-Text Interpretation von ErgebnissenStefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 2
  • 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Digitalisierungsworkflows Evaluierung ① Scannen •Individuelle Prozessschritte ② Bildvorverarbeitung und -verbesserung •Komplette Workflows Trennung von Doppelseiten Hintergrund-/Randentfernung Korrektur von Bildwölbungen (systematisch und zufällig) Beseitigung von allgemeinen Bildstörungen Binarisierung ③ Layoutanalyse Segmentierung von Regionen, Zeilen, Wörtern und Zeichen Klassifikation von Regionen Logische und strukturelle Layoutanalyse ④ OCR ⑤ NachverarbeitungStefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 3
  • 4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Eine vollständige Evaluierungsinfrastruktur Evaluierungs- ergebnisse Evaluierungs werkzeuge Kompatibilität durch ein gemeinsames Format (PAGE) Bild- datenbankStefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 4
  • 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT Image RepositoryZentrale Speicherung und Verwaltungvon Dokumentbildern, Metadaten undGround-Truth Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 5
  • 6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Werkzeuge zur Ground-Truth ErstellungAletheia Seitenrand/Hintergrund Layout Regionen (inkl. Metadaten) Textzeilen, Wörter und Glyphen Unicode-Text auf allen Ebenen Lesereihenfolge, Ebenen, etc.FineReader EngineExporter (Vorproduktion)GT Validator Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 6
  • 7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ground-Truth für Historische DokumenteDurchgehende Unterstützung von Unicode (inkl.Sonderzeichen für historische Dokumente) Komplexe Lese- reihenfolge (Gruppen von geordneten oder ungeordneten Elementen) Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 7
  • 8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ground-Truth für BildvorverarbeitungDrehungs- Wölbungs- Randentfernung Binarisierungkorrektur korrektur Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 8
  • 9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Das PAGE FormatPage Analysis and Ground-Truth Elements Zweistufige Architektur: – Integrierendes Wurzelelement – Aufgabenspezifische Unterformate Separate XML Schema Definitionen Format Identifikation über Namespaces Abbildung von – Abhängigkeiten – Prozessketten Repräsentation von – Alternativen Verarbeitungsschritten Verarbeitungsergebnissen Verlinkung von Komponenten über IDs oder Ground-Truth http://schema.primaresearch.org/PAGE/Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 9
  • 10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Evaluierungswerkzeuge Segmentierung und Layout OCR-Text Drehungskorrektur Wölbungskorrektur Randentfernung Binarisierung DoppelseitentrennungStefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 10
  • 11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Beispiel 1: Segmentierung und Layout Ground Ergebniss TruthFehlerarten Miss / Part. Differenzierung von Fehlern in Überlappung Miss Abhängigkeit der Lesereihenfolge Split tolerierbar Misclass. Merge False Detection nicht-tolerierbar Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 11
  • 12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Beispiel 1: Ground-Truth Pag Header e Paragrap h Paragrap h Caption ImageStefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 12
  • 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Beispiel 1: Ergebnis Layoutanalyse Header Paragrap h Paragrap h Image Image ImageStefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 13
  • 14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Beispiel 1: Fehlerauswertung Miss Partial MissMisclassi-fication Merge Caption Paragrap h Ground-Truth Ergebnis Layoutanalyse Split Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 14
  • 15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Beispiel 2: OCR-Text Vergleich von Ground-Truth Text mit OCR Ergebnis (ASCII, Unicode) – Zeichengenauigkeit Abstandsmaß (minimal notwendige Anzahl von Einfüge-, Lösch- bzw. Austauschoperationen) Nach Zeichenklassen (Leerzeichen, Klein- und Großbuchstaben, Ziffern, Satzzeichen) – Wortgenauigkeit Vollständig korrekt erkannte Wörter vs. Gesamtzahl an Wörtern Mit oder ohne Stoppwörter – Abgelehnte und als verdächtig markierte Zeichen/Wörter – Besondere Schwere von Ersetzungsfehlern – Maßzahlen für Korrekturaufwand Hans im Glück  Hahn im GlukStefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 15
  • 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Interpretation von Ergebnissen Metrik Miss – Messung von Zuständen Misclass. – Art und Anzahl von Fehlern Merge Szenarios Split – Anwendungskontext False detect. – Wichtung von Fehlern M M 2 M S1 S2 Kennzahlen zur Gesamtbewertung 1 3 basierend auf Merge Split – gewichteten individuellen Ergebnissen Rate Rate ... – Typ und Größe (betroffene Region) – tolerierbaren und nicht-tolerierbaren Fehlern Error RateStefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 16
  • 17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Weitere InformationenPRImA http://www.primaresearch.orgIMPACT http://www.impact-project.euStefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 17