BSB Demo Day - Zechmeister - OCR-Software

812 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
812
On SlideShare
0
From Embeds
0
Number of Embeds
227
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

BSB Demo Day - Zechmeister - OCR-Software

  1. 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.OCR-Software für historische DokumenteGerd Zechmeister (Österr. Nationalbibliothek)11.10.2011 DemoDay BSB
  2. 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.11.10.2011 DemoDay BSB 2
  3. 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Was ist OCR?Optische Zeichenerkennung ist die mechanische oder elektronischeÜbersetzung von - üblicherweise von einem Scanner erfassten - Abbildernvon hand- oder maschingeschriebenem bzw. gedrucktem Text inmaschinenlesbaren Text. (Übersetzte Definition aus dem IMPACT Glossar) 11.10.2011 DemoDay BSB 3
  4. 4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Warum OCR? Volltextgewinnung und Einsatz spezieller Lexika zur Wiederauffindung von Dokumenten in Suchsystemen Editierbarkeit (z.B. Redigieren für reprints oder eBook-Formate) Schriftart-Erkennung „Trainieren“ von OCR Software11.10.2011 DemoDay BSB 4
  5. 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.OCR Verarbeitungsschritte Bildvorverarbeitung – Kompensieren und Ausgleichen von Image-Defekten (z.B. Geraderücken, Entfernen von Flecken) zur Optimierung des Scans sowie als Vorverarbeitung für die OCR (Binarisierung) integriert im OCR-System oder als Vorverarbeitungsschritt vorgesehen Layout-Analyse und Segmentierung – Erkennen von Layout-Elementen (Druckbereich, Marginalia, Seiten- und Kapitelzahlen etc.) und Blöcken (Text, Illustrationen etc.) Mehrinformation über diese Elemente und Blöcke (z.B. Koordinaten) können je nach Ausgabeformat in den Ergebnissen mitgeliefert werden Mustererkennung – Erkennen einzelner Zeichen und Abgleich derselben mit der Datenbank von Klassifikatoren (= Zeichenmuster) – Ausgabe von Ergebnissen (z.B. TXT, XML, RTF)11.10.2011 DemoDay BSB 5
  6. 6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.IMPACT & ABBYY ABBYY ist der OCR-Technologie-Lieferant für IMPACT Die IMPACT Partner arbeiten mit der FineReader Engine (SDK) ABBYY verbessert Features im Rahmen von IMPACT, darunter: – Bildvorverarbeitung – Zeichenerkennung – Segmentierung werden in zukünftige Produkte integriert IMPACT ermöglicht Forschung, liefert kein Produktivsystem11.10.2011 DemoDay BSB 6
  7. 7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Binarisierung
  8. 8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Adaptive Binarisierung Original-Scan alte Binarisierung neue Binarisierung
  9. 9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.IMPACT Binarisierung Original Stand der Technik IMPACT 9
  10. 10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Segmentierung Blöcke/Regionen Worte Glyphen/Zeichen
  11. 11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.IMPACT Segmentierung: Beispiel 1 Pre-IMPACT FR Engine 9 FR Engine 10 Ein Teil wurde fälschlicherweise als Grafikblock interpretiert 11
  12. 12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.IMPACT Segmentierung: Beispiel 2 Pre-IMPACT FR Engine 9 FR Engine 10 Fehler in der Zuordnung von Elementen wurden behoben 12
  13. 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.IMPACT Segmentierung: Beispiel 3 Pre-IMPACT FR Engine 9 FR Engine 10 In v9 nicht berücksichtigte Textregionen sind jetzt inkludiert 13
  14. 14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Fraktur-Erkennung
  15. 15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Sprachen und Wörterbücher Ziel: Schnittstelle zur Integration externer Wörterbücher in die Engine 2008 - 2009: • Betaversion der Schnittstelle • Selbe Prozessqualität möglich wie mit internen Wörterbüchern 2010 - 2011: • Schnittstelle “stabilisieren” (weitere Funktionstests notwendig) • Partner einschulen wie die Schnittstelle zu benutzen ist • Unterstützung für alle verfügbaren Sprachen und Zeiträume 15
  16. 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Eigennamenerkennung Erkennen von Personen, Orten und Körperschaften in Volltexten Arbeitsschritte 1. Erstellen von Eigennamenverzeichnissen (z. B. Abtippen von Ortsverzeichnissen, Konvertierung von Normdateien in geeignete Formate) 2. Indexieren von Volltexten 3. Suchschnittstelle generieren IMPACT Retrieval Demonstrator11.10.2011 DemoDay BSB 16
  17. 17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.ALTO: neues natives Exportformat Verfügbar seit FineReader Engine 10 R2 Unterstützt aktuelles Schema: ALTO v. 2.0 Koordinaten auf Linienebene verfügbar
  18. 18. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Ergebnisvergleich Prozess 1 1. Geometrische Korrektur 2. Rahmenentfernung 3. ABBYY FineReader 10 Binarisation Service 4. ABBYY FineReader 10 OCR Service Prozess 2 1. ABBYY FineReader 10 OCR Service11.10.2011 DemoDay BSB 18
  19. 19. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Prozess 1 (Bildvorverarbeitung + FR 9) Prozess 2 (FR 9)11.10.2011 DemoDay BSB 19
  20. 20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Vielen Dank … Fragen?11.10.2011 DemoDay BSB 20

×