Your SlideShare is downloading. ×
BSB Demo Day - Reffle - Analyse und Nachkorrektur
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

BSB Demo Day - Reffle - Analyse und Nachkorrektur

548
views

Published on


0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
548
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Analyse und Nachkorrektur historischer und OCR-erfasster ErgebnisseUlrich Reffle, CIS, LMU München11.10.2011
  • 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Inhalt Dokumentenspezifische Analyse historischer und OCR-erfasster Texte Ein System zur interaktiven OCR-Nachkorrektur11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 2
  • 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Dokumentenspezifische Analysehistorischer und OCR-erfasster Textedate footertext 3
  • 4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Warum spezielle Methoden? Spezifische Probleme in der Verarbeitung historischer Sprache im Kontext von Digitalisierung und Massendigitalisierung: – Hohe OCR-Fehlerraten – Nicht-standardisierte Sprache Spezielle Ressourcen und Methoden für OCR, Nachbearbeitung und Retrieval notwendigDigitales OCR- Nach- OCR korrektur IRBild Resultat 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 4
  • 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Warum spezielle Methoden? Heterogenität der Vorlagen erfordert dokumentenspezifische Einstellungen: – Historische Varianten – Auswahl von Speziallexika – Charakterisierung des OCR-FehlerkanalsDigitales OCR- Nach- OCR korrektur IRBild Resultat 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 5
  • 6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Dokumentenspezifische Sprach- undFehlerprofile Sprach- und Fehlerprofile stellen auf Dokumentebene spezifische Charakteristika der Sprache und der OCR-Erfassung zur Verfügung. Sprachprofile: Anteile fremder Sprachen (etwa Latein), Frequenzmodelle, wichtige Muster historischer Sprachvariation (etwa t th, ei ey) Fehlerprofile: geschätzte Fehlerrate, wichtige OCR-Fehler (z.B. e c, i l), Fehlererkennung und Korrekturvorschläge für einzelne Wörter Profile werden vollautomatisch und ausschließlich auf Grundlage der OCR- Ausgabe berechnet.11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 6
  • 7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dokumentenspezifische Sprach- und Fehlerprofile Sprach- und Fehlerprofile können zur Verbesserung der Qualität von OCR, Nachkorrektur und Information Retrieval beitragen. Sprach- und FehlerprofileDigitales OCR- Nach- OCR korrektur IRBild Resultat 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 7
  • 8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Globales Profil eines DokumentsHistorischeVarianten OCR- Fehler 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 8
  • 9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Lokales Profil eines Dokuments Bewertete Interpretationen/ Korrekturvorschläge für alle Wörter des Dokuments: „theil“ „theil“ „theil“ „theil“„Tneil“ Korrekturvorschlag Moderne Schreibung Wahrscheinlichkeit Theil Teil 0,98 Keil Keil 0,01 … … … 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 9
  • 10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Zusammenfassung Dokumentenspezifische Sprach- und Fehlerprofile werden vollautomatisch auf Grundlage eines OCR-erfassten Dokuments berechnet. Sie liefern Charakteristika der vorgefundenen Sprache sowie des OCR- Fehlerkanals, um OCR oder nachverarbeitende Prozesse gezielt auf das Dokument einzustellen.11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 10
  • 11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.System zur interaktivenNachkorrektur von OCR-erfasstenDokumentendate footertext 11
  • 12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Nachkorrektursystem Eine graphische Oberfläche zur schnellen und einfachen Nachkorrektur speziell von historischen, durch OCR digitalisierten Dokumenten Sprach- und Fehlerprofile eröffnen neuartige Möglichkeiten zur Erkennung, Präsentation und Korrektur von OCR-Fehlern.11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 12
  • 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Nachkorrektursystem OCRAnordnung der Arbeitsfläche frei konfigurierbar: – OCR mit Bildsnippets – Komplette Bildseite – Korrekturkandidaten/ spezielle FunktionenSpezielle Funktionen Imagedate footertext 13
  • 14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Nachkorrektursystem Erkannter Text wird Wort für Wort direkt mit dem entsprechenden Bildausschnitt dargestellt. Fehlererkennung durch Profile11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 14
  • 15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Nachkorrektursystem Originalbild wird auch komplett dargestellt. – Nützlich bei schwer lesbaren Wörtern – Nützlich, wenn Wortsegmentierung der OCR zu mangelhaft – Aktives Wort wird durch Rahmen hervorgehoben11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 15
  • 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Behandlung historischer Varianten Historische Varianten werden auf Basis historischer Lexika und von Sprachprofile identifiziert und als korrekt dargestellt. Auch Korrekturvorchläge beinhalten nicht-moderne Wörter11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 16
  • 17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Klassische Korrekturwerkzeuge Korrekturen in der Textsicht – Durch manuelle Eingabe – Durch Auswahl eines Korrekturvorschlags11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 17
  • 18. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Batch-Verarbeitung für systematische OCR-Fehler Fehlerprofile identifizieren die häufigen, systematischen OCR-Fehler Ganze Gruppen von gleichartigen Fehlern können schneller und besser korrigiert werden.11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 18
  • 19. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Evaluierung User-Experiment mit insgesamt 14 Einzelversuchen Verwendung der vorgestellten neuen Technologien beschleunigt die Korrektur um das bis zu 2,7-fache.11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 19
  • 20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Verfügbarkeit Graphische Oberfläche wird in den nächsten Wochen frei verfügbar gemacht. Vorverarbeitung von Dokumenten zur Erstellung von Sprach- und Fehlerprofilen ist durch Patentmeldung geschützt. – LMU München wird Preprocessing über Webservice anbieten, der bis auf Weiteres kostenlos sein wird.11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 20
  • 21. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Vielen Dank11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 21