Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
Upcoming SlideShare
Loading in …5
×

BSB Demo Day - Reffle - Analyse und Nachkorrektur

840 views

Published on

  • Be the first to comment

  • Be the first to like this

BSB Demo Day - Reffle - Analyse und Nachkorrektur

  1. 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Analyse und Nachkorrektur historischer und OCR-erfasster ErgebnisseUlrich Reffle, CIS, LMU München11.10.2011
  2. 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Inhalt Dokumentenspezifische Analyse historischer und OCR-erfasster Texte Ein System zur interaktiven OCR-Nachkorrektur11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 2
  3. 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Dokumentenspezifische Analysehistorischer und OCR-erfasster Textedate footertext 3
  4. 4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Warum spezielle Methoden? Spezifische Probleme in der Verarbeitung historischer Sprache im Kontext von Digitalisierung und Massendigitalisierung: – Hohe OCR-Fehlerraten – Nicht-standardisierte Sprache Spezielle Ressourcen und Methoden für OCR, Nachbearbeitung und Retrieval notwendigDigitales OCR- Nach- OCR korrektur IRBild Resultat 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 4
  5. 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Warum spezielle Methoden? Heterogenität der Vorlagen erfordert dokumentenspezifische Einstellungen: – Historische Varianten – Auswahl von Speziallexika – Charakterisierung des OCR-FehlerkanalsDigitales OCR- Nach- OCR korrektur IRBild Resultat 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 5
  6. 6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Dokumentenspezifische Sprach- undFehlerprofile Sprach- und Fehlerprofile stellen auf Dokumentebene spezifische Charakteristika der Sprache und der OCR-Erfassung zur Verfügung. Sprachprofile: Anteile fremder Sprachen (etwa Latein), Frequenzmodelle, wichtige Muster historischer Sprachvariation (etwa t th, ei ey) Fehlerprofile: geschätzte Fehlerrate, wichtige OCR-Fehler (z.B. e c, i l), Fehlererkennung und Korrekturvorschläge für einzelne Wörter Profile werden vollautomatisch und ausschließlich auf Grundlage der OCR- Ausgabe berechnet.11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 6
  7. 7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dokumentenspezifische Sprach- und Fehlerprofile Sprach- und Fehlerprofile können zur Verbesserung der Qualität von OCR, Nachkorrektur und Information Retrieval beitragen. Sprach- und FehlerprofileDigitales OCR- Nach- OCR korrektur IRBild Resultat 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 7
  8. 8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Globales Profil eines DokumentsHistorischeVarianten OCR- Fehler 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 8
  9. 9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Lokales Profil eines Dokuments Bewertete Interpretationen/ Korrekturvorschläge für alle Wörter des Dokuments: „theil“ „theil“ „theil“ „theil“„Tneil“ Korrekturvorschlag Moderne Schreibung Wahrscheinlichkeit Theil Teil 0,98 Keil Keil 0,01 … … … 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 9
  10. 10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Zusammenfassung Dokumentenspezifische Sprach- und Fehlerprofile werden vollautomatisch auf Grundlage eines OCR-erfassten Dokuments berechnet. Sie liefern Charakteristika der vorgefundenen Sprache sowie des OCR- Fehlerkanals, um OCR oder nachverarbeitende Prozesse gezielt auf das Dokument einzustellen.11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 10
  11. 11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.System zur interaktivenNachkorrektur von OCR-erfasstenDokumentendate footertext 11
  12. 12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Nachkorrektursystem Eine graphische Oberfläche zur schnellen und einfachen Nachkorrektur speziell von historischen, durch OCR digitalisierten Dokumenten Sprach- und Fehlerprofile eröffnen neuartige Möglichkeiten zur Erkennung, Präsentation und Korrektur von OCR-Fehlern.11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 12
  13. 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Nachkorrektursystem OCRAnordnung der Arbeitsfläche frei konfigurierbar: – OCR mit Bildsnippets – Komplette Bildseite – Korrekturkandidaten/ spezielle FunktionenSpezielle Funktionen Imagedate footertext 13
  14. 14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Nachkorrektursystem Erkannter Text wird Wort für Wort direkt mit dem entsprechenden Bildausschnitt dargestellt. Fehlererkennung durch Profile11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 14
  15. 15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Nachkorrektursystem Originalbild wird auch komplett dargestellt. – Nützlich bei schwer lesbaren Wörtern – Nützlich, wenn Wortsegmentierung der OCR zu mangelhaft – Aktives Wort wird durch Rahmen hervorgehoben11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 15
  16. 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Behandlung historischer Varianten Historische Varianten werden auf Basis historischer Lexika und von Sprachprofile identifiziert und als korrekt dargestellt. Auch Korrekturvorchläge beinhalten nicht-moderne Wörter11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 16
  17. 17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Klassische Korrekturwerkzeuge Korrekturen in der Textsicht – Durch manuelle Eingabe – Durch Auswahl eines Korrekturvorschlags11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 17
  18. 18. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Batch-Verarbeitung für systematische OCR-Fehler Fehlerprofile identifizieren die häufigen, systematischen OCR-Fehler Ganze Gruppen von gleichartigen Fehlern können schneller und besser korrigiert werden.11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 18
  19. 19. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Evaluierung User-Experiment mit insgesamt 14 Einzelversuchen Verwendung der vorgestellten neuen Technologien beschleunigt die Korrektur um das bis zu 2,7-fache.11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 19
  20. 20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Verfügbarkeit Graphische Oberfläche wird in den nächsten Wochen frei verfügbar gemacht. Vorverarbeitung von Dokumenten zur Erstellung von Sprach- und Fehlerprofilen ist durch Patentmeldung geschützt. – LMU München wird Preprocessing über Webservice anbieten, der bis auf Weiteres kostenlos sein wird.11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 20
  21. 21. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Vielen Dank11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 21

×