OCR-Kompetenzen im deutschsprachigen Raum

  • 103 views
Uploaded on

Erfahrungsbericht zum Workshop "Maßnahmen zu Verbesserung von OCR-Verfahren" (DFG - Bonn 12.3.14)

Erfahrungsbericht zum Workshop "Maßnahmen zu Verbesserung von OCR-Verfahren" (DFG - Bonn 12.3.14)

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
103
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. de.dariah.eu Christoph Stollwerk (UzK) stollwerk@uni-koeln.de 12. März 2014 - DFG Bonn OCR-Kompetenzen im deutschsprachigen Raum
  • 2. „Machbarkeitsstudie zu Einsatzmöglichkeiten von OCR-Software im Bereich "Alter Drucke" zur Vorbereitung einer vollständigen Digitalisierung deutscher Druckerzeugnisse zwischen 1500 und 1930“ • Gewinnung von Planungsdaten • Grenzen verfügbarer Software • Ansätze zum Aufbau von Ground-Truth 12/03/20142 Ein Erfahrungsbericht
  • 3. 1. Wie weit kommt man mit bestehender Software zur Volltext- Generierung historischer Drucke zurück? 2. Wie weit kommt man mit bestehender Software in vertretbarem Aufwand und machbarer Parametrisierung zur Volltext-Generierung historischer Drucke zurück? 3. Wie weit kommt man mit bestehender Software zur Volltext- Generierung historischer Drucke zurück, wenn man Teile des Prozessierens auslagert oder neu implementiert? 12/03/20143 Fragestellungen
  • 4. 12/03/20144 Korpus 1 Herkunft: Herzog-August-Bibliothek Wolfenbüttel Zeitraum: 1600 bis 1705 (1643 - 1672) Umfang: 694 digitalisierte Werke - 100 der Verteilung entsprechend ausgewählt. - jeweils 5 Seiten randomisiert selektiert und - manuell in Repräsentative und Komplexe Seiten unterschieden. Zweck: Problemfeatures entwickeln Methoden und Workflows erstellen Trainingsmodelle validieren
  • 5. 12/03/20145 Korpus 1 – Datenselektion
  • 6. 12/03/20146 Korpus 2 Herkunft: Bayerische Staatsbibliothek München Zeitraum: 1502 bis 1588 Umfang: 10 Werke (+2900 Seiten) Zweck: Ausdehnung ersten Korpus um Ort & Zeit Überprüfung von Workflows und Methoden bei Massen-OCR Betrachtung der Performanz in Bezug auf Software
  • 7. 12/03/20147 Korpus 2 - Metadaten Ident BSB Verlag Ort Autor/Hrsg. Jahr binarisiert? Marginalien Seiten Größe in MB MB/Bild Resolution Bildmaße bsb10165677 Aldus Manutius Venedig 1502 binarisiert 152 568 3,73 1656*2314 bsb10139422 Petri Basel Diodorus, Siculus; Boccaccio, Giovanni; Johannes Zonaras 1531 ja 398 9000 22,61 2300*3266 30,0 × 19,1 cm bsb10168344 Quentell Coloniae Nausea, Friedrich 1531 binarisiert ja 216 872 4,03 1700*2323 19,9 × 14,8 cm bsb10203117 n.a. Viennae Corsi, Pietro ;Aldus, David 1552 44 471 10,70 1600*2210 19,0 × 14,1 cm bsb10178305 Oporinus Basileae Herold, Johannes 1557 binarisiert 275 674 2,45 1240*1960 16,8 × 10,4 cm bsb10160279 n.a. Francoforti Andreä, Jacob 1558 binarisiert 192 766 3,98 1685*2306 19,7 × 14,3 cm bsb10175361 Plantin Antverpiae Sturm, Johannes 1566 ja 144 953 6,61 1139*1888 16,3 × 10,0 cm bsb10171607 Rihelius Argentorati Cicero, Marcus Tullius 1574 712 5300 7,44 1293*1958 17,1 × 11,0 cm bsb10157993 Gruppenbachius Tubingae Andreä, Jacob 1577 ja 25 323 11,53 1700*2200 19,2 × 14,3 cm bsb10187183 Bertani Venetiis Pépin, Guillaume 1588 760 5200 6,84 1200*1860 16,3 × 10,4 cm
  • 8. 12/03/20148 Korpus 3 Herkunft: Deutsches Textarchiv: -> Herzog-August-Bibliothek Wolfenbüttel & -> Niedersächsische Staats- und Universitätsbibliothek Göttingen Zeitraum: 1600 bis 1705 Umfang: 39 Werke (114 Seiten) Zweck: Untersuchung auf Problemfeatures (Intrinsisch/Extrinsisch)
  • 9. Frei verfügbar: Proprietär: B.I.T.- Alpha von Tomasi 12/03/20149 OCR-Software
  • 10. Grundlage: PLAIN TEXT (online akquiriert) Referenztexte: Ground-Truth-ähnliche Texte vs. Software-Resultate Automatisierte Evaluation: Textlängen Differenz (Rath) Anzahl der Diff-Steps (Levenshtein) Sequenzalignierung (Smith-Waterman) Manuelle Evaluation: Über Browseransichten in HTML 12/03/201410 Evaluationsmethoden
  • 11. 12/03/201411 Resultierende Ergebnisse
  • 12. 12/03/201412 Resultierende Ergebnisse -quantitativ
  • 13. 12/03/2014 (sichtbarer Bereich sind ca. 3% (Scrollbalken) 13 Qualitative Evaluation
  • 14. Hypothese: Digitalisate in (online )JPG-Qualität liefern bessere oder ähnlich gute Ergebnisse zurück als die gleichen Digitalisate in TIFF-Qualität. Methode: - Akquise von JPG und TIFF Digitalisaten - selbe Evaluationsmethoden wie in Korpus 1 & 2 12/03/201414 Resultierendes Vorhaben
  • 15. 12/03/201415 Resultierende Ergebnisse – TIFF vs. JPG Software A Software B Software C Software D
  • 16. Lässt sich bei der Optimierung von OCR-Verfahren über Drucker/Druckort/Verleger oder Autor Konfigurationen finden, die vielversprechende Modelle liefern? Wie lassen sich Ergebnisse aus hochkomplexen Untersuchungen sinnvoll visualisieren, um im DH-Bereich solide Erkenntnisse abzuleiten? Lassen sich 'typische' 'Charaktere' über Zeiträume oder andere Merkmale finden und allgemein formulieren? 12/03/201416 Angeschlossene Fragen
  • 17. All diese Fragen sind schwierig im Rahmen von Einzeluntersuchungen zu beantworten: Daher: Eine Infrastruktur zur freien Verfügung von interdisziplinär angesiedelten Wissenschaftsbereichen verspricht progressive Verbesserungen. Konkreter: Mit BigData-Methoden lassen sich nicht nur massive Datenmengen verarbeiten sondern auch hochkomplexe Datenstrukturen. Z.B. über die Untersuchung aller N-Gramm‘s von Google oder von RDF-Triples der großen Bibliotheken im Kontext von OCR-Vorhaben. 13/03/201417 Weiterführendes
  • 18. • Erfassungs- und Erschließungsverfahren • Transkription • Semantische Annotation • Metadatenstandards (Linked Open Data) • Crossmediale Verknüpfung • Tagging • Partizipative Verfahren • VRE • Crowdsourcing • Interoperabilitätsstandards 13/03/201418 Weiterführendes • Analyse- & Auswertungsverfahren • Abgleichverfahren • Tokenisierung • Lemmatisierung • Visualisierung (Text als 3D; Mapping; Wissensmodelle & -organisation) • Klassifikation (HWR) • Mustererkennung (OCR,ICR,NER,HWR) • Binarisierung in Dokumenten mit Störungen • Entzerrung von Zeichen- und Wörter-Orientierungen • Segmentierung und Seitenanalyse • verbessertes Dokumentenverständnis von Regionen • Dokumentenverständnis bez. Bilder und Fußnoten • Logische Layout-Analyse zur automatisierten Identifikation von Artefakten wie Titelblättern oder anderen Struktur-intensiven Objekten.
  • 19. 12/03/201419 Christoph Stollwerk (UzK) stollwerk@uni-koeln.de 12. März 2014 - DFG Bonn Vielen Dank für Ihre Aufmerksamkeit !!