Schlarb Werkzeuge Impact Workshop MUC
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
795
On Slideshare
681
From Embeds
114
Number of Embeds
4

Actions

Shares
Downloads
6
Comments
0
Likes
0

Embeds 114

http://impactocr.wordpress.com 86
http://www.univie.ac.at 26
url_unknown 1
http://www.digitisation.eu 1

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 4. März 2010, München Funktionsweise und Zusammenwirken der technischen Werkzeuge von IMPACT Sven Schlarb, Österreichische Nationalbibliothek
  • 2. Einige Herausforderungen der Digitalisate historischer Zeitungen und Bücher
    • Gewölbte Buchseiten (verursacht durch dicke Buchrücken)
    • Schräge und verzerrte Scans
    • Verkrümmte Textlinien (verursacht durch zerknittertes oder durch Feuchtigkeit gewölbtes Papier)
    • Störende Farbflecken, unterschiedliche Druckintensität
    • Durchscheinen oder Druckfarbe der Zeichen von der Kehrseite
    • Frakturschrift
    • Handschriftliche Anmerkungen im Text
    • Komplexes Layout, zum Beispiel Zeitungsseiten mit komplizierter Lesesequenz
    • Historische Sprache und Eigennamen aus dem zeitlichen Kontext des Dokuments
  • 3. Tabellen
  • 4.
    • Extreme Wölbung
    • Historische Schrift
    • Anmerkungen
    • Kapitel- und Zeitenangaben
  • 5.
    • Knitterfalten (Feuchtigkeit)
    • Punkte und Flecken
    • Seiten- u. Kapitelzahl
  • 6.
    • Komplexes Layout
    • Logische Reihenfolge der Textblöcke
  • 7.
    • Fraktur
    • Seitenwölbung
    • Schwarzer Rand
    • Gekrümmte Textlinien
    • Seiten-/Kapitelzahl
  • 8.  
  • 9.  
  • 10. Randerkennung und -entfernung
  • 11. Geometrische Korrektur (Wölbung)
  • 12. Geometrische Korrektur - Falten
  • 13. Binarisierung
  • 14. Historische Lexika
      • Lexika für Deutsch, Niederländisch, Englisch sowie weitere Europäische Sprachen
      • Werkzeuge zur Erstellung historischer Lexika
      • Schnittstelle zu ABBYY FRE zur Einbindung externer Lexika
        • ABBYY legt offen wie der Wortlisten-Gewichtungsparameter basierend auf der Worthäufigkeit gebildet werden kann.
        • Aber: ABBYY FRE ist eine „Black Box“. Es gibt keine Informationen darüber, wie die Lexika genau verwendet werden, sondern es kann nur das Ergebnis beurteilt werden.
  • 15. Eigennamen-Verzeichnis
    • Kollaboratives Eigennamen-Verzeichnis
    • Eigennamen können als Lexikon in Abbyy eingebunden werden
  • 16. Linguistische Nachverbesserung
    • OCR (ABBYY) und OCR A nalys e (LMU -CIS )
    • Normal Not normal Unknown
    • Modern Historical Hypothetical
    • With errors (highlighted) Compound Short
  • 17. Kollaborative Korrektur
    • Integriertes Web-basiertes System für die kollaborative Nachverbesserung von OCR-Ergebnissen
  • 18. Functional Extension Parser
    • Erkennung der Strukturinformationen von Buchseiten
      • Druckbereich
      • Standard-Schriftart des Haupttextes
      • Seitenzahlen
    • Anreicherung des OCR Resultats mit Strukturinformationen
  • 19. Word-Spotting
    • Eine alternative Technik für die Indexierung historischer Dokumente
    • Nach der Wort-Segmentierung werden die relevanten Wörter gesucht
    • Die Schlüsselwörter können bekannte Namen, Orte oder Begriffe sein (z.B. aus dem Eigennamenverzeichnis)
  • 20. Interoperabilität
  • 21. Modularisierung
  • 22. http://www.impact-project.eu