Schlarb Werkzeuge Impact Workshop MUC
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Schlarb Werkzeuge Impact Workshop MUC

on

  • 787 views

 

Statistics

Views

Total Views
787
Views on SlideShare
673
Embed Views
114

Actions

Likes
0
Downloads
6
Comments
0

4 Embeds 114

http://impactocr.wordpress.com 86
http://www.univie.ac.at 26
url_unknown 1
http://www.digitisation.eu 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Schlarb Werkzeuge Impact Workshop MUC Presentation Transcript

  • 1. 4. März 2010, München Funktionsweise und Zusammenwirken der technischen Werkzeuge von IMPACT Sven Schlarb, Österreichische Nationalbibliothek
  • 2. Einige Herausforderungen der Digitalisate historischer Zeitungen und Bücher
    • Gewölbte Buchseiten (verursacht durch dicke Buchrücken)
    • Schräge und verzerrte Scans
    • Verkrümmte Textlinien (verursacht durch zerknittertes oder durch Feuchtigkeit gewölbtes Papier)
    • Störende Farbflecken, unterschiedliche Druckintensität
    • Durchscheinen oder Druckfarbe der Zeichen von der Kehrseite
    • Frakturschrift
    • Handschriftliche Anmerkungen im Text
    • Komplexes Layout, zum Beispiel Zeitungsseiten mit komplizierter Lesesequenz
    • Historische Sprache und Eigennamen aus dem zeitlichen Kontext des Dokuments
  • 3. Tabellen
  • 4.
    • Extreme Wölbung
    • Historische Schrift
    • Anmerkungen
    • Kapitel- und Zeitenangaben
  • 5.
    • Knitterfalten (Feuchtigkeit)
    • Punkte und Flecken
    • Seiten- u. Kapitelzahl
  • 6.
    • Komplexes Layout
    • Logische Reihenfolge der Textblöcke
  • 7.
    • Fraktur
    • Seitenwölbung
    • Schwarzer Rand
    • Gekrümmte Textlinien
    • Seiten-/Kapitelzahl
  • 8.  
  • 9.  
  • 10. Randerkennung und -entfernung
  • 11. Geometrische Korrektur (Wölbung)
  • 12. Geometrische Korrektur - Falten
  • 13. Binarisierung
  • 14. Historische Lexika
      • Lexika für Deutsch, Niederländisch, Englisch sowie weitere Europäische Sprachen
      • Werkzeuge zur Erstellung historischer Lexika
      • Schnittstelle zu ABBYY FRE zur Einbindung externer Lexika
        • ABBYY legt offen wie der Wortlisten-Gewichtungsparameter basierend auf der Worthäufigkeit gebildet werden kann.
        • Aber: ABBYY FRE ist eine „Black Box“. Es gibt keine Informationen darüber, wie die Lexika genau verwendet werden, sondern es kann nur das Ergebnis beurteilt werden.
  • 15. Eigennamen-Verzeichnis
    • Kollaboratives Eigennamen-Verzeichnis
    • Eigennamen können als Lexikon in Abbyy eingebunden werden
  • 16. Linguistische Nachverbesserung
    • OCR (ABBYY) und OCR A nalys e (LMU -CIS )
    • Normal Not normal Unknown
    • Modern Historical Hypothetical
    • With errors (highlighted) Compound Short
  • 17. Kollaborative Korrektur
    • Integriertes Web-basiertes System für die kollaborative Nachverbesserung von OCR-Ergebnissen
  • 18. Functional Extension Parser
    • Erkennung der Strukturinformationen von Buchseiten
      • Druckbereich
      • Standard-Schriftart des Haupttextes
      • Seitenzahlen
    • Anreicherung des OCR Resultats mit Strukturinformationen
  • 19. Word-Spotting
    • Eine alternative Technik für die Indexierung historischer Dokumente
    • Nach der Wort-Segmentierung werden die relevanten Wörter gesucht
    • Die Schlüsselwörter können bekannte Namen, Orte oder Begriffe sein (z.B. aus dem Eigennamenverzeichnis)
  • 20. Interoperabilität
  • 21. Modularisierung
  • 22. http://www.impact-project.eu