Schlarb Werkzeuge Impact Workshop MUC

631 views
592 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
631
On SlideShare
0
From Embeds
0
Number of Embeds
126
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Schlarb Werkzeuge Impact Workshop MUC

  1. 1. 4. März 2010, München Funktionsweise und Zusammenwirken der technischen Werkzeuge von IMPACT Sven Schlarb, Österreichische Nationalbibliothek
  2. 2. Einige Herausforderungen der Digitalisate historischer Zeitungen und Bücher <ul><li>Gewölbte Buchseiten (verursacht durch dicke Buchrücken) </li></ul><ul><li>Schräge und verzerrte Scans </li></ul><ul><li>Verkrümmte Textlinien (verursacht durch zerknittertes oder durch Feuchtigkeit gewölbtes Papier) </li></ul><ul><li>Störende Farbflecken, unterschiedliche Druckintensität </li></ul><ul><li>Durchscheinen oder Druckfarbe der Zeichen von der Kehrseite </li></ul><ul><li>Frakturschrift </li></ul><ul><li>Handschriftliche Anmerkungen im Text </li></ul><ul><li>Komplexes Layout, zum Beispiel Zeitungsseiten mit komplizierter Lesesequenz </li></ul><ul><li>Historische Sprache und Eigennamen aus dem zeitlichen Kontext des Dokuments </li></ul>
  3. 3. Tabellen
  4. 4. <ul><li>Extreme Wölbung </li></ul><ul><li>Historische Schrift </li></ul><ul><li>Anmerkungen </li></ul><ul><li>Kapitel- und Zeitenangaben </li></ul>
  5. 5. <ul><li>Knitterfalten (Feuchtigkeit) </li></ul><ul><li>Punkte und Flecken </li></ul><ul><li>Seiten- u. Kapitelzahl </li></ul>
  6. 6. <ul><li>Komplexes Layout </li></ul><ul><li>Logische Reihenfolge der Textblöcke </li></ul>
  7. 7. <ul><li>Fraktur </li></ul><ul><li>Seitenwölbung </li></ul><ul><li>Schwarzer Rand </li></ul><ul><li>Gekrümmte Textlinien </li></ul><ul><li>Seiten-/Kapitelzahl </li></ul>
  8. 10. Randerkennung und -entfernung
  9. 11. Geometrische Korrektur (Wölbung)
  10. 12. Geometrische Korrektur - Falten
  11. 13. Binarisierung
  12. 14. Historische Lexika <ul><ul><li>Lexika für Deutsch, Niederländisch, Englisch sowie weitere Europäische Sprachen </li></ul></ul><ul><ul><li>Werkzeuge zur Erstellung historischer Lexika </li></ul></ul><ul><ul><li>Schnittstelle zu ABBYY FRE zur Einbindung externer Lexika </li></ul></ul><ul><ul><ul><li>ABBYY legt offen wie der Wortlisten-Gewichtungsparameter basierend auf der Worthäufigkeit gebildet werden kann. </li></ul></ul></ul><ul><ul><ul><li>Aber: ABBYY FRE ist eine „Black Box“. Es gibt keine Informationen darüber, wie die Lexika genau verwendet werden, sondern es kann nur das Ergebnis beurteilt werden. </li></ul></ul></ul>
  13. 15. Eigennamen-Verzeichnis <ul><li>Kollaboratives Eigennamen-Verzeichnis </li></ul><ul><li>Eigennamen können als Lexikon in Abbyy eingebunden werden </li></ul>
  14. 16. Linguistische Nachverbesserung <ul><li>OCR (ABBYY) und OCR A nalys e (LMU -CIS ) </li></ul><ul><li>Normal Not normal Unknown </li></ul><ul><li>Modern Historical Hypothetical </li></ul><ul><li>With errors (highlighted) Compound Short </li></ul>
  15. 17. Kollaborative Korrektur <ul><li>Integriertes Web-basiertes System für die kollaborative Nachverbesserung von OCR-Ergebnissen </li></ul>
  16. 18. Functional Extension Parser <ul><li>Erkennung der Strukturinformationen von Buchseiten </li></ul><ul><ul><li>Druckbereich </li></ul></ul><ul><ul><li>Standard-Schriftart des Haupttextes </li></ul></ul><ul><ul><li>Seitenzahlen </li></ul></ul><ul><li>Anreicherung des OCR Resultats mit Strukturinformationen </li></ul>
  17. 19. Word-Spotting <ul><li>Eine alternative Technik für die Indexierung historischer Dokumente </li></ul><ul><li>Nach der Wort-Segmentierung werden die relevanten Wörter gesucht </li></ul><ul><li>Die Schlüsselwörter können bekannte Namen, Orte oder Begriffe sein (z.B. aus dem Eigennamenverzeichnis) </li></ul>
  18. 20. Interoperabilität
  19. 21. Modularisierung
  20. 22. http://www.impact-project.eu

×