Mühlberger Digitalisierung Impact Workshop MUC
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Mühlberger Digitalisierung Impact Workshop MUC

on

  • 1,014 views

 

Statistics

Views

Total Views
1,014
Views on SlideShare
773
Embed Views
241

Actions

Likes
0
Downloads
6
Comments
0

5 Embeds 241

http://impactocr.wordpress.com 237
http://www.slideshare.net 1
http://translate.googleusercontent.com 1
url_unknown 1
http://www.digitisation.eu 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Mühlberger Digitalisierung Impact Workshop MUC Presentation Transcript

  • 1. Digitalisierung und OCR-Erkennung in Bibliotheken. Einige Anmerkungen aus der Praxis Günter Mühlberger Abteilung für Digitalisierung und elektronische Archivierung Universitäts- und Landesbibliothek Tirol
  • 2. OCR in Bibliotheken
    • Schwieriges Kapitel
    • Glas halbvoll oder halbleer?
    • Fraktur
    • EU Projekt METADATA ENGINE
    • Digitalisierungszentren Göttingen und BSB
    • Google
  • 3. OCR und Digitalisierung
    • OCR ändert alles!
    • Workflow muss an allen Ecken und Enden angepasst werden
      • Vorbereitung
      • Imagebearbeitung
      • Scannen
      • Qualitätskontrolle
      • Speicherung und Archivierung
      • Korrektur
      • Volltextsuche
      • Webinterfaces
  • 4. Vorbereitung und Auswahl für das Scannen
    • Für welche Art des Scannens entscheidet man sich?
      • Gebundene Vorlage?
      • Lose Blätter?
      • Mikrofilm?
    • Welcher Scanner?
      • Overheadscanner
      • Scanroboter?
      • Mikrofilmscanner?
    • Inhouse oder Dienstleister?
      • Qualitätskontrolle?
      • Deutschland oder Off-shore?
  • 5. Gute und schlechte Bilder
    • Sorgfalt ist alles!
    • Allerdings:
      • Scanroboter und Dokumentenscanner verringern die Anforderungen nach individueller Fähigkeit des Operators, trotzdem immer noch entscheidend
    • Gutes Bild:
      • Scharf, heller Hintergrund, deutliche Buchstaben, keine Wölbungen und Verzerrungen, genügender Rand, Zeilen parallel bzw. senkrecht zum Bildrand, kein Durchscheinen von der Rückseite, keine Unterstreichungen etc. durch Benutzer
    • Beispiele
  • 6.
  • 7.
  • 8.
  • 9.
  • 10. Bad print – broken characters
  • 11. und wenn
  • 12.
  • 13. Binarisierung
  • 14. Layout analysis
  • 15.
  • 16. 300 oder 400 ppi – bitonal oder 8/24 Bit?
    • Rose Holley: Dlib Aufsatz 2009
      • Grau scannen führt nicht zu besseren Ergebnissen
    • Einfache Experimente
      • Innsbrucker Zeitungsarchiv: bitonal und Farbe
      • Beispiel
      • Ergebnisse sind eindeutig bei Farbe besser
      • Sehr kleine Schrift: Wordvorlage: 4 Punkt Schrift
      • Ergebnisse
    • Schluss
      • Einfache Dokumente können mit 300 ppi und bitonal gescannt werden, kein Qualitätsverlust gegeben
      • Schwierige Dokumente eher mit 400 ppi und 8 oder 24 Bit
  • 17. Erkennungsgenauigkeit
    • Glas halbvoll oder halbleer?
      • Rose Holley <90% Wortgenauigkeit: Poor
      • Google: Jedes Wort ist schon ein Vorteil gegenüber dem reinen Image
      • Peinliche Fehler?
      • Mündige Benutzer?
    • Buchstaben vs. Wortgenauigkeit
      • Wortgenauigkeit sagt mehr aus und ist wesentlich leichter zu erstellen: Jedes Wort, das bei einer Volltextsuche korrekt gefunden wird, gilt als richtig erkannt
  • 18. Beispiele aus der Praxis
    • Grundlage: ABBYY Recognition Server 2
      • Reichstagsprotokolle, 1925
      • Zedler, 1744
      • Coburger Zeitung, 1808
      • Judentum, 1803
      • Eckartshausen, 1792
      • Landesbauernkammer, 1921
      • Galvani, 1793
      • Hieber, 1722
      • Hofmann, 1875
      • Buschendorf, 1805
      • Schreiben, 1689
      • Lateinische Texte
  • 19. Korrektur
    • Bis vor kurzem als völlig absurd zurückgewiesen worden
    • Aber:
      • Crowd sourcing
      • Neue Technologien
    • Crowd sourcing
      • Zahlen aus Australien: 450.000 korrigierte Zeilen durch ehrenamtliche Mitarbeiter z.B. für Monat Dezember 2008 (= ca. 400-1000 Zeitungsseiten)
    • Neue Technologien
      • IBM: CONCERT Tool, LMU: PostCorrection Tool
      • Erhöhung der Produktivität um mehrfachen Faktor
  • 20. Weiterverarbeitung der OCR Ergebnisse
    • Strukturerkennung
      • Innsbrucker Zeitungsarchiv
      • Functional Extension Parser
        • Flexible und kontrollierte Regelerstellung für Strukturerkennung
    • Archivierung
      • Komplexität wird deutlich erhöht
      • Output: TXT, PDF, ABBYY XML
      • ALTO Format
      • Wie Korrektur integrieren?
      • Antrag auf Erweiterung des ALTO Formats
  • 21. Anwendungen und Suchinterfaces
    • Volltextsuche
      • JSTOR, Google, Verlage
      • Facetted Search (SOLR)
    • Indexierung durch Suchmaschinen
      • Site XML
    • Sichtbarkeit des OCR Textes
      • Benutzerschulung
      • Unumgänglich, wenn korrigiert werden soll
  • 22. Zusammenfassung
    • OCR ist „Pflicht“
      • Dokumente des 19. und 20. Jahrhunderts generell sehr brauchbare bis exzellente Ergebnisse
      • Davor: deutliche Verbesserungen durch IMPACT zu erwarten
      • Vorraussetzung ist sorgfältiges und genaues Scannen mit 400 ppi und in Farbe
      • Testprojekt mit Zufallsstichprobe
    • Moderne Anwendungen integrieren
      • Sichtbarkeit des fehlerhaften Textes
      • Korrekturmöglichkeit für den Benutzer
      • Diverse Exportformate
      • Site XML
      • Facettierte Suche für Volltext
  • 23. Vielen Dank für Ihre Aufmerksamkeit!