SUB OCR Implementierung

  • 343 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
343
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
3
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. SUB OCR ImplementierungGOOBI – Steuerungsgremium, 23.9.2011, Berlin Christian Mahnke, SUB Göttingen
  • 2. Anforderungen Prozesssteuerung• Synchrone Bearbeitung – Webservice – GUI (Metadateneditor)• Asynchrone Bearbeitung – Massenverarbeitung (Ganze Bände) – Benachrichtigungen – Fortschrittsinformationen• Gemeinsam – Prioritäten
  • 3. Anforderungen Implementierung• Austauschbarkeit der OCR-Engines – Kosten und Qualität – Auslastung und Lastverteilung – Flexibilität bei existierenden Lizenzen – Evaluierung• Prozessmetadaten – Prozessdokumentation für LZA – Statistische Auswertungen (z.B. zur Erkennung von Fraktur, aber auch als Methode der automatischen QA)
  • 4. Gesamtarchitektur GoobiFrontend Metadaten editor CLI IMPACT WebserviceAPI Prozessmetadaten API OCR APIBackend Abbyy Recognitio n Server Abbyy CLEI Tesseract
  • 5. API Schichten• OCR API – Bilddatei – Sprache / Schrift – Ausgabeformat – Priorität – Implementierungsspezifische Parameter• Prozessmetadaten API – Erkennungsrate (Zeichen- und Wortebene) – Dauer – Genutzte Software – Encoding / Zeilenumbrüche – Implementierungsspezifische Berichte
  • 6. Architektur Abbyy Recognition Server Backend Thread PoolProzesssteuerung Executor Hazelcast ExecutorProzessverwaltung TicketBeans ApacheStorage Sardine (WebDAV) Jackrabbit Commons VFS
  • 7. Technische Details• Freie Rekombinierbarkeit von Frontend- Modulen mit jedem Backend-Modul• Wiring der Komponenten via Spring• Kombinationen lassen sich als Maven Profile abbilden• Serialisierung der Prozessmetadaten über textMD (LZA geeignet)• Hazelcast erlaubt ein Clustering der Instanzen, z.B. zur Synchronisation von unterschiedlichen Prioritäten
  • 8. //TODO• Konvertierung als Teil der API – Backend für existierende Dateien• OCROpus Backend• WebDAV Frontend (in Teilen bereits für Unit Tests realisiert)• EoD Backend über FTP (asynchron)• Webservice Backend (Anbindung IMPACT CoC Tools)• Persistenz der Warteschlange(n) – Derzeit nur im Hazelcast Cluster Modus, solange eine Instanz läuft• GUI? – Empfehlung: direkte Integration in die Workflowsteuerung
  • 9. Goobi Integration (geplant Ende 2011)• Bereitstellung als „Automatischer Schritt“ – Integration über Kommandozeile• Anpassung der existierenden Workflows und Vorgänge notwendig – Anpassung über „GoobiScript“?• Zusätzliche METS „FileGroup“ etc. – Keine Änderung an UGH Bibliothek notwendig• Metadateneditor Integration als eigenes Servlet• Nachteil: Abhängig von der jeweiligen Institution
  • 10. Goobi Integration (zukünftig)• „Modul“?• Schnittstelle dafür noch nicht ganz vorhanden – Schnittstelle sowohl als Goobi Schritt als auch im Metadateneditor notwendig
  • 11. Vielen Dank! Fragen?mahnke@sub.uni-goettingen.de 11