BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

571 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
571
On SlideShare
0
From Embeds
0
Number of Embeds
209
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

BSB Demo Day - Mühlberger - Dokumentstrukturanalyse

  1. 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Strukturanalyse auf der Basis von OCRErgebnissen(Functional Extension Parser- FEP)Günter MühlbergerUniversitäts- und Landesbibliothek Tirol (UIBK)
  2. 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Agenda Architektur – Wie arbeitet unsere Strukturerkennung? Features – Welche strukturellen Merkmale erkennen wir? Nutzen – Wofür kann man strukturelle Analyse einsetzen? Resultate – Wie gut ist unser Ansatz? Zeitplan – Wann wird die Software verfügbar sein? Geschäftsmodell – Welche Angebote können wir für die weitere Nutzung machen? 2
  3. 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Architektur Input – OCR Text, der mind. Wortkoordinaten aufweist – Z.B. ALTO Datei, ABBYY XML oder Google Books (Tesseract) HTML Output – Strukturelle Annotationen von erkannten Strukturmerkmalen mit Koordinaten, z.b. Seitenzahlen, Kolumnentitel, Überschriften, etc. – Format: METS/ALTO, XML, etc. Workflow – Images und/oder OCR Dateien werden mittels Webservice nach Innsbruck übermittelt – OCR Dateien werden in internes Format transformiert – Regelset wird angewendet (Rules Engine) – Resultate werden in einer Datenbank hinterlegt – Export der Resultate auf verschiedenen Ebenen Optional – Online Korrektur (GUI) – Adaptation des Regelsets manuell oder selbstlernend – Qualitätskontrolle auf Basis von “ground truth”, d.h. erwarteten Resultaten 3
  4. 4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. 4
  5. 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Strukturmerkmale Fokus auf allgemeine Strukturmerkmale, die für sehr viele Bücher gelten: – Seitenzahlen – Kolumnentitel – Satzspiegel – Fußnoten – Bogensignaturen – Überschriften – Einträge in Inhaltsverzeichnissen – Front/Body/Back – Absätze Weitere Strukturmerkmale sind möglich – Grundsätzlich können wir alle Strukturmerkmale erkennen, die mittels Layoutfeatures repräsentiert werden. Z.b. Region, Größe, Art der Schrift, Distanz zu anderen Elementen, Zeilenlänge, etc. – Aber: Wir sind von direkt von der OCR Qualität abhängig, d.h. besonders von der in jeder OCR eingebauten Layoutanalyse – Derzeit Tests für die Erweiterung der Regelsets für bestimmte Dokumententypen: Moderne Zeitschriften, Dissertationen 5
  6. 6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Satzspiegel Überschriften Fußnoten 6
  7. 7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Kolumnentitel Seitenzahl Bogensignatur 7
  8. 8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Inhaltsverzeichnis – Zwischenüberschriften – Einzelne Einträge mit Autor, Titel, Seitenzahl 8
  9. 9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Nutzen (1) Anzeige der Images im Internet – Der korrekte Seitenspiegel erlaubt die Anzeige der Images, ohne das charakteristische “Springen” Suche and Anzeige bei der Volltextsuche – Scoring der Resultute Strukturelle Annotation kann miteinbezogen werden (Überschriften vs. Fußnoten) Kolumnentitel verzerren Resultate (Wiederholung der Kapitelüberschrift) – Reduktion von Noise Kolumentitel und Bogensignatur stellen “Verunreinigungen” des laufenden Textes dar – Facettierte Suche Volltextsuche kann facettiert werden, z.b. nach Fließtext, Fußnoten, Überschriften, etc. 9
  10. 10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Nutzen (2) Navigation – Seitenzahlen ermöglichen es das Inhaltsverzeichnis des Buches zu verwenden – Das Inhaltsverzeichnis kann direkt mit der Seite, bzw. mit der Überschrift im Buch verlinkt werden Weiterverarbeitung des Dokuments – Strukturelle Basisannotationen ermöglichen eine Weiterverarbeitung für komplexere Formate, wie TEI – Die manuelle Erstellung von Printvorlagen für Print-on-Demand ist wesentlich vereinfacht durch Erkennung des Satzspiegels – Selektive OCR Korrektur: Z.B. nur Überschriften, oder nur der Fließtext aber ohne Fußnoten könnten korrigiert wrden Verknüpfung mit anderen Dokumenten – Fußnoten können mit externen Datenbanken gematcht werden 10
  11. 11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Verbesserte Darstellung im Internet und im PDF 11
  12. 12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Verfeinerung der Volltextsuche Facetten für – Fließtext – Fußnoten – Überschriften Weniger “Verunreinigungen” – Kolumnentitel und Bogensignaturen können aus der Suche exkludiert oder nach hinten gereiht werden 12
  13. 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Anklickbares Inhaltsverzeichnis – Google Stil Selektive OCR Korrektur – Z.B. nur Inhaltsverzeichnis, Überschriften, Fließtext 13
  14. 14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Verknüpfung von Dokumenten mit externen Datenquellen – Inhaltsverzeichnisse, Register mit entsprechenden Einträgen im Buch – Fußnoten mit Bibliothekskatalogen 14
  15. 15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Erleichterte Weiterverarbeitung – Die “richtigen” Seitenränder für Print on Demand – Weiterverarbeitung für hochwertige Nutzungen (TEI) 15
  16. 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Resultate Basisregelset – Allgemeine Strukturmerkmale für Bücher von 1700 bis 2000 – Datenset: 155 Bücher, 30.673 Seiten (141 Training set, 41 Evaluation set) – Alle Seiten wurden manuell annotiert (ground truth) Recall, Precision, F-Measure – 10 Zeilen mit Überschriften in einem Buch. Wir finden 12 Zeilen, 8 davon sind korrekt, 4 sind falsch. – Recall = 8 von 10 = 0,8 – Precision = 8 von 12 = 0,66 – F-Measure = 2*0.8*0.66/(0.8+0.66) = 0,72 Weitere Informationen – Wichtig: Wir zählen hier Zeilen, nicht strukturelle Einheiten! Z.B. eine Überschrift hat zwei Zeilen, eine davon kann richtig, die andere falsch erkannt worden sein – Unterschiede zwischen Training und Evaluation sind gering 16
  17. 17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Resultate am Evaluation Set Recall Precision F-measureFließtext 0,99 0,98 0,98Fußnoten 0,83 0,89 0,86Seitenzahlen 0,97 1 0,98Kolumnentitel 0,97 1 0,98Überschriften 0,85 0,80 0,82Bogensignaturen 0,68 0,89 0,77 17
  18. 18. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Kommentar Forschungssituation – Kaum Vergleichswerte für die Erkennung von Strukturmerkmalen – Veröffentlichung unseres Datensets im nächsten Jahr – Direkter Vergleich mit den Google Ergebnissen wäre wünschenswert Patentanmeldung – Anmeldung unseres Verfahrens beim Europäischen Patentamt im September erfolgt – Kombination aus manuellen und selbstlernenden Verfahren in Kombination mit Fuzzy Logik Inhaltsverzeichniserkennung – Zwischenzeitlich haben wir ein Regelset für Inhaltsverzeichnisse entwickelt, das sich mit den besten Ergebnissen der INEX (=Wettbewerb für strukturelle Annotation) messen kann – Ergebnisse werden im Frühjahr nächsten Jahres veröffentlicht 18
  19. 19. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Weiterer Zeitplan IMPACT Schlusskonferenz (24/25. Oktober London) – Erstmals Demonstration des Graphischen Userinterface auf Basis von Google Web Toolkit (GWT) zur Anzeige und Korrektur der Ergebnisse – Alpha Version bis Ende 2011 Ende 2011 – Alpha Version mit den wesentlichen Features 1. Quartal 2012 – Integration in EOD Netzwerk: FEP als laufender Service im Probebetrieb – Weitere Tests mit anderen Dokumententypen – Veröffentlichung der Ergebnisse für Inhaltsverzeichnisse 19
  20. 20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Geschäftsmodelle Grundsätzliches – Innovative Projekte werden über die Universität Innsbruck abgewickelt – Kommerzielle Projekte über eine Tochterfirma der Universität (transidee) FEP als Service – Derzeit nicht geplant ein Produkt daraus zu machen, sondern die Software läuft in Innsbruck und wird mittels Webservice oder direkt von uns angestoßen – EOD Netzwerk als Beispiel: Mitglieder erhalten die Chance den FEP zu verwenden – Ähnliche Angebote sind auch für andere Bibliotheken oder Netzwerke möglich Anpassung der Regelsets – Für spezielle Sammlungen können mehr Features genauer erkannt werden – Z.B. besitzen Buchreihen, kritische Ausgaben, Kommentare, Dissertationen, Parlamentspapiere, etc. komplexere Strukturen, die man entsprechend abbilden kann 20
  21. 21. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Vielen Dank für die Aufmerksamkeit! 21

×