1. “Kuratieren” mit
künstlicher Intelligenz
Neuigkeiten und Fortschritte aus
dem Forschungsprojekt Qurator
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
IIA Kolloquium Metadatenmanagement
14. November 2019, SBB, Berlin
qurator@sbb.spk-berlin.de
3. Qurator
• Flexible KI-Verfahren für die adaptive Analyse und kreative Generierung
digitaler Inhalte in branchenübergreifenden Kontexten
• Förderung durch BMBF Programm
Unternehmen Region: Wachstumskerne
• 01.11.2018 - 31.10.2021 (36 Monate)
• 10 Projektpartner aus Berlin
• Webseite: https://qurator.ai/
4. Partner und Themen
DFKI: KI-Plattform für Kuratierungstechnologien
Wikimedia DE: Kuratierung für Wikidata
3pc: Interaktives Storytelling
Condat: TV-/Medien-Publikationen
SBB: Digitalisiertes kulturelles Erbe
Ada: Biomedizinisches Wissen
FOKUS: Corporate Smart Insights (CSI)
ART+COM: Multimediale Ausstellungs-Kuratierung
Ubermetrics: Media Intelligence und Risikomonitoring
Semtation: Intelligente Prozessmodellierung
5. Qurator in der SBB (1/2)
• Gemeinsame Projektsteuerung durch Forschungsreferent (GD) und
Referatsleiter IT-Anwendungen und Datenmanagement (IDM2)
• Finanzierung 3x FTE E13 FuE (36 Monate) = 108 PM + 12 PM Eigenanteil SBB
• Mike Gerber
• Kai Labusch
• Robin Schaefer
• Vahid Rezanezhad
• SPK-KI Server:
• 2x Nvidia Tesla V100 32GB
• 2x 18-core Intel XEON 2.7 Ghz
• 192GB DDR4 RAM
https://xkcd.com/1838/
6. Qurator in der SBB (2/2)
• Open Source Entwicklung von Technologien und Anwendungen
• https://code.dev.sbb.berlin/qurator
• https://github.com/qurator-spk
• Freie Bereitstellung von Daten und Modellen
• https://zenodo.org/communities/stabi
• https://lab.sbb.berlin
• Mehr zur SBB in Qurator
• https://qurator.ai/partner/staatsbibliothek-zu-berlin/
• SBB Blogserie „Künstliche Intelligenz“
https://blog.sbb.berlin/tag/wissenschaftsjahr-2019/
8. OCR-Qualitätsverbesserung:
Problem und Aufgabe
Die digitalisierten
Sammlungen der
SBB
86% ohne Volltext
nicht zugänglich für
Recherche,
Textanalyse oder
Menschen mit
Sehbeeinträchtigung
14 % mit Volltext
in weitgehend
unbestimmter
Qualität
160.000
Dokumente
10. Was ist OCR?
• Optical Character Recognition
• Lesen lernen
• Heutzutage mit den Methoden des
Machine Learning
lius Iheſus Chriſtus unica ſalus noſtra.
Atqui tantum in Eccleſia uera Zion eſt,
uerbum Dei purum abſcq fermento hæ‐
reſew̃n. Tantum in Eccleſia ut in ſuo tem‐
plo habitat ſpiritus ſanctus, habitat Chri
Abdias Propheta Explanatus Commentariolo (1537)
12. Ein moderner OCR-Workflow
Binarisierung
Zeilen-
segmentierung
Zeilen-OCR Postcorrection
20
–
rath mit einer Pœna fiſcali angeſehen worden,
und ſolche durch des Hon. Graffen von
Königsfeld Vor–
ſpruch, nur aus Gnaden nachgelaſſen erhalten.
Sondern man hat auich dieſen 4. Wochen lang
alle Abend bey der Jnquißtin gantz allein
gelaſſen
Binnen welcher gantzer Zeit der Schreiber
Bredekam beſtändig bey Jhme geweſen, und
ſich in
der am 13ten Octobt. a.c. in Judicio gegen
ſeinen geweſenen Hrn. introducirter Appellation
deſſen Bey-
raths bedienet hat;
33) Dabenehenſt iſt der Schreiber binnen dieſer
gantzen Zeit auf freyem Fuß geblieben, und
hat nicht nur durch ſeinen Conlulenten, ſondern
auch, weilen del lnquilti ſelbſten in Jhtem
Gefängnüß
ſo viele Freyheit gelaſſen worden, daß ſie
frembden Beſuch von Jhren Anberwandten
ohngehindert en–
pfangen können, durch andere Perſonen ſich
mit ihr über alles, Was Er oder ſie dereinſten zu
ſagen hat–
ten· vereinigen können, immaſſen der Hofrath
[...]
20
rath mit einer Pœna fiſcali angeſehen worden,
und ſolche durch des Hrn. Graffen von
Königsfeld Vor–
ſpruch, nur aus Gnaden nachgelaſſen erhalten.
Sondern man hat auch dieſen 4. Wochen lang
alle Abend bey der Jnquisitin gantz allein
gelaſſen.
Binnen welcher gantzer Zeit der Schreiber
Bredekaw beſtändig bey Jhme geweſen, und
ſich in
der am 13 ten Octobr. a.c. in Judicio gegen
ſeinen geweſenen Hrn. introducirter Appellation
deſſen Bey-
raths bedienet hat;
33) Dabenebenſt iſt der Schreiber binnen dieſer
gantzen Zeit auf freyem Fuß geblieben, und
hat nicht nur durch ſeinen Conſulenten, ſondern
auch, weilen der Inquiſitin ſelbſten in Jhrem
Gefängnüß
ſo viele Freyheit gelaſſen worden, daß ſie
frembden Beſuch von Jhren Anverwandten
ohngehindert em–
pfangen können, durch andere Perſonen ſich
mit ihr über alles, Was Er oder ſie dereinſten zu
ſagen hat–
ten, vereinigen können, immaſſen der Hofrath
[...]
Acten-mäßiger Verlauff, Des Fameusen
Processus sich verhaltende ... (1749)
13. Warum Zeilen-OCR?
• Segmentieren einer Textzeile in
Zeichen problematisch
• insbesondere bei schwierigen
Dokumenten und Handschriften
• Erstellen von Ground Truth für
unsegmentierte Zeilen
wesentlich weniger aufwändig
• Ein Algorithmus kann mit dem
Kontext innerhalb der Zeile
arbeiten
Verdammt
d cl rn m nn
14. Zeilen-OCR mit Deep Neural Network
y = fa(x)
Text Bild
Modell
mit
unbekannten
Parametern a
15. lernt Features: Kurven, Kanten, Ecken etc.
Recurrent Layer
Feature Maps →
Probability Matrix
Convolutional
Layer
Pixel →
Feature Maps
Connectionist
Temporal
Classification Layer
Probability Matrix →
Labels
lernt Zeichen in Bildfenstern + Kontext
lernt wahrscheinlichsten Ausgabetext
16. OCR-Qualitätsverbesserung:
Modelle für die Zeilen-OCR
• Standard-Modelle in Tesseract OCR
• Nicht reproduzierbar
• Kodierungsprobleme
• ch- und ck-Ligaturen als <, >
• kein langes s (ſ) für Antiqua-Satz
• kein hochgestelltes e (aᵉ, uᵉ, etc.)
¹GT4HistOCR: Ground Truth for training OCR engines on historical documents in German Fraktur and Early Modern
Latin – Springmann et al.
• Eigenes Modell mit Calamari OCR
• Reproduzierbar
• Auf Basis des GT4HistOCR-Datasets¹
• Wiegendrucke, Fraktur, frühe Antiqua
• 300.000 Textzeilen
• 1 Woche Training auf Nvidia RTX 2080
17. Voting mehrerer OCR-Modelle
• Statt einem Modell werden k gleich
starke Modelle trainiert
• k-fold Cross Validation
• Die Modelle voten – stimmen über
ein Ergebnis ab
➡ Gemeinsam stärker
• Summe der Konfidenzwerte
i: 0.8 l: 0.2 j: 0.0
Beyſp i: 0.4 l: 0.5 j: 0.1 el.
i: 0.3 l: 0.4 j: 0.3
Σ: 1.5
18. OCR-Beispiel VD18¹
¹Acten-mäßiger Verlauff, Des Fameusen Processus sich verhaltende ... (1749)
Beispielzeile manuell in drei Teile umgebrochen
Tesseract 4.1 (frk) SBB {Zeilensegmentierung, Binarisierung, OCR-Modelle}:
rie ſönſten hier gewöhnlich articuli
impertinenres der dergleichen
Gewe zug lafien dim die von
wie ſonſten hier gewoͤ hnlich, articuli
impertinentes oder dertleichen
Intertogatotia zugelaſſen/ auch die von
19. Stol, Pomrn. [56000]
Jn unſerem Genoſſenſchaftsregiſter iſt
heute unter Nr. 113 die ,,Landliche
Spar⸗ und Darlehnokaſſe Schmaatz,
eingetragene Genofſenſchaft mit be⸗
ſchränkter Haftpflicht in Schmaatz',
eingetragen worden. Gegenſtand des
Unternehmens iſt die Gewährung von
Darlehen an die Mitglieder für ihren
Geſchäfts⸗ und Wirtſchaftsbetrieb, Er-
leichterung der Geldanlage und Förderung
des Sparſinns, nebenbei gemeinſchaftliche
Beſchaffuag landwirtſchaftlicher Betriebs.
mittel. Die Haftſumme beträgt 20 ,
die Höchſtzahl der Geſchäftsanteile 100.
Vorſtandsmitglieder ſind: der Hofbeſitzer
Albert Timreck als Vorſitzender, der
Lehrer Auguſt Völz und der Hofbeſitzer
Paul Selt, ſämtlich in Schmaatz. Das
Statut iſt vom 25. Juli 192. Das
Geſchäftsjahr lauft vom 1. April bis
31. März. Die Bekanntmachungen er⸗
folgen unter der Firma der Genoſſenſchaft
im Pommerſchen Genoſſenſchaftsblatt, beim
Eingehen dieſes Blattes bis auf weiteres
im Deutſchen Reichsanzeiger. Die
Willenserklärungen des Vorſtands erfolgen
durch zwei Vorſtandsmitglieder. Hie
Zeichnung geſchieht derart, daß die Zeich-
nenden zu der Firma ihre Namensunter⸗
ſchrift beifügen. Die Einficht in die Liſte
der Genoſſen iſt während der Geſchäfts.
ſtunden des Gerichts jedermann geſtattet.
Stolp, den 1. Auguſt 1920. Das
Amtsgericht.
¹ Digitalisat aus dem
Reichsanzeiger August
1920 (via UB Mannheim)
OCR-Beispiel
Zeitung¹
20. • Ground Truth ≟ OCR-Resultat
• Visualisierung von Unterschieden
Ihrem Gefängnüß ≟ Jhrem Gefängnüß
• Metriken:
• Zeichenfehlerrate CER
CER = (s + i + d)/l
• Wortfehlerrate WER
• Eigenentwicklung
• Unicode-Support (m̃ ≟ m, ñ = ñ, MUFI etc.)
• OCR-D-Support
• Substitutionen (fi → fi)
OCR-Evaluation:
dinglehopper
21. OCR-Qualitätsverbesserung:
Erste Ergebnisse
• Dataset: ~ 350 Seiten
• aus dem SBB-Bestand
• Fraktur, Antiqua etc.
• Reduzierung der CER
• von >0.10 (Median)
• Tesseract Zeilensegmentierung
+ Tesseract frk
• auf 0.06 (Median)
• SBB Zeilensegmentierung
+ Calamari voted GT4HistOCR
(hier im Plot anderes Tesseract-
Modell ebenfalls basierend auf
22. OCR-Qualitätsverbesserung:
Nächste Schritte
• Robusteres OCR-Modell
• Dataset aus DTA → Millionen Textzeilen
• Augmentation → Robuster gegen Noise und Skewing
• Postcorrection via Sprachmodell
• Verwendung a. der Wahrscheinlichkeiten b. aller k Modellergebnisse
➡ Informiertere Postcorrection
23. OCR-Qualitätsverbesserung:
Nächste Schritte
• Qualitätsbestimmung
• Für Volltexte interessante Dokumente
• Technisch durchführbar
• Gut: bspw. moderne Drucke
• Schlecht: bspw. Handschriften
• Bestehende Volltexte
• Kandidaten für Korrekturen
• Qualität abschätzen
• Anhand von
• Metadaten und Bildmerkmalen
• OCR-Konfidenz
➡ Ressourcenplanung, UX und Korrektur
35. Binarisierung
• Wieder Pixelweise Segmentierung
• Ground Truth: Ergebnisse
des Binarisierungswettbewerbs
(DIBCO)
• Kombinationen von 4 Modellen
(Deshalb ist es langsam)
• Funktioniert gut für Texte
• Macht kein “Pfeffer”-Denoising
37. Layouterkennung: Nächste Schritte
• Bereitstellung der Ground Truth für die Binarisierung (Verbesserungen
für handschriftliche Anmerkungen, Bilder und “Pfeffer”-Denoising)
• Zeilenreihenfolge für Zeitungen mit mehr als einer Spalte erweitern,
deren Separatoren (oder Überschriften) sich überschneiden
• Verbesserung der Modelle und heuristischen Methoden
• Entwicklung einer Methode für Linien, die teilweise schief sind
• Trainieren eines Modell um freien Raum zwischen Regionen zu erkennen
39. Named Entity Recognition (NER)
● Eigennamenerkennung
● Informationsextraktion aus gegebenem Volltext
● automatische Identifikation und Klassifikation von Eigennamen
● Folge von Wörtern, die eine real existierende Entität beschreiben,
wie z. B.:
○ Personen
○ Orte
○ Organisationen
○ Produkte
41. Named Entity Recognition - trivial?
Essen liegt in Nordrhein-Westfalen.
Essen ist lecker.
Essen ist schön.
Essen ist groß.
Essen duftet.
Es gibt gutes Essen in Essen.
Essen macht satt.
Essen macht mobil.
Demonstrator
42. Named Entity Recognition - Ziele
• tiefere automatische Erschließung der Volltexte
• Suche nach Personen, Orten und Organisationen auf dem Portal der
digitalisierten Sammlungen oder in Zeitungen (ZEFYS)
• Digital Humanities
• Extraktion sozialer Netzwerke aus historischen Texten (SoNAR-IDH)
• historische Ortsnamen Konkordanz
• Vorbedingung für Named Entity Disambiguierung und Verlinkung:
• automatische eindeutige Identifikation einer Named Entity, z.B.:
• GND - Eintrag
• Wikidata Datensatz
• Wikipedia Seite
• Geo-koordinaten (Toponyme)
43. NER in OCR- Volltexten
Vorwort von Alexander v. Humboldt zu den "Erinnerungen der Reise nach Indien von S. K. H. dem Prinzen
Waldemar von Preussen" : [Berlin, den 18 December 1854]
48. BERT - Vortraining
• [CLS] Der Strom, der nachts, wenn die Produktion [MASK] der
Bettfedernfabrik ruhte, nicht gebraucht wurde, wurde für die Kühl- und
Gefrieranlagen genutzt. [SEP] Ab 1951 nutzte man eine Spezialapparatur,
mit der frische Fische sofort [MASK] dem Fang eingefroren werden
konnten. [SEP]
Aufeinanderfolgend: Ja
• [CLS] Rollins Eltern stammen [MASK] den karibischen Jungferninseln. [SEP]
Kern der Sendung sind [MASK] Lach- und Sachgeschichten. [SEP]
Aufeinanderfolgend: Nein
49. BERT - Vortraining
[1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018
[1]
50. BERT - Vortraining
Google:
● BERT-base: 110M Parameter
● 100 Sprachen
● 100 größte Wikipedias
● 16x Google
Tensor Processing Units
mit jeweils 64GB
● Rechenzeit ca. 4 Tage
Qurator-SBB:
● Starten mit Google Modell
● 2.333.647 deutschsprachige
Textseiten (OCR) aus den
digitalisierten Sammlungen
● 1x NVIDIA V100 GPU mit 32GB
● 10 Epochen
● Rechenzeit ca. 2 Wochen
51. BERT - NER Training
[1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018
[1]
52. NER Training - Ground Truth
● CoNLL 2003 corpus (ca. 200.000 Tokens)
● GermEval Konvens 2014 corpus (ca. 450.000 Tokens)
● historische Zeitungen (Europeana Newspapers):
○ Zeitungen um 1926 (Landesbibliothek Dr. Friedrich
Teßmann, ca. 70.000 Tokens, LFT)
○ Zeitungen des Zeitraums 1710 - 1873 (Österreichische
Nationalbibliothek, ca. 30.000 Tokens, ONB)
○ Zeitungen des Zeitraums 1872 - 1930 (Staatsbibliothek
zu Berlin, ca. 50.000 Tokens, SBB)
53. [1] Kai Labusch, Clemens Neudecker and David Zellhöfer. BERT for Named Entity Recognition in Contemporary and Historic German, KONVENS 2019
[1]
54. Approximative nächste Nachbarn Suche
Ausblick:
Named Entity Disambiguierung (NED)
So wurden Erik Axel Karlfeldt
1931 und UN-Generalsekretär
Hammarskjöld 1961 posthum
geehrt.
● BERT embeddings
● Fasttext embeddings
● FLAIR embeddings