Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Kuratieren mit künstlicher Intelligenz

30 views

Published on

Neuigkeiten und Fortschritte aus dem Forschungsprojekt Qurator.
SBB Kolloquium Metadatenmanagement, 14 November 2019, Berlin, Germany.

Published in: Software
  • Be the first to comment

  • Be the first to like this

Kuratieren mit künstlicher Intelligenz

  1. 1. “Kuratieren” mit künstlicher Intelligenz Neuigkeiten und Fortschritte aus dem Forschungsprojekt Qurator Staatsbibliothek zu Berlin – Preußischer Kulturbesitz IIA Kolloquium Metadatenmanagement 14. November 2019, SBB, Berlin qurator@sbb.spk-berlin.de
  2. 2. Inhalte ● Einleitung (Clemens Neudecker) ● Qualitätsverbesserung OCR (Mike Gerber) ● Layouterkennung (Vahid Rezanezhad) ● Named Entity Recognition (Kai Labusch) ● Diskussion
  3. 3. Qurator • Flexible KI-Verfahren für die adaptive Analyse und kreative Generierung digitaler Inhalte in branchenübergreifenden Kontexten • Förderung durch BMBF Programm Unternehmen Region: Wachstumskerne • 01.11.2018 - 31.10.2021 (36 Monate) • 10 Projektpartner aus Berlin • Webseite: https://qurator.ai/
  4. 4. Partner und Themen DFKI: KI-Plattform für Kuratierungstechnologien Wikimedia DE: Kuratierung für Wikidata 3pc: Interaktives Storytelling Condat: TV-/Medien-Publikationen SBB: Digitalisiertes kulturelles Erbe Ada: Biomedizinisches Wissen FOKUS: Corporate Smart Insights (CSI) ART+COM: Multimediale Ausstellungs-Kuratierung Ubermetrics: Media Intelligence und Risikomonitoring Semtation: Intelligente Prozessmodellierung
  5. 5. Qurator in der SBB (1/2) • Gemeinsame Projektsteuerung durch Forschungsreferent (GD) und Referatsleiter IT-Anwendungen und Datenmanagement (IDM2) • Finanzierung 3x FTE E13 FuE (36 Monate) = 108 PM + 12 PM Eigenanteil SBB • Mike Gerber • Kai Labusch • Robin Schaefer • Vahid Rezanezhad • SPK-KI Server: • 2x Nvidia Tesla V100 32GB • 2x 18-core Intel XEON 2.7 Ghz • 192GB DDR4 RAM https://xkcd.com/1838/
  6. 6. Qurator in der SBB (2/2) • Open Source Entwicklung von Technologien und Anwendungen • https://code.dev.sbb.berlin/qurator • https://github.com/qurator-spk • Freie Bereitstellung von Daten und Modellen • https://zenodo.org/communities/stabi • https://lab.sbb.berlin • Mehr zur SBB in Qurator • https://qurator.ai/partner/staatsbibliothek-zu-berlin/ • SBB Blogserie „Künstliche Intelligenz“ https://blog.sbb.berlin/tag/wissenschaftsjahr-2019/
  7. 7. OCR-Qualitätsverbesserung Mike Gerber
  8. 8. OCR-Qualitätsverbesserung: Problem und Aufgabe Die digitalisierten Sammlungen der SBB 86% ohne Volltext nicht zugänglich für Recherche, Textanalyse oder Menschen mit Sehbeeinträchtigung 14 % mit Volltext in weitgehend unbestimmter Qualität 160.000 Dokumente
  9. 9. OCR-Qualität: Ziele • Qualitätsverbesserung ➡ Wir möchten die bestmöglichen Volltexte! • Qualitätsbestimmung ➡ Ausblick (am Ende)
  10. 10. Was ist OCR? • Optical Character Recognition • Lesen lernen • Heutzutage mit den Methoden des Machine Learning lius Iheſus Chriſtus unica ſalus noſtra. Atqui tantum in Eccleſia uera Zion eſt, uerbum Dei purum abſcq fermento hæ‐ reſew̃n. Tantum in Eccleſia ut in ſuo tem‐ plo habitat ſpiritus ſanctus, habitat Chri Abdias Propheta Explanatus Commentariolo (1537)
  11. 11. Exkurs DFG-Projekt OCR-D ● DFG-gefördertes Koordinierungsprojekt + 8 verteilte Forschungsprojekte zu OCR für historische Drucke ● Webseite: http://ocr-d.de/ ● Module: https://ocr-d.github.io/projects ● Source Code: https://github.com/OCR-D ● Dokumentation: https://ocr-d.github.io/ ● Ground Truth: http://ocr-d.github.io/gt-repo ● Chat: https://gitter.im/OCR-D/Lobby
  12. 12. Ein moderner OCR-Workflow Binarisierung Zeilen- segmentierung Zeilen-OCR Postcorrection 20 – rath mit einer Pœna fiſcali angeſehen worden, und ſolche durch des Hon. Graffen von Königsfeld Vor– ſpruch, nur aus Gnaden nachgelaſſen erhalten. Sondern man hat auich dieſen 4. Wochen lang alle Abend bey der Jnquißtin gantz allein gelaſſen Binnen welcher gantzer Zeit der Schreiber Bredekam beſtändig bey Jhme geweſen, und ſich in der am 13ten Octobt. a.c. in Judicio gegen ſeinen geweſenen Hrn. introducirter Appellation deſſen Bey- raths bedienet hat; 33) Dabenehenſt iſt der Schreiber binnen dieſer gantzen Zeit auf freyem Fuß geblieben, und hat nicht nur durch ſeinen Conlulenten, ſondern auch, weilen del lnquilti ſelbſten in Jhtem Gefängnüß ſo viele Freyheit gelaſſen worden, daß ſie frembden Beſuch von Jhren Anberwandten ohngehindert en– pfangen können, durch andere Perſonen ſich mit ihr über alles, Was Er oder ſie dereinſten zu ſagen hat– ten· vereinigen können, immaſſen der Hofrath [...] 20 rath mit einer Pœna fiſcali angeſehen worden, und ſolche durch des Hrn. Graffen von Königsfeld Vor– ſpruch, nur aus Gnaden nachgelaſſen erhalten. Sondern man hat auch dieſen 4. Wochen lang alle Abend bey der Jnquisitin gantz allein gelaſſen. Binnen welcher gantzer Zeit der Schreiber Bredekaw beſtändig bey Jhme geweſen, und ſich in der am 13 ten Octobr. a.c. in Judicio gegen ſeinen geweſenen Hrn. introducirter Appellation deſſen Bey- raths bedienet hat; 33) Dabenebenſt iſt der Schreiber binnen dieſer gantzen Zeit auf freyem Fuß geblieben, und hat nicht nur durch ſeinen Conſulenten, ſondern auch, weilen der Inquiſitin ſelbſten in Jhrem Gefängnüß ſo viele Freyheit gelaſſen worden, daß ſie frembden Beſuch von Jhren Anverwandten ohngehindert em– pfangen können, durch andere Perſonen ſich mit ihr über alles, Was Er oder ſie dereinſten zu ſagen hat– ten, vereinigen können, immaſſen der Hofrath [...] Acten-mäßiger Verlauff, Des Fameusen Processus sich verhaltende ... (1749)
  13. 13. Warum Zeilen-OCR? • Segmentieren einer Textzeile in Zeichen problematisch • insbesondere bei schwierigen Dokumenten und Handschriften • Erstellen von Ground Truth für unsegmentierte Zeilen wesentlich weniger aufwändig • Ein Algorithmus kann mit dem Kontext innerhalb der Zeile arbeiten Verdammt d cl rn m nn
  14. 14. Zeilen-OCR mit Deep Neural Network y = fa(x) Text Bild Modell mit unbekannten Parametern a
  15. 15. lernt Features: Kurven, Kanten, Ecken etc. Recurrent Layer Feature Maps → Probability Matrix Convolutional Layer Pixel → Feature Maps Connectionist Temporal Classification Layer Probability Matrix → Labels lernt Zeichen in Bildfenstern + Kontext lernt wahrscheinlichsten Ausgabetext
  16. 16. OCR-Qualitätsverbesserung: Modelle für die Zeilen-OCR • Standard-Modelle in Tesseract OCR • Nicht reproduzierbar • Kodierungsprobleme • ch- und ck-Ligaturen als <, > • kein langes s (ſ) für Antiqua-Satz • kein hochgestelltes e (aᵉ, uᵉ, etc.) ¹GT4HistOCR: Ground Truth for training OCR engines on historical documents in German Fraktur and Early Modern Latin – Springmann et al. • Eigenes Modell mit Calamari OCR • Reproduzierbar • Auf Basis des GT4HistOCR-Datasets¹ • Wiegendrucke, Fraktur, frühe Antiqua • 300.000 Textzeilen • 1 Woche Training auf Nvidia RTX 2080
  17. 17. Voting mehrerer OCR-Modelle • Statt einem Modell werden k gleich starke Modelle trainiert • k-fold Cross Validation • Die Modelle voten – stimmen über ein Ergebnis ab ➡ Gemeinsam stärker • Summe der Konfidenzwerte i: 0.8 l: 0.2 j: 0.0 Beyſp i: 0.4 l: 0.5 j: 0.1 el. i: 0.3 l: 0.4 j: 0.3 Σ: 1.5
  18. 18. OCR-Beispiel VD18¹ ¹Acten-mäßiger Verlauff, Des Fameusen Processus sich verhaltende ... (1749) Beispielzeile manuell in drei Teile umgebrochen Tesseract 4.1 (frk) SBB {Zeilensegmentierung, Binarisierung, OCR-Modelle}: rie ſönſten hier gewöhnlich articuli impertinenres der dergleichen Gewe zug lafien dim die von wie ſonſten hier gewoͤ hnlich, articuli impertinentes oder dertleichen Intertogatotia zugelaſſen/ auch die von
  19. 19. Stol, Pomrn. [56000] Jn unſerem Genoſſenſchaftsregiſter iſt heute unter Nr. 113 die ,,Landliche Spar⸗ und Darlehnokaſſe Schmaatz, eingetragene Genofſenſchaft mit be⸗ ſchränkter Haftpflicht in Schmaatz', eingetragen worden. Gegenſtand des Unternehmens iſt die Gewährung von Darlehen an die Mitglieder für ihren Geſchäfts⸗ und Wirtſchaftsbetrieb, Er- leichterung der Geldanlage und Förderung des Sparſinns, nebenbei gemeinſchaftliche Beſchaffuag landwirtſchaftlicher Betriebs. mittel. Die Haftſumme beträgt 20 , die Höchſtzahl der Geſchäftsanteile 100. Vorſtandsmitglieder ſind: der Hofbeſitzer Albert Timreck als Vorſitzender, der Lehrer Auguſt Völz und der Hofbeſitzer Paul Selt, ſämtlich in Schmaatz. Das Statut iſt vom 25. Juli 192. Das Geſchäftsjahr lauft vom 1. April bis 31. März. Die Bekanntmachungen er⸗ folgen unter der Firma der Genoſſenſchaft im Pommerſchen Genoſſenſchaftsblatt, beim Eingehen dieſes Blattes bis auf weiteres im Deutſchen Reichsanzeiger. Die Willenserklärungen des Vorſtands erfolgen durch zwei Vorſtandsmitglieder. Hie Zeichnung geſchieht derart, daß die Zeich- nenden zu der Firma ihre Namensunter⸗ ſchrift beifügen. Die Einficht in die Liſte der Genoſſen iſt während der Geſchäfts. ſtunden des Gerichts jedermann geſtattet. Stolp, den 1. Auguſt 1920. Das Amtsgericht. ¹ Digitalisat aus dem Reichsanzeiger August 1920 (via UB Mannheim) OCR-Beispiel Zeitung¹
  20. 20. • Ground Truth ≟ OCR-Resultat • Visualisierung von Unterschieden Ihrem Gefängnüß ≟ Jhrem Gefängnüß • Metriken: • Zeichenfehlerrate CER CER = (s + i + d)/l • Wortfehlerrate WER • Eigenentwicklung • Unicode-Support (m̃ ≟ m, ñ = ñ, MUFI etc.) • OCR-D-Support • Substitutionen (fi → fi) OCR-Evaluation: dinglehopper
  21. 21. OCR-Qualitätsverbesserung: Erste Ergebnisse • Dataset: ~ 350 Seiten • aus dem SBB-Bestand • Fraktur, Antiqua etc. • Reduzierung der CER • von >0.10 (Median) • Tesseract Zeilensegmentierung + Tesseract frk • auf 0.06 (Median) • SBB Zeilensegmentierung + Calamari voted GT4HistOCR (hier im Plot anderes Tesseract- Modell ebenfalls basierend auf
  22. 22. OCR-Qualitätsverbesserung: Nächste Schritte • Robusteres OCR-Modell • Dataset aus DTA → Millionen Textzeilen • Augmentation → Robuster gegen Noise und Skewing • Postcorrection via Sprachmodell • Verwendung a. der Wahrscheinlichkeiten b. aller k Modellergebnisse ➡ Informiertere Postcorrection
  23. 23. OCR-Qualitätsverbesserung: Nächste Schritte • Qualitätsbestimmung • Für Volltexte interessante Dokumente • Technisch durchführbar • Gut: bspw. moderne Drucke • Schlecht: bspw. Handschriften • Bestehende Volltexte • Kandidaten für Korrekturen • Qualität abschätzen • Anhand von • Metadaten und Bildmerkmalen • OCR-Konfidenz ➡ Ressourcenplanung, UX und Korrektur
  24. 24. Layouterkennung Vahid Rezanezhad
  25. 25. Layouterkennung: • Pixelwise-Segmentierung • Page(Rahmen)-Erkennung • Layout-Erkennung • Beispiel: Textregion (benötigt für OCR), Bilder , Grafiken, Tabellen, Separatoren etc. erkennen • Zeilenenerkennung • Binarisierung
  26. 26. Layouterkennung • Convolutional neural network (CNN)
  27. 27. Pixelwise-Segmentierung: Resnet-Unet Resnet-unet Modell
  28. 28. Woraus lernt das Modell? Ground Truth Modelltraining
  29. 29. Layouterkennung: Bild Erstes Ergebnis Nachkorrektur
  30. 30. Reihenfolge von Textregionen
  31. 31. Dokument ohne vertical Separators Bild Erstes Ergebnis Nachkorrektur
  32. 32. Zeilenerkennung: 1. Zeilenerkennung für ganzes Dokument 2. Zuschneiden (Crop) für entsprechende Textregion 3. Suche nach Linienboxen
  33. 33. Ergebnis als XML-Datei
  34. 34. Binarisierung • Wieder Pixelweise Segmentierung • Ground Truth: Ergebnisse des Binarisierungswettbewerbs (DIBCO) • Kombinationen von 4 Modellen (Deshalb ist es langsam) • Funktioniert gut für Texte • Macht kein “Pfeffer”-Denoising
  35. 35. Original Bild Binarisiertes Bild
  36. 36. Layouterkennung: Nächste Schritte • Bereitstellung der Ground Truth für die Binarisierung (Verbesserungen für handschriftliche Anmerkungen, Bilder und “Pfeffer”-Denoising) • Zeilenreihenfolge für Zeitungen mit mehr als einer Spalte erweitern, deren Separatoren (oder Überschriften) sich überschneiden • Verbesserung der Modelle und heuristischen Methoden • Entwicklung einer Methode für Linien, die teilweise schief sind • Trainieren eines Modell um freien Raum zwischen Regionen zu erkennen
  37. 37. Named Entity Recognition Kai Labusch
  38. 38. Named Entity Recognition (NER) ● Eigennamenerkennung ● Informationsextraktion aus gegebenem Volltext ● automatische Identifikation und Klassifikation von Eigennamen ● Folge von Wörtern, die eine real existierende Entität beschreiben, wie z. B.: ○ Personen ○ Orte ○ Organisationen ○ Produkte
  39. 39. NER - Beispiel: Demonstrator
  40. 40. Named Entity Recognition - trivial? Essen liegt in Nordrhein-Westfalen. Essen ist lecker. Essen ist schön. Essen ist groß. Essen duftet. Es gibt gutes Essen in Essen. Essen macht satt. Essen macht mobil. Demonstrator
  41. 41. Named Entity Recognition - Ziele • tiefere automatische Erschließung der Volltexte • Suche nach Personen, Orten und Organisationen auf dem Portal der digitalisierten Sammlungen oder in Zeitungen (ZEFYS) • Digital Humanities • Extraktion sozialer Netzwerke aus historischen Texten (SoNAR-IDH) • historische Ortsnamen Konkordanz • Vorbedingung für Named Entity Disambiguierung und Verlinkung: • automatische eindeutige Identifikation einer Named Entity, z.B.: • GND - Eintrag • Wikidata Datensatz • Wikipedia Seite • Geo-koordinaten (Toponyme)
  42. 42. NER in OCR- Volltexten Vorwort von Alexander v. Humboldt zu den "Erinnerungen der Reise nach Indien von S. K. H. dem Prinzen Waldemar von Preussen" : [Berlin, den 18 December 1854]
  43. 43. Named Entity Recognition mit BERT Bidirectional Encoder Representations from Transformers
  44. 44. Feedforward - Netze [1] Modifiziert aus: Rumelhart et al., Learning representations by back-propagating errors, Nature 1986. [1] Rekurrente - Netze [1]
  45. 45. BERT - Architektur [1] [1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018
  46. 46. Transformer Encoder [1] [1] Vaswani et al., Attention Is All You Need, NIPS 2017
  47. 47. BERT - Vortraining • [CLS] Der Strom, der nachts, wenn die Produktion [MASK] der Bettfedernfabrik ruhte, nicht gebraucht wurde, wurde für die Kühl- und Gefrieranlagen genutzt. [SEP] Ab 1951 nutzte man eine Spezialapparatur, mit der frische Fische sofort [MASK] dem Fang eingefroren werden konnten. [SEP] Aufeinanderfolgend: Ja • [CLS] Rollins Eltern stammen [MASK] den karibischen Jungferninseln. [SEP] Kern der Sendung sind [MASK] Lach- und Sachgeschichten. [SEP] Aufeinanderfolgend: Nein
  48. 48. BERT - Vortraining [1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018 [1]
  49. 49. BERT - Vortraining Google: ● BERT-base: 110M Parameter ● 100 Sprachen ● 100 größte Wikipedias ● 16x Google Tensor Processing Units mit jeweils 64GB ● Rechenzeit ca. 4 Tage Qurator-SBB: ● Starten mit Google Modell ● 2.333.647 deutschsprachige Textseiten (OCR) aus den digitalisierten Sammlungen ● 1x NVIDIA V100 GPU mit 32GB ● 10 Epochen ● Rechenzeit ca. 2 Wochen
  50. 50. BERT - NER Training [1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018 [1]
  51. 51. NER Training - Ground Truth ● CoNLL 2003 corpus (ca. 200.000 Tokens) ● GermEval Konvens 2014 corpus (ca. 450.000 Tokens) ● historische Zeitungen (Europeana Newspapers): ○ Zeitungen um 1926 (Landesbibliothek Dr. Friedrich Teßmann, ca. 70.000 Tokens, LFT) ○ Zeitungen des Zeitraums 1710 - 1873 (Österreichische Nationalbibliothek, ca. 30.000 Tokens, ONB) ○ Zeitungen des Zeitraums 1872 - 1930 (Staatsbibliothek zu Berlin, ca. 50.000 Tokens, SBB)
  52. 52. [1] Kai Labusch, Clemens Neudecker and David Zellhöfer. BERT for Named Entity Recognition in Contemporary and Historic German, KONVENS 2019 [1]
  53. 53. Approximative nächste Nachbarn Suche Ausblick: Named Entity Disambiguierung (NED) So wurden Erik Axel Karlfeldt 1931 und UN-Generalsekretär Hammarskjöld 1961 posthum geehrt. ● BERT embeddings ● Fasttext embeddings ● FLAIR embeddings
  54. 54. neath - Kooperation mit SoNAR-IDH
  55. 55. Ausblick ● M18 - M36 ○ OCR Postcorrection, OCR-D Integration ○ Strukturerkennung, Bildähnlichkeitssuche ○ Semantische Generalisierung (Embeddings, Topic Models, Ngrams) ○ Toponymauflösung ○ Disambiguierung und Verlinkung ● #QURATOR2020 Konferenz, 20-21 Januar 2020, Berlin ○ https://qurator.ai/conference-qurator-2020/ ● Demonstrator(en) ○ https://digital-beta.staatsbibliothek-berlin.de/ ○ https://lab.sbb.berlin
  56. 56. Danke für die Aufmerksamkeit! Fragen? Staatsbibliothek zu Berlin – Preußischer Kulturbesitz IIA Kolloquium Metadatenmanagement 14. November 2019, SBB, Berlin qurator@sbb.spk-berlin.de

×