SlideShare a Scribd company logo
“Kuratieren” mit
künstlicher Intelligenz
Neuigkeiten und Fortschritte aus
dem Forschungsprojekt Qurator
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
IIA Kolloquium Metadatenmanagement
14. November 2019, SBB, Berlin
qurator@sbb.spk-berlin.de
Inhalte
● Einleitung (Clemens Neudecker)
● Qualitätsverbesserung OCR (Mike Gerber)
● Layouterkennung (Vahid Rezanezhad)
● Named Entity Recognition (Kai Labusch)
● Diskussion
Qurator
• Flexible KI-Verfahren für die adaptive Analyse und kreative Generierung
digitaler Inhalte in branchenübergreifenden Kontexten
• Förderung durch BMBF Programm
Unternehmen Region: Wachstumskerne
• 01.11.2018 - 31.10.2021 (36 Monate)
• 10 Projektpartner aus Berlin
• Webseite: https://qurator.ai/
Partner und Themen
DFKI: KI-Plattform für Kuratierungstechnologien
Wikimedia DE: Kuratierung für Wikidata
3pc: Interaktives Storytelling
Condat: TV-/Medien-Publikationen
SBB: Digitalisiertes kulturelles Erbe
Ada: Biomedizinisches Wissen
FOKUS: Corporate Smart Insights (CSI)
ART+COM: Multimediale Ausstellungs-Kuratierung
Ubermetrics: Media Intelligence und Risikomonitoring
Semtation: Intelligente Prozessmodellierung

Recommended for you

The new SCONUL 7 pillars
The new SCONUL 7 pillarsThe new SCONUL 7 pillars
The new SCONUL 7 pillars

Presentation given at "Change, Challenge and Collaborate" event held at De Montfort University Kimberlin Library on 22nd May 2012, an event organised by the East Midlands ARL Group of CILIP.

7 pillars#ucrgemc3ruth stubbings
New trends and skill in library automation: impact of Artificial Intelligence...
New trends and skill in library automation: impact of Artificial Intelligence...New trends and skill in library automation: impact of Artificial Intelligence...
New trends and skill in library automation: impact of Artificial Intelligence...

This document discusses new trends and skills in library automation due to artificial intelligence and Industry 4.0. It outlines challenges libraries face from the transition to digital formats, new library management systems, and changing user needs. Libraries must adapt services for the digital era and train librarians in new skills like data analysis, digital preservation, and repository management. Emerging technologies like artificial intelligence, big data, blockchain, augmented reality, and the internet of things could transform library services but also present challenges around issues like privacy, access, and replacing human roles.

artificial intelligenceindustry 4.0libaries automation
Scifinder scholar ppt
Scifinder scholar pptScifinder scholar ppt
Scifinder scholar ppt

This is very helpful to understand concept of Scifinder databases. This Power point presentation is presented by me at IISER-Trivandrum...then i upload here,

scifindersurendrakumarpalppt
Qurator in der SBB (1/2)
• Gemeinsame Projektsteuerung durch Forschungsreferent (GD) und
Referatsleiter IT-Anwendungen und Datenmanagement (IDM2)
• Finanzierung 3x FTE E13 FuE (36 Monate) = 108 PM + 12 PM Eigenanteil SBB
• Mike Gerber
• Kai Labusch
• Robin Schaefer
• Vahid Rezanezhad
• SPK-KI Server:
• 2x Nvidia Tesla V100 32GB
• 2x 18-core Intel XEON 2.7 Ghz
• 192GB DDR4 RAM
https://xkcd.com/1838/
Qurator in der SBB (2/2)
• Open Source Entwicklung von Technologien und Anwendungen
• https://code.dev.sbb.berlin/qurator
• https://github.com/qurator-spk
• Freie Bereitstellung von Daten und Modellen
• https://zenodo.org/communities/stabi
• https://lab.sbb.berlin
• Mehr zur SBB in Qurator
• https://qurator.ai/partner/staatsbibliothek-zu-berlin/
• SBB Blogserie „Künstliche Intelligenz“
https://blog.sbb.berlin/tag/wissenschaftsjahr-2019/
OCR-Qualitätsverbesserung
Mike Gerber
OCR-Qualitätsverbesserung:
Problem und Aufgabe
Die digitalisierten
Sammlungen der
SBB
86% ohne Volltext
nicht zugänglich für
Recherche,
Textanalyse oder
Menschen mit
Sehbeeinträchtigung
14 % mit Volltext
in weitgehend
unbestimmter
Qualität
160.000
Dokumente

Recommended for you

4 Literature Search Techniques 2 Strategic Searching
4 Literature Search Techniques 2 Strategic Searching4 Literature Search Techniques 2 Strategic Searching
4 Literature Search Techniques 2 Strategic Searching

The document discusses strategies for conducting an effective literature search. It covers searching academic literature to find relevant sources, avoiding duplicating previous work, and learning from other scholars' methods and approaches. Search techniques include keyword searches in digital libraries and databases, browsing relevant books and articles, and tracking citations between sources. The optimal search strategy depends on the topic's scope and available sources. Literature searches should become more focused and specialized over time to increase knowledge of the subject.

Metadata is a Love Note to the Future
Metadata is a Love Note to the FutureMetadata is a Love Note to the Future
Metadata is a Love Note to the Future

The document discusses the importance of metadata for archiving digital content and history. It describes how Jason Scott transformed from a "metadata skeptic" to a "metadata warrior" after his experiences rescuing data from Geocities. Proper metadata made the rescued data more useful, efficient to archive, and prevented duplication. The document advocates for taking a long-term view of digital content and using metadata to ensure information can be discovered and understood in the future.

content strategymetadataarchiving
Recette biblio
Recette biblioRecette biblio
Recette biblio

Qu'est-ce qu'une bibliographie ? Comment trouver ses sources ? Choisir, rédiger et organiser ses références. Savoir bien présenter sa bibliographie.

bibliographie sources références
OCR-Qualität: Ziele
• Qualitätsverbesserung
➡ Wir möchten die bestmöglichen Volltexte!
• Qualitätsbestimmung
➡ Ausblick (am Ende)
Was ist OCR?
• Optical Character Recognition
• Lesen lernen
• Heutzutage mit den Methoden des
Machine Learning
lius Iheſus Chriſtus unica ſalus noſtra.
Atqui tantum in Eccleſia uera Zion eſt,
uerbum Dei purum abſcq fermento hæ‐
reſew̃n. Tantum in Eccleſia ut in ſuo tem‐
plo habitat ſpiritus ſanctus, habitat Chri
Abdias Propheta Explanatus Commentariolo (1537)
Exkurs DFG-Projekt OCR-D
● DFG-gefördertes Koordinierungsprojekt + 8 verteilte
Forschungsprojekte zu OCR für historische Drucke
● Webseite: http://ocr-d.de/
● Module: https://ocr-d.github.io/projects
● Source Code: https://github.com/OCR-D
● Dokumentation: https://ocr-d.github.io/
● Ground Truth: http://ocr-d.github.io/gt-repo
● Chat: https://gitter.im/OCR-D/Lobby
Ein moderner OCR-Workflow
Binarisierung
Zeilen-
segmentierung
Zeilen-OCR Postcorrection
20
–
rath mit einer Pœna fiſcali angeſehen worden,
und ſolche durch des Hon. Graffen von
Königsfeld Vor–
ſpruch, nur aus Gnaden nachgelaſſen erhalten.
Sondern man hat auich dieſen 4. Wochen lang
alle Abend bey der Jnquißtin gantz allein
gelaſſen
Binnen welcher gantzer Zeit der Schreiber
Bredekam beſtändig bey Jhme geweſen, und
ſich in
der am 13ten Octobt. a.c. in Judicio gegen
ſeinen geweſenen Hrn. introducirter Appellation
deſſen Bey-
raths bedienet hat;
33) Dabenehenſt iſt der Schreiber binnen dieſer
gantzen Zeit auf freyem Fuß geblieben, und
hat nicht nur durch ſeinen Conlulenten, ſondern
auch, weilen del lnquilti ſelbſten in Jhtem
Gefängnüß
ſo viele Freyheit gelaſſen worden, daß ſie
frembden Beſuch von Jhren Anberwandten
ohngehindert en–
pfangen können, durch andere Perſonen ſich
mit ihr über alles, Was Er oder ſie dereinſten zu
ſagen hat–
ten· vereinigen können, immaſſen der Hofrath
[...]
20
rath mit einer Pœna fiſcali angeſehen worden,
und ſolche durch des Hrn. Graffen von
Königsfeld Vor–
ſpruch, nur aus Gnaden nachgelaſſen erhalten.
Sondern man hat auch dieſen 4. Wochen lang
alle Abend bey der Jnquisitin gantz allein
gelaſſen.
Binnen welcher gantzer Zeit der Schreiber
Bredekaw beſtändig bey Jhme geweſen, und
ſich in
der am 13 ten Octobr. a.c. in Judicio gegen
ſeinen geweſenen Hrn. introducirter Appellation
deſſen Bey-
raths bedienet hat;
33) Dabenebenſt iſt der Schreiber binnen dieſer
gantzen Zeit auf freyem Fuß geblieben, und
hat nicht nur durch ſeinen Conſulenten, ſondern
auch, weilen der Inquiſitin ſelbſten in Jhrem
Gefängnüß
ſo viele Freyheit gelaſſen worden, daß ſie
frembden Beſuch von Jhren Anverwandten
ohngehindert em–
pfangen können, durch andere Perſonen ſich
mit ihr über alles, Was Er oder ſie dereinſten zu
ſagen hat–
ten, vereinigen können, immaſſen der Hofrath
[...]
Acten-mäßiger Verlauff, Des Fameusen
Processus sich verhaltende ... (1749)

Recommended for you

Thermo Fisher Introduction
Thermo Fisher IntroductionThermo Fisher Introduction
Thermo Fisher Introduction

The document is a corporate presentation that summarizes a company's mission, capabilities, and growth platforms. The company is a global leader in serving science with $10.5 billion in annual revenues. It provides analytical instruments, equipment, reagents, consumables, software and services to over 350,000 customers in research, analysis, discovery and diagnostics across many fields of science. The company focuses on areas like life sciences, diagnostics, environmental and safety applications through its analytical technologies in areas such as mass spectrometry, chromatography, and molecular spectroscopy.

Marketing of academic library services & products
Marketing of academic library services & productsMarketing of academic library services & products
Marketing of academic library services & products

This document discusses marketing of academic library services and products. It defines marketing as bringing about voluntary exchanges to achieve organizational goals. Marketing is important for libraries to play a dynamic role in achieving goals and objectives, and to cope with increasing clientele and expectations. The objectives of an academic library include satisfying user needs and developing effective communication. Services that can be marketed include reference, current awareness, document delivery, and alerting users to new arrivals. Marketing tools for libraries include brochures, newsletters, websites, exhibitions, and orientation programs. Advantages of library marketing are better management, improved image and services, and improved staff efficiency. Disadvantages can include ignorance of marketing concepts and lack of training, research, and positive attitude.

martketingmarketing toolsacademic library services
Bachelor\'s Thesis Presentation
Bachelor\'s Thesis PresentationBachelor\'s Thesis Presentation
Bachelor\'s Thesis Presentation

The title of my Bachelor\'s Thesis: "Maintaining Thermal Conditions in Exhibition of Russian Museum and Archive of Mikkeli".

bachelors thesisthermal conditionsarchive
Warum Zeilen-OCR?
• Segmentieren einer Textzeile in
Zeichen problematisch
• insbesondere bei schwierigen
Dokumenten und Handschriften
• Erstellen von Ground Truth für
unsegmentierte Zeilen
wesentlich weniger aufwändig
• Ein Algorithmus kann mit dem
Kontext innerhalb der Zeile
arbeiten
Verdammt
d cl rn m nn
Zeilen-OCR mit Deep Neural Network
y = fa(x)
Text Bild
Modell
mit
unbekannten
Parametern a
lernt Features: Kurven, Kanten, Ecken etc.
Recurrent Layer
Feature Maps →
Probability Matrix
Convolutional
Layer
Pixel →
Feature Maps
Connectionist
Temporal
Classification Layer
Probability Matrix →
Labels
lernt Zeichen in Bildfenstern + Kontext
lernt wahrscheinlichsten Ausgabetext
OCR-Qualitätsverbesserung:
Modelle für die Zeilen-OCR
• Standard-Modelle in Tesseract OCR
• Nicht reproduzierbar
• Kodierungsprobleme
• ch- und ck-Ligaturen als <, >
• kein langes s (ſ) für Antiqua-Satz
• kein hochgestelltes e (aᵉ, uᵉ, etc.)
¹GT4HistOCR: Ground Truth for training OCR engines on historical documents in German Fraktur and Early Modern
Latin – Springmann et al.
• Eigenes Modell mit Calamari OCR
• Reproduzierbar
• Auf Basis des GT4HistOCR-Datasets¹
• Wiegendrucke, Fraktur, frühe Antiqua
• 300.000 Textzeilen
• 1 Woche Training auf Nvidia RTX 2080

Recommended for you

Manuscript structure: How to convey your most important ideas through your paper
Manuscript structure: How to convey your most important ideas through your paperManuscript structure: How to convey your most important ideas through your paper
Manuscript structure: How to convey your most important ideas through your paper

The aim of the journal article is to communicate your research effectively and help readers understand the issues at hand. Structure your manuscript so that readers take away the most important messages.

impact factormanuscript writingmanuscript publishing
BIBFRAME, Linked data, RDA
BIBFRAME, Linked data, RDA BIBFRAME, Linked data, RDA
BIBFRAME, Linked data, RDA

Robin Fay presented an update on the Bibliographic Framework Initiative (BIBFRAME). The presentation covered the need for BIBFRAME as MARC records have limitations for machine processing. FRBR and RDA were discussed as models that focus on relationships between works, expressions, manifestations and items. XML was presented as a way to encode bibliographic data in a machine-readable format using elements rather than character strings. The semantic web and linked data were discussed as ways to make metadata shareable on the web. BIBFRAME was introduced as a new bibliographic framework to replace MARC that would use RDF to encode bibliographic data.

librariesinformation technologylibrary training
Basic Introduction to Mendeley Reference Manager
Basic Introduction to Mendeley Reference ManagerBasic Introduction to Mendeley Reference Manager
Basic Introduction to Mendeley Reference Manager

The document is an agenda for a workshop on Mendeley, an academic software used to manage research papers. The agenda outlines what will be covered, including an introduction to Mendeley and how to use its features like creating a library of papers, inserting citations, and sharing references with groups. The workshop will demonstrate how to perform tasks like adding documents, citing sources, and creating a professional research profile on Mendeley.

Voting mehrerer OCR-Modelle
• Statt einem Modell werden k gleich
starke Modelle trainiert
• k-fold Cross Validation
• Die Modelle voten – stimmen über
ein Ergebnis ab
➡ Gemeinsam stärker
• Summe der Konfidenzwerte
i: 0.8 l: 0.2 j: 0.0
Beyſp i: 0.4 l: 0.5 j: 0.1 el.
i: 0.3 l: 0.4 j: 0.3
Σ: 1.5
OCR-Beispiel VD18¹
¹Acten-mäßiger Verlauff, Des Fameusen Processus sich verhaltende ... (1749)
Beispielzeile manuell in drei Teile umgebrochen
Tesseract 4.1 (frk) SBB {Zeilensegmentierung, Binarisierung, OCR-Modelle}:
rie ſönſten hier gewöhnlich articuli
impertinenres der dergleichen
Gewe zug lafien dim die von
wie ſonſten hier gewoͤ hnlich, articuli
impertinentes oder dertleichen
Intertogatotia zugelaſſen/ auch die von
Stol, Pomrn. [56000]
Jn unſerem Genoſſenſchaftsregiſter iſt
heute unter Nr. 113 die ,,Landliche
Spar⸗ und Darlehnokaſſe Schmaatz,
eingetragene Genofſenſchaft mit be⸗
ſchränkter Haftpflicht in Schmaatz',
eingetragen worden. Gegenſtand des
Unternehmens iſt die Gewährung von
Darlehen an die Mitglieder für ihren
Geſchäfts⸗ und Wirtſchaftsbetrieb, Er-
leichterung der Geldanlage und Förderung
des Sparſinns, nebenbei gemeinſchaftliche
Beſchaffuag landwirtſchaftlicher Betriebs.
mittel. Die Haftſumme beträgt 20 ,
die Höchſtzahl der Geſchäftsanteile 100.
Vorſtandsmitglieder ſind: der Hofbeſitzer
Albert Timreck als Vorſitzender, der
Lehrer Auguſt Völz und der Hofbeſitzer
Paul Selt, ſämtlich in Schmaatz. Das
Statut iſt vom 25. Juli 192. Das
Geſchäftsjahr lauft vom 1. April bis
31. März. Die Bekanntmachungen er⸗
folgen unter der Firma der Genoſſenſchaft
im Pommerſchen Genoſſenſchaftsblatt, beim
Eingehen dieſes Blattes bis auf weiteres
im Deutſchen Reichsanzeiger. Die
Willenserklärungen des Vorſtands erfolgen
durch zwei Vorſtandsmitglieder. Hie
Zeichnung geſchieht derart, daß die Zeich-
nenden zu der Firma ihre Namensunter⸗
ſchrift beifügen. Die Einficht in die Liſte
der Genoſſen iſt während der Geſchäfts.
ſtunden des Gerichts jedermann geſtattet.
Stolp, den 1. Auguſt 1920. Das
Amtsgericht.
¹ Digitalisat aus dem
Reichsanzeiger August
1920 (via UB Mannheim)
OCR-Beispiel
Zeitung¹
• Ground Truth ≟ OCR-Resultat
• Visualisierung von Unterschieden
Ihrem Gefängnüß ≟ Jhrem Gefängnüß
• Metriken:
• Zeichenfehlerrate CER
CER = (s + i + d)/l
• Wortfehlerrate WER
• Eigenentwicklung
• Unicode-Support (m̃ ≟ m, ñ = ñ, MUFI etc.)
• OCR-D-Support
• Substitutionen (fi → fi)
OCR-Evaluation:
dinglehopper

Recommended for you

Trends in scientific_comm. by Aman Kr Kushwaha
Trends in scientific_comm. by Aman Kr KushwahaTrends in scientific_comm. by Aman Kr Kushwaha
Trends in scientific_comm. by Aman Kr Kushwaha

This document discusses trends in scientific communication. It begins by defining science and the objective of scientific communication, which is to clearly communicate new scientific knowledge as part of the scientific method. The scientific method involves making observations, asking questions, proposing hypotheses, making predictions, testing predictions through new observations, and rejecting hypotheses that fail. The document then outlines the common paths of scientific communication and various modes of communication like writing papers, presentations, proposals, and extracting information from the web. It notes that mastering communication skills is key to professional success. Finally, it concludes that science communication plays a vital role in disseminating information to academics and influences societal development.

librarylibrary and information sciencemlis
How to Use Chemical Abstracts (in Print)
How to Use Chemical Abstracts (in Print)How to Use Chemical Abstracts (in Print)
How to Use Chemical Abstracts (in Print)

Use the print volumes of Chemical Abstracts to search for articles, books, and patents by author, subject, chemical substance, or chemical formula.

chemistryresearch
RabbitMQ
RabbitMQRabbitMQ
RabbitMQ

The document introduces RabbitMQ, an open source message broker that implements the Advanced Message Queuing Protocol (AMQP). It discusses why AMQP is an open industry standard that is not language dependent and supported by many major companies. It then provides an overview of messaging concepts like queues, exchanges, routing and pub/sub using RabbitMQ examples. It also mentions some advanced features of AMQP like authentication, load balancing and persistent/non-persistent messages. Finally, it provides information on how to get started with RabbitMQ.

erloungewellingtonerlang
OCR-Qualitätsverbesserung:
Erste Ergebnisse
• Dataset: ~ 350 Seiten
• aus dem SBB-Bestand
• Fraktur, Antiqua etc.
• Reduzierung der CER
• von >0.10 (Median)
• Tesseract Zeilensegmentierung
+ Tesseract frk
• auf 0.06 (Median)
• SBB Zeilensegmentierung
+ Calamari voted GT4HistOCR
(hier im Plot anderes Tesseract-
Modell ebenfalls basierend auf
OCR-Qualitätsverbesserung:
Nächste Schritte
• Robusteres OCR-Modell
• Dataset aus DTA → Millionen Textzeilen
• Augmentation → Robuster gegen Noise und Skewing
• Postcorrection via Sprachmodell
• Verwendung a. der Wahrscheinlichkeiten b. aller k Modellergebnisse
➡ Informiertere Postcorrection
OCR-Qualitätsverbesserung:
Nächste Schritte
• Qualitätsbestimmung
• Für Volltexte interessante Dokumente
• Technisch durchführbar
• Gut: bspw. moderne Drucke
• Schlecht: bspw. Handschriften
• Bestehende Volltexte
• Kandidaten für Korrekturen
• Qualität abschätzen
• Anhand von
• Metadaten und Bildmerkmalen
• OCR-Konfidenz
➡ Ressourcenplanung, UX und Korrektur
Layouterkennung
Vahid Rezanezhad

Recommended for you

Digital analytics upskilling & career tips
Digital analytics upskilling & career tipsDigital analytics upskilling & career tips
Digital analytics upskilling & career tips

From Bristol Digital Analytics meetup on career. We covered desirable Digital Analytics skills, Certifications, Training, Mentoring & Industry Salary surveys. Thanks Phil.

careersgoogle analyticsdigital analytics
medical literature search process
 medical literature search process medical literature search process
medical literature search process

This chapter discusses medical literature searching. It explains that literature searching is important for research, practice improvement, and various academic purposes. It outlines the steps in performing a search, including developing a focused search question or statement, selecting appropriate databases and search terms, applying limits and quality screens, and synthesizing results. A variety of medical and general databases and other sources are described. Techniques for effective searching using subject headings, keywords, and Boolean operators are provided. The importance of practical and methodological screening criteria to refine search results is emphasized.

medical litrature
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...

3. Workshop Retrodigitalisierung

digital librariesdigitizationocr
Layouterkennung:
• Pixelwise-Segmentierung
• Page(Rahmen)-Erkennung
• Layout-Erkennung
• Beispiel: Textregion (benötigt für OCR), Bilder , Grafiken, Tabellen, Separatoren
etc. erkennen
• Zeilenenerkennung
• Binarisierung
Layouterkennung
• Convolutional neural network (CNN)
Pixelwise-Segmentierung: Resnet-Unet
Resnet-unet Modell
Woraus lernt das Modell? Ground Truth
Modelltraining

Recommended for you

Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...

Fachtagung Netzwerk maschinelle Verfahren in der Erschliessung, 10-11 Oktober 2019, Frankfurt, Germany

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition

Numéerisation de masse et traitement des grands corpus de textes utilisant des méthodes des humanitées numéeriques / Massendigitalisierung und die Bearbeitung großer Textkorpora mit Methoden der 'Digital Humanities', 12-13 March 2015, Stuttgart, Germany

ocrdigitalisierungtexterkennung
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining

Digital Humanities Network, Berlin State Library, 13-02-2019

digital librariesnatural language processingartificial intelligence
Layouterkennung:
Bild Erstes Ergebnis Nachkorrektur
Reihenfolge von
Textregionen
Dokument ohne vertical Separators
Bild Erstes Ergebnis Nachkorrektur
Zeilenerkennung:
1. Zeilenerkennung für
ganzes Dokument
2. Zuschneiden (Crop)
für entsprechende
Textregion
3. Suche nach Linienboxen

Recommended for you

Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...

War es bis vor wenigen Jahren unvorstellbar, dass historische Handschriften automatisiert texterkannt werden können, so haben maschinenlernende Verfahren nunmehr den Durchbruch gebracht. Ob mittelalterlicher Codices oder frühneuzeitliche Handschrift, ob Arabisch, Hebraeisch oder Bangla - mit einigen Dutzend Seiten können die zugrundeliegenden neuronalen Netze so trainiert werden, dass die Transkription für die weitere Verarbeitung brauchbar ist. Um die Technologie einem großen Kreis an Nutzerinnen und Nutzern verfügbar zu machen, wurde im Rahmen zweier EU Projekte die Froschungsplattform Transkribus entwickelt. Mit Transkribus erhalten Nutzerinnen und Nutzer ein Werkzeug, mit dem sie selbst alle Schritte im Workflow abdecken können. Mehr als 18.000 Benutzer haben sich in der Plattform bereits registriert und vielfach das Programm ausprobiert. Der Vortrag wird anhand konkreter Beispiele die Leistungsfähigkeit moderner Texterkennungsverfahren geben, sowie einen Ausblick auf die künftigen Entwicklungen bieten.

transkribustexterkennungforschungsdaten
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...

Vortrag auf dem Bayerischen Archivtag 2019, 23.3.2019

hackathoncoding da vinci
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D

DHd AG Zeitungen & Zeitschriften Workshop: OCR - Herausforderungen und Lösungen für Zeitungen & Zeitschriften, 11 November 2019, Frankfurt, Germany

ocrdigitization
Kuratieren mit künstlicher Intelligenz
Ergebnis als XML-Datei
Binarisierung
• Wieder Pixelweise Segmentierung
• Ground Truth: Ergebnisse
des Binarisierungswettbewerbs
(DIBCO)
• Kombinationen von 4 Modellen
(Deshalb ist es langsam)
• Funktioniert gut für Texte
• Macht kein “Pfeffer”-Denoising
Original Bild Binarisiertes Bild

Recommended for you

Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...

Die in Rechnungen enthaltenen Informationen werden von Historikern gerne nicht nur als Text sondern auch als strukturierte Daten ausgewertete. Im Internet sind die Technologien des sog. „Semantic Web“ eine sich zunehmend verbreitende Strategie der Publikation solcher Daten. Eine Rechnungsedition, die sich nicht nur am Standard der digitalen Edition TEI orientiert sondern zusätzlich auch eine Datenrepräsentation nach dem vom W3C festgelegten Standard RDF (Resource Description Framework) veröffentlicht, ermöglicht damit komplexe Abfragen mit Hilfe der Abfragesprache SPARQL (SPARQL Protocol and RDF Query Language), welche das W3C für das Semantic Web standardisiert hat. Eine solche Publikation ist aber nicht nur eine Form, eine Rechnungsedition besser nachnutzbar zu machen, sondern bietet auch die Möglichkeit, die in ihr enthaltenen Informationen mit den Mitteln von Linked Open Data – einem weiteren Konzept des Semantic Web – auszuwerten. Dabei geht es darum, online verfügbare Ressourcen zur Normalisierung von Maßangaben, Geldbeträgen, Gütern und Berufsbezeichnungen, in die Auswertung der Daten einzubinden. Der Beitrag wird solche Möglichkeiten des Semantic Web am Beispiel der digitalen Edition der Basler Jahrrechnungen des 16. Jahrhunderts vorstellen.

semantic webmedieval documentsscholarly edition
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI

Georg Rehm. Kuratieren im Zeitalter der KI. #DKT17 - Kuratieren im Zeitalter der KI, Berlin, Germany, October 2017. October 12, 2017. Invited keynote talk.

aiartificial intelligencelanguage
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken

Georg Rehm and Clemens Neudecker. Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken . Berliner Bibliothekswissenschaftliches Kolloqium (BBK), Humboldt-Universität zu Berlin, Berlin, Germany, June 2017. June 06, 2017. Invited talk.

language technologycuration technologiesartificial intelligence
Layouterkennung: Nächste Schritte
• Bereitstellung der Ground Truth für die Binarisierung (Verbesserungen
für handschriftliche Anmerkungen, Bilder und “Pfeffer”-Denoising)
• Zeilenreihenfolge für Zeitungen mit mehr als einer Spalte erweitern,
deren Separatoren (oder Überschriften) sich überschneiden
• Verbesserung der Modelle und heuristischen Methoden
• Entwicklung einer Methode für Linien, die teilweise schief sind
• Trainieren eines Modell um freien Raum zwischen Regionen zu erkennen
Named Entity Recognition
Kai Labusch
Named Entity Recognition (NER)
● Eigennamenerkennung
● Informationsextraktion aus gegebenem Volltext
● automatische Identifikation und Klassifikation von Eigennamen
● Folge von Wörtern, die eine real existierende Entität beschreiben,
wie z. B.:
○ Personen
○ Orte
○ Organisationen
○ Produkte
NER - Beispiel:
Demonstrator

Recommended for you

Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken

In der Präsentation werden zunächst digitale Kuratierungstechnologien vorgestellt, wie sie derzeit im Rahmen eines vom Bundesministerium für Bildung und Forschung geförderten Verbundprojekts unter der Leitung des DFKI für die Anwendung in vier Branchen bzw. Domänen entwickelt werden.* Unter Kuratierungstechnologien verstehen wir verschiedene semantische Sprach- und Wissenstechnologien für die Analyse, Verarbeitung und Erstellung digitaler Inhalte und ihr Zusammenspiel in domänenspezifischen Workflows. Anschließend werden verschiedene exemplarische Anwendungsszenarien in Bibliotheken thematisiert, die sich insbesondere durch die Massendigitalisierung ergeben. Anhand von Beispielen aus der bibliothekarischen Arbeit im 21. Jahrhundert sowie der Nachnutzung digitaler Bibliotheksdaten in Wissenschaft und Kreativwirtschaft werden die vielfältigen Möglichkeiten und Potenziale der Nutzung von Kuratierungstechnologien zur Datenaufbereitung, Datenanreicherung und Bereitstellung von attraktiven Diensten in Bibliotheken sowie für die Entwicklung neuartiger Forschungs- und Geschäftsfelder in deren Umfeld aufgezeigt. *http://digitale-kuratierung.de/

bibliothekendigitalisierungkünstliche intelligenz
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildau

This german presentation was presented at the 8th "Wildauer Bibliothekssymposium" in Wildau, GE. It introduces the audience into the EU funded research project DURAARK and gives an insight for the first archieved goals and next steps concerning the preservation of three dimensional architectural data.

preservation long term 3d semantic architecture
Europeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - Semantics
Named Entity Recognition - trivial?
Essen liegt in Nordrhein-Westfalen.
Essen ist lecker.
Essen ist schön.
Essen ist groß.
Essen duftet.
Es gibt gutes Essen in Essen.
Essen macht satt.
Essen macht mobil.
Demonstrator
Named Entity Recognition - Ziele
• tiefere automatische Erschließung der Volltexte
• Suche nach Personen, Orten und Organisationen auf dem Portal der
digitalisierten Sammlungen oder in Zeitungen (ZEFYS)
• Digital Humanities
• Extraktion sozialer Netzwerke aus historischen Texten (SoNAR-IDH)
• historische Ortsnamen Konkordanz
• Vorbedingung für Named Entity Disambiguierung und Verlinkung:
• automatische eindeutige Identifikation einer Named Entity, z.B.:
• GND - Eintrag
• Wikidata Datensatz
• Wikipedia Seite
• Geo-koordinaten (Toponyme)
NER in OCR- Volltexten
Vorwort von Alexander v. Humboldt zu den "Erinnerungen der Reise nach Indien von S. K. H. dem Prinzen
Waldemar von Preussen" : [Berlin, den 18 December 1854]
Named Entity Recognition mit BERT
Bidirectional Encoder Representations from
Transformers

Recommended for you

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...

Workshop Texterfassung historischer Dokumente, 6-7 September 2016, Berlin, Germany.

digitisationnewspapers
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library

The EuropeanaTech Community and Europeana Foundation are delighted to introduce a new webinar series to explore the opportunities and challenges of working with Artificial Intelligence in the cultural heritage and arts sector.

quratordigitizationdigital libraries
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte

DINI AG KIM Workshop `21

digital librariesdigitizationocr
Feedforward - Netze
[1] Modifiziert aus: Rumelhart et al., Learning representations by back-propagating errors, Nature 1986.
[1]
Rekurrente - Netze
[1]
BERT - Architektur
[1]
[1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018
Transformer
Encoder [1]
[1] Vaswani et al., Attention Is All You Need, NIPS 2017
BERT - Vortraining
• [CLS] Der Strom, der nachts, wenn die Produktion [MASK] der
Bettfedernfabrik ruhte, nicht gebraucht wurde, wurde für die Kühl- und
Gefrieranlagen genutzt. [SEP] Ab 1951 nutzte man eine Spezialapparatur,
mit der frische Fische sofort [MASK] dem Fang eingefroren werden
konnten. [SEP]
Aufeinanderfolgend: Ja
• [CLS] Rollins Eltern stammen [MASK] den karibischen Jungferninseln. [SEP]
Kern der Sendung sind [MASK] Lach- und Sachgeschichten. [SEP]
Aufeinanderfolgend: Nein

Recommended for you

OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen

DHd AG Zeitungen & Zeitschriften, 22-04-2021

digitizationdigital librariesdigital humanities
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?

The document discusses the role of libraries in digitization and digital humanities. It provides an overview of the Berlin State Library's digitization efforts including its in-house digitization center that produces 1.7M images annually. It also describes the library's digital collections portal containing over 180,000 digitized documents. Additionally, it outlines several projects involving newspaper digitization, optical character recognition improvement, named entity recognition, and developing an experimental space for digital research.

digital librariesdigitisationdigital humanities
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers

This document discusses challenges and opportunities in analyzing digitized historical newspapers. It describes several projects aimed at improving OCR accuracy using deep learning models, extracting structural information using computer vision and heuristics, and establishing standards for metadata and evaluation. Key challenges include the need for more granular and representative ground truth newspaper data, methods that combine machine learning and domain knowledge, and community efforts around shared tasks, seminars, and an atlas of digitized newspapers to advance interdisciplinary research. The overall goal is to make cultural heritage collections more accessible online through improved digitization and analysis of newspapers.

digital librariesdigitisationdigital humanities
BERT - Vortraining
[1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018
[1]
BERT - Vortraining
Google:
● BERT-base: 110M Parameter
● 100 Sprachen
● 100 größte Wikipedias
● 16x Google
Tensor Processing Units
mit jeweils 64GB
● Rechenzeit ca. 4 Tage
Qurator-SBB:
● Starten mit Google Modell
● 2.333.647 deutschsprachige
Textseiten (OCR) aus den
digitalisierten Sammlungen
● 1x NVIDIA V100 GPU mit 32GB
● 10 Epochen
● Rechenzeit ca. 2 Wochen
BERT - NER Training
[1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018
[1]
NER Training - Ground Truth
● CoNLL 2003 corpus (ca. 200.000 Tokens)
● GermEval Konvens 2014 corpus (ca. 450.000 Tokens)
● historische Zeitungen (Europeana Newspapers):
○ Zeitungen um 1926 (Landesbibliothek Dr. Friedrich
Teßmann, ca. 70.000 Tokens, LFT)
○ Zeitungen des Zeitraums 1710 - 1873 (Österreichische
Nationalbibliothek, ca. 30.000 Tokens, ONB)
○ Zeitungen des Zeitraums 1872 - 1930 (Staatsbibliothek
zu Berlin, ca. 50.000 Tokens, SBB)

Recommended for you

AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage

AI-based Digital Curation Technologies for Cultural Heritage; Qurator2020 Conference, 20 January 2020, Berlin, Germany.

#quratorqurator2020digital libraries
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers

2nd Baltic Summer School of Digital Humanities Essentials of Coding and Encoding, 23-26 July 2019 National Library of Latvia, Riga, Latvia

digital librarieseuropeananewspapers
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...

Zeitschriften als Netzwerke. Perspektiven digitaler Erforschung und Darstellung ZfL Workshop, Berlin, 13.07.2017

[1] Kai Labusch, Clemens Neudecker and David Zellhöfer. BERT for Named Entity Recognition in Contemporary and Historic German, KONVENS 2019
[1]
Approximative nächste Nachbarn Suche
Ausblick:
Named Entity Disambiguierung (NED)
So wurden Erik Axel Karlfeldt
1931 und UN-Generalsekretär
Hammarskjöld 1961 posthum
geehrt.
● BERT embeddings
● Fasttext embeddings
● FLAIR embeddings
neath - Kooperation mit SoNAR-IDH
Ausblick
● M18 - M36
○ OCR Postcorrection, OCR-D Integration
○ Strukturerkennung, Bildähnlichkeitssuche
○ Semantische Generalisierung (Embeddings, Topic Models, Ngrams)
○ Toponymauflösung
○ Disambiguierung und Verlinkung
● #QURATOR2020 Konferenz, 20-21 Januar 2020, Berlin
○ https://qurator.ai/conference-qurator-2020/
● Demonstrator(en)
○ https://digital-beta.staatsbibliothek-berlin.de/
○ https://lab.sbb.berlin

Recommended for you

OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents

OCR-D is an open source framework for optical character recognition (OCR) of historical printed documents. It consists of a coordination project and 8 module projects that develop technical solutions for challenges in OCR of historical prints. The goals are to standardize metadata, annotations, and formats to enable large-scale OCR of historical texts. OCR-D provides specifications, reference implementations, ground truth data, and scientific workflows to support development and evaluation of OCR tools and methods for historical documents.

ocr
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte

Digital Humanities Netzwerk, 07-11-2018, Staatsbibliothek zu Berlin

xmlocrdigital libraries
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe

This document summarizes recent developments in newspaper digitization projects across Europe. It discusses Germany's efforts to establish a national newspaper portal and increase availability of digitized newspapers through a DFG funding call. It also briefly outlines newspaper digitization work in other countries like the UK, Sweden, Denmark, and Switzerland. Finally, it provides an overview of the Europeana Newspapers project and efforts to find a new home for its 10TB of digitized newspaper data, as well as growing interest from digital humanities researchers in utilizing digitized historical newspapers.

europeananewspapersdigital libraries
Danke für die
Aufmerksamkeit!
Fragen?
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
IIA Kolloquium Metadatenmanagement
14. November 2019, SBB, Berlin
qurator@sbb.spk-berlin.de

More Related Content

What's hot

Kumcintroductiontoflowcytometry 141106163704-conversion-gate02
Kumcintroductiontoflowcytometry 141106163704-conversion-gate02Kumcintroductiontoflowcytometry 141106163704-conversion-gate02
Kumcintroductiontoflowcytometry 141106163704-conversion-gate02
Martin Falk
 
References (Citations & Bibliography)
References (Citations & Bibliography)References (Citations & Bibliography)
References (Citations & Bibliography)
Grace Mendoza
 
Information packaging
Information packagingInformation packaging
The new SCONUL 7 pillars
The new SCONUL 7 pillarsThe new SCONUL 7 pillars
The new SCONUL 7 pillars
Fiona MacLellan
 
New trends and skill in library automation: impact of Artificial Intelligence...
New trends and skill in library automation: impact of Artificial Intelligence...New trends and skill in library automation: impact of Artificial Intelligence...
New trends and skill in library automation: impact of Artificial Intelligence...
Mokhtar Ben Henda
 
Scifinder scholar ppt
Scifinder scholar pptScifinder scholar ppt
Scifinder scholar ppt
skpalmlis
 
4 Literature Search Techniques 2 Strategic Searching
4 Literature Search Techniques 2 Strategic Searching4 Literature Search Techniques 2 Strategic Searching
4 Literature Search Techniques 2 Strategic Searching
richard kemp
 
Metadata is a Love Note to the Future
Metadata is a Love Note to the FutureMetadata is a Love Note to the Future
Metadata is a Love Note to the Future
Rachel Lovinger
 
Recette biblio
Recette biblioRecette biblio
Recette biblio
budij
 
Thermo Fisher Introduction
Thermo Fisher IntroductionThermo Fisher Introduction
Thermo Fisher Introduction
Kim Bunt
 
Marketing of academic library services & products
Marketing of academic library services & productsMarketing of academic library services & products
Marketing of academic library services & products
Supriya Kuber
 
Bachelor\'s Thesis Presentation
Bachelor\'s Thesis PresentationBachelor\'s Thesis Presentation
Bachelor\'s Thesis Presentation
Natalia_Ladygina
 
Manuscript structure: How to convey your most important ideas through your paper
Manuscript structure: How to convey your most important ideas through your paperManuscript structure: How to convey your most important ideas through your paper
Manuscript structure: How to convey your most important ideas through your paper
Editage Insights (Resources for authors and journals)
 
BIBFRAME, Linked data, RDA
BIBFRAME, Linked data, RDA BIBFRAME, Linked data, RDA
BIBFRAME, Linked data, RDA
robin fay
 
Basic Introduction to Mendeley Reference Manager
Basic Introduction to Mendeley Reference ManagerBasic Introduction to Mendeley Reference Manager
Basic Introduction to Mendeley Reference Manager
Kampala International University
 
Trends in scientific_comm. by Aman Kr Kushwaha
Trends in scientific_comm. by Aman Kr KushwahaTrends in scientific_comm. by Aman Kr Kushwaha
Trends in scientific_comm. by Aman Kr Kushwaha
AMAN KUMAR KUSHWAHA
 
How to Use Chemical Abstracts (in Print)
How to Use Chemical Abstracts (in Print)How to Use Chemical Abstracts (in Print)
How to Use Chemical Abstracts (in Print)
Claire Nickerson
 
RabbitMQ
RabbitMQRabbitMQ
Digital analytics upskilling & career tips
Digital analytics upskilling & career tipsDigital analytics upskilling & career tips
Digital analytics upskilling & career tips
Phil Pearce
 
medical literature search process
 medical literature search process medical literature search process
medical literature search process
Saroj Suwal
 

What's hot (20)

Kumcintroductiontoflowcytometry 141106163704-conversion-gate02
Kumcintroductiontoflowcytometry 141106163704-conversion-gate02Kumcintroductiontoflowcytometry 141106163704-conversion-gate02
Kumcintroductiontoflowcytometry 141106163704-conversion-gate02
 
References (Citations & Bibliography)
References (Citations & Bibliography)References (Citations & Bibliography)
References (Citations & Bibliography)
 
Information packaging
Information packagingInformation packaging
Information packaging
 
The new SCONUL 7 pillars
The new SCONUL 7 pillarsThe new SCONUL 7 pillars
The new SCONUL 7 pillars
 
New trends and skill in library automation: impact of Artificial Intelligence...
New trends and skill in library automation: impact of Artificial Intelligence...New trends and skill in library automation: impact of Artificial Intelligence...
New trends and skill in library automation: impact of Artificial Intelligence...
 
Scifinder scholar ppt
Scifinder scholar pptScifinder scholar ppt
Scifinder scholar ppt
 
4 Literature Search Techniques 2 Strategic Searching
4 Literature Search Techniques 2 Strategic Searching4 Literature Search Techniques 2 Strategic Searching
4 Literature Search Techniques 2 Strategic Searching
 
Metadata is a Love Note to the Future
Metadata is a Love Note to the FutureMetadata is a Love Note to the Future
Metadata is a Love Note to the Future
 
Recette biblio
Recette biblioRecette biblio
Recette biblio
 
Thermo Fisher Introduction
Thermo Fisher IntroductionThermo Fisher Introduction
Thermo Fisher Introduction
 
Marketing of academic library services & products
Marketing of academic library services & productsMarketing of academic library services & products
Marketing of academic library services & products
 
Bachelor\'s Thesis Presentation
Bachelor\'s Thesis PresentationBachelor\'s Thesis Presentation
Bachelor\'s Thesis Presentation
 
Manuscript structure: How to convey your most important ideas through your paper
Manuscript structure: How to convey your most important ideas through your paperManuscript structure: How to convey your most important ideas through your paper
Manuscript structure: How to convey your most important ideas through your paper
 
BIBFRAME, Linked data, RDA
BIBFRAME, Linked data, RDA BIBFRAME, Linked data, RDA
BIBFRAME, Linked data, RDA
 
Basic Introduction to Mendeley Reference Manager
Basic Introduction to Mendeley Reference ManagerBasic Introduction to Mendeley Reference Manager
Basic Introduction to Mendeley Reference Manager
 
Trends in scientific_comm. by Aman Kr Kushwaha
Trends in scientific_comm. by Aman Kr KushwahaTrends in scientific_comm. by Aman Kr Kushwaha
Trends in scientific_comm. by Aman Kr Kushwaha
 
How to Use Chemical Abstracts (in Print)
How to Use Chemical Abstracts (in Print)How to Use Chemical Abstracts (in Print)
How to Use Chemical Abstracts (in Print)
 
RabbitMQ
RabbitMQRabbitMQ
RabbitMQ
 
Digital analytics upskilling & career tips
Digital analytics upskilling & career tipsDigital analytics upskilling & career tips
Digital analytics upskilling & career tips
 
medical literature search process
 medical literature search process medical literature search process
medical literature search process
 

Similar to Kuratieren mit künstlicher Intelligenz

OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
cneudecker
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
cneudecker
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
cneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
cneudecker
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
ETH-Bibliothek
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Joachim Kemper
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
cneudecker
 
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...
Georg Vogeler
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
Georg Rehm
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Georg Rehm
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
cneudecker
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildau
panitzm
 
Europeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - Semantics
Europeana Newspapers
 
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
cneudecker
 

Similar to Kuratieren mit künstlicher Intelligenz (14)

OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildau
 
Europeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - Semantics
 
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
 

More from cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
cneudecker
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
cneudecker
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
cneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
cneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
cneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
cneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
cneudecker
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
cneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
cneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
cneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
cneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
cneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
cneudecker
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
cneudecker
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
cneudecker
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
cneudecker
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
cneudecker
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
cneudecker
 

More from cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
 

Kuratieren mit künstlicher Intelligenz

  • 1. “Kuratieren” mit künstlicher Intelligenz Neuigkeiten und Fortschritte aus dem Forschungsprojekt Qurator Staatsbibliothek zu Berlin – Preußischer Kulturbesitz IIA Kolloquium Metadatenmanagement 14. November 2019, SBB, Berlin qurator@sbb.spk-berlin.de
  • 2. Inhalte ● Einleitung (Clemens Neudecker) ● Qualitätsverbesserung OCR (Mike Gerber) ● Layouterkennung (Vahid Rezanezhad) ● Named Entity Recognition (Kai Labusch) ● Diskussion
  • 3. Qurator • Flexible KI-Verfahren für die adaptive Analyse und kreative Generierung digitaler Inhalte in branchenübergreifenden Kontexten • Förderung durch BMBF Programm Unternehmen Region: Wachstumskerne • 01.11.2018 - 31.10.2021 (36 Monate) • 10 Projektpartner aus Berlin • Webseite: https://qurator.ai/
  • 4. Partner und Themen DFKI: KI-Plattform für Kuratierungstechnologien Wikimedia DE: Kuratierung für Wikidata 3pc: Interaktives Storytelling Condat: TV-/Medien-Publikationen SBB: Digitalisiertes kulturelles Erbe Ada: Biomedizinisches Wissen FOKUS: Corporate Smart Insights (CSI) ART+COM: Multimediale Ausstellungs-Kuratierung Ubermetrics: Media Intelligence und Risikomonitoring Semtation: Intelligente Prozessmodellierung
  • 5. Qurator in der SBB (1/2) • Gemeinsame Projektsteuerung durch Forschungsreferent (GD) und Referatsleiter IT-Anwendungen und Datenmanagement (IDM2) • Finanzierung 3x FTE E13 FuE (36 Monate) = 108 PM + 12 PM Eigenanteil SBB • Mike Gerber • Kai Labusch • Robin Schaefer • Vahid Rezanezhad • SPK-KI Server: • 2x Nvidia Tesla V100 32GB • 2x 18-core Intel XEON 2.7 Ghz • 192GB DDR4 RAM https://xkcd.com/1838/
  • 6. Qurator in der SBB (2/2) • Open Source Entwicklung von Technologien und Anwendungen • https://code.dev.sbb.berlin/qurator • https://github.com/qurator-spk • Freie Bereitstellung von Daten und Modellen • https://zenodo.org/communities/stabi • https://lab.sbb.berlin • Mehr zur SBB in Qurator • https://qurator.ai/partner/staatsbibliothek-zu-berlin/ • SBB Blogserie „Künstliche Intelligenz“ https://blog.sbb.berlin/tag/wissenschaftsjahr-2019/
  • 8. OCR-Qualitätsverbesserung: Problem und Aufgabe Die digitalisierten Sammlungen der SBB 86% ohne Volltext nicht zugänglich für Recherche, Textanalyse oder Menschen mit Sehbeeinträchtigung 14 % mit Volltext in weitgehend unbestimmter Qualität 160.000 Dokumente
  • 9. OCR-Qualität: Ziele • Qualitätsverbesserung ➡ Wir möchten die bestmöglichen Volltexte! • Qualitätsbestimmung ➡ Ausblick (am Ende)
  • 10. Was ist OCR? • Optical Character Recognition • Lesen lernen • Heutzutage mit den Methoden des Machine Learning lius Iheſus Chriſtus unica ſalus noſtra. Atqui tantum in Eccleſia uera Zion eſt, uerbum Dei purum abſcq fermento hæ‐ reſew̃n. Tantum in Eccleſia ut in ſuo tem‐ plo habitat ſpiritus ſanctus, habitat Chri Abdias Propheta Explanatus Commentariolo (1537)
  • 11. Exkurs DFG-Projekt OCR-D ● DFG-gefördertes Koordinierungsprojekt + 8 verteilte Forschungsprojekte zu OCR für historische Drucke ● Webseite: http://ocr-d.de/ ● Module: https://ocr-d.github.io/projects ● Source Code: https://github.com/OCR-D ● Dokumentation: https://ocr-d.github.io/ ● Ground Truth: http://ocr-d.github.io/gt-repo ● Chat: https://gitter.im/OCR-D/Lobby
  • 12. Ein moderner OCR-Workflow Binarisierung Zeilen- segmentierung Zeilen-OCR Postcorrection 20 – rath mit einer Pœna fiſcali angeſehen worden, und ſolche durch des Hon. Graffen von Königsfeld Vor– ſpruch, nur aus Gnaden nachgelaſſen erhalten. Sondern man hat auich dieſen 4. Wochen lang alle Abend bey der Jnquißtin gantz allein gelaſſen Binnen welcher gantzer Zeit der Schreiber Bredekam beſtändig bey Jhme geweſen, und ſich in der am 13ten Octobt. a.c. in Judicio gegen ſeinen geweſenen Hrn. introducirter Appellation deſſen Bey- raths bedienet hat; 33) Dabenehenſt iſt der Schreiber binnen dieſer gantzen Zeit auf freyem Fuß geblieben, und hat nicht nur durch ſeinen Conlulenten, ſondern auch, weilen del lnquilti ſelbſten in Jhtem Gefängnüß ſo viele Freyheit gelaſſen worden, daß ſie frembden Beſuch von Jhren Anberwandten ohngehindert en– pfangen können, durch andere Perſonen ſich mit ihr über alles, Was Er oder ſie dereinſten zu ſagen hat– ten· vereinigen können, immaſſen der Hofrath [...] 20 rath mit einer Pœna fiſcali angeſehen worden, und ſolche durch des Hrn. Graffen von Königsfeld Vor– ſpruch, nur aus Gnaden nachgelaſſen erhalten. Sondern man hat auch dieſen 4. Wochen lang alle Abend bey der Jnquisitin gantz allein gelaſſen. Binnen welcher gantzer Zeit der Schreiber Bredekaw beſtändig bey Jhme geweſen, und ſich in der am 13 ten Octobr. a.c. in Judicio gegen ſeinen geweſenen Hrn. introducirter Appellation deſſen Bey- raths bedienet hat; 33) Dabenebenſt iſt der Schreiber binnen dieſer gantzen Zeit auf freyem Fuß geblieben, und hat nicht nur durch ſeinen Conſulenten, ſondern auch, weilen der Inquiſitin ſelbſten in Jhrem Gefängnüß ſo viele Freyheit gelaſſen worden, daß ſie frembden Beſuch von Jhren Anverwandten ohngehindert em– pfangen können, durch andere Perſonen ſich mit ihr über alles, Was Er oder ſie dereinſten zu ſagen hat– ten, vereinigen können, immaſſen der Hofrath [...] Acten-mäßiger Verlauff, Des Fameusen Processus sich verhaltende ... (1749)
  • 13. Warum Zeilen-OCR? • Segmentieren einer Textzeile in Zeichen problematisch • insbesondere bei schwierigen Dokumenten und Handschriften • Erstellen von Ground Truth für unsegmentierte Zeilen wesentlich weniger aufwändig • Ein Algorithmus kann mit dem Kontext innerhalb der Zeile arbeiten Verdammt d cl rn m nn
  • 14. Zeilen-OCR mit Deep Neural Network y = fa(x) Text Bild Modell mit unbekannten Parametern a
  • 15. lernt Features: Kurven, Kanten, Ecken etc. Recurrent Layer Feature Maps → Probability Matrix Convolutional Layer Pixel → Feature Maps Connectionist Temporal Classification Layer Probability Matrix → Labels lernt Zeichen in Bildfenstern + Kontext lernt wahrscheinlichsten Ausgabetext
  • 16. OCR-Qualitätsverbesserung: Modelle für die Zeilen-OCR • Standard-Modelle in Tesseract OCR • Nicht reproduzierbar • Kodierungsprobleme • ch- und ck-Ligaturen als <, > • kein langes s (ſ) für Antiqua-Satz • kein hochgestelltes e (aᵉ, uᵉ, etc.) ¹GT4HistOCR: Ground Truth for training OCR engines on historical documents in German Fraktur and Early Modern Latin – Springmann et al. • Eigenes Modell mit Calamari OCR • Reproduzierbar • Auf Basis des GT4HistOCR-Datasets¹ • Wiegendrucke, Fraktur, frühe Antiqua • 300.000 Textzeilen • 1 Woche Training auf Nvidia RTX 2080
  • 17. Voting mehrerer OCR-Modelle • Statt einem Modell werden k gleich starke Modelle trainiert • k-fold Cross Validation • Die Modelle voten – stimmen über ein Ergebnis ab ➡ Gemeinsam stärker • Summe der Konfidenzwerte i: 0.8 l: 0.2 j: 0.0 Beyſp i: 0.4 l: 0.5 j: 0.1 el. i: 0.3 l: 0.4 j: 0.3 Σ: 1.5
  • 18. OCR-Beispiel VD18¹ ¹Acten-mäßiger Verlauff, Des Fameusen Processus sich verhaltende ... (1749) Beispielzeile manuell in drei Teile umgebrochen Tesseract 4.1 (frk) SBB {Zeilensegmentierung, Binarisierung, OCR-Modelle}: rie ſönſten hier gewöhnlich articuli impertinenres der dergleichen Gewe zug lafien dim die von wie ſonſten hier gewoͤ hnlich, articuli impertinentes oder dertleichen Intertogatotia zugelaſſen/ auch die von
  • 19. Stol, Pomrn. [56000] Jn unſerem Genoſſenſchaftsregiſter iſt heute unter Nr. 113 die ,,Landliche Spar⸗ und Darlehnokaſſe Schmaatz, eingetragene Genofſenſchaft mit be⸗ ſchränkter Haftpflicht in Schmaatz', eingetragen worden. Gegenſtand des Unternehmens iſt die Gewährung von Darlehen an die Mitglieder für ihren Geſchäfts⸗ und Wirtſchaftsbetrieb, Er- leichterung der Geldanlage und Förderung des Sparſinns, nebenbei gemeinſchaftliche Beſchaffuag landwirtſchaftlicher Betriebs. mittel. Die Haftſumme beträgt 20 , die Höchſtzahl der Geſchäftsanteile 100. Vorſtandsmitglieder ſind: der Hofbeſitzer Albert Timreck als Vorſitzender, der Lehrer Auguſt Völz und der Hofbeſitzer Paul Selt, ſämtlich in Schmaatz. Das Statut iſt vom 25. Juli 192. Das Geſchäftsjahr lauft vom 1. April bis 31. März. Die Bekanntmachungen er⸗ folgen unter der Firma der Genoſſenſchaft im Pommerſchen Genoſſenſchaftsblatt, beim Eingehen dieſes Blattes bis auf weiteres im Deutſchen Reichsanzeiger. Die Willenserklärungen des Vorſtands erfolgen durch zwei Vorſtandsmitglieder. Hie Zeichnung geſchieht derart, daß die Zeich- nenden zu der Firma ihre Namensunter⸗ ſchrift beifügen. Die Einficht in die Liſte der Genoſſen iſt während der Geſchäfts. ſtunden des Gerichts jedermann geſtattet. Stolp, den 1. Auguſt 1920. Das Amtsgericht. ¹ Digitalisat aus dem Reichsanzeiger August 1920 (via UB Mannheim) OCR-Beispiel Zeitung¹
  • 20. • Ground Truth ≟ OCR-Resultat • Visualisierung von Unterschieden Ihrem Gefängnüß ≟ Jhrem Gefängnüß • Metriken: • Zeichenfehlerrate CER CER = (s + i + d)/l • Wortfehlerrate WER • Eigenentwicklung • Unicode-Support (m̃ ≟ m, ñ = ñ, MUFI etc.) • OCR-D-Support • Substitutionen (fi → fi) OCR-Evaluation: dinglehopper
  • 21. OCR-Qualitätsverbesserung: Erste Ergebnisse • Dataset: ~ 350 Seiten • aus dem SBB-Bestand • Fraktur, Antiqua etc. • Reduzierung der CER • von >0.10 (Median) • Tesseract Zeilensegmentierung + Tesseract frk • auf 0.06 (Median) • SBB Zeilensegmentierung + Calamari voted GT4HistOCR (hier im Plot anderes Tesseract- Modell ebenfalls basierend auf
  • 22. OCR-Qualitätsverbesserung: Nächste Schritte • Robusteres OCR-Modell • Dataset aus DTA → Millionen Textzeilen • Augmentation → Robuster gegen Noise und Skewing • Postcorrection via Sprachmodell • Verwendung a. der Wahrscheinlichkeiten b. aller k Modellergebnisse ➡ Informiertere Postcorrection
  • 23. OCR-Qualitätsverbesserung: Nächste Schritte • Qualitätsbestimmung • Für Volltexte interessante Dokumente • Technisch durchführbar • Gut: bspw. moderne Drucke • Schlecht: bspw. Handschriften • Bestehende Volltexte • Kandidaten für Korrekturen • Qualität abschätzen • Anhand von • Metadaten und Bildmerkmalen • OCR-Konfidenz ➡ Ressourcenplanung, UX und Korrektur
  • 25. Layouterkennung: • Pixelwise-Segmentierung • Page(Rahmen)-Erkennung • Layout-Erkennung • Beispiel: Textregion (benötigt für OCR), Bilder , Grafiken, Tabellen, Separatoren etc. erkennen • Zeilenenerkennung • Binarisierung
  • 28. Woraus lernt das Modell? Ground Truth Modelltraining
  • 31. Dokument ohne vertical Separators Bild Erstes Ergebnis Nachkorrektur
  • 32. Zeilenerkennung: 1. Zeilenerkennung für ganzes Dokument 2. Zuschneiden (Crop) für entsprechende Textregion 3. Suche nach Linienboxen
  • 35. Binarisierung • Wieder Pixelweise Segmentierung • Ground Truth: Ergebnisse des Binarisierungswettbewerbs (DIBCO) • Kombinationen von 4 Modellen (Deshalb ist es langsam) • Funktioniert gut für Texte • Macht kein “Pfeffer”-Denoising
  • 37. Layouterkennung: Nächste Schritte • Bereitstellung der Ground Truth für die Binarisierung (Verbesserungen für handschriftliche Anmerkungen, Bilder und “Pfeffer”-Denoising) • Zeilenreihenfolge für Zeitungen mit mehr als einer Spalte erweitern, deren Separatoren (oder Überschriften) sich überschneiden • Verbesserung der Modelle und heuristischen Methoden • Entwicklung einer Methode für Linien, die teilweise schief sind • Trainieren eines Modell um freien Raum zwischen Regionen zu erkennen
  • 39. Named Entity Recognition (NER) ● Eigennamenerkennung ● Informationsextraktion aus gegebenem Volltext ● automatische Identifikation und Klassifikation von Eigennamen ● Folge von Wörtern, die eine real existierende Entität beschreiben, wie z. B.: ○ Personen ○ Orte ○ Organisationen ○ Produkte
  • 41. Named Entity Recognition - trivial? Essen liegt in Nordrhein-Westfalen. Essen ist lecker. Essen ist schön. Essen ist groß. Essen duftet. Es gibt gutes Essen in Essen. Essen macht satt. Essen macht mobil. Demonstrator
  • 42. Named Entity Recognition - Ziele • tiefere automatische Erschließung der Volltexte • Suche nach Personen, Orten und Organisationen auf dem Portal der digitalisierten Sammlungen oder in Zeitungen (ZEFYS) • Digital Humanities • Extraktion sozialer Netzwerke aus historischen Texten (SoNAR-IDH) • historische Ortsnamen Konkordanz • Vorbedingung für Named Entity Disambiguierung und Verlinkung: • automatische eindeutige Identifikation einer Named Entity, z.B.: • GND - Eintrag • Wikidata Datensatz • Wikipedia Seite • Geo-koordinaten (Toponyme)
  • 43. NER in OCR- Volltexten Vorwort von Alexander v. Humboldt zu den "Erinnerungen der Reise nach Indien von S. K. H. dem Prinzen Waldemar von Preussen" : [Berlin, den 18 December 1854]
  • 44. Named Entity Recognition mit BERT Bidirectional Encoder Representations from Transformers
  • 45. Feedforward - Netze [1] Modifiziert aus: Rumelhart et al., Learning representations by back-propagating errors, Nature 1986. [1] Rekurrente - Netze [1]
  • 46. BERT - Architektur [1] [1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018
  • 47. Transformer Encoder [1] [1] Vaswani et al., Attention Is All You Need, NIPS 2017
  • 48. BERT - Vortraining • [CLS] Der Strom, der nachts, wenn die Produktion [MASK] der Bettfedernfabrik ruhte, nicht gebraucht wurde, wurde für die Kühl- und Gefrieranlagen genutzt. [SEP] Ab 1951 nutzte man eine Spezialapparatur, mit der frische Fische sofort [MASK] dem Fang eingefroren werden konnten. [SEP] Aufeinanderfolgend: Ja • [CLS] Rollins Eltern stammen [MASK] den karibischen Jungferninseln. [SEP] Kern der Sendung sind [MASK] Lach- und Sachgeschichten. [SEP] Aufeinanderfolgend: Nein
  • 49. BERT - Vortraining [1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018 [1]
  • 50. BERT - Vortraining Google: ● BERT-base: 110M Parameter ● 100 Sprachen ● 100 größte Wikipedias ● 16x Google Tensor Processing Units mit jeweils 64GB ● Rechenzeit ca. 4 Tage Qurator-SBB: ● Starten mit Google Modell ● 2.333.647 deutschsprachige Textseiten (OCR) aus den digitalisierten Sammlungen ● 1x NVIDIA V100 GPU mit 32GB ● 10 Epochen ● Rechenzeit ca. 2 Wochen
  • 51. BERT - NER Training [1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018 [1]
  • 52. NER Training - Ground Truth ● CoNLL 2003 corpus (ca. 200.000 Tokens) ● GermEval Konvens 2014 corpus (ca. 450.000 Tokens) ● historische Zeitungen (Europeana Newspapers): ○ Zeitungen um 1926 (Landesbibliothek Dr. Friedrich Teßmann, ca. 70.000 Tokens, LFT) ○ Zeitungen des Zeitraums 1710 - 1873 (Österreichische Nationalbibliothek, ca. 30.000 Tokens, ONB) ○ Zeitungen des Zeitraums 1872 - 1930 (Staatsbibliothek zu Berlin, ca. 50.000 Tokens, SBB)
  • 53. [1] Kai Labusch, Clemens Neudecker and David Zellhöfer. BERT for Named Entity Recognition in Contemporary and Historic German, KONVENS 2019 [1]
  • 54. Approximative nächste Nachbarn Suche Ausblick: Named Entity Disambiguierung (NED) So wurden Erik Axel Karlfeldt 1931 und UN-Generalsekretär Hammarskjöld 1961 posthum geehrt. ● BERT embeddings ● Fasttext embeddings ● FLAIR embeddings
  • 55. neath - Kooperation mit SoNAR-IDH
  • 56. Ausblick ● M18 - M36 ○ OCR Postcorrection, OCR-D Integration ○ Strukturerkennung, Bildähnlichkeitssuche ○ Semantische Generalisierung (Embeddings, Topic Models, Ngrams) ○ Toponymauflösung ○ Disambiguierung und Verlinkung ● #QURATOR2020 Konferenz, 20-21 Januar 2020, Berlin ○ https://qurator.ai/conference-qurator-2020/ ● Demonstrator(en) ○ https://digital-beta.staatsbibliothek-berlin.de/ ○ https://lab.sbb.berlin
  • 57. Danke für die Aufmerksamkeit! Fragen? Staatsbibliothek zu Berlin – Preußischer Kulturbesitz IIA Kolloquium Metadatenmanagement 14. November 2019, SBB, Berlin qurator@sbb.spk-berlin.de