OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition

C
OCR – Herausforderungen und
Werkzeuge auf dem Weg vom
Bild zur Digitalen Edition
Clemens Neudecker
Staatsbibliothek zu Berlin –
Preußischer Kulturbesitz
@cneudecker
OCR
• OCR = Optical Character Recognition
zu Deutsch: Texterkennung/Zeichenerkennung
• Ziel: Umwandlung von Bilddateien
in elektronischen Text
 durchsuchbar & editierbar
• ≠ Handschriftenerkennung (HTR),
Spracherkennung (ASR)
Kurze Geschichte der OCR
• 1913: Edmund Fournier d'Albe entwickelt das
Optophone zur Umwandlung von Text in Tonsignale
• 1974: Ray Kurzweil produziert die Kurzweil Reading
Machine mit dem Ziel Blinden das Lesen zu
ermöglichen
• 1980er: Erste kommerzielle OCR Anwendungen
entstehen, darunter OmniPage, Abbyy und
Tesseract (HP)
Verarbeitungsschritte bei der OCR
• Binarisierung = Umwandlung von
Graustufen/Farbbildern in
Schwarz-Weiß
• Segmentierung = Aufteilung der Seite
in Grafikelemente, Text, Spalten etc.
• Texterkennung = Erkennung von Zeichen
und Wörtern
• Enkodierung = Formatierung des Text
(sowie Layoutinformationen) für die
Ausgabe
Binarisierung
Abbildungen: Bayerische Staatsbibliothek
Adaptive Binarisierung
• Text bleibt erhalten,
Rauschen wird entfernt
Abbildungen: ABBYY
Segmentierung
Abbildungen: Primaresearch, University of Salford
Segmentierung
• Mehrstufiges Verfahren
1) Erkennung von Layout
(Spalten, Grafiken, Tabellen etc.)
2) Erkennung von Textregionen
3) Erkennung von Zeilen
4) Erkennung von Wörtern
5) Erkennung von Glyphen
(Buchstaben, Satzzeichen etc.)
Layout Erkennung
• Schwierigkeiten:
– Überschriften und
Initialen
– Grafiken und
Illustrationen
– Tabellen
– Bilder mit komplexen
Umrissen (Polygone)
Abbildung: Primaresearch, University of Salford
Layout Erkennung
• Sonderfall Zeitungen:
– Mehrspaltig
– Artikel
– Grafiken
– Werbung
• Europeana
Newspapers
Abbildung: Staatsbibliothek zu Berlin
Segementierung von Zeilen
• Schwierigkeiten:
– Linien sind nicht
gerade
– Linien werden
miteinander
verbunden
– Spalten
Abbildungen: Primaresearch, University of Salford / NCSR Demokritos
Segmentierung von Wörtern
• Schwierigkeiten:
– Zusammengesetzte
Wörter
– Zeilenumbrüche
– „Catch words“
Abbildung: NCSR Demokritos
Segmentierung von Glyphen
• Schwierigkeiten:
– Fraktur, Fraktur, Fraktur
(es gibt über 3,000
verschiedene
Varianten)
– Sonderzeichen,
Satzzeichen
– Ligaturen
Abbildung: NCSR Demokritos
Segmentierung von Glyphen
Abbildungen: NCSR Demokritos
Texterkennung
Raster classifier Contour classifier
Feature differentiating classifierStructure classifier
Abbildungen: ABBYY
Enkodierung
Abbildung: Wikipedia
Ein paar gängige OCR Formate
• ALTO
• FineReader XML
• hOCR
• TEI
I
XML
ALTO
• Analyzed Layout and Text Object
• Ursprünglich entwickelt im EU-Projekt metaE
• Viele Jahre durch CCS/Hamburg betreut,
nun ein Standard der Library of Congress
• http://www.loc.gov/standards/alto/
• https://github.com/altoxml
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
FineReader XML
• XML-Ausgabeformat von ABBYY Produkten
• Hohe Granularität der Auszeichnung
• Für Geisteswissenschaftler nicht einfach zu
handhaben  Tools zur Transformation in andere
Formate spärlich
• http://www.abbyy-
developers.eu/en:tech:features:xml
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
hOCR
• HTML/XHTML Kodierung von OCR Ergebnissen
• Entwickelt von Thomas Breuel (DFKI)
• Standardformat von Tesseract, OCRopus
• Spezifikation
• https://github.com/tmbdev/hocr-tools
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
TEI
• Text Encoding Initiative
• Entwickelt für digitale Editionen
• Fokus auf inhaltliche Struktur
 Schwierigkeit vollständige Informationen
aus der OCR in TEI zu überführen
• http://www.tei-c.org/index.xml
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
Eine vertraute Szene?
VVt Venetien den 1.Junij, Anno 1618.
DJgn i f paffato te S' aö'Jifeert mo?üen/bah
.)etgi'uotbciraetail)i.r/JtmelchontDecht te /
sbnbe bele btr felbrr geiufttceert baer bnber eeniglje
jprant o^fen/bie ftcb .met beSpaenfcbeu enbeeemgljen
bifet Cbeiiupcen berbonbru befe
Abbildung: Koninklijke Bibliotheek
Wie geeignet ist das Original?
• Papier
• Schäden
• Schriftbild
• Layout
Gewelltes Papier
Abbildungen: Bayerische Staatsbibliothek
Risse
Abbildungen: British Library
Handschriftliche Anmerkungen
Abbildungen: Bayerische Staatsbibliothek
Komplexes Layout
Abbildungen: Bayerische Staatsbibliothek
Wie gut ist der Scan?
• Auflösung
– 300 ppi vs. 600 ppi?
• Bildformat/Komprimierung
• Schwarz-Weiß (Bitonal) vs. Graustufen/Farbe
• Bildoptimierung
Scan Roboter
Es geht auch noch schneller…
Massendigitalisierung…
• http://theartofgooglebooks.tumblr.com/
Durchscheinen von Text
Abbildungen: Bayerische Staatsbibliothek
OCR & historische Dokumente
• Besonderheiten historischer Rechtschreibung
• Historische Varianten:
 Historisches Wörterbuch erforderlich
• „Langes s“ Problem
• Wie lassen sich historische Varianten
von OCR Fehlern unterscheiden?
(http://ocr.cis.uni-muenchen.de/)
theylteil eyeitht
   ,
OCR Projekte
• IMPACT – Improving Access to Text
http://www.impact-project.eu/
• EU Projekt 2008 – 2012
• Entwicklung von Software, Datensets,
Empfehlungen
OCR Projekte
• Impact Center of Competence
http://www.digitisation.eu/
• Internationales „Kompetenzzentrum“ für OCR
• Entwicklung von Standards, Services
OCR Projekte
• eMOP – Early Modern OCR Project
http://emop.tamu.edu/
• Mellon Foundation gefördertes Projekt
• Open source tools, EEBO & ECCO
Konferenzen
• ICDAR = International Conference on
Document Analysis and Recognition
• 23 – 26 August 2015, Tunis, Tunesien
• http://2015.icdar.org/
Konferenzen
• DAS = Document Analysis Systems
• 11 – 14 April 2016, Santorini, Griechenland
• Website: coming soon!
Werkzeuge
• ABBYY FineReader
• Die kommerzielle Off-the-shelf Omnifont OCR
• http://ocrsdk.com/
• http://finereader.abbyy.com/
Werkzeuge
• Tesseract
• Ursprünglich entwickelt von Ray Smith (HP) in
den 1980er Jahren, seit 2006 mit Funding von
Google neu aufgelegt
• Unterstützung von Fraktur!
• https://code.google.com/p/tesseract-ocr/
Werkzeuge
• OCRopus / ocropy
• Entwickelt von Thomas Breuel (DFKI) seit
2007, seit Version 0.6 Re-design basierend
auf aktueller Forschung zu neuronalen Netzen
(„recurrent neural networks“, RNN)
• https://github.com/tmbdev/ocropy
Werkzeuge
• PRImA Labs (University of Salford, Manchester)
• Forschungsgruppe mit Fokus „Pattern
Recognition“ und „Evaluation“
• Viele nützliche Tools, Referenzdatensets
• http://primaresearch.org/tools
Werkzeuge
• ocrevalUAtion
• Entwickelt von der Universität Alicante –
umfangreichstes und komfortabelstes Tool
für die OCR Evaluation – und Open Source
• https://sites.google.com/site/textdigitisation/
• https://github.com/impactcentre/ocrevalUAtion
Qualität der OCR
• Suspicious character rate
• Character-Error-Rate
• Word-Error-Rate
• Levenshtein Distanz
• Bag of words
Qualität der OCR
Qualität der Layouterkennung
• Analyse des Layouts
• Erkennung von Spalten
• Korrektes Labelling von Strukturelementen
• Reading Order der Absätze
Ground Truth
• Ground Truth =
„…the ideal result that
the ultimate method
(the method whose
discovery will signal that
the problem is solved) is
expected to produce.“
Aletheia
• http://primaresearch.org/tools/Aletheia
Qualität der OCR
• Ein paar typische Fehler:
rn  m
u  n
b  h
1  l
• Siehe dazu auch:
http://usesofscale.com/gritty-details/basic-ocr-
correction/
Layout Evaluierung
Image
Caption
Page
Paragraph
Paragraph
Header
Abbildung: Primaresearch, University of Salford
Layout Evaluierung
Paragraph
Header
Paragraph
Image
Image
Image
Abbildung: Primaresearch, University of Salford
Layout Evaluierung
Partial MissMiss
Merge
Ground Truth
Ergebnis der
Layoutanalyse
Paragraph
Caption
Misclassi-
fication
Split
Abbildung: Primaresearch, University of Salford
Was kann man tun?
• Bsp. Trading Consequences
• http://homepages.inf.ed.ac.uk/balex/publicatio
ns/slides-DATeCH.pdf
Vielen Dank für
die Aufmerksamkeit!
Clemens Neudecker
Staatsbibliothek zu Berlin –
Preußischer Kulturbesitz
@cneudecker
1 of 58

Recommended

Text and Data Mining by
Text and Data MiningText and Data Mining
Text and Data Miningcneudecker
698 views42 slides
Museumsdokumentation by
MuseumsdokumentationMuseumsdokumentation
Museumsdokumentationbildsymbol123
202 views87 slides
Rcreeee @ beirut energy forum postshow 2011 en by
Rcreeee @ beirut energy forum postshow  2011 enRcreeee @ beirut energy forum postshow  2011 en
Rcreeee @ beirut energy forum postshow 2011 enRCREEE
705 views9 slides
Directorio telefonia-2016 by
Directorio telefonia-2016Directorio telefonia-2016
Directorio telefonia-2016Carlos Laurente
1.3K views9 slides
Pwa intro, 1 q2016 by
Pwa intro, 1 q2016Pwa intro, 1 q2016
Pwa intro, 1 q2016Eric Chua, 蔡金兴
598 views13 slides
Sponsorship Opportunities by
Sponsorship OpportunitiesSponsorship Opportunities
Sponsorship OpportunitiesUrban Youth Impact
328 views2 slides

More Related Content

Viewers also liked

Cv by
CvCv
CvDonna Geddes
605 views4 slides
LTPD_Brochure_FINAL by
LTPD_Brochure_FINALLTPD_Brochure_FINAL
LTPD_Brochure_FINALDavid Kirk
643 views44 slides
Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili... by
Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...
Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...Xarxa Punt TIC
545 views36 slides
A history of air pollution events by
A history of air pollution eventsA history of air pollution events
A history of air pollution eventssugeladi
2.2K views11 slides
Deploy & Continunous Integration - TDC Floripa 2015 by
Deploy & Continunous Integration - TDC Floripa 2015Deploy & Continunous Integration - TDC Floripa 2015
Deploy & Continunous Integration - TDC Floripa 2015Júnior Rocha
15K views31 slides
Company Profile - IPSCo (IT) by
Company Profile - IPSCo (IT)Company Profile - IPSCo (IT)
Company Profile - IPSCo (IT)hishamserry
1.3K views15 slides

Viewers also liked(18)

LTPD_Brochure_FINAL by David Kirk
LTPD_Brochure_FINALLTPD_Brochure_FINAL
LTPD_Brochure_FINAL
David Kirk643 views
Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili... by Xarxa Punt TIC
Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...
Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...
Xarxa Punt TIC545 views
A history of air pollution events by sugeladi
A history of air pollution eventsA history of air pollution events
A history of air pollution events
sugeladi2.2K views
Deploy & Continunous Integration - TDC Floripa 2015 by Júnior Rocha
Deploy & Continunous Integration - TDC Floripa 2015Deploy & Continunous Integration - TDC Floripa 2015
Deploy & Continunous Integration - TDC Floripa 2015
Júnior Rocha15K views
Company Profile - IPSCo (IT) by hishamserry
Company Profile - IPSCo (IT)Company Profile - IPSCo (IT)
Company Profile - IPSCo (IT)
hishamserry1.3K views
Mis Primeros pasos en la orientacion by Javi Monachil
Mis Primeros pasos en la orientacionMis Primeros pasos en la orientacion
Mis Primeros pasos en la orientacion
Javi Monachil2.5K views
Launching Ruby on Rails projects: A checklist by Robby Russell
Launching Ruby on Rails projects: A checklistLaunching Ruby on Rails projects: A checklist
Launching Ruby on Rails projects: A checklist
Robby Russell48.9K views
REVISTA PATACONA by Willy Pj
REVISTA PATACONAREVISTA PATACONA
REVISTA PATACONA
Willy Pj1K views
MTM & Lean Application Case Studies by Tmtm Tmtm
MTM & Lean Application Case StudiesMTM & Lean Application Case Studies
MTM & Lean Application Case Studies
Tmtm Tmtm5.8K views
Test de kolb material del docente by jjcobmkars
Test de kolb material del docenteTest de kolb material del docente
Test de kolb material del docente
jjcobmkars37.3K views
Learning style ppt by BrentVan3
Learning style pptLearning style ppt
Learning style ppt
BrentVan3167.3K views
'Open Access Publishing – Eine differenzierte Betrachtung aus der Perspektive... by Hans-Dieter Zimmermann
'Open Access Publishing – Eine differenzierte Betrachtung aus der Perspektive...'Open Access Publishing – Eine differenzierte Betrachtung aus der Perspektive...
'Open Access Publishing – Eine differenzierte Betrachtung aus der Perspektive...
Effizienz im Fokus: Clients, Server Systeme überwachen, analysieren und optim... by We4IT Group
Effizienz im Fokus: Clients, Server Systeme überwachen, analysieren und optim...Effizienz im Fokus: Clients, Server Systeme überwachen, analysieren und optim...
Effizienz im Fokus: Clients, Server Systeme überwachen, analysieren und optim...
We4IT Group1.3K views

Similar to OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition

ALTO, PAGE & Co. Formate für Volltexte by
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
82 views22 slides
Überblick zum DFG-Projekt OCR-D by
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
370 views13 slides
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten... by
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
539 views12 slides
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT by
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTMax Kaiser
704 views46 slides
Fit für die digitale Bibliothek? (2007) by
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Ralf Stockmann
826 views45 slides
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,... by
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
452 views64 slides

Similar to OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition(20)

ALTO, PAGE & Co. Formate für Volltexte by cneudecker
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
cneudecker82 views
Überblick zum DFG-Projekt OCR-D by cneudecker
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
cneudecker370 views
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten... by cneudecker
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
cneudecker539 views
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT by Max Kaiser
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
Max Kaiser704 views
Fit für die digitale Bibliothek? (2007) by Ralf Stockmann
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
Ralf Stockmann826 views
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,... by ETH-Bibliothek
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
ETH-Bibliothek452 views
Formate für Volltexte by cneudecker
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
cneudecker172 views
Einführung in die Literaturverwaltung by TIB Hannover
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die Literaturverwaltung
TIB Hannover2.2K views
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi... by cneudecker
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
cneudecker95 views
Der gesamte Redaktionsprozess mit Open Source by yellowcow
Der gesamte Redaktionsprozess mit Open SourceDer gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open Source
yellowcow6.8K views
Was Sie schon immer über barrierefreie PDFs wissen wollten by Markus Erle
Was Sie schon immer über barrierefreie PDFs wissen wolltenWas Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wollten
Markus Erle9K views
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken by Georg Rehm
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Georg Rehm370 views
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken by cneudecker
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
cneudecker383 views
OCR und Strukturerkennung für Zeitungen by cneudecker
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
cneudecker99 views
Mehrsprachigkeit und semantische Technologien by Georg Rehm
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische Technologien
Georg Rehm777 views
Kuratieren mit künstlicher Intelligenz by cneudecker
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
cneudecker1.2K views
DURAARK at Bibliotheksymposium Wildau by panitzm
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildau
panitzm2.1K views
Makerspaces - Workshop an der Hochschule Luzern by Rudolf Mumenthaler
Makerspaces - Workshop an der Hochschule LuzernMakerspaces - Workshop an der Hochschule Luzern
Makerspaces - Workshop an der Hochschule Luzern
Rudolf Mumenthaler580 views

More from cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library by
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
142 views13 slides
Digitisation and Digital Humanities - what is the role of Libraries? by
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
214 views26 slides
Multimodal Perspectives for Digitised Historical Newspapers by
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
344 views15 slides
AI for digitized cultural heritage by
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritagecneudecker
196 views27 slides
The many uses of digitized newspapers by
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspaperscneudecker
302 views39 slides
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her... by
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...cneudecker
286 views27 slides

More from cneudecker(20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library by cneudecker
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
cneudecker142 views
Digitisation and Digital Humanities - what is the role of Libraries? by cneudecker
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
cneudecker214 views
Multimodal Perspectives for Digitised Historical Newspapers by cneudecker
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
cneudecker344 views
AI for digitized cultural heritage by cneudecker
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
cneudecker196 views
The many uses of digitized newspapers by cneudecker
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
cneudecker302 views
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her... by cneudecker
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
cneudecker286 views
OCR-D: An end-to-end open source OCR framework for historical printed documents by cneudecker
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
cneudecker2K views
Extrablatt: The Latest News on Newspaper Digitisation in Europe by cneudecker
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
cneudecker375 views
Reise durch Europeana Collections in 11 Minuten by cneudecker
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
cneudecker306 views
Europeana Newspapers in a Nutshell by cneudecker
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
cneudecker507 views
lab.sbb.berlin by cneudecker
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
cneudecker349 views
Named Entity Recognition for Europeana Newspapers by cneudecker
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
cneudecker644 views
What's up, Europeana Newspapers? by cneudecker
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
cneudecker424 views
Active archives @SBB by cneudecker
Active archives @SBBActive archives @SBB
Active archives @SBB
cneudecker356 views
Europeana Newspapers Aggregator Forum 2018 Berlin by cneudecker
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
cneudecker353 views
Europeana Newspapers - Data, Tools & Future Plans by cneudecker
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
cneudecker471 views
Coding da Vinci Berlin 2017 - Europeana Newspapers by cneudecker
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
cneudecker706 views
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918 by cneudecker
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
cneudecker706 views
Europeana Newspapers Transcribathon by cneudecker
Europeana Newspapers TranscribathonEuropeana Newspapers Transcribathon
Europeana Newspapers Transcribathon
cneudecker1.8K views
How to read a million books? by cneudecker
How to read a million books?How to read a million books?
How to read a million books?
cneudecker593 views

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition