Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Formate für Volltexte

102 views

Published on

Digital Humanities Netzwerk, 07-11-2018, Staatsbibliothek zu Berlin

Published in: Technology
  • Login to see the comments

  • Be the first to like this

Formate für Volltexte

  1. 1. Formate für Volltexte Digital Humanities Netzwerk Staatsbibliothek zu Berlin 7.11.2018
  2. 2. ALTO • ALTO = Analyzed Layout and Text Object • Standard der Library of Congress • Wird meist in Kombination mit METS verwendet • loc.gov/standards/alto/
  3. 3. hOCR • hOCR = Google OCR Format • HTML-basiert • kba.cloud/hocr-spec/1.2/
  4. 4. PAGE • PAGE = Page Analysis and Ground Truth Environment • De-facto Standard für Ground Truth • Verwendung in wiss. Wettbewerben • Verwendung in DFG-Projekt „OCR-D“ • github.com/PRImA-Research-Lab/PAGE-XML
  5. 5. FRXML • FRXML = ABBYY FineReader XML • abbyy.technology/en:features:ocr:xml
  6. 6. TEI • TEI = Text Encoding Initiative • Standard für Transkriptionen, dig. Editionen • Breite Verwendung in den Digital Humanities • tei-c.org • DTABf = Deutsches TextArchiv Basisformat • deutschestextarchiv.de/doku/basisformat/
  7. 7. Text • Plain Text (ohne Markup) • Encoding (z.B. UTF8 vs. ASCII)
  8. 8. Konvertierung • github.com/cneud/ocr-conversion-scripts • digi.bib.uni-mannheim.de/ocr-fileformat/ • Was fehlt noch? PAGE  ALTO ALTO  DTABf (TEI)

×