Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen &
die Digital Humanities –
Probleme und Chancen
Europeana Newspapers Information Day
16. Oktober 2014, Wien, ÖNB
Clemens Neudecker, Staatsbibliothek zu Berlin
@cneudecker
“Big data?”
Immer größere Mengen an digitalisierten Zeitungen stehen in
digitaler Form für die Forschung bereit.
• Chronicling America: 8,148,101 Seiten
• Trove (Australien): 137,247,947 Zeitungsartikel
• ANNO: 13 Millionen Seiten
• Europeana Newspapers:
• > 10 Millionen Seiten (Volltexte)
• > 18 Millionen Seiten (Metadaten)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 2
Europeana Newspapers: Drei Portale
• Europeana Newspapers Content Browser:
http://www.theeuropeanlibrary.org/tel4/newspapers
• Europeana Portal:
http://europeana.eu/portal/
• Zeitschriftendatenbank:
http://www.zeitschriftendatenbank.de/suche/
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 3
Neu! Objektpräsentation direkt in der Europeana
• http://europeana.eu/portal/record/9200300/BibliographicResource_3000095593453.html
Neues
Interface
für die
Objektanzeige
Public
domain
Anzeige in
der Digitalen
Bibliothek
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 4
ABER…
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 5
Nur die Spitze des Eisbergs
Quelle: Enumerate Report, http://www.enumerate.eu/en/surveys/thematic_survey/
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 6
Wieviel ist insgesamt schon digitalisiert?
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 7
Digitalisierte Zeitungen
Quelle: European Newspapers Survey Report
http://www.europeana-newspapers.eu/wp-content/uploads/2012/04/D4.1-Europeana-newspapers-survey-report.pdf
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 8
Mission impossible?
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 9
Ein kleiner Vergleich…
Geschätzte Kosten für die
Digitalisierung sämtlicher
Objekte in Bibliotheken,
Archiven und Museen:
€100 Milliarden
Oder €10 Milliarden/Jahr
für die nächsten 10 Jahre!
Das Gesamtbudget für die
Entwicklung des „Joint
Strike Fighter“ wird auf
€40 Milliarden geschätzt.
Für die Digitalisierung des
Kulturerbes Europas
würden ca. 40% der
Entwicklungskosten des
JSF benötigt.
Quelle: Nick Poole, Collections Trust, http://nickpoole.org.uk/wp-content/uploads/2011/12/digiti_report.pdf
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 10
Problemfelder
• Unvollständigkeit von Digitalen (Zeitungs-)Sammlungen
• Keine ausreichenden Ressourcen für die vollständige Digitalisierung
• Fehler und Probleme bei der Digitalisierung, z.B.
• Schlechte Qualität der OCR
• Unvollständige oder fehlerhafte Metadaten
• Unterschiedliche Lizenzmodelle
• “Copyright Cliff of Death” (@wragge)
• Unterschiedliche Granularität der Digitalisate (z.B. Artikel vs. Seiten)
• Unterschiedliche Anreicherung (z.B. mit/ohne Named Entities)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 11
Wie also damit umgehen?
• Ist es überhaupt möglich auf dieser Datengrundlage eine
repräsentative Aussagen z.B. durch ein „random sample“
zu treffen?
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
12
Quelle: http://dilbert.com/strips/comic/2001-10-25/
Labs to the rescue?
Pieter Francois, Gewinner der British
Library Labs competition 2013 hat sich
genau diese Frage gestellt:
“How representative are the historical
texts digital humanities scholars study
of the overall body of ‘surviving’ texts
that are held in the various library
labs.bl.uk/Sample+Generator collections?”
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 13
Was ist “gut genug”?
Digging into Data Project “Trading Consequences”
“Welche Auswirkungen haben OCR Fehler beim Text Mining
einer großen Sammlungen von digitalisierten Beständen?”
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 14
Statistik, Statistik, Statistik
10 Millione Seiten, 7 Milliarden Wörter – welchen Anteil des
Korpus ignoriert man wenn man nur mit “guter” OCR arbeitet?
http://homepages.inf.ed.ac.uk/balex/publications/slides-DATeCH.pdf
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 15
Vorbild Trove
API (Anwendungs-Programmier-Schnittstelle) ermöglicht diverse
statistische Anwendungen & Präsentationsmöglichkeiten:
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
16
Trove newspapers word count app
Das „Hathi Trust Model“
Hathi Trust Digital Library/Research Center
(Aggregator aller US Google-Partner) stellt für durch
Copyright geschütze Materialien nur extrahierte
„Features“ bereit wie z.B.:
• Wortfrequenz (pro Seite/Überschriften/Fußnoten)
• Anzahl Zeilen/Sätze
• Zeichenanzahl
Darüber hinaus gibt es auch die Möglichkeit über eine
geschützte virtuelle Forschungsumgebung (HTRC Sandbox
Portal) direkt auf den Servern des HTRC Algorithmen auf den
Daten auszuführen.
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
17
Es gibt viel zu tun…packen wir es an!
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 18
Danke für Ihre Aufmerksamkeit!
@eurnews
http://www.europeana-newspapers.eu
http://www.theeuropeanlibrary.org/tel4/newspapers
http://www.europeana.eu/