Your SlideShare is downloading. ×
Digitalisierungspraxis - Thaller - Volltextdigitalisierung
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Digitalisierungspraxis - Thaller - Volltextdigitalisierung

451
views

Published on


0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
451
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Was heißt und zu welchem Endebetreiben wir Volltextdigitalisierung? Manfred Thaller: Universität zu Köln München 12. Oktober 2011
  • 2. Ein kurzer (persönlicher) Blick zurück
  • 3. Manuskriptverarbeitung, ca. 1990
  • 4. Ein kurzer (persönlicher) Blick zurück:These: Wenn man ein ganzes Archiv digitalisiert, wird es für Historiker spannend, auch Dokumente lesen zu können, die es normalerweise nicht wären, und einfacher paläographische Methoden anwenden zu können. „Duderstadt“ Projekt, ab 1996.
  • 5. Ergebnis 1999
  • 6. Ein kurzer (persönlicher) Blick zurück:„Duderstadt“ Projekt, 1999Die Aussicht, 80.000 Archivdokumente schlicht lesen zu können, dies aber sofort, fasziniert Historiker viel mehr.
  • 7. Persönliche Konsequenz 2000:Sinn der neuen Technologien im Bereich der Bereitstellung historischer Quellen:Traditioneller Standpunkt: "Dasselbe, nur schöner" Digitale Facsimiles "wichtiger Manuskripte". Digitale Facsimiles mit intensiver Erschließung, z.b. wortweise gebundenen Transkriptionen. Editionen versuchen, am Bildschirm die Möglichkeiten gedruckter Werke nachzuahmen.
  • 8. Persönliche Konsequenz 2000:Sinn der neuen Technologien im Bereich der Bereitstellung historischer Quellen:Sollte ersetzt werden durch: "Was ist eigentlich neu?" Bereitstellung möglichst großer Quellenmengen - "Verbreiterung der Diksussionsbasis". Digitale Corpora mit "flacher Erschließung". Editionen versuchen, im Druck nicht Darstellbares durch Ausnutzung neuer technischer Möglichkeiten sichtbar zu machen.
  • 9. Was tut ein idealtypischesDigitalisierungsprojekt?
  • 10. Annahme(1) Digitalisierung im Sinne der folgenden Argumentation ist der systematische Transfer historisch kulturwissenschaftlicher Information aus einem Medium in ein anderes, zum intellektuellen Nutzen mit diesem Vorgang nicht befasster Parteien.(2) Sie unterscheidet sich von der digitalen Edition, bei der Objekte der historisch kulturwissenschaftlichen Überlieferung systematisch mit außerhalb des Basismaterials erschlossenen Informationen angereichert werden.(3) Sie unterscheidet sich von digitalen Publikationen, die das Ergebnis von Prozessen der intellektuellen Verarbeitung von Objekten der historisch kulturwissenschaftlichen Überlieferung präsentieren.
  • 11. MaterialDigitalisierungsprojekte bearbeiten: Einen Bestand aus der Überlieferung, der in der bewahrenden Einrichtung geschlossen aufbewahrt wird. Eine Materialgruppe, die in sich konsistent ist, also für die anwendbaren Einheiten etwa gleichen Aufwand bei Digitalisierung und Erschließung voraussetzt.
  • 12. QualitätDigitalisierungsprojekte stellen Bilder und Texte bereit: In einer Qualität, die alles erlaubt, was der Zugang zum analogen Material ohne mechanische Hilfsmittel möglich macht. Ohne die Notwendigkeit spezielle Software auf dem Rechner des Clients zu installieren. Kostenfrei. Die den Download zur lokalen Bearbeitung in einer Qualität erlaubt, die die kommerzielle Nutzung ausschließen kann.
  • 13. Erschließung IDigitalisierungsprojekte stellen bereit: Alle Instrumente, die notwendig sind, um die Möglichkeiten des Zugangs zur analogen Sammlung in die digitalen Zugangsinstrumente abzubilden. Weitergehende Erschließungen, soweit sie zumindest in wesentlichem Maße mechanisch-technisch geleistet werden können.
  • 14. Vorsicht, Ketzerei!RAK Regeln werden nicht dadurch nützlicher, dass man sieMetadatenstandards nennt.Die RSWK interessieren die Benutzer immer noch nicht, selbstwenn man sie in Ontologien abbildet.Das Gespenst der Expertensysteme wabert über dem SemanticWeb.Algorithmen werden mit der Hardware schneller, die menschlicheErschließung nicht.
  • 15. Erschließung IIDigitalisierungsprojekte verwenden: Strukturelle Standards, die die mechanische Interoperabilität der Erschließungsdaten garantieren (METS/MODS). Semantische Strukturen, die die Einbindung in semantische Verfahren erlaubt (CIDOC-CRM). Normdaten für zweifelsfreie Entitäten (PND). Vokabulare? Terminologien? Thesauri? … Zur Vereinheitlichung des Vokabulars, wo dies intellektuell und operativ möglich ist.
  • 16. KontextDigitalisierungsprojekte stellen Material bereit: Das „auf Dauer“ zitierbar bleibt. Für die Integration in größere / andere Systeme vorbereitet ist.
  • 17. ZukunftDigitalisierungsprojekte sollten sich auf eine Wandlung einstellen:Derzeit ist die Digitalisierung geprägt von Einzelprojekten mit scharfem institutionellen Profil. Diese werden sekundär zu größeren Portalen zusammengefasst.Beeindruckende Misserfolge, wie VASCODA, zeigen, dass das eine Sackgasse ist.Gebraucht wird ein einheitlicher Zugang zur digitalisierten kulturellen Überlieferung, die die Unterschiede zwischen den Ressourcen minimiert.
  • 18. Was heißt und zu welchem Endebetreiben wir Volltextdigitalisierung?
  • 19. Anforderung 2000Volltexterfassung muss zu 99.9 % korrekt sein, deshalb erfordert sie double keying.Begründung: Sonst werden argumenta ex silentio unmöglich.Historisch technischer Kontext: „Gute“ OCR historisch kulturwissenschaftlichen Materials läuft mit ca. 10 Seiten pro Stunde.I.e.: Die OCR bereitet digitale Editionen vor.
  • 20. Istzustand 2011Volltexterfassung per OCR läuft für große Materialmengen modernen Materials etwas langsamer, aber in vergleichbar automatisierbaren Workflows wie die Bilddigitalisierung.Mit wesentlich schlechteren Ergebnissen bei „älteren“ Drucken … 80 %, 90%?Argumenta ex silentio sind für eine Million Zeitungsseiten jedoch völlig sinnlos.I.e.: Die OCR wird erst jetzt Bestandteil der Digitalisierung.
  • 21. Diagnose 2011 – 1 / 3(1) Digitalisierung im Sinne der folgenden Argumentation ist der systematische Transfer historisch kulturwissenschaftlicher Information aus einem Medium in ein anderes, zum intellektuellen Nutzen mit diesem Vorgang nicht befasster Parteien.Durch die systematische Anwendung der OCR sollte der Medientransfer in Zukunft standardmäßig verzweigen: Von der analogen Form in die Abbildung und eine in regelmäßigen Abständen widerholte OCR / Volltextdigitalisierung.
  • 22. Diagnose 2011 – 2 / 3Denn:Digitalisierungsprojekte stellen bereit: Weitergehende Erschließungen, soweit sie zumindest in wesentlichem Maße mechanisch-technisch geleistet werden können.
  • 23. Diagnose 2011 – 3 / 3Und: Das Gespenst der Expertensysteme wabert über dem Semantic Web. Algorithmen werden mit der Hardware schneller, die menschliche Erschließung nicht.
  • 24. 2020 - 1 / 2Annahmen: Derzeitige OCR Ansätze sind nur bedingt auf „älteres“ Material anwendbar. Seltenere Drucktypen – kommerzielle viability. Ungeregelte Orthographie, syntaktische Veränderungen. („has“  „have“.) Auf Handschriften überhaupt nicht anwendbar.
  • 25. 2020 - 2 / 2Emergente Ansätze in der Forschung:Lambert Schomaker, MONK: http://monk.target.rug.nl/Meerhout in den Schöffenregistern der Stadt Löwen:
  • 26. Herzlichen Dank! manfred.thaller@uni-koeln.de