Fit für die digitale Bibliothek? (2007)

917 views

Published on

  • Be the first to comment

  • Be the first to like this

Fit für die digitale Bibliothek? (2007)

  1. 1. Digitalisierungsprojekte zukunftssicher gestalten: Planung und DurchführungFit für die digitale Bibliothek? Dipl. Sozw. Ralf Stockmann Niedersächsische Staats- und Universitätsbibliothek Göttingen
  2. 2. Fit – wofür?• Für den (DFG) Projektantrag• Für die Direktion / die Politik• Für die Ewigkeit (LZA)• Für die Nutzer
  3. 3. Das GöttingerDigitalisierungszentrum • Abteilung der Staats- und Universitätsbibliothek Göttingen (SUB) • seit 1997, zu Beginn 4 Jahre gefördert von der Deutschen Forschungsgemeinschaft (DFG) • Nationales und Internationales Service- und Kompetenzzentrum • Entwicklung eines Produktionsworkflows für große Mengen an Digitalisaten im Printbereich • Standardisierungsaktivitäten • Mehr als 6 Millionen Seiten digitalisiert, über 5 Millionen Seiten online bereitgestellt • Konzeption, Beratung und Durchführung von Projekten (häufig kooperativ) • Zielsetzung: Masse UND Klasse
  4. 4. Ablauf eines Digitalisierungsprojektes 1. Zielsetzung 2. Auswahl des Materials 3. Benchmarking / Standards 4. Produktionsorganisation / Logistik 5. Arbeitsvorbereitungen (AV) 6. Digitalisierung 7. Qualitätskontrolle (QK) 8. Bildoptimierung / Verarbeitung 9. OCR / Volltextgenerierung 10. Metadatengenerierung 11. Präsentation / Verwertung 12. Zugang / Evaluation 13. (Langzeit) Archivierung
  5. 5. Management Wheel
  6. 6. Logistiksoftware• Bildet Workflow ab• Organisationseinheit: physischer Band• Controlling• Personalmanagement• Auftragsmanagement• Qualitätskontrolle• Metadatenerfassung• Webbasiert• Beispiele: myBib, Goobi, ZENDpro, …
  7. 7. Workflow Orchestrierung
  8. 8. Bearbeitungsstand
  9. 9. Controlling
  10. 10. Laufzeiten
  11. 11. Modulares Open Source Konzept
  12. 12. 5. Arbeitsvorbereitung• Büchertransport• Laufzettel / Barcode• Aufnahme in Workflowverwaltung• Bibliographische Uraufnahme (OPAC)• Zuordnung Gerät / Scanner
  13. 13. 6. Digitalisierung• Scanumfang – Von Buchdeckel zu Buchdeckel – Alle Seiten – Titel + Inhalt – Einzelne Kapitel / Artikel• Ziel – Auf lokalen Scanrechner – Auf zentralen Scanserver • On the fly • Nach Digitalisierung • Im Batchbetrieb (über Nacht)
  14. 14. 7. Qualitätskontrolle• Fehlende Seiten• Doppelte Seiten• Seitenreihenfolge• Qualität• Schmutz• Werkzeug: Bildviewer (etwa: ACDSee)• Rückgabe an Scanner / Feedback / selbst korrigieren
  15. 15. 8. Imagenachbearbeitung Bildnachbearbeitung mit „PixEdit“ im Batchmodus: Ausschneiden und Zentrieren, Reinigen, „de- speckle und speckle“Original nach de-speckling nachspeckling
  16. 16. Volltexterfassung• OCR – „schmutzig“ (unkorrigiert)• OCR – korrigiert (über 99,5%)• Manuell – einfach mit Korrekturlesen• Manuell – Doublekeying mit automatischem Fehlerabgleich – Ca.: 1€ pro 1.000 Zeichen• Problematisch: Fraktur, Handschriften, Inkunablen, … – Warten! Die OCR kann jederzeit nachgeholt
  17. 17. Finereader Lizenzen
  18. 18. Ausgabevariationen Volltext• Versteckt: nur für Retrieval – Highlighting der Treffer im Image (Wortkoordinaten benötigt)• Anzeige des Trefferkontext für Suchergebnis-Kontrolle (+/- 100 Zeichen)• PDF: – Volltext hinter Image – Volltext vor Image (Auffüllung)• Ausgabe Volltext – Ohne Formatierung – Mit Formatierung – Schmutzig / bereinigt – Zur Bewertung der Suchgenauigkeit – TEI Format: für Wissenschaftler direkt verwertbar• Rechtliche Rahmenbedingungen (Subito-Urteil)
  19. 19. Das neue Nutzungsparadigma Vergangenheit Gegenwart Projektbezogene Webseiten Portale Institutionelle Repositorien Verteilte Suche
  20. 20. Zukunft (sehr bald!)• Dezentrale Web Services – Basierend auf • Personalisierung • Soziale / Wissenschaftliche Communities • Semantische Netze • Grid Computing (Ende der Ressourcenknappheit) – Bieten an: • Dynamische, personalisierte Dienste (privates Bücherregal, …) • Werkzeuge zur Analyse, Annotation, Vernetzung, Bewertung, von Informationen • Collaborative Arbeitsumgebungen • Adressierung kleinster Informationseinheiten• “Scientific Mashups” – Online / Offline wird verschwinden (ist!) – NASA Portal
  21. 21. Konsequenzen• Bedeutungswandel – Weniger: • Eigner / Institution • Niederige Qualität • Abgeschottete “Black Box” Software mit “vanilla” features – Mehr: • Metadaten • Volltext • Granularität • Hohe Auflösungen • Schnittstellen / Protokolle • Spezialisierte, gekapselte, kombinierbare Werkzeuge• Beispiel: DFG-Viewer
  22. 22. DFG Viewer (Alpha)
  23. 23. Benötigte Schnittstellen• OAI Harvesting• Eines der definierten Metadaten-Profile – ZVDD – MuseumDAT – EAI• Adressierbarkeit einzelner Images• Sinnvoll aber freiwillig: – RSS-Feed (Neu hinzugekommene Werke, demnächst über personalisierte Nutzersuchen) – Open URL – TEI• Sehr klare Standardisierungstendenzen
  24. 24. 9. Metadaten• Bibliographische Metadaten (Mindeststandard) – Verbindung mit dem Verbundkatalog (PICA/GBV) und dem OPAC• Technische Metadaten• Datenbanken (z.B. Wörterbücher)• Klassifizierungen (z.B. Dewey)• Inhaltlich-strukturelle Metadaten (z.B. Inhaltsverzeichnisse, Wörterbuchpositionen, gattungsspezifisches Markup etc.)
  25. 25. Warum Strukturdaten?Elektronisches Inhaltsverzeichnis:Beispiel PDF, ebenso online
  26. 26. Strukturdaten Pro / Contra• Pro – Bessere Bedienung • Navigation im PDF • Digitales Inhaltsverzeichnis auf Webseite – Exaktere Suche • Kapitel/Aufsätze als Treffer bei Suche (gehen nicht im Volltext unter) • Verlässlich – Erweiterte Dienste • Download einzelner Kapitel als PDF • Zusammenbinden neuer „digitaler Bücher“ mit Print on Demand• Contra – Produktion zeitaufwändig (30-50 Minuten pro Band) – Teilweise subsumierbar durch OCR-Volltext
  27. 27. Das METS Dokumentenmodell• Logische Struktur – Monographie / Kapitel / Artikel etc.• Physische Struktur – Seiten, Spalten• Beschreibende Metadaten (Autor, Jahr etc.)• Technische Metadaten (Bildformat/Auflösung etc.)• Volltext (mit Wortkoordinaten)• Eingebettete Dateien (Images)• Vorteile: – Alles in 1 Datei (XML) – Komplette Dokumentlogik ist „aus sich heraus“ verstehbar – Import/Export• Nachteil: bisher aufwendige Implementierung
  28. 28. Goobi METS Editor
  29. 29. IntegrierterBildbetrachter OCR integration (AJAX)
  30. 30. 10. Präsentation / Verwertung• Online-Präsentation – Seitenweise in Browser – Nur als gebundene Datei (PDF, DEJAVU, Multi-TIFF) – Eigene Web-Applikation • British Library • Open Content Aliance• Offline Nutzung – Intranet (s.o.) – CD / DVD • Images • Applikation – FTP
  31. 31. Ausgabe im GDZ• Rendering „on the fly“ – frei wählbarer Zoomfaktor• Pre-Rendering der nächsten Seite• Im PDF (strukturiert) originalauflösende TIFFs• Digitales Inhaltsverzeichnis
  32. 32. 11. Zugang / Evaluation• Gemeinfreies Material – Urheberrecht: vor 1900 – Weltweit freier Zugang (open access)• Geschütztes Material – Beispiel Digizeitschriften: – Trilateraler Vertrag von Bibliotheken, Verlagen und Verwertungsgemeinschaft (VG Wort) – Bibliotheken abbonieren Service und stellen ihren Nutzern kostenlos zur Verfügung – Ausschüttung an Verlag und VG• Technische Umsetzung – IP-Bereiche – Passwort / Nutzername – Konsortien – Backend-Verwaltung – Biling-Service
  33. 33. Zugriffsstatistik• Counter.org• Unterteilung nach – Material – Nutzer• Anonymisiert / personalisiert• Auswertungsintervall• Technische Umsetzung – Logfilenalyse (etwa: Apache Webserver) – Integriertes Nutzertracking (Session Cookies)
  34. 34. Schnittstellen• GDZ-Dokumentenserverserver (incl. OAI)• OPAC der SUB Göttingen• Flexible Präsentationssysteme (Virtuelle Fachbibliotheken etc.)• Verbundkataloge• Zentrales Verzeichnis Digitalisierter Drucke (ZVDD)• EROMM (Digitale Master)• Deutsche Digitale Bibliothek (DDB)• European Digital Library (EDL) – November 2008!
  35. 35. Schnittstellen zu Diensten• Geo-Tagging• Wikipedia• Social Bookmarking• Verwertungsdienste – Print on Demand – OCR Correction on Demand – Digitization on Demand• Es wird immer einfacher! – API (Application Programming Interface)• Zentrales Diensteverzeichnis für Digitale Bibliotheken
  36. 36. 12. Langzeitarchivierung• Über welchen Zeitraum reden wir? – 10 Jahre (CD-Rs) – 50 Jahre – 200 Jahre• Drei Komponenten: – Physikalische Archivierung – Lesegeräte • NASA – Formate • PDF, .DOC
  37. 37. JHOVE JSTOR/Harvard Object Validation EnvironmentKonformitätsvalidierung für:– AIFF, AIFF-C– ASCII– GIF 87a, 89a– HTML 3.2, 4.0, 4.01, XHTML 1.0, 1.1– JPEG, JFIF, SPIFF, JTIP, JPEG-LS, Exif 2.0, 2.1, 2.2– JPEG 2000 JP2, JPX– PDF 1.0 – 1.6, PDF/X-1, -1a, -2, -3, PDF/A, Tagged PDF, LinearizedPDF– TIFF 4.0 – 6.0, Class B, G, P, R, Y, F, RFC 1314, TIFF/EP, TIFF/IT (CT,LW, HC, MP, BP, BL, FP, and P1, P2), GeoTIFF, TIFF-FX, Exif 2.0, 2.1,2.2, DNG– UTF-8– WAVE, BWF– XMLhttp://hul.harvard.edu/jhove/
  38. 38. Der Dornröschenschlaf der Bibliotheken• Was haben wir in den letzten Jahren erfunden? – Retrodigitalisierung – Langzeitarchivierung• Was hätten wir erfinden sollen? – eLearning – Google • Google Maps – Del.icio.us – YouTube – Wikipedia – iPhone
  39. 39. Abwägung• Nicht das „Grundhandwerk“ vergessen/verlernen• Zweite Schritt vor dem Ersten Schritt Problematik• Bibliotheken brauchen auch Erfinder, und eine Umgebung in der sie sich wohl fühlen!
  40. 40. Vielen Dank für Ihre Aufmerksamkeit! Ralf Stockmann stockmann@sub.uni-goettingen.de Göttinger Digitalisierungszentrum

×