Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Fit für die digitale Bibliothek? (2007)

951 views

Published on

  • Be the first to comment

  • Be the first to like this

Fit für die digitale Bibliothek? (2007)

  1. 1. Digitalisierungsprojekte zukunftssicher gestalten: Planung und DurchführungFit für die digitale Bibliothek? Dipl. Sozw. Ralf Stockmann Niedersächsische Staats- und Universitätsbibliothek Göttingen
  2. 2. Fit – wofür?• Für den (DFG) Projektantrag• Für die Direktion / die Politik• Für die Ewigkeit (LZA)• Für die Nutzer
  3. 3. Das GöttingerDigitalisierungszentrum • Abteilung der Staats- und Universitätsbibliothek Göttingen (SUB) • seit 1997, zu Beginn 4 Jahre gefördert von der Deutschen Forschungsgemeinschaft (DFG) • Nationales und Internationales Service- und Kompetenzzentrum • Entwicklung eines Produktionsworkflows für große Mengen an Digitalisaten im Printbereich • Standardisierungsaktivitäten • Mehr als 6 Millionen Seiten digitalisiert, über 5 Millionen Seiten online bereitgestellt • Konzeption, Beratung und Durchführung von Projekten (häufig kooperativ) • Zielsetzung: Masse UND Klasse
  4. 4. Ablauf eines Digitalisierungsprojektes 1. Zielsetzung 2. Auswahl des Materials 3. Benchmarking / Standards 4. Produktionsorganisation / Logistik 5. Arbeitsvorbereitungen (AV) 6. Digitalisierung 7. Qualitätskontrolle (QK) 8. Bildoptimierung / Verarbeitung 9. OCR / Volltextgenerierung 10. Metadatengenerierung 11. Präsentation / Verwertung 12. Zugang / Evaluation 13. (Langzeit) Archivierung
  5. 5. Management Wheel
  6. 6. Logistiksoftware• Bildet Workflow ab• Organisationseinheit: physischer Band• Controlling• Personalmanagement• Auftragsmanagement• Qualitätskontrolle• Metadatenerfassung• Webbasiert• Beispiele: myBib, Goobi, ZENDpro, …
  7. 7. Workflow Orchestrierung
  8. 8. Bearbeitungsstand
  9. 9. Controlling
  10. 10. Laufzeiten
  11. 11. Modulares Open Source Konzept
  12. 12. 5. Arbeitsvorbereitung• Büchertransport• Laufzettel / Barcode• Aufnahme in Workflowverwaltung• Bibliographische Uraufnahme (OPAC)• Zuordnung Gerät / Scanner
  13. 13. 6. Digitalisierung• Scanumfang – Von Buchdeckel zu Buchdeckel – Alle Seiten – Titel + Inhalt – Einzelne Kapitel / Artikel• Ziel – Auf lokalen Scanrechner – Auf zentralen Scanserver • On the fly • Nach Digitalisierung • Im Batchbetrieb (über Nacht)
  14. 14. 7. Qualitätskontrolle• Fehlende Seiten• Doppelte Seiten• Seitenreihenfolge• Qualität• Schmutz• Werkzeug: Bildviewer (etwa: ACDSee)• Rückgabe an Scanner / Feedback / selbst korrigieren
  15. 15. 8. Imagenachbearbeitung Bildnachbearbeitung mit „PixEdit“ im Batchmodus: Ausschneiden und Zentrieren, Reinigen, „de- speckle und speckle“Original nach de-speckling nachspeckling
  16. 16. Volltexterfassung• OCR – „schmutzig“ (unkorrigiert)• OCR – korrigiert (über 99,5%)• Manuell – einfach mit Korrekturlesen• Manuell – Doublekeying mit automatischem Fehlerabgleich – Ca.: 1€ pro 1.000 Zeichen• Problematisch: Fraktur, Handschriften, Inkunablen, … – Warten! Die OCR kann jederzeit nachgeholt
  17. 17. Finereader Lizenzen
  18. 18. Ausgabevariationen Volltext• Versteckt: nur für Retrieval – Highlighting der Treffer im Image (Wortkoordinaten benötigt)• Anzeige des Trefferkontext für Suchergebnis-Kontrolle (+/- 100 Zeichen)• PDF: – Volltext hinter Image – Volltext vor Image (Auffüllung)• Ausgabe Volltext – Ohne Formatierung – Mit Formatierung – Schmutzig / bereinigt – Zur Bewertung der Suchgenauigkeit – TEI Format: für Wissenschaftler direkt verwertbar• Rechtliche Rahmenbedingungen (Subito-Urteil)
  19. 19. Das neue Nutzungsparadigma Vergangenheit Gegenwart Projektbezogene Webseiten Portale Institutionelle Repositorien Verteilte Suche
  20. 20. Zukunft (sehr bald!)• Dezentrale Web Services – Basierend auf • Personalisierung • Soziale / Wissenschaftliche Communities • Semantische Netze • Grid Computing (Ende der Ressourcenknappheit) – Bieten an: • Dynamische, personalisierte Dienste (privates Bücherregal, …) • Werkzeuge zur Analyse, Annotation, Vernetzung, Bewertung, von Informationen • Collaborative Arbeitsumgebungen • Adressierung kleinster Informationseinheiten• “Scientific Mashups” – Online / Offline wird verschwinden (ist!) – NASA Portal
  21. 21. Konsequenzen• Bedeutungswandel – Weniger: • Eigner / Institution • Niederige Qualität • Abgeschottete “Black Box” Software mit “vanilla” features – Mehr: • Metadaten • Volltext • Granularität • Hohe Auflösungen • Schnittstellen / Protokolle • Spezialisierte, gekapselte, kombinierbare Werkzeuge• Beispiel: DFG-Viewer
  22. 22. DFG Viewer (Alpha)
  23. 23. Benötigte Schnittstellen• OAI Harvesting• Eines der definierten Metadaten-Profile – ZVDD – MuseumDAT – EAI• Adressierbarkeit einzelner Images• Sinnvoll aber freiwillig: – RSS-Feed (Neu hinzugekommene Werke, demnächst über personalisierte Nutzersuchen) – Open URL – TEI• Sehr klare Standardisierungstendenzen
  24. 24. 9. Metadaten• Bibliographische Metadaten (Mindeststandard) – Verbindung mit dem Verbundkatalog (PICA/GBV) und dem OPAC• Technische Metadaten• Datenbanken (z.B. Wörterbücher)• Klassifizierungen (z.B. Dewey)• Inhaltlich-strukturelle Metadaten (z.B. Inhaltsverzeichnisse, Wörterbuchpositionen, gattungsspezifisches Markup etc.)
  25. 25. Warum Strukturdaten?Elektronisches Inhaltsverzeichnis:Beispiel PDF, ebenso online
  26. 26. Strukturdaten Pro / Contra• Pro – Bessere Bedienung • Navigation im PDF • Digitales Inhaltsverzeichnis auf Webseite – Exaktere Suche • Kapitel/Aufsätze als Treffer bei Suche (gehen nicht im Volltext unter) • Verlässlich – Erweiterte Dienste • Download einzelner Kapitel als PDF • Zusammenbinden neuer „digitaler Bücher“ mit Print on Demand• Contra – Produktion zeitaufwändig (30-50 Minuten pro Band) – Teilweise subsumierbar durch OCR-Volltext
  27. 27. Das METS Dokumentenmodell• Logische Struktur – Monographie / Kapitel / Artikel etc.• Physische Struktur – Seiten, Spalten• Beschreibende Metadaten (Autor, Jahr etc.)• Technische Metadaten (Bildformat/Auflösung etc.)• Volltext (mit Wortkoordinaten)• Eingebettete Dateien (Images)• Vorteile: – Alles in 1 Datei (XML) – Komplette Dokumentlogik ist „aus sich heraus“ verstehbar – Import/Export• Nachteil: bisher aufwendige Implementierung
  28. 28. Goobi METS Editor
  29. 29. IntegrierterBildbetrachter OCR integration (AJAX)
  30. 30. 10. Präsentation / Verwertung• Online-Präsentation – Seitenweise in Browser – Nur als gebundene Datei (PDF, DEJAVU, Multi-TIFF) – Eigene Web-Applikation • British Library • Open Content Aliance• Offline Nutzung – Intranet (s.o.) – CD / DVD • Images • Applikation – FTP
  31. 31. Ausgabe im GDZ• Rendering „on the fly“ – frei wählbarer Zoomfaktor• Pre-Rendering der nächsten Seite• Im PDF (strukturiert) originalauflösende TIFFs• Digitales Inhaltsverzeichnis
  32. 32. 11. Zugang / Evaluation• Gemeinfreies Material – Urheberrecht: vor 1900 – Weltweit freier Zugang (open access)• Geschütztes Material – Beispiel Digizeitschriften: – Trilateraler Vertrag von Bibliotheken, Verlagen und Verwertungsgemeinschaft (VG Wort) – Bibliotheken abbonieren Service und stellen ihren Nutzern kostenlos zur Verfügung – Ausschüttung an Verlag und VG• Technische Umsetzung – IP-Bereiche – Passwort / Nutzername – Konsortien – Backend-Verwaltung – Biling-Service
  33. 33. Zugriffsstatistik• Counter.org• Unterteilung nach – Material – Nutzer• Anonymisiert / personalisiert• Auswertungsintervall• Technische Umsetzung – Logfilenalyse (etwa: Apache Webserver) – Integriertes Nutzertracking (Session Cookies)
  34. 34. Schnittstellen• GDZ-Dokumentenserverserver (incl. OAI)• OPAC der SUB Göttingen• Flexible Präsentationssysteme (Virtuelle Fachbibliotheken etc.)• Verbundkataloge• Zentrales Verzeichnis Digitalisierter Drucke (ZVDD)• EROMM (Digitale Master)• Deutsche Digitale Bibliothek (DDB)• European Digital Library (EDL) – November 2008!
  35. 35. Schnittstellen zu Diensten• Geo-Tagging• Wikipedia• Social Bookmarking• Verwertungsdienste – Print on Demand – OCR Correction on Demand – Digitization on Demand• Es wird immer einfacher! – API (Application Programming Interface)• Zentrales Diensteverzeichnis für Digitale Bibliotheken
  36. 36. 12. Langzeitarchivierung• Über welchen Zeitraum reden wir? – 10 Jahre (CD-Rs) – 50 Jahre – 200 Jahre• Drei Komponenten: – Physikalische Archivierung – Lesegeräte • NASA – Formate • PDF, .DOC
  37. 37. JHOVE JSTOR/Harvard Object Validation EnvironmentKonformitätsvalidierung für:– AIFF, AIFF-C– ASCII– GIF 87a, 89a– HTML 3.2, 4.0, 4.01, XHTML 1.0, 1.1– JPEG, JFIF, SPIFF, JTIP, JPEG-LS, Exif 2.0, 2.1, 2.2– JPEG 2000 JP2, JPX– PDF 1.0 – 1.6, PDF/X-1, -1a, -2, -3, PDF/A, Tagged PDF, LinearizedPDF– TIFF 4.0 – 6.0, Class B, G, P, R, Y, F, RFC 1314, TIFF/EP, TIFF/IT (CT,LW, HC, MP, BP, BL, FP, and P1, P2), GeoTIFF, TIFF-FX, Exif 2.0, 2.1,2.2, DNG– UTF-8– WAVE, BWF– XMLhttp://hul.harvard.edu/jhove/
  38. 38. Der Dornröschenschlaf der Bibliotheken• Was haben wir in den letzten Jahren erfunden? – Retrodigitalisierung – Langzeitarchivierung• Was hätten wir erfinden sollen? – eLearning – Google • Google Maps – Del.icio.us – YouTube – Wikipedia – iPhone
  39. 39. Abwägung• Nicht das „Grundhandwerk“ vergessen/verlernen• Zweite Schritt vor dem Ersten Schritt Problematik• Bibliotheken brauchen auch Erfinder, und eine Umgebung in der sie sich wohl fühlen!
  40. 40. Vielen Dank für Ihre Aufmerksamkeit! Ralf Stockmann stockmann@sub.uni-goettingen.de Göttinger Digitalisierungszentrum

×