Austrian Books Online - Digitaler Workflow und Access

1,440 views

Published on

Presentation at "Nationale Initiativen zur digitalen Information", Vienna, 04 October 2013

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,440
On SlideShare
0
From Embeds
0
Number of Embeds
346
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Austrian Books Online - Digitaler Workflow und Access

  1. 1. @maxkaiser Austrian Books Online Digitaler Workflow und Access Max Kaiser Leiter Forschung & Entwicklung Österreichische Nationalbibliothek „Nationale Initiativen zur digitalen Information“ Wien, 4. Oktober 2013
  2. 2. @maxkaiser Austrian Books Online www.onb.ac.at/austrianbooksonline/
  3. 3. @maxkaiser www.slideshare.net/maxkaiser
  4. 4. @maxkaiser Überblick → Projektziele → Status Quo → Workflow: Bücher / Daten → Access / Volltextsuche → Ausblick
  5. 5. @maxkaiser Digitalisierung des gesamten historischen Buchbestands der Österreichischen Nationalbibliothek
  6. 6. @maxkaiser 600.000 Bände 200 Mio Seiten
  7. 7. @maxkaiser 16. Jahrhundert Zweite Hälfte 19. Jahrhundert
  8. 8. @maxkaiser Google Bücher Digitale Bibliothek Österreichische Nationalbibliothek
  9. 9. @maxkaiser Eckpunkte der Kooperation
  10. 10. @maxkaiser → Urheberrecht → Ausschließlich gemeinfreie Werke → Nicht-Exklusivität → Digitalisierung auch mit anderen Partnern möglich → Transparenz → Öffentliche Ausschreibung → Detaillierte FAQs online
  11. 11. @maxkaiser@maxkaiser@maxkaiser → Zugänglichkeit der Digitalisate → Weltweit und kostenfrei für nicht- kommerzielle Nutzung → Europeana und andere Plattformen → Weitergabe an Forschungspartner
  12. 12. @maxkaiser 70+ MitarbeiterInnen der Österreichischen Nationalbibliothek Davon 20+ ausschließlich für Projekt → Bücher-Logistik → Anpassung Metadaten → Katalogisierung → Konservierung / Restaurierung → Qualitätskontrolle → Software-Entwicklung → Projektmanagement
  13. 13. @maxkaiser Wo steht das Projekt heute?
  14. 14. @maxkaiser Frühjahr 2011 Beginn Digitalisierung
  15. 15. @maxkaiser~162.000Bände digitalisiert heute
  16. 16. @maxkaiser~185.000Bände digitalisiert Ende 2013
  17. 17. @maxkaiser Jahrhunderte …
  18. 18. @maxkaiser Sprachen …
  19. 19. @maxkaiser Frühjahr 2013 Launch Bookviewer und Volltextsuche
  20. 20. @maxkaiser Workflow
  21. 21. @maxkaiser „book flow“ „digital flow“
  22. 22. @maxkaiser book flow
  23. 23. @maxkaiser → → @maxkaiser Keine individuelle Auswahl …
  24. 24. @maxkaiser → → @maxkaiser Format
  25. 25. @maxkaiser Format
  26. 26. @maxkaiser → → @maxkaiser Zustand
  27. 27. @maxkaiser Konservatorische Evaluierung
  28. 28. @maxkaiser → → @maxkaiser Wert
  29. 29. @maxkaiser Logistik im Prunksaal
  30. 30. @maxkaiser Herausforderungen…
  31. 31. @maxkaiser → → @maxkaiser Herausforderungen…
  32. 32. @maxkaiser → → @maxkaiser Barcodierung
  33. 33. @maxkaiser → → @maxkaiser → Anpassung Metadaten
  34. 34. @maxkaiser → → @maxkaiser 8 Minuten / Buch
  35. 35. @maxkaiser → → @maxkaiser Bereit für die Digitalisierung … →Digitalisierungszentrum in Deutschland →Bücher ~ 3 Monate nicht benützbar
  36. 36. @maxkaiser@maxkaiser
  37. 37. @maxkaiser book flowdigital flow
  38. 38. @maxkaiser Digitalisierung Daten-Download Buchlogistik Qualitätskontrolle Speicherung Access ADOCO (Austrian Books Online Download & Control)
  39. 39. @maxkaiser Workflow in ADOCO Download Datenpaket von Google GRIN via HTTP Entschlüsseln des Pakets via gnupg Paket in Verzeichnis entpacken MD5-Kontrolle aller Dateien (QA) Ablage in Pairtree-Verzeichnis (NAS Shares) GRIN-Metadaten mit aktuellem Zeitstempel aktualisieren
  40. 40. @maxkaiserbig data … http://blogs.loc.gov/digitalpreservation/files/2012/05/3875300483_a8875fea1c-500.jpg
  41. 41. @maxkaiser Datenmenge Durchschnitt pro Datenpaket (~Buch): 101 MB 101 MB * 600.000 = 60 TB
  42. 42. @maxkaiser Datenspeicherung & Access → Datenspeicherung: inhouse → Daten redundant gespeichert → Access-Kopien aus JPEG2000 Master Files on-the-fly generiert
  43. 43. @maxkaiser Download und Speicherung ADOCO JPEG2000 HOCR METS TXT ABO NAS-Speicher Pair Tree-Algorithmus ca. 60 TB
  44. 44. @maxkaiser ÖNB Hadoop- Cluster
  45. 45. @maxkaiser ÖNB Hadoop-Cluster: Laufender Betrieb → Regelmäßige MD5-Prüfsummenkontrolle aller Dateien → Summation sämtlicher Dateigrößen zur Steuerung der Speicherplanung → Abfragen über die METS Metadaten → Verteiltes METS-Parsen, Abfragen über HIVE (HiveQL)
  46. 46. @maxkaiser →Gezielte Experimente mit Taverna Workflows →MapReduce in der Qualitätskontrolle →Ermittlung von Kenngrößen in großen Datenmengen ONB Hadoop Cluster: Use Cases Beispiel: JPEG000-Validierung
  47. 47. @maxkaiser → Bildvergleich zur Analyse von Unterschieden zweier Versionen eines digitalisierten Buchs → z.B. bei Re-Download von Digitalisaten → Tool: Matchbox (EU-Projekt SCAPE) ONB Hadoop Cluster: Bildvergleich
  48. 48. @maxkaiser Qualitäts- kontrolle
  49. 49. @maxkaiser →Automatisierte Routinen →Repräsentative Stichproben →EDV-unterstütztes Finden von Fehler- Clustern →Fehler-Kandidaten manuell überprüft →Suche nach systematischen und kritischen Fehlern
  50. 50. @maxkaiser Durchscheinen nicht-kritisch
  51. 51. @maxkaiser Schnitt-Fehler kritisch!
  52. 52. @maxkaiser Qualitätskontrolle via Sampling Re-Processing Re-Download
  53. 53. @maxkaiser Fehler behoben
  54. 54. @maxkaiser Langzeitarchivierung →Methoden zum Management großer Datenmengen →Integration der Qualitätskontrolle in Workflow und Werkzeuge →Bereitstellung über Permalinks →Metadaten für Langzeitarchivierung
  55. 55. @maxkaiser Access
  56. 56. @maxkaiser Katalog / “Quick Search” Volltextsuche ABO Book Viewer ANNO Zeitungsportal
  57. 57. technical slides ahead!
  58. 58. @maxkaiser JPEG2000 HOCR METS TXT ADOCO METS-Generierung Speicherung auf UDM- Storage ALEPH X-Server ANNO Europeana Newspapers <<metadata>> UDM Holt METS- und OCR-Daten - Indexierung mit SOLR/Lucene Gespiegelter Index für Suche INDEXER Suchserver <<poll updates>> <DocID+METS> <replication> METS Beinhalten URLs (auf Content Delivery Service zeigend) zu OCR-Files
  59. 59. @maxkaiser CDS Content Delivery Service UDM (Speicher) Quick Search / Primo Book- viewer ABO-NAS Image Server: JPEG2000JPG Konvertierung IIP
  60. 60. @maxkaiser Verlinkung durch Permalinks → Persistente Verlinkung → Auflösung über Resolver der ÖNB: → Beispiel: http://data.onb.ac.at/ABO/%2BZ167203406 → Leitet um auf http://digital.onb.ac.at/OnbViewer/viewer .faces?doc=ABO_Z167203406
  61. 61. @maxkaiser ABO  Verbund  Primo → Pro Buch (Barcode) → Format der Datenlieferung: AC02030899 655o L $$mV:AT-OBV;B:AT- OeNB$$qapplication/html$$uhttp://data.onb .ac.at/ABO/%2BZ164219105$$xONB- ABO$$3Volltext → Liste als Feed an OBVSG → Laden in ca. 30.000er Paketen nach ACC01 → Über ACC-Pipe  PRIMO
  62. 62. @maxkaiser
  63. 63. @maxkaiser
  64. 64. @maxkaiser
  65. 65. @maxkaiser
  66. 66. @maxkaiser Volltextsuche
  67. 67. @maxkaiser →Volltextsuche in historischen Textquellen der Österreichischen Nationalbibliothek →Bücher, Zeitungen, Zeitschriften →Integration in Quick Search / Primo →Produktiv seit April 2013
  68. 68. @maxkaiser Volltextindex: aktueller Stand → 350.000 Dokumente →150.000 Bücher →200.000 Zeitungsausgaben → 52 Millionen Seiten → 1 Milliarde unterschiedliche Terme → Volltextindex 280 GB
  69. 69. @maxkaiser
  70. 70. @maxkaiser
  71. 71. @maxkaiser ABO Book Viewer
  72. 72. @maxkaiser Ausblick
  73. 73. @maxkaiser →Mobilversion des Book-Viewers →Volltext: neue Möglichkeiten für Forschung →Suche nach Synonymen, Named Entities (Personen und Orte) →Linked Data →Services für „datenzentrierte“ Forschung in Kultur- und Sozialwissenschaften →„Digital Humanities“
  74. 74. @maxkaiser → Tagung: „Was können und wollen Digital Humanities“ 25. Oktober 2013 → Österreichische Nationalbibliothek → http://dhtagungwien.eventbrite.de/
  75. 75. @maxkaiser Informationen www.onb.ac.at/austrianbooksonline www.onb.ac.at/austrianbooksonline/faq.htm twitter.com/abooksonline
  76. 76. @maxkaiser Danke! max.kaiser@onb.ac.at www.onb.ac.at www.slideshare.net/maxkaiser www.linkedin.com/in/maxkaiser gplus.to/maxkaiser twitter.com/maxkaiser

×