Ideen Goobi Storage API
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
373
On Slideshare
373
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
1
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • Diese Folien spiegeln Überlegungen aus dem Zeitraum 10/2009 bis 3/2010 wieder, sie werden inzwischen nicht mehr aktiv verfolgt. Es sind allerdings nachnutzbare Anforderungsdefinitionen vorhanden.
  • Links: JHove http://hul.harvard.edu/jhove/
  • Links: Pair Tree: https://confluence.ucop.edu/display/Curation/PairTree JCR: http://www.jcp.org/en/jsr/detail?id=170 Akubra: https://wiki.duraspace.org/display/AKUBRA/Akubra+Project Merritt
  • Berechtigungen und Eigentümerschaft sind in diesem Modell nur spezielle Metadaten eines Dateisystems Asynchrone Dateioperation werden benötigt, um die Applikation beim Umgang mit großen Datenemengen nicht zu blockieren

Transcript

  • 1. Ideen Goobi Storage APIGOOBI – Steuerungsgremium, 23.9.2011, Berlin Christian Mahnke, SUB Göttingen
  • 2. Bestehende Probleme bzw. Vorgaben• Probleme mir der Anzahl der Unterordner (FS Problem - Dresden)• Storage Anforderungen skalieren schlecht (SAN Kosten - Göttingen)• Archivsystem (LZA - Alle)
  • 3. High Level Anforderungen• Trennung zwischen Speicherbereichen (z.B. Produktions- und Archivbereich) – Regelbasierte Zuordnung (z.B Zeit, Präfixe für Master etc.)• Tiefere Hierarchien (z.B. um FS Limitierungen zu umgehen)• Import- / Exportfunktionalität – Bereitstellung im Präsentationssystem – Bereitstellung auf FTP Server eines Kunden• Kein zusätzlicher (oder geringer) Aufwand für Systemadministratoren gewünscht• Integritätsprüfungen und Ausfallsicherheit, sowie Nachvollziehbarkeit notwendig• Projektspezifische Konfigurationen (z.B. für zeitkritische Aufträge)• Implementierungen von Anforderungen sollten kombinierbar sein• Externe Zugriffsverfahren (z.B. via Samba) sollten berücksichtigt werden – Externe Applikationen (über CLI, z.B. Jhove(2)) sollen genutzt werden können.
  • 4. Schichten Samba / Statistik/ Metadaten Im- /Anwendungsebene Dateifrei Dokume Suche - editor Export - gabe ntation Storage APIStorage Verwaltung Integritäts- Regeln Metadaten Pair Tree prüfungStorage JCR Akubra Merritt Dateisystem
  • 5. Anforderungen Anwendungsebene• Transparenter Umgang mit Objekten• Nutzung von URIs für interne Referenzierung• Nutzung von Datenströmen (wo möglich)• Bereitstellung als temporäre Datei für Legacy Code und externe Anwendungen (z.B. Samba) – Berücksichtigung von Berechtigungen• Synchrone vs. asynchrone Bereitstellung für Nutzer
  • 6. Anforderungen Storage Verwaltung• Unterschiedliche Strategien (kombinierbar und projektspezifisch) – CDL Pair Tree – Caches bei Ausfall des unterliegenden Storages (schreiben) – Generierung von Prozessmetadaten • Versionierung für Metadaten • Checksummen, ggf. inklusive Integritätsprüfung, Transaktionssicherheit• Unterschiedliche Aktivierungen – Manuelle Zuordnung (z.B. Export) – Schrittgesteuert (z.B. Archivierung) – Erkennung von ungenutzten Daten basierend auf Regeln (wie HSM)
  • 7. Anforderungen Storage• Unterschiedliche Abstraktionsebenen (Beispiele) – Dateisystem • Dateien und Verzeichnisse – „Objektspeicher“ – z.B. TextGrid • Objekte und Kollektionen (Beinhalten jeweils auch komplexe Metadaten)• Unterschiedliche Semantiken (Beispiele) – Z.B. Update einer Datei vs. Update eines Objekts (s.o) – Implizite Versionierung (z.B. kein Löschen möglich) – Sichtbarkeit vs. Publizierung
  • 8. Bestehende Vorarbeiten• Anforderungsdefinition• Teilweise prototypische Implementierung im Rahmen des MassenDigiMathe Projektes für Abbyy Server Kommunikation (siehe Präsentation OCR)
  • 9. Vielen Dank! Fragen?mahnke@sub.uni-goettingen.de 9