Creating an Open Archival Information System compliant archive for CERN

ISSEL
ISSELISSEL
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Πολυτεχνική Σχολή
Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
Τομέας Ηλεκτρονικής & Υπολογιστών
Δημιουργία ενός Ανοιχτού Αρχειακού
Πληροφοριακού Συστήματος για το
CERN.
Χελάκης Κωνσταντίνος-Μάριος
08/12/2022
ΑΕΜ: 8944
Επιβλέπων Καθηγητής: Ανδρέας Λ. Συμεωνίδης
Επιβλέπων Μεταδιδακτορικός Ερευνητής: Θεμιστοκλής Διαμαντόπουλος
Περιεχόμενα
Εισαγωγή
Θεωρητικό
Υπόβαθρο
Περιγραφή
Συστήματος
Αποτελέσματα
Συμπεράσματα
& Μελλοντική
Ερεύνα
3
Ευρωπαϊκός Οργανισμός Πυρηνικών Ερευνών (CERN)
4
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Ιδρύθηκε το 1954 και είναι το μεγαλύτερο εργαστήριο
πυρηνικής και σωματιδιακής φυσικής στον κόσμο
• Βρίσκεται στα σύνορα Ελβετίας και Γαλλίας και
εργάζονται περίπου 20.000 άτομα από όλο τον κόσμο
• Για τα πειράματα χρησιμοποιείται ένα σύστημα επιταχυντών
σωματιδίων.
• Ο μεγαλύτερος επιταχυντής είναι ο Μεγάλος Επιταχυντής
Αδρονίων (LHC) με περίμετρο 27 χιλιόμετρα.
• Οι συγκρούσεις πραγματοποιούνται σε 4 τοποθεσίες που
υπάρχουν οι αντίστοιχοι 4 ανιχνευτές (CMS, ATLAS, Alice, LHCb)
Δεδομένα στο CERN
5
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Ο όγκος των δεδομένων που παράγεται
καθημερινά είναι τεράστιος.
• Περιλαμβάνει μετρήσεις από πειράματα,
datasets, βιβλιογραφία, έγγραφα, papers,
πολυμέσα κλπ.
• Πολλά από αυτά είναι μεγάλης επιστημονικής
αξίας και δεν μπορούν να αναπαραχθούν στο
μέλλον.
• Οφείλουμε να προφυλάσσουμε αυτά τα δεδομένα
και να σιγουρέψουμε ότι θα είναι διαθέσιμα στις
επόμενες γενιές
Κίνδυνοι απώλειας δεδομένων
6
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Σφάλμα Υλικού: Αλλαγή των αποθηκευμένων bits χωρίς μεθόδους ανάκτησης (π.χ.
Αθροίσματα Ελέγχου [Checksums])
• Απώλεια Υλικού (π.χ. Large Electron-Positron Collider)
• Απαρχαίωση: Δεν υπάρχει λογισμικό να ανοίξει τον τύπο αρχείου ή δεν ανοίγει
σωστά.
• Ελλιπής περιγραφή: Το αρχείο υπάρχει αλλά δεν υπάρχει σωστή περιγραφή και
ευρετηριοποίηση ώστε το αρχείο να είναι προσβάσιμο.
• Μη εκτίμηση της αξίας των δεδομένων (π.χ. πρώτη ιστοσελίδα στο CERN)
• Αναβαθμίσεις υλικού και μετεγκατάσταση δεδομένων
• Ανθρώπινα λάθη & Κυβερνοεπιθέσεις
CERN Digital Memory Project
7
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Δημιουργήθηκε στο CERN το 2016 με σκοπό να λύσει τα
τα παραπάνω προβλήματα.
• Να ψηφιοποιήσει αρχεία που βρίσκονταν ακόμη σε
αναλογική μορφή (π.χ. έγγραφα, δισκέτες,
φωτογραφίες και παρουσιάσεις)
• Να δημιουργήσει ένα ψηφιακό αρχείο για το CERN και
να ενσωματώσει τις τεχνικές ψηφιακής διατήρησης
(data preservation) στα υπάρχοντα αποθετήρια του
CERN.
• Να δημιουργήσει μία εφαρμογή μέσω τις οποίας οι
χρήστες θα μπορούν να διατηρούν και να
αρχειοθετούν τα δεδομένα τους.
Στόχος Διπλωματικής Εργασίας
8
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Η δημιουργία μίας εφαρμογής μακροχρόνιας
διατήρησης δεδομένων για το CERN σύμφωνα με το
πρότυπο Open Archival Information System (OAIS).
OAIS (Open Archival Information System)
9
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Πακέτο υποβολής – Submission Information Package (SIP): Περιέχει το αρχικό περιεχόμενο
• Πακέτο αρχείου – Archival Information Package (AIP): Δημιουργείται για να εγγυηθεί την
επιβίωση της πληροφορίας στο μέλλον.
• Πακέτο διάχυσης – Dissemination Information Package (DIP): Προέρχεται από το AIP
κατόπιν αιτήματος ενός χρήστη.
Απαραίτητες προϋποθέσεις OAIS
10
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
 Να διαπραγματεύεται για την δομή και τον τύπο των αρχείων που αποδέχεται τις
πληροφορίες από τους Παραγωγούς.
 Να έχει τον έλεγχο των πληροφοριών.
 Να καθορίζει ποια είναι η καθορισμένη κοινότητα και να βεβαιωθεί ότι οι
πληροφορίες είναι κατανοητές.
 Να βεβαιώσει ότι οι πληροφορίες διατηρούνται έναντι όλων των πιθανών
κινδύνων.
 Να βεβαιώσει ότι το αρχείο παραμένει αναλλοίωτο και πιστό αντίγραφο ως προς το
πρωτότυπο.
 Να διαθέσει τις πληροφορίες στην καθορισμένη κοινότητα.
Παρόμοιες Προσεγγίσεις
11
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
 Δεν είναι πάντα συμβατές με το πρότυπο OAIS (ePrints, DSpace)
 Βραχυπρόθεσμα έργα με μη συνεχή χρηματοδότηση (eARK)
 Διακοπή χρηματοδότησης και αποσυναρμολόγηση (DAITSS)
 Προγράμματα μη διαθέσιμα στην ερευνητική κοινότητα σαν ανοικτού
κώδικα (SPAR)
CERN SIP
12
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Αποτελεί τον τύπο αρχείου που
αποδέχεται το σύστημα από
τους παραγωγούς.
• Βασίζεται στο πρότυπο BagIt
File Packaging Format.
sip::cds::547698::1567483649
bag-info.txt
manifest-md5.txt
bagit.txt
data
CERN SIP Πρότυπο
Απαραίτητα
Περιγραφικά
Δεδομένα
BagIt File
Packaging
Format v0.97
meta
sip.json
bagit-create.log
SIP metadata
Creation logs
Bag information
Checksums
Creation info.
content
document.pdf
metadata.xml
Original file
Upstream metadata
BagIt Create
13
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Εργαλείο που επιτρέπει στο χρήστη να δημιουργήσει ένα πακέτο υποβολής (SIP) σύμφωνα με
την προδιαγραφή του CERN SIP.
BagIt Create
Εγγραφές σε αποθετήρια
Τοπικά αρχεία
ΕΙΣΟΔΟΣ
CDS Invenio Zenodo Indico CodiMD Gitlab
EΞΟΔΟΣ
Πακέτο
CERN
SIP
OAIS Platform
14
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
 Παρέχει έναν εύκολο τρόπο συλλογής πληροφοριών από τα
αποθετήρια και δημιουργίας πακέτων υποβολής SIP (χρησιμοποιώντας
το εργαλείο BagIt-create).
 Επικυρώνει πακέτα υποβολής SIP ως προς την συμβατότητα με την
προδιαγραφή CERN SIP και να επικυρώνει το άθροισμα ελέγχου.
 Ελέγχει την ροή εργασιών διατήρησης και διατηρεί ένα μητρώο.
 Μπορεί να χρησιμοποιηθεί μέσω του API ή μέσω της διεπαφής χρήστη.
OAIS Platform
15
Βήμα
(Step)
Βήμα
(Step)
Βήμα
(Step)
Ετικέτα
(Tag)
Χρήστης
(User)
Αρχείο 2
(Archive)
Αρχείο 3
(Archive)
Βήμα
(Step)
Αρχείο 1
(Archive)
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Χρήση του Archivematica
16
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
 Ανοιχτού κώδικα λογισμικό που χρησιμοποιείται από πολλά ιδρύματα και υπηρεσίες και
έχει ενεργή κοινότητα.
 Παρέχει εργαλεία για την μετατροπή του SIP σε AIP συμβατά με το πρότυπο OAIS.
Επικύρωση SIP Antivirus Scan
Κανονικοποίηση
αρχείων
Προσθήκη
απαραίτητων
μεταδεδομένων
Προσθήκη
αρχείου
README
Δημιουργία AIP
Καθορίζεται από τον διαχειριστή.
π.χ. όλες οι φωτογραφίες να μετατρέπονται σε .jpeg
Περιγραφή του
προτύπου και του
πακέτου
User Interface
17
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Ανάπτυξη Συστήματος
18
OAIS Platform Archivematica
Django
Application
Database
Celery
(Εκτελεστής
Εργασιών)
Redis
(in-memory
data store)
Dashboard
ClamAV
(Antivirus)
Storage
Service
MCP Server
(Scheduler)
MCP Client
(Runner)
Elasticsearch
Database
Fits
(File
identification
& Metadata
Extraction)
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Ανάπτυξη Συστήματος
19
 Το σύστημα αποτελείται από πολλά επί μέρους προγράμματα που
δημιουργούν προβλήματα συνδεσιμότητας και αλληλεξάρτησης.
 Τοποθέτηση όλων των διαφορετικών εργαλείων σε εικονικά περιβάλλοντα
(containers).
 Χρήση λογισμικού ενορχήστρωσης (container orchestration) για έξυπνη
κλιμάκωση, καλύτερη διαχείριση πόρων και αυτοματοποίηση
λειτουργιών.
 Για την ανάπτυξη του συστήματος επιλέξαμε το Openshift, μια
διαδικτυακή πλατφόρμα διαχείρισης ενορχήστρωσης containers.
 Επιτρέπει την έξυπνη διαχείριση και ανάπτυξη του συστήματος καθώς και
τον καθορισμό πολιτικών σε περίπτωση σφάλματος.
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Μετρήσεις & Απόδοση
20
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
 Για τον έλεγχο της απόδοσης χρησιμοποιήθηκε σε όλα τα πειράματα ο
ίδιος συνδυασμός αρχείων συνολικού μεγέθους 810ΜΒ
 Παραμετροποίηση των πόρων στο Openshift για την εύρεση της
κατάλληλης διαμόρφωσης.
 Έλεγχος χρόνου και μετρήσεων μέσω PromQL που προέρχονται από την
εφαρμογή του Openshift.
Μετρήσεις & Απόδοση
21
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
0:02
0:10
0:17
0:24
0:31
0:38
0:46
0:53
1:00
1 Runner 1 Runner with increased RAM 2 Runners with increased RAM 2 Runners with increased CPU + RAM
Μέσος Χρόνος Επεξεργασίας (ωω:λλ)
Μέσος Χρόνος Επεξεργασίας
Μετρήσεις & Απόδοση
22
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
0.00
0.20
0.40
0.60
0.80
1.00
1.20
1.40
1.60
1.80
2.00
1 Runner 1 Runner with increased RAM 2 Runners with increased RAM 2 Runners with increased CPU + RAM
Ταχύτητα Επεξεργασίας (MB/s)
Ταχύτητα Επεξεργασίας (MB/s)
Παραγόμενο Αρχείο AIP
23
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Κανονικοποιημένο
αρχείο (Μορφή PDF/A)
Αρχείο README
Metadata σύμφωνα με
το πρότυπο OAIS
Logs
Checksums
Συμβασιμότητα με το πρότυπο OAIS
24
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Προϋπόθεση Υλοποίηση
1. Διαπραγματεύεται για την δομή και τον τύπο των αρχείων
που αποδέχεται τις πληροφορίες από τους Παραγωγούς.
Τα δεδομένα που αποδέχονται πρέπει να
βασίζονται στο πρότυπο CERN SIP. ✅
2. Έχει τον έλεγχο των πληροφοριών ώστε να διασφαλίζεται η
μακροπρόθεσμη διατήρηση.
Πλήρης έλεγχος των πληροφοριών αφού
διατηρούνται στην βάση δεδομένων και προβολή
μέσω της διεπαφής χρήστη. ✅
3. Καθορισμός κοινότητας και να βεβαίωση ότι οι πληροφορίες
είναι κατανοητές
Προσωπικό και ερευνητές του CERN. Πρόσβαση
μέσω ιδρυματικού λογαριασμού. ✅
4. Οι πληροφορίες διατηρούνται έναντι όλων των πιθανών
κινδύνων και ότι το αρχείο δεν θα διαγραφεί ποτέ εκτός εάν
υπάρξει αλλαγή πολιτικής.
Τα μεταδεδομένα, το αρχείο README, καθώς και το
πακέτο AIP εγγυούνται ότι οι πληροφορίες θα είναι
κατανοητές και προσβάσιμες στο μέλλον. ✅
5. Βεβαίωση ότι το αρχείο είναι αναλλοίωτο και
επικαιροποιημένο ως προς το πρωτότυπο.
Όλα τα βήματα επεξεργασίας καταγράφονται και
υπάρχει αναφορά στο αρχικό αρχείο. ✅
6. Οι πληροφορίες είναι διαθέσιμες στην καθορισμένη
κοινότητα.
Ο χρήστης μπορεί να συνδεθεί με τον ιδρυματικό
λογαριασμό του και να έχει πρόσβαση στις
πληροφορίες του. ✅
Μελλοντική Έρευνα
25
 Ενοποίηση με περισσότερες υπηρεσίες μακροπρόθεσμες ψηφιακής
αποθήκευσης (π.χ. CERN Tape Archive).
 Περαιτέρω ενοποίηση με το InvenioRDM για ευρετηρίαση και
δημιουργία εκδόσεων.
 Διαρκής ενημέρωση της πολιτικής διατήρησης και κανονικοποίησης
αρχείων στο Archivematica.
 Γενικότερη βελτιστοποίηση του Archivematica για αύξηση της
απόδοσης.
 Δημιουργία αρχείου διάχυσης DIP από την διεπαφή χρήστη.
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Πολυτεχνική Σχολή
Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών
Τομέας Ηλεκτρονικής & Υπολογιστών
Σας ευχαριστώ για τον χρόνο σας.
ΤΕΛΟΣ
Ψηφιακή διατήρηση (Digital Preservation)
27
• Στοχεύει να εξασφαλίσει τη χρηστικότητα και την προσβασιμότητα ψηφιακών
πληροφοριών με την πάροδο του χρόνου και των τεχνολογικών εξελίξεων.
• Καθορισμός πολιτικών για να εξασφαλισθεί ότι το αρχειοθετημένο
περιεχόμενο παραμένει προσβάσιμο μετά από πολλά χρόνια.
• Στόχος είναι η μείωση της πιθανότητας απώλειας δεδομένων με το μικρότερο
δυνατό κόστος.
28
Open API Documentation
29
Χρήση του Archivematica
30
Λειτουργίες του Archivematica
31
24/02/23 32
Αρχιτεκτονική του Archivematica
Καθορισμός Πολιτικών
33
AIP README
34
PDI
35
Το πακέτο πληροφοριών περιέχει τις πληροφορίες περιεχομένου και τις πληροφορίες
περιγραφής διατήρησης (PDI).
Χωρίζεται σε πέντε τύπους πληροφοριών:
• Δεδομένα προέλευσης (περιγράφει την πηγή πληροφοριών)
• Δεδομένα πλαισίου (γιατί δημιουργήθηκε το πακέτο και η συσχέτισή του με άλλα
πακέτα)
• Δεδομένα αναφοράς (μοναδικό αναγνωριστικό για αναφορά στο πακέτο)
• Δεδομένα επαναφοράς (αθροίσματα ελέγχου)
• Δεδομένα πρόσβασης (ποιος έχει πρόσβαση σε αυτό το πακέτο)
Αυτόματο Deployment
36
1 of 35

More Related Content

Similar to Creating an Open Archival Information System compliant archive for CERN(20)

Avouris teaching pythonAvouris teaching python
Avouris teaching python
Nikolaos Avouris1.1K views
Enimerosi gia cisco 2016 v3Enimerosi gia cisco 2016 v3
Enimerosi gia cisco 2016 v3
papettas87 views
Enimerosi gia cisco 2016 v3Enimerosi gia cisco 2016 v3
Enimerosi gia cisco 2016 v3
Gymnasio Kokkinochorion37 views
Εργαστήριο Τεχνολογίας Κυκλωμάτων και ΑυτοματισμώνΕργαστήριο Τεχνολογίας Κυκλωμάτων και Αυτοματισμών
Εργαστήριο Τεχνολογίας Κυκλωμάτων και Αυτοματισμών
ΤΕΙ Κρήτης - Technological Educational Institute of Crete970 views

More from ISSEL(20)

Creating an Open Archival Information System compliant archive for CERN

  • 1. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Τομέας Ηλεκτρονικής & Υπολογιστών Δημιουργία ενός Ανοιχτού Αρχειακού Πληροφοριακού Συστήματος για το CERN. Χελάκης Κωνσταντίνος-Μάριος 08/12/2022 ΑΕΜ: 8944 Επιβλέπων Καθηγητής: Ανδρέας Λ. Συμεωνίδης Επιβλέπων Μεταδιδακτορικός Ερευνητής: Θεμιστοκλής Διαμαντόπουλος
  • 3. Ευρωπαϊκός Οργανισμός Πυρηνικών Ερευνών (CERN) 4 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα • Ιδρύθηκε το 1954 και είναι το μεγαλύτερο εργαστήριο πυρηνικής και σωματιδιακής φυσικής στον κόσμο • Βρίσκεται στα σύνορα Ελβετίας και Γαλλίας και εργάζονται περίπου 20.000 άτομα από όλο τον κόσμο • Για τα πειράματα χρησιμοποιείται ένα σύστημα επιταχυντών σωματιδίων. • Ο μεγαλύτερος επιταχυντής είναι ο Μεγάλος Επιταχυντής Αδρονίων (LHC) με περίμετρο 27 χιλιόμετρα. • Οι συγκρούσεις πραγματοποιούνται σε 4 τοποθεσίες που υπάρχουν οι αντίστοιχοι 4 ανιχνευτές (CMS, ATLAS, Alice, LHCb)
  • 4. Δεδομένα στο CERN 5 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα • Ο όγκος των δεδομένων που παράγεται καθημερινά είναι τεράστιος. • Περιλαμβάνει μετρήσεις από πειράματα, datasets, βιβλιογραφία, έγγραφα, papers, πολυμέσα κλπ. • Πολλά από αυτά είναι μεγάλης επιστημονικής αξίας και δεν μπορούν να αναπαραχθούν στο μέλλον. • Οφείλουμε να προφυλάσσουμε αυτά τα δεδομένα και να σιγουρέψουμε ότι θα είναι διαθέσιμα στις επόμενες γενιές
  • 5. Κίνδυνοι απώλειας δεδομένων 6 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα • Σφάλμα Υλικού: Αλλαγή των αποθηκευμένων bits χωρίς μεθόδους ανάκτησης (π.χ. Αθροίσματα Ελέγχου [Checksums]) • Απώλεια Υλικού (π.χ. Large Electron-Positron Collider) • Απαρχαίωση: Δεν υπάρχει λογισμικό να ανοίξει τον τύπο αρχείου ή δεν ανοίγει σωστά. • Ελλιπής περιγραφή: Το αρχείο υπάρχει αλλά δεν υπάρχει σωστή περιγραφή και ευρετηριοποίηση ώστε το αρχείο να είναι προσβάσιμο. • Μη εκτίμηση της αξίας των δεδομένων (π.χ. πρώτη ιστοσελίδα στο CERN) • Αναβαθμίσεις υλικού και μετεγκατάσταση δεδομένων • Ανθρώπινα λάθη & Κυβερνοεπιθέσεις
  • 6. CERN Digital Memory Project 7 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα Δημιουργήθηκε στο CERN το 2016 με σκοπό να λύσει τα τα παραπάνω προβλήματα. • Να ψηφιοποιήσει αρχεία που βρίσκονταν ακόμη σε αναλογική μορφή (π.χ. έγγραφα, δισκέτες, φωτογραφίες και παρουσιάσεις) • Να δημιουργήσει ένα ψηφιακό αρχείο για το CERN και να ενσωματώσει τις τεχνικές ψηφιακής διατήρησης (data preservation) στα υπάρχοντα αποθετήρια του CERN. • Να δημιουργήσει μία εφαρμογή μέσω τις οποίας οι χρήστες θα μπορούν να διατηρούν και να αρχειοθετούν τα δεδομένα τους.
  • 7. Στόχος Διπλωματικής Εργασίας 8 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα • Η δημιουργία μίας εφαρμογής μακροχρόνιας διατήρησης δεδομένων για το CERN σύμφωνα με το πρότυπο Open Archival Information System (OAIS).
  • 8. OAIS (Open Archival Information System) 9 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα • Πακέτο υποβολής – Submission Information Package (SIP): Περιέχει το αρχικό περιεχόμενο • Πακέτο αρχείου – Archival Information Package (AIP): Δημιουργείται για να εγγυηθεί την επιβίωση της πληροφορίας στο μέλλον. • Πακέτο διάχυσης – Dissemination Information Package (DIP): Προέρχεται από το AIP κατόπιν αιτήματος ενός χρήστη.
  • 9. Απαραίτητες προϋποθέσεις OAIS 10 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα  Να διαπραγματεύεται για την δομή και τον τύπο των αρχείων που αποδέχεται τις πληροφορίες από τους Παραγωγούς.  Να έχει τον έλεγχο των πληροφοριών.  Να καθορίζει ποια είναι η καθορισμένη κοινότητα και να βεβαιωθεί ότι οι πληροφορίες είναι κατανοητές.  Να βεβαιώσει ότι οι πληροφορίες διατηρούνται έναντι όλων των πιθανών κινδύνων.  Να βεβαιώσει ότι το αρχείο παραμένει αναλλοίωτο και πιστό αντίγραφο ως προς το πρωτότυπο.  Να διαθέσει τις πληροφορίες στην καθορισμένη κοινότητα.
  • 10. Παρόμοιες Προσεγγίσεις 11 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα  Δεν είναι πάντα συμβατές με το πρότυπο OAIS (ePrints, DSpace)  Βραχυπρόθεσμα έργα με μη συνεχή χρηματοδότηση (eARK)  Διακοπή χρηματοδότησης και αποσυναρμολόγηση (DAITSS)  Προγράμματα μη διαθέσιμα στην ερευνητική κοινότητα σαν ανοικτού κώδικα (SPAR)
  • 11. CERN SIP 12 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα • Αποτελεί τον τύπο αρχείου που αποδέχεται το σύστημα από τους παραγωγούς. • Βασίζεται στο πρότυπο BagIt File Packaging Format. sip::cds::547698::1567483649 bag-info.txt manifest-md5.txt bagit.txt data CERN SIP Πρότυπο Απαραίτητα Περιγραφικά Δεδομένα BagIt File Packaging Format v0.97 meta sip.json bagit-create.log SIP metadata Creation logs Bag information Checksums Creation info. content document.pdf metadata.xml Original file Upstream metadata
  • 12. BagIt Create 13 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα Εργαλείο που επιτρέπει στο χρήστη να δημιουργήσει ένα πακέτο υποβολής (SIP) σύμφωνα με την προδιαγραφή του CERN SIP. BagIt Create Εγγραφές σε αποθετήρια Τοπικά αρχεία ΕΙΣΟΔΟΣ CDS Invenio Zenodo Indico CodiMD Gitlab EΞΟΔΟΣ Πακέτο CERN SIP
  • 13. OAIS Platform 14 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα  Παρέχει έναν εύκολο τρόπο συλλογής πληροφοριών από τα αποθετήρια και δημιουργίας πακέτων υποβολής SIP (χρησιμοποιώντας το εργαλείο BagIt-create).  Επικυρώνει πακέτα υποβολής SIP ως προς την συμβατότητα με την προδιαγραφή CERN SIP και να επικυρώνει το άθροισμα ελέγχου.  Ελέγχει την ροή εργασιών διατήρησης και διατηρεί ένα μητρώο.  Μπορεί να χρησιμοποιηθεί μέσω του API ή μέσω της διεπαφής χρήστη.
  • 14. OAIS Platform 15 Βήμα (Step) Βήμα (Step) Βήμα (Step) Ετικέτα (Tag) Χρήστης (User) Αρχείο 2 (Archive) Αρχείο 3 (Archive) Βήμα (Step) Αρχείο 1 (Archive) Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
  • 15. Χρήση του Archivematica 16 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα  Ανοιχτού κώδικα λογισμικό που χρησιμοποιείται από πολλά ιδρύματα και υπηρεσίες και έχει ενεργή κοινότητα.  Παρέχει εργαλεία για την μετατροπή του SIP σε AIP συμβατά με το πρότυπο OAIS. Επικύρωση SIP Antivirus Scan Κανονικοποίηση αρχείων Προσθήκη απαραίτητων μεταδεδομένων Προσθήκη αρχείου README Δημιουργία AIP Καθορίζεται από τον διαχειριστή. π.χ. όλες οι φωτογραφίες να μετατρέπονται σε .jpeg Περιγραφή του προτύπου και του πακέτου
  • 16. User Interface 17 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
  • 17. Ανάπτυξη Συστήματος 18 OAIS Platform Archivematica Django Application Database Celery (Εκτελεστής Εργασιών) Redis (in-memory data store) Dashboard ClamAV (Antivirus) Storage Service MCP Server (Scheduler) MCP Client (Runner) Elasticsearch Database Fits (File identification & Metadata Extraction) Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
  • 18. Ανάπτυξη Συστήματος 19  Το σύστημα αποτελείται από πολλά επί μέρους προγράμματα που δημιουργούν προβλήματα συνδεσιμότητας και αλληλεξάρτησης.  Τοποθέτηση όλων των διαφορετικών εργαλείων σε εικονικά περιβάλλοντα (containers).  Χρήση λογισμικού ενορχήστρωσης (container orchestration) για έξυπνη κλιμάκωση, καλύτερη διαχείριση πόρων και αυτοματοποίηση λειτουργιών.  Για την ανάπτυξη του συστήματος επιλέξαμε το Openshift, μια διαδικτυακή πλατφόρμα διαχείρισης ενορχήστρωσης containers.  Επιτρέπει την έξυπνη διαχείριση και ανάπτυξη του συστήματος καθώς και τον καθορισμό πολιτικών σε περίπτωση σφάλματος. Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
  • 19. Μετρήσεις & Απόδοση 20 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα  Για τον έλεγχο της απόδοσης χρησιμοποιήθηκε σε όλα τα πειράματα ο ίδιος συνδυασμός αρχείων συνολικού μεγέθους 810ΜΒ  Παραμετροποίηση των πόρων στο Openshift για την εύρεση της κατάλληλης διαμόρφωσης.  Έλεγχος χρόνου και μετρήσεων μέσω PromQL που προέρχονται από την εφαρμογή του Openshift.
  • 20. Μετρήσεις & Απόδοση 21 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα 0:02 0:10 0:17 0:24 0:31 0:38 0:46 0:53 1:00 1 Runner 1 Runner with increased RAM 2 Runners with increased RAM 2 Runners with increased CPU + RAM Μέσος Χρόνος Επεξεργασίας (ωω:λλ) Μέσος Χρόνος Επεξεργασίας
  • 21. Μετρήσεις & Απόδοση 22 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα 0.00 0.20 0.40 0.60 0.80 1.00 1.20 1.40 1.60 1.80 2.00 1 Runner 1 Runner with increased RAM 2 Runners with increased RAM 2 Runners with increased CPU + RAM Ταχύτητα Επεξεργασίας (MB/s) Ταχύτητα Επεξεργασίας (MB/s)
  • 22. Παραγόμενο Αρχείο AIP 23 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα Κανονικοποιημένο αρχείο (Μορφή PDF/A) Αρχείο README Metadata σύμφωνα με το πρότυπο OAIS Logs Checksums
  • 23. Συμβασιμότητα με το πρότυπο OAIS 24 Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα Προϋπόθεση Υλοποίηση 1. Διαπραγματεύεται για την δομή και τον τύπο των αρχείων που αποδέχεται τις πληροφορίες από τους Παραγωγούς. Τα δεδομένα που αποδέχονται πρέπει να βασίζονται στο πρότυπο CERN SIP. ✅ 2. Έχει τον έλεγχο των πληροφοριών ώστε να διασφαλίζεται η μακροπρόθεσμη διατήρηση. Πλήρης έλεγχος των πληροφοριών αφού διατηρούνται στην βάση δεδομένων και προβολή μέσω της διεπαφής χρήστη. ✅ 3. Καθορισμός κοινότητας και να βεβαίωση ότι οι πληροφορίες είναι κατανοητές Προσωπικό και ερευνητές του CERN. Πρόσβαση μέσω ιδρυματικού λογαριασμού. ✅ 4. Οι πληροφορίες διατηρούνται έναντι όλων των πιθανών κινδύνων και ότι το αρχείο δεν θα διαγραφεί ποτέ εκτός εάν υπάρξει αλλαγή πολιτικής. Τα μεταδεδομένα, το αρχείο README, καθώς και το πακέτο AIP εγγυούνται ότι οι πληροφορίες θα είναι κατανοητές και προσβάσιμες στο μέλλον. ✅ 5. Βεβαίωση ότι το αρχείο είναι αναλλοίωτο και επικαιροποιημένο ως προς το πρωτότυπο. Όλα τα βήματα επεξεργασίας καταγράφονται και υπάρχει αναφορά στο αρχικό αρχείο. ✅ 6. Οι πληροφορίες είναι διαθέσιμες στην καθορισμένη κοινότητα. Ο χρήστης μπορεί να συνδεθεί με τον ιδρυματικό λογαριασμό του και να έχει πρόσβαση στις πληροφορίες του. ✅
  • 24. Μελλοντική Έρευνα 25  Ενοποίηση με περισσότερες υπηρεσίες μακροπρόθεσμες ψηφιακής αποθήκευσης (π.χ. CERN Tape Archive).  Περαιτέρω ενοποίηση με το InvenioRDM για ευρετηρίαση και δημιουργία εκδόσεων.  Διαρκής ενημέρωση της πολιτικής διατήρησης και κανονικοποίησης αρχείων στο Archivematica.  Γενικότερη βελτιστοποίηση του Archivematica για αύξηση της απόδοσης.  Δημιουργία αρχείου διάχυσης DIP από την διεπαφή χρήστη. Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
  • 25. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Τομέας Ηλεκτρονικής & Υπολογιστών Σας ευχαριστώ για τον χρόνο σας. ΤΕΛΟΣ
  • 26. Ψηφιακή διατήρηση (Digital Preservation) 27 • Στοχεύει να εξασφαλίσει τη χρηστικότητα και την προσβασιμότητα ψηφιακών πληροφοριών με την πάροδο του χρόνου και των τεχνολογικών εξελίξεων. • Καθορισμός πολιτικών για να εξασφαλισθεί ότι το αρχειοθετημένο περιεχόμενο παραμένει προσβάσιμο μετά από πολλά χρόνια. • Στόχος είναι η μείωση της πιθανότητας απώλειας δεδομένων με το μικρότερο δυνατό κόστος.
  • 27. 28
  • 34. PDI 35 Το πακέτο πληροφοριών περιέχει τις πληροφορίες περιεχομένου και τις πληροφορίες περιγραφής διατήρησης (PDI). Χωρίζεται σε πέντε τύπους πληροφοριών: • Δεδομένα προέλευσης (περιγράφει την πηγή πληροφοριών) • Δεδομένα πλαισίου (γιατί δημιουργήθηκε το πακέτο και η συσχέτισή του με άλλα πακέτα) • Δεδομένα αναφοράς (μοναδικό αναγνωριστικό για αναφορά στο πακέτο) • Δεδομένα επαναφοράς (αθροίσματα ελέγχου) • Δεδομένα πρόσβασης (ποιος έχει πρόσβαση σε αυτό το πακέτο)