Provenance-Aufzeichnung und -Analyse für Grid-Workflows - Presentation Transcript
Provenance-Aufzeichnung und -Analyse für Grid-Workflows Grid Workflow Workshop 2009 (5./6.3.2009, Berlin) Andreas Schreiber < Andreas.Schreiber@dlr.de> Deutsches Zentrum für Luft- und Raumfahrt e.V. (DLR), Köln-Porz http://www.dlr.de/sc
Überblick
Definition „Provenance“
Anwendungsgebiete
Wofür ist das wichtig?
Vorteile und Nutzen
Provenance Model
Aufzeichnung
Software
Analyse
Visualisierung
Ausblick
Integration mit Expertensystemen
Definition „Provenance“
Was ist „Provenance“? Das sagen Wörterbücher…
Duden Fremdwörterbuch
Provenienz [… we …; zu lat. provenire „hervorkommen, entstehen“] die ; -, -en: Herkunft, Ursprung
Wiktionary (deutsch)
Provenienz Bedeutungen: [1] Herkunft, Ursprung [a] die über die Vorbesitzer nachgewiesene Herkunft einer Ware. [b] im Buchwesen den oder die Vorbesitzer eines Schriftstücks, meist private Sammlungen oder geistliche Institutionen, aus denen das Exemplar in den heutigen Besitz einer Bibliothek gelangt ist: Provenienz (Buch). [c] im Archivwesen die Herkunft betreffend [d] in der Medizin wird Provenienz auch einfach im Sinne von Herkunft benutzt
Bestimmungen und Konformität Hintergrundwissen
Wir leben in einer regulierten Welt:
Audits, Konformität und Regulierung: Teil der Geschäftssprache
Geschäftliche „Spielregeln“: Produkthaftung, ISO 9000, Basel II, „Richtlinien zur Sicherung guter wissenschaftlicher Praxis”, …
Wie erzeugen und verwalten Organisationen Informationen?
Akademischer „ peer review ” für Wissenschaft und Forschung
Audit-Regeln für finanzielle Transaktionen
Flugsicherungs-Regulierungen
Bestimmungen zur Sicherheit von Patienten-Informationen
Verfahren zur Zulassung pharmazeutischer Produkte
Für Konformität müssen Prozesse und daraus gewonnene Informationen …
offen, transparent und auditierbar sein
eine geprüfte Integrität haben
Provenance in der Informatik Was wir darunter verstehen …
Ursprung und Authentizität von Ergebnissen
Aufzeichnung von Prozessinformationen zur Laufzeit des Prozesses
Mit dieser Dokumentation kann folgendes ermittelt werden:
Der Ursprung der Daten
Die Konformität des (Daten-) erzeugenden Prozesses
Das bezeichnen wir als „Provenienz”:
Die Provenienz einer Information ist die Geschichte ihrer Erzeugung
Provenance Von der Anwendung zur Repräsentation
Beispiel: Bei komplexen Simulationen Aufzeichnung von
Eingabedaten (Parameter),
Programmausführungen,
beteiligte Rechner oder
erzeugte Dateien.
UND BEZIEHUNGEN UNTEREINANDER (Unterschied zu „klassischem“ Logging!)
Computergestützte Repräsentation der Provenienz , die uns erlaubt
Sinnvolle Analysen durchzuführen
Unsere Anwendungen zu belegen
Dokumentation des Prozesses: „Provenance“- Informationen dazu notwendig
Anwendung auf verteilte Business Prozesse Standardisierte Dokumentation von Business Prozessen
Provenance
Architektur
Methodik
Überprüfungen
Wiederholung
Analyse
Provenance Store Record Query Apply Medizin Logistik Finanzwesen Luftfahrt Klima Pharmazie
Anwendungsgebiete
Anwendungsbereiche
Medizin
Ingenieurwissenschaft
Klimaforschung
Finanzwirtschaft
Bioinformatik
Pharmazie
Provenance in der Medizin
Nutzen von Provenance in der Medizin
Einheitliche Sicht auf Daten, Workflows, Logbücher
Überblick über alle früheren Behandlungen von Patienten
Analyse der verteilten medizinischen Infrastruktur zu Erkennung von Problemen
Durchführung von Audits (medizinisch / rechtlich)
Aufzeichnung von Provenance-Daten
Ursprung medizinischer Entscheidungen und Workflows
Die verfügbaren medizinischen Information in jedem Prozessschritt
Der Ursprung dieser Informationen
Beispiel: Organtransplantations-Management
Lab_1 Lab_2 Lab_3 Hospital A (donor side) Hospital B (recipient side) Hospital C Lab_A Lab_B OTA General Practice Center Transplant Unit Transplant Unit Transplant Unit General Practice Center Hospital D WL WL WL WL EHCR EHCR EHCR EHCR EHCR
Provenance in den Ingenieurwissenschaften
Nutzen von Provenance
Detaillierte Nachvollziehbarkeit des Entstehungsweges eines Berechnungsergebnisses
Klare Dokumentation von verteilten Berechnungs- Workflows
Möglichkeit zum „Re-run“ von Simulationen
Einfache Überprüfung auf Einhaltung von Regularien
Aufzeichnung von Provenance-Daten
Modell-Parameter
Tool-Versionen
Verwendete Hardware
Verwendete Libraries & Compiler(-Parameter)
Frage: “Was ist passiert?”
Lange Rechenzeiten:
~ 7 Tage auf typischem Cluster (>64 processors) pro Konfiguration
SIMULATION FAILED
Provenance in den Ingenieurwissenschaften Fragestellungen zur Nutzung der Informationen
In welcher Simulation wurde eine bestimmte Datei erzeugt?
In welchen Simulationen wurde ein bestimmtes Modell berechnet?
In welchen Simulationen wurde ein bestimmter Parameter verwendet?
Welche Monitoring-Informationen wurden in einer Simulation mit Parameter == x aufgezeichnet?
Welche Simulationen wurden mit einer bestimmten numerischen oder Modell-Konfiguration gerechnet?
Haben bei vertraulichen/geheimen Rechnungen die Daten die Rechner der Firma nicht verlassen?
Provenance in der Klimaforschung
Klimadaten werden in unterschiedlich(st)en Formaten ausgetauscht
Suche und Benutzung der Daten erfordert standardisierte Metadaten (ISO 19115/19139)
Sicherstellung der Datenqualität durch Provenance-Dokumentation („Lineage“):
Prozessierungsschritte
Datenquellen
Provenance Model
Provenance-Konzepte is an execution of Application Services Provenance ( concept ) Data product produces Process Documentation P - structure has a structure operates over P - assertions consists of contains assert Process documents is defined as a past Provenance ( representation ) is represented by Provenance Query is obtained by has
Anwendungen „Provenance-Aware“ machen Provenance Store Provenance von Daten ermitteln durch Stellen von Abfragen Administration von Store und Inhalt Anwendung Daten (Ergebnis) P-Assertions feststellen und als Prozess-Dokumentation aufzeichnen
Service Orientiere Architekturen
Ein Service ist eine Komponente, die irgendwelche Eingaben bekommt und irgendwelche Ausgabe produziert
Services werden in Form von Workflows zusammen benutzt, um konkrete Probleme zu lösen
Interaktionen zwischen den Services geschieht durch Nachrichten , die gemäß der Service- Interface -Spezifikation übermittelt werden
Als Akteur wird in SOAs entweder ein Client oder ein Service bezeichnet
Ein Prozess ist definiert als die Ausführung eines Workflow
Prozess-Dokumentation und P-Assertions (1)
Prozess-Dokumentation
Die Provenienz von Daten wird durch Dokumentieren des Prozesses, der zu den Daten geführt hat, repräsentiert
Die Dokumentation kann
vollständig oder unvollständig sein,
korrekt oder aber unpräzise sein,
strittige oder einvernehmliche Sichten der beteiligten Akteure darstellen oder
funktionale Details der Prozess-Abarbeitung bereitstellen oder abstrakt sein.
P-Assertions
Bestimmtes Element der Prozess-Dokumentation
Ein Annahme durch einen Akteur, die sich auf den Prozess bezieht
Prozess-Dokumentation und P-Assertions (2) M1 M2 M3 M4 M3 = f1(M1) M2 = f2(M1,M4) M2 is in reply to M1 I received M1, M4 I sent M2, M3 Interaction p-assertions Relationship p-assertions Service state p-assertions I received M1 at time t I used algorithm x.y.z f1 f2
Datenfluss
Interaction P-Assertions erlauben die Spezifikation von Datenfluss zwischen Akteuren
Relationship P-Assertions erlauben Charakterisierung des Datenflusses innerhalb von Akteuren
Der Gesamt-Datenfluss (extern und intern) stellt einen gerichteten azyklischen Graphen (DAG) dar, der den datenerzeugenden Prozess charakterisiert
P-Assertion XML-Schema
P-Structure (1)
P-Structure ist eine gemeinsame logische Struktur des Provenance-Stores; genutzt durch alle Akteure
Hierarchisch
Receiver’s view Sender’s view Extensibility (other views or signatures)
P-Structure (2) All p-assertions asserted by a given actor participating in an interaction Asserter identity
Aufzeichnung
Provenance-Architektur
Provenance-Store zum Speichern der Informationen
Bibliotheken zum Einbau in eigene Applikationen
Provenance-Store Beispiel-Implementierung IBM RecordPort XQueryPort XPathPort XPathFactoryPort Provenance Service eXist XML Database OGSA-DAI ProvenanceServiceResourceHome Uses Uses Manages ProvenanceService GT4 Container Tomcat/GT4 Container ProvenanceAuthorizationPDP PStoreDatabase OGSA-DAI Client API ProvenanceStoreResource PStoreDatabase OGSA-DAI Client API ProvenanceStoreResource PStoreDatabase OGSA-DAI Client API ProvenanceServiceResource ProvenanceStoreFactory ProvenanceStoreFactoryPortType ACL File
Client Side Library Implementierungen in Java und Python
Application API
ProvenanceService
PortFactory
Record and Query
Security
DocumentationStyle
Policy, Relationship and PHeader
Utilities
Convert application to Server APIs
Data creation, mapping and error handling
Server API
Supports Provenance Service WSDL
Provenance Aware Application API Utilities Server API Provenance Service Client Side Library
Analyse
Beispiel-Workflow 2D-CFD-Simulation mit Parametervariation
Mapping von Workflow auf Provenance-Modell “ caused_by” Beziehungen (Relationship P-Assertions) Interaktionen Events zwischen Anwendungskomponenten Aktoren Anwendungskomponenten (z.B. integrierte 3 rd -Party Software) Provenance-Modell Workflow
Vorgehensweise, um Anwendungen „Provenance-Aware“ zu machen
Compliance Oriented Architecture Einhaltung von Regularien
Erlaubt Applikations-übergreifende Überprüfung von Regularien
Auch über mehrere Einrichtungen (z.B. bei Unteraufträgen, Outsourcing, Projekten)
Geeignet für wiss. Peer-Review (e-Science) und Verifikation von Business Workflows
Provenance Store Query Provenance of data Record documentation of execution Anwendung Regularien- Prüfung
Einbettung in Arbeits-Umgebung Integration mit weiteren Tools
Benutzer
Teilt Wissen
Benutzt Wissen
Arbeitet mit Daten
Sucht nach Metadaten
Wählt Ressourcen
Software Tools
Generieren Workflow Beschr.
Führen Workflows im Grid aus
Zeichnen Provenance- Informationen auf
Provenance Store generate workflow execute workflow feedback analysis trace workflow execution trace user action Expert System Data & Workflow Management
0 comments
Post a comment