Provenance-Aufzeichnung und -Analyse für Grid-Workflows

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    Favorites, Groups & Events

    Provenance-Aufzeichnung und -Analyse für Grid-Workflows - Presentation Transcript

    1. Provenance-Aufzeichnung und -Analyse für Grid-Workflows Grid Workflow Workshop 2009 (5./6.3.2009, Berlin) Andreas Schreiber < Andreas.Schreiber@dlr.de> Deutsches Zentrum für Luft- und Raumfahrt e.V. (DLR), Köln-Porz http://www.dlr.de/sc
    2. Überblick
      • Definition „Provenance“
      • Anwendungsgebiete
        • Wofür ist das wichtig?
        • Vorteile und Nutzen
      • Provenance Model
      • Aufzeichnung
        • Software
      • Analyse
        • Visualisierung
      • Ausblick
        • Integration mit Expertensystemen
    3. Definition „Provenance“
    4. Was ist „Provenance“? Das sagen Wörterbücher…
      • Duden Fremdwörterbuch
      • Provenienz [… we …; zu lat. provenire „hervorkommen, entstehen“] die ; -, -en: Herkunft, Ursprung
      • Wiktionary (deutsch)
      • Provenienz Bedeutungen: [1] Herkunft, Ursprung [a] die über die Vorbesitzer nachgewiesene Herkunft einer Ware. [b] im Buchwesen den oder die Vorbesitzer eines Schriftstücks, meist private Sammlungen oder geistliche Institutionen, aus denen das Exemplar in den heutigen Besitz einer Bibliothek gelangt ist: Provenienz (Buch). [c] im Archivwesen die Herkunft betreffend [d] in der Medizin wird Provenienz auch einfach im Sinne von Herkunft benutzt
    5. Bestimmungen und Konformität Hintergrundwissen
      • Wir leben in einer regulierten Welt:
      • Audits, Konformität und Regulierung: Teil der Geschäftssprache
      • Geschäftliche „Spielregeln“: Produkthaftung, ISO 9000, Basel II, „Richtlinien zur Sicherung guter wissenschaftlicher Praxis”, …
      • Wie erzeugen und verwalten Organisationen Informationen?
      • Akademischer „ peer review ” für Wissenschaft und Forschung
      • Audit-Regeln für finanzielle Transaktionen
      • Flugsicherungs-Regulierungen
      • Bestimmungen zur Sicherheit von Patienten-Informationen
      • Verfahren zur Zulassung pharmazeutischer Produkte
      • Für Konformität müssen Prozesse und daraus gewonnene Informationen …
        • offen, transparent und auditierbar sein
        • eine geprüfte Integrität haben
    6. Provenance in der Informatik Was wir darunter verstehen …
      • Ursprung und Authentizität von Ergebnissen
      • Aufzeichnung von Prozessinformationen zur Laufzeit des Prozesses
      • Mit dieser Dokumentation kann folgendes ermittelt werden:
        • Der Ursprung der Daten
        • Die Konformität des (Daten-) erzeugenden Prozesses
      • Das bezeichnen wir als „Provenienz”:
      • Die Provenienz einer Information ist die Geschichte ihrer Erzeugung
    7. Provenance Von der Anwendung zur Repräsentation
      • Beispiel: Bei komplexen Simulationen Aufzeichnung von
      • Eingabedaten (Parameter),
      • Programmausführungen,
      • beteiligte Rechner oder
      • erzeugte Dateien.
      • UND BEZIEHUNGEN UNTEREINANDER (Unterschied zu „klassischem“ Logging!)
      • Computergestützte Repräsentation der Provenienz , die uns erlaubt
      • Sinnvolle Analysen durchzuführen
      • Unsere Anwendungen zu belegen
      Dokumentation des Prozesses: „Provenance“- Informationen dazu notwendig
    8. Anwendung auf verteilte Business Prozesse Standardisierte Dokumentation von Business Prozessen
      • Provenance
      • Architektur
      • Methodik
      • Überprüfungen
      • Wiederholung
      • Analyse
      Provenance Store Record Query Apply Medizin Logistik Finanzwesen Luftfahrt Klima Pharmazie
    9. Anwendungsgebiete
    10. Anwendungsbereiche
      • Medizin
      • Ingenieurwissenschaft
      • Klimaforschung
      • Finanzwirtschaft
      • Bioinformatik
      • Pharmazie
    11. Provenance in der Medizin
      • Nutzen von Provenance in der Medizin
      • Einheitliche Sicht auf Daten, Workflows, Logbücher
      • Überblick über alle früheren Behandlungen von Patienten
      • Analyse der verteilten medizinischen Infrastruktur zu Erkennung von Problemen
      • Durchführung von Audits (medizinisch / rechtlich)
      • Aufzeichnung von Provenance-Daten
      • Ursprung medizinischer Entscheidungen und Workflows
      • Die verfügbaren medizinischen Information in jedem Prozessschritt
      • Der Ursprung dieser Informationen
      • Beispiel: Organtransplantations-Management
    12. Lab_1 Lab_2 Lab_3 Hospital A (donor side) Hospital B (recipient side) Hospital C Lab_A Lab_B OTA General Practice Center Transplant Unit Transplant Unit Transplant Unit General Practice Center Hospital D WL WL WL WL EHCR EHCR EHCR EHCR EHCR
    13. Provenance in den Ingenieurwissenschaften
      • Nutzen von Provenance
      • Detaillierte Nachvollziehbarkeit des Entstehungsweges eines Berechnungsergebnisses
      • Klare Dokumentation von verteilten Berechnungs- Workflows
      • Möglichkeit zum „Re-run“ von Simulationen
      • Einfache Überprüfung auf Einhaltung von Regularien
      • Aufzeichnung von Provenance-Daten
      • Modell-Parameter
      • Tool-Versionen
      • Verwendete Hardware
      • Verwendete Libraries & Compiler(-Parameter)
    14. Frage: “Was ist passiert?”
      • Lange Rechenzeiten:
      • ~ 7 Tage auf typischem Cluster (>64 processors) pro Konfiguration
      SIMULATION FAILED
    15. Provenance in den Ingenieurwissenschaften Fragestellungen zur Nutzung der Informationen
      • In welcher Simulation wurde eine bestimmte Datei erzeugt?
      • In welchen Simulationen wurde ein bestimmtes Modell berechnet?
      • In welchen Simulationen wurde ein bestimmter Parameter verwendet?
      • Welche Monitoring-Informationen wurden in einer Simulation mit Parameter == x aufgezeichnet?
      • Welche Simulationen wurden mit einer bestimmten numerischen oder Modell-Konfiguration gerechnet?
      • Haben bei vertraulichen/geheimen Rechnungen die Daten die Rechner der Firma nicht verlassen?
    16. Provenance in der Klimaforschung
      • Klimadaten werden in unterschiedlich(st)en Formaten ausgetauscht
      • Suche und Benutzung der Daten erfordert standardisierte Metadaten (ISO 19115/19139)
      • Sicherstellung der Datenqualität durch Provenance-Dokumentation („Lineage“):
        • Prozessierungsschritte
        • Datenquellen
    17. Provenance Model
    18. Provenance-Konzepte is an execution of Application Services Provenance ( concept ) Data product produces Process Documentation P - structure has a structure operates over P - assertions consists of contains assert Process documents is defined as a past Provenance ( representation ) is represented by Provenance Query is obtained by has
    19. Anwendungen „Provenance-Aware“ machen Provenance Store Provenance von Daten ermitteln durch Stellen von Abfragen Administration von Store und Inhalt Anwendung Daten (Ergebnis) P-Assertions feststellen und als Prozess-Dokumentation aufzeichnen
    20. Service Orientiere Architekturen
      • Ein Service ist eine Komponente, die irgendwelche Eingaben bekommt und irgendwelche Ausgabe produziert
      • Services werden in Form von Workflows zusammen benutzt, um konkrete Probleme zu lösen
      • Interaktionen zwischen den Services geschieht durch Nachrichten , die gemäß der Service- Interface -Spezifikation übermittelt werden
      • Als Akteur wird in SOAs entweder ein Client oder ein Service bezeichnet
      • Ein Prozess ist definiert als die Ausführung eines Workflow
    21. Prozess-Dokumentation und P-Assertions (1)
      • Prozess-Dokumentation
      • Die Provenienz von Daten wird durch Dokumentieren des Prozesses, der zu den Daten geführt hat, repräsentiert
      • Die Dokumentation kann
        • vollständig oder unvollständig sein,
        • korrekt oder aber unpräzise sein,
        • strittige oder einvernehmliche Sichten der beteiligten Akteure darstellen oder
        • funktionale Details der Prozess-Abarbeitung bereitstellen oder abstrakt sein.
      • P-Assertions
      • Bestimmtes Element der Prozess-Dokumentation
      • Ein Annahme durch einen Akteur, die sich auf den Prozess bezieht
    22. Prozess-Dokumentation und P-Assertions (2) M1 M2 M3 M4 M3 = f1(M1) M2 = f2(M1,M4) M2 is in reply to M1 I received M1, M4 I sent M2, M3 Interaction p-assertions Relationship p-assertions Service state p-assertions I received M1 at time t I used algorithm x.y.z f1 f2
    23. Datenfluss
      • Interaction P-Assertions erlauben die Spezifikation von Datenfluss zwischen Akteuren
      • Relationship P-Assertions erlauben Charakterisierung des Datenflusses innerhalb von Akteuren
      • Der Gesamt-Datenfluss (extern und intern) stellt einen gerichteten azyklischen Graphen (DAG) dar, der den datenerzeugenden Prozess charakterisiert
    24. P-Assertion XML-Schema
    25. P-Structure (1)
      • P-Structure ist eine gemeinsame logische Struktur des Provenance-Stores; genutzt durch alle Akteure
      • Hierarchisch
      Receiver’s view Sender’s view Extensibility (other views or signatures)
    26. P-Structure (2) All p-assertions asserted by a given actor participating in an interaction Asserter identity
    27. Aufzeichnung
    28. Provenance-Architektur
      • Provenance-Store zum Speichern der Informationen
      • Bibliotheken zum Einbau in eigene Applikationen
    29. Provenance-Store Beispiel-Implementierung IBM RecordPort XQueryPort XPathPort XPathFactoryPort Provenance Service eXist XML Database OGSA-DAI ProvenanceServiceResourceHome Uses Uses Manages ProvenanceService GT4 Container Tomcat/GT4 Container ProvenanceAuthorizationPDP PStoreDatabase OGSA-DAI Client API ProvenanceStoreResource PStoreDatabase OGSA-DAI Client API ProvenanceStoreResource PStoreDatabase OGSA-DAI Client API ProvenanceServiceResource ProvenanceStoreFactory ProvenanceStoreFactoryPortType ACL File
    30. Client Side Library Implementierungen in Java und Python
      • Application API
      • ProvenanceService
      • PortFactory
      • Record and Query
      • Security
      • DocumentationStyle
      • Policy, Relationship and PHeader
      • Utilities
      • Convert application to Server APIs
      • Data creation, mapping and error handling
      • Server API
      • Supports Provenance Service WSDL
      Provenance Aware Application API Utilities Server API Provenance Service Client Side Library
    31. Analyse
    32. Beispiel-Workflow 2D-CFD-Simulation mit Parametervariation
    33. Mapping von Workflow auf Provenance-Modell “ caused_by” Beziehungen (Relationship P-Assertions) Interaktionen Events zwischen Anwendungskomponenten Aktoren Anwendungskomponenten (z.B. integrierte 3 rd -Party Software) Provenance-Modell Workflow
    34. Beispiel Provenance-Informationen in Simulations-Workflows Interaktionen: Konfiguration Prozessablauf Monitoring Datentransfer Relationen: - r0: i0 causes i1 - r1: i1 causes i2 - r2: i2 causes i3 - r3: i2 causes i4 - r4: i3 causes i2 - r5: i2 causes m1 - r6: i2 causes d1 - r7: i0 causes d2 Status Akteur Process control File-Server Pre- Processing Parameter variation Simulation Visualization i0 i1 i2 i3 i4 m1 d1 d2 c1 c-1 c2 c-2 c3 c-3 c4 c-4
    35. Visualisierung: Process Portlet
    36. Visualisierung: Relationship Portlet
    37. Weitere Visualisierungskonzepte (1)
      • Überblick über mehrere Prozesse und deren Verbindungen
      • Mögliche Wechselwirkungen von Prozessen
      • Akteure und deren Kommunikation im Fokus
      • Dynamisches orthogonales Layout
      • Wichtig: Kontrastreiche Farben
      • Speziell: Magic Lenses Technik
      • Kein Abhängigkeitsbezug der Interaktionen
      • Kein Datum oder Inhalt der Interaktionen
    38. Weitere Visualisierungskonzepte (2)
      • Ein Prozess mit allen involvierten Faktoren im Fokus
      • Ähnlich eines Sequenzdiagramms
      • Hierarchisches Layout
      • Speziell: Overview Plus Detail Technik
      • Dynamische Exploration sehr wichtig
      • Sehr Komplex
      • Exploration muss sehr konservativ stattfinden
    39. Ausblick
    40. Weitere Themen
      • Security
      • Zugriffskontrolle, Authentifizierung, Datenintegrität
      • Skalierbarkeit
      • Provenance-Aufzeichnung muss genauso skalierbar sein wie die Anwendungen selber
      • Standardisierung
      • Provenance Model, Recording/Query Interfaces, APIs
      • Methodik
      • Vorgehensweise, um Anwendungen „Provenance-Aware“ zu machen
    41. Compliance Oriented Architecture Einhaltung von Regularien
      • Erlaubt Applikations-übergreifende Überprüfung von Regularien
      • Auch über mehrere Einrichtungen (z.B. bei Unteraufträgen, Outsourcing, Projekten)
      • Geeignet für wiss. Peer-Review (e-Science) und Verifikation von Business Workflows
      Provenance Store Query Provenance of data Record documentation of execution Anwendung Regularien- Prüfung
    42. Einbettung in Arbeits-Umgebung Integration mit weiteren Tools
      • Benutzer
      • Teilt Wissen
      • Benutzt Wissen
      • Arbeitet mit Daten
      • Sucht nach Metadaten
      • Wählt Ressourcen
      • Software Tools
      • Generieren Workflow Beschr.
      • Führen Workflows im Grid aus
      • Zeichnen Provenance- Informationen auf
      Provenance Store generate workflow execute workflow feedback analysis trace workflow execution trace user action Expert System Data & Workflow Management
    43. Provenance in D-Grid
      • Bereitstellung durch AeroGrid
      • Provenance-Store
      • Client Libraries (Java, Python)
      • Methodisches Know-How
      • Dokumentation
      • Kontakt
      • Henning Bergmeyer (DLR) [email_address]
    44. Credits & Informationsquellen
      • Einzelne Slides bekommen/geklaut/inspiriert von
      • Luc Moreau (University of Southampton) + Team
      • John Ibbotson (IBM UK)
      • Guy K. Kloß (Massey University, Auckland)
      • Henning Bergmeyer, Markus Kunde (DLR)
      • Weitere Informationen & Software
      • http://www.aero-grid.de /projektbeschreibung/provenance
      • http://www.gridprovenance.org/
      • http://www.ipaw.info
    45. Fragen?
    SlideShare Zeitgeist 2009

    + Andreas SchreiberAndreas Schreiber Nominate

    custom

    431 views, 0 favs, 1 embeds more stats

    Vortrag auf dem Grid Workflow Workshop 2009 (06.03. more

    More info about this document

    © All Rights Reserved

    Go to text version

    • Total Views 431
      • 428 on SlideShare
      • 3 from embeds
    • Comments 0
    • Favorites 0
    • Downloads 0
    Most viewed embeds
    • 3 views on http://www.andreas-schreiber.net

    more

    All embeds
    • 3 views on http://www.andreas-schreiber.net

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories