Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Περδικίδης Μιχάλης 7594

114 views

Published on

Εξόρυξη γνώσης από γράφους βιολογικών δεδομένων

Published in: Software
  • Be the first to comment

  • Be the first to like this

Περδικίδης Μιχάλης 7594

  1. 1. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Επεξεργασία Πληροφοριών και Υπολογισμών (ΕΠΥ) ΕΞΌΡΥΞΗ ΓΝΏΣΗΣ ΑΠΌ ΓΡΆΦΟΥΣ ΒΙΟΛΟΓΙΚΏΝ ΔΕΔΟΜΈΝΩΝ Περδικίδης Μιχαήλ Επιβλέπων καθηγητής : Περικλής Α Μήτκας
  2. 2. Δομή παρουσίασης 1. Στόχος της διπλωματικής 2. Θεωρητικό υπόβαθρο 3. Μεθοδολογία και πολυπλοκότητα προγράμματος 4. Αποτελέσματα 5. Συμπεράσματα
  3. 3. Στόχος της εργασίας Δημιουργία προγράμματος/αλγορίθμου ο οποίος θα κάνει τα εξής στα μεταβολικά μονοπάτια διαφόρων οργανισμών: • Εύρεση εξελικτικών προτύπων • Ομαδοποίηση  Σε μικρούς γράφους (μέχρι 100 κόμβους)  Έχοντας φιλική διεπαφή χρήστη  Σε εύλογο χρονικό διάστημα
  4. 4. Μεταβολικά μονοπάτια • Μεταβολισμός  το σύνολο των χημικών αντιδράσεων. Χωρίζεται σε μεταβολικά μονοπάτια. • Μεταβολικά μονοπάτια  γράφος ενζύμων και χημικών αντιδράσεων. • Ένζυμα  ενεργούν σε χημικές αντιδράσεις. • eCNumber  αριθμητικό σχήμα ταξινόμησης ενζύμων στην μορφή x.y.z.w. Κύρια κλάση Υποκλάση Υπό-υποκλάση Σειριακός αριθμός
  5. 5. Στοιχεία Θεωρίας γράφων • Ως γράφο ορίζουμε μια πλειάδα τεσσάρων συμβόλων g = (V, E, μ, v) όπου:  V ορίζει ένα πεπερασμένο σύνολο κόμβων (Vertex)  Ε ορίζει ένα πεπερασμένο σύνολο ακμών (Edge)  μ: V  LV ορίζει μια συνάρτηση ετικετών κόμβων  v: E  LE ορίζει μια συνάρτηση ετικετών ακμών • Έστω δύο γράφοι g1 = (V1, E1, μ1, ν1) και g2 = (V2, E2, μ2, ν2). Ο γράφος g1 είναι υπογράφος του g2 αν:  V1 ⊆ V2 E1 = E2 ∩ (V1 × V2)  μ1(u) = μ2(u) για όλα τα u ∈ V1  ν1(u, v) = ν2(u, v) για όλα τα (u, v) ∈ E1 • Κάθε μεταβολικό μονοπάτι αντιστοιχίζεται σε έναν γράφο. • Κάθε πρότυπο αντιστοιχίζεται σε έναν υπογράφο.
  6. 6. Περιγραφή μεθοδολογίας του προγράμματος • Ανίχνευση κοινών προτύπων μεταξύ ζευγών γράφων. • Ομαδοποίηση των γράφων με την χρήση των προτύπων που έχουν ανιχνευθεί. • Ιεράρχηση των γράφων σύμφωνα με τις ομάδες που έχουν βρεθεί.
  7. 7. Διάγραμμα ροής Με γκρι: αρχή και τέλος Με πράσινο: αρχεία εισόδου/εξόδου Με πορτοκαλί: υπολογισμοί προγράμματος Με μπλε: αλληλεπίδραση με τον χρήστη
  8. 8. Κύρια λειτουργία προγράμματος • Είσοδος προγράμματος - parsing: • Εύρεση προτύπων με χρήση κατωφλίου και δημιουργία πίνακα προτύπων-γράφων • Εύρεση πίνακα αποστάσεων προτύπων και ιεραρχική ομαδοποίησή τους • Εύρεση πίνακα αποστάσεων γράφων και ιεραρχική ομαδοποίησή τους
  9. 9. Αλληλεπίδραση με τον χρήστη • Εκτύπωση όλων των πινάκων που βρέθηκαν στους υπολογισμούς του προγράμματος • Αναμονή του προγράμματος για ερωτήματα του χρήστη: 1. Οπτικοποίηση όλων των γράφων 2. Οπτικοποίηση όλων των προτύπων 3. Σύγκριση δύο γράφων και οπτικοποίηση των κοινών τους προτύπων 4. Έξοδος από το πρόγραμμα
  10. 10. Πολυπλοκότητα Η πολυπλοκότητα χωρίς σταθερούς όρους είναι: Όπου: • n: πλήθος των γράφων • m: πλήθος προτύπων • 𝐠𝐞: μέσος πλήθος ακμών γράφων • 𝐩𝐞: μέσος πλήθος ακμών προτύπων Άρα η πολυπλοκότητα επηρεάζεται από τρεις κύριες παραμέτρους: 1. Το πλήθος των γράφων εισόδου 2. Tο μέσο πλήθος ακμών γράφων 3. Tην εξάρτηση των γράφων ως προς την ομοιότητα τους. Η ομοιότητα βρίσκει πολλά πρότυπα άρα μεγάλο m και 𝐩𝐞.
  11. 11. Πειράματα που εκτελέστηκαν Συνολικά εκτελέστηκαν 5 πειράματα  3 τεχνητά για επαλήθευση του αλγορίθμου και 2 με πραγματικά δεδομένα για την εφαρμογή του. • Τεχνητά: 1. Τρεις και δύο γράφοι όμοιοι μεταξύ τους. 2. Πέντε όμοιοι γράφοι μεταξύ τους. 3. Τέσσερις όμοιοι και ένας ξεχωριστός γράφος. • Πραγματικά δεδομένα από την βάση http://Biocyc.org : 1. Έξι γράφοι της λυσίνης. 2. Δώδεκα γράφοι  Οι έξι προηγούμενοι, πέντε τρικαρβοξυλικού οξέως και έναν λιπιδίου πυρήνα Α.
  12. 12. Αποτελέσματα: Τεχνητά πειράματα • Δύο τεχνητά πειράματα από πέντε γράφους το κάθε ένα: 1. Τρεις και δύο όμοιοι γράφοι μεταξύ τους. 2. Τέσσερις όμοιοι και ένα ξεχωριστός.
  13. 13. Αποτελέσματα: σε πραγματικά δεδομένα Δώδεκα μεταβολικά μονοπάτια από έξι μονοπάτια λυσίνης (L), πέντε τρικαρβοξυλικού οξέως (T) και ένας λιπιδίου πυρήνα Α (X).
  14. 14. Ενδεικτικά αποτελέσματα…
  15. 15. Συμπεράσματα, τελικά σχόλια Το πρόγραμμα: • ανιχνεύει πρότυπα μεταξύ μεταβολικών μονοπατιών. • Ομαδοποιεί γράφους σύμφωνα με τα πρότυπα που έχει βρει. • Έχει εύκολη χρήση. • Τρέχει σε εύλογο χρόνο. Μελλοντικές επεκτάσεις: • Συμβολή της πληροφορίας των κόμβων στην αναγνώριση προτύπων. • Περισσότερες πηγές εισόδου γράφων. • Εφαρμογή σε μεγαλύτερους γράφους. • Βελτιστοποιημένη απεικόνιση των γράφων.
  16. 16. Ευχαριστώ για την προσοχή σας! Ερωτήσεις;

×