1. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Επεξεργασία Πληροφοριών και Υπολογισμών (ΕΠΥ)
ΕΞΌΡΥΞΗ ΓΝΏΣΗΣ ΑΠΌ ΓΡΆΦΟΥΣ ΒΙΟΛΟΓΙΚΏΝ ΔΕΔΟΜΈΝΩΝ
Περδικίδης Μιχαήλ Επιβλέπων καθηγητής : Περικλής Α Μήτκας
2. Δομή παρουσίασης
1. Στόχος της διπλωματικής
2. Θεωρητικό υπόβαθρο
3. Μεθοδολογία και πολυπλοκότητα προγράμματος
4. Αποτελέσματα
5. Συμπεράσματα
3. Στόχος της εργασίας
Δημιουργία
προγράμματος/αλγορίθμου ο οποίος
θα κάνει τα εξής στα μεταβολικά
μονοπάτια διαφόρων οργανισμών:
• Εύρεση εξελικτικών προτύπων
• Ομαδοποίηση
Σε μικρούς γράφους (μέχρι 100
κόμβους)
Έχοντας φιλική διεπαφή χρήστη
Σε εύλογο χρονικό διάστημα
4. Μεταβολικά
μονοπάτια
• Μεταβολισμός το σύνολο των
χημικών αντιδράσεων. Χωρίζεται
σε μεταβολικά μονοπάτια.
• Μεταβολικά μονοπάτια
γράφος ενζύμων και χημικών
αντιδράσεων.
• Ένζυμα ενεργούν σε χημικές
αντιδράσεις.
• eCNumber αριθμητικό σχήμα
ταξινόμησης ενζύμων στην μορφή
x.y.z.w.
Κύρια κλάση
Υποκλάση
Υπό-υποκλάση
Σειριακός αριθμός
5. Στοιχεία Θεωρίας γράφων
• Ως γράφο ορίζουμε μια πλειάδα τεσσάρων συμβόλων
g = (V, E, μ, v) όπου:
V ορίζει ένα πεπερασμένο σύνολο κόμβων (Vertex)
Ε ορίζει ένα πεπερασμένο σύνολο ακμών (Edge)
μ: V LV ορίζει μια συνάρτηση ετικετών κόμβων
v: E LE ορίζει μια συνάρτηση ετικετών ακμών
• Έστω δύο γράφοι g1 = (V1, E1, μ1, ν1) και g2 = (V2, E2,
μ2, ν2). Ο γράφος g1 είναι υπογράφος του g2 αν:
V1 ⊆ V2
E1 = E2 ∩ (V1 × V2)
μ1(u) = μ2(u) για όλα τα u ∈ V1
ν1(u, v) = ν2(u, v) για όλα τα (u, v) ∈ E1
• Κάθε μεταβολικό μονοπάτι αντιστοιχίζεται σε έναν γράφο.
• Κάθε πρότυπο αντιστοιχίζεται σε έναν υπογράφο.
6. Περιγραφή μεθοδολογίας
του προγράμματος
• Ανίχνευση κοινών προτύπων μεταξύ ζευγών γράφων.
• Ομαδοποίηση των γράφων με την χρήση των προτύπων που
έχουν ανιχνευθεί.
• Ιεράρχηση των γράφων σύμφωνα με τις ομάδες που έχουν
βρεθεί.
7. Διάγραμμα ροής
Με γκρι: αρχή και τέλος
Με πράσινο: αρχεία εισόδου/εξόδου
Με πορτοκαλί: υπολογισμοί
προγράμματος
Με μπλε: αλληλεπίδραση με τον
χρήστη
8. Κύρια λειτουργία
προγράμματος
• Είσοδος προγράμματος - parsing:
• Εύρεση προτύπων με χρήση κατωφλίου και δημιουργία
πίνακα προτύπων-γράφων
• Εύρεση πίνακα αποστάσεων προτύπων και ιεραρχική
ομαδοποίησή τους
• Εύρεση πίνακα αποστάσεων γράφων και ιεραρχική
ομαδοποίησή τους
9. Αλληλεπίδραση με τον
χρήστη
• Εκτύπωση όλων των πινάκων που βρέθηκαν στους
υπολογισμούς του προγράμματος
• Αναμονή του προγράμματος για ερωτήματα του χρήστη:
1. Οπτικοποίηση όλων των γράφων
2. Οπτικοποίηση όλων των προτύπων
3. Σύγκριση δύο γράφων και οπτικοποίηση των κοινών τους
προτύπων
4. Έξοδος από το πρόγραμμα
10. Πολυπλοκότητα
Η πολυπλοκότητα χωρίς σταθερούς όρους είναι:
Όπου:
• n: πλήθος των γράφων
• m: πλήθος προτύπων
• 𝐠𝐞: μέσος πλήθος ακμών γράφων
• 𝐩𝐞: μέσος πλήθος ακμών προτύπων
Άρα η πολυπλοκότητα επηρεάζεται από τρεις κύριες παραμέτρους:
1. Το πλήθος των γράφων εισόδου
2. Tο μέσο πλήθος ακμών γράφων
3. Tην εξάρτηση των γράφων ως προς την ομοιότητα τους. Η ομοιότητα βρίσκει πολλά πρότυπα
άρα μεγάλο m και 𝐩𝐞.
11. Πειράματα που εκτελέστηκαν
Συνολικά εκτελέστηκαν 5 πειράματα 3 τεχνητά για επαλήθευση του αλγορίθμου και 2 με
πραγματικά δεδομένα για την εφαρμογή του.
• Τεχνητά:
1. Τρεις και δύο γράφοι όμοιοι μεταξύ τους.
2. Πέντε όμοιοι γράφοι μεταξύ τους.
3. Τέσσερις όμοιοι και ένας ξεχωριστός γράφος.
• Πραγματικά δεδομένα από την βάση http://Biocyc.org :
1. Έξι γράφοι της λυσίνης.
2. Δώδεκα γράφοι Οι έξι προηγούμενοι, πέντε τρικαρβοξυλικού οξέως και έναν λιπιδίου
πυρήνα Α.
12. Αποτελέσματα:
Τεχνητά πειράματα
• Δύο τεχνητά πειράματα από πέντε γράφους το
κάθε ένα:
1. Τρεις και δύο όμοιοι γράφοι μεταξύ τους.
2. Τέσσερις όμοιοι και ένα ξεχωριστός.
15. Συμπεράσματα, τελικά σχόλια
Το πρόγραμμα:
• ανιχνεύει πρότυπα μεταξύ μεταβολικών μονοπατιών.
• Ομαδοποιεί γράφους σύμφωνα με τα πρότυπα που έχει βρει.
• Έχει εύκολη χρήση.
• Τρέχει σε εύλογο χρόνο.
Μελλοντικές επεκτάσεις:
• Συμβολή της πληροφορίας των κόμβων στην αναγνώριση προτύπων.
• Περισσότερες πηγές εισόδου γράφων.
• Εφαρμογή σε μεγαλύτερους γράφους.
• Βελτιστοποιημένη απεικόνιση των γράφων.