1. http://www.auth.gr/ee
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πολυτεχνικής Σχολής
Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών
ΓΟΝΙΔΙΩΜΑΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ
ΜΕ ΜΕΘΟΔΟΥΣ YΠΟΛΟΓΙΣΤΙΚΗΣ ΝΟΗΜΟΣΥΝΗΣ
ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΣΤΟ R
Επιβλέπων Καθηγητής μου: Συμεωνίδης Ανδρέας
Αλαουί Τζαμαλί Ζακία
Ακαδημαϊκό Έτος: 2015
2. Παραγωγή μεγάλων ποσοτήτων γενετικών δεδομένων στην
Μοριακή Βιολογία.
Ανάλυση της γενετικής πληροφορίας με μεθόδους
Βιοπληροφορικής.
Μελέτη και ανάλυση της γονιδιακής έκφρασης με μία
πειραματική τεχνική που έχει ξεχωρίσει ιδιαίτερα τα
τελευταία χρόνια : οι μικροσυστοιχίες (τσιπ DNA).
Κοινή χρήση των μικροσυστοιχίων είναι να καθοριστεί ποια
γονίδια ενεργοποιούνται και ποια γονίδια καταστέλλονται
όταν συγκρίνονται δύο πληθυσμοί κυττάρων.
Πειραματικές Τεχνικές της Μοριακής Βιολογίας
ΔεδομένωνΟμαδοποιήσηΣυμπέρασμαΕισαγωγή
1/21
3. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα
Ερευνητικό Ενδιαφέρον των πειραμάτων
Οι διάφορες μορφές καρκίνου συσχετίζονται:
Η υπέρ-έκφραση του μεμβρανικού γονιδίου ErbB2 που οφείλεται στην γονιδιακή ενίσχυση
και/ή στην αυξημένη μεταγραφή.
Ο καταστολέας όγκου p53 (μεταβάλλεται συνήθως σε ανθρώπινους καρκίνους) :
Δρά ως μεταγραφικός ρυθμιστής
Παίζει μεγάλο ρόλο στον ελέγχο της γονιδιακής έκφρασης του ErbB2
Σε καρκίνους όπου ένα γονίδιο ErbB2 υπέρ-εκφράζεται και την p53 είναι μεταλλαγμένη
ή απουσιάζει, η εξέλιξη σε μεταστάσεις είναι πιο συχνή , υποδηλώνοντας έτσι
τη συνεργασία μεταξύ των ρ53 και ΕrbB2.
Ανάλυση δεδομένων από πειράματα με μικροσυστοιχίες που προέρχονται από το Κέντρο
Γονιδιώματος της Ιατρικής Σχολής του Πανεπιστήμιου McGill του Καναδά.
Εισαγωγή
2/21
4. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα
Κύτταρα Καρκίνου (HCT116)
P53 -/-
Χαμηλή
έκφραση
Υψηλή
έκφραση
Υψηλή
έκφραση
Χαμηλή
έκφραση
Γονιδιώματος
Πειράματα γονιδιωματικής μελέτης από
γονίδια με καρκίνο του παχέος εντέρου HCT116
, πραγματοποιήθηκε με τη μέθοδο Affymetrix.
Μικροσυστοιχία affimetrix: Οι ανιχνευτές
συντίθενται απευθείας στην επιφάνεια ,
το γονίδιο αντιστοιχεί στο σύνολο των
ανιχνευτών ολιγονουκλεοτιδίων.
γονιδιωματική μελέτη
Εισαγωγή
3/21
5. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα
Σκοπός Διπλωματικής
ανάλυση με τη χρήση μεθόδων ομαδοποίησης δεδομένων γονιδιακής
έκφρασης που προήρθαν από πειράματα με μικροσυστοιχίες:
Χρήση τεχνικές ομαδοποιήσης δεδομένων με σκοπό την οργάνωση
των γονίδιων σε συστάδες βάση της γονιδιακής τους έκφραση
Περιγραφή αποτελεσμάτων που προκύπτουν από την εφαρμογή
των αλγορίθμων ομαδοποίησης
Σύγκριση αποτελεσμάτων
Βιολογική γνώση που προκύπτει.
Εισαγωγή
4/21
6. Περιγραφή διαδικασίας παραγωγής και απόκτησης δεδομένων
γονιδιακής έκφρασης με τη μέθοδο affymetrix
Ομαδοποιήσης δεδομένων με σκοπό την οργάνωση
γονιδίων σε συστάδες βάση της γονιδιακής τους έκφρασης
Αλγόριθμοι ομαδοποίησης Κ-means, ο SOM (Self-Organizing Map)
και o SOTA (Self-organizing Tree Algorithm)
Αποτελέσματα που προκύπτουν από την εφαρμογή των αλγορίθμων ομαδοποίησης
Σύγκριση αποτελεσμάτων
πειραματική μέθοδος εύρεσης μεταλλαγμένων γονίδιων
ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα
Σύνοψη Μεθοδολογίας
Βήματα που ακολουθήθηκαν στην εκπόνηση της παρούσας διπλωματικής εργασίας
Εισαγωγή
5/21
8. Συλλογή δεδομένων 2/2
Περιγραφή Στήλες Δεδομένων
Εξι πειράματα για τα οποία πάρθηκαν μετρήσεις
από φυσιολογικά γονίδια (C1-C6)
από γονίδια με καρκίνο του HCT116 (T1-T6)
Στα πρώτα τρία πειράματα
υπερέκφραση των γονιδίων p53 και ErbB2
Στα τρία τελευταία πειράματα
υπερέκφραση το ErbB2 και υποεκφραστεί το p53
Κύτταρα ελέγχου AP2 είναι τα ίδια Κύτταρα
που εξέφρασαν άδεια πλασμώδια
Πειράματα σε 2 διαφορετικές χρονικές στιγμές
T/C ως μέσες διαφορές τιμές
ΕισαγωγήΟμαδοποιήσηΣυμπέρασμα
ErbB2
P53+/+
vs
p53-/-
1h
P53+/+
vs
p53-/-
24h
AP2
P53+/+
Vs
P53-/-
1h
P53+/+
Vs
P53-/-
24h
p53-/-
ErbB2
Vs
AP2
1h
ErbB2
Vs
AP2
24h
P53+/+
ErbB2
Vs
AP2
1h
ErbB2
Vs
AP2
24h
(T5/C5) (T6/C6) (T1/T4) (T2/T5)
T = ErbB2 C = τα γονίδια ελέγχου
Δεδομένων
7/21
(T1/C1) (T2/C2) (T3/C3) (T4/C4)
9. ΕισαγωγήΔεδομένωνΣυμπέρασμα
Ομαδοποίηση (1/8)
Από την Συλλογή δεδομένων στην Ομαδοπόιηση
Aποδοτική μέθοδος ομαδοποίησης μπορεί να οδηγήσει στην ανακάλυψη νέας
βιολογικής γνώσης για τις λειτουργίες των γονιδίων και τους μηχανισμούς που
οδηγούν σε διάφορες ασθένειες.
Εφαρμογή τεχνικές ομαδοποίησης ως προς εξέταση γονιδίων με βάση τα προφίλ
έκφρασής τους στα διαφορετικά πειράματα που έχουν πραγματοποιηθεί
Επίδραση μετρικών αποστάσεων στην ομαδοποίηση
Διαδοχικές δοκιμές για την εύρεση του βέλτιστου αριθμού ομάδων
Ομαδοποίηση
8/21
10. 2 4 6 8
-0.8-0.6-0.4-0.20.00.20.4
Index
average_timeseries
ΕισαγωγήΔεδομένωνΣυμπέρασμα
Χρήση κλασσικές τεχνικές ομαδοποίησης K-means και Self Organized Maps
Αποτελέσματα r-code k-means clustering (1/2) (προγράμματα Ομαδοποίησης Δεδομένων)
τα κέντρα βάρη = μέσος όρους της χρονοσειράς
Συστάδες Σύνολο εντός- συστάδων
άθροισμα των τετραγώνων
1η 667230.4
2η 587036.5
3η 546687.4
4η 516637.4
5η 491612.9
6η 473239.7
Σύγκλιση
7η 473239.7
Κ = 6 συστάδες
Ομαδοποίηση (2/8)
Ομαδοποίηση
9/21
11. Εισαγωγή
Αποτελέσματα r-code k-means clustering (2/2)
Ομαδοποίηση (3/8)
Από τα αποτελέσματα της μεθοδολογίας k-means, δεν μπορούμε να βγάλουμε σαφής συμπέρσμα
για την έκφραση γονιδίων, όμως πετύχαμε την ομαδοποιήση των δεδομένων σε 6 συστάδες.
ΔεδομένωνΣυμπέρασμα
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V1
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V2
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V3
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V4
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V5
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V6
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V7
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V8
Ομαδοποίηση
10/21
12. ΕισαγωγήΔεδομένωνΣυμπέρασμα
Αποτελέσματα Mathlab-code SOM (Self Organized Maps) clustering (1/2 )
(προγράμματα Ομαδοποίησης Δεδομένων)
Ομαδοποίηση (4/8)
Τοπολογία 1 X 2
SOM µπορεί να ϑεωρηθεί ως µια παραλλαγή της µεθόδου kmeans, η οποία περιορίζει
τοπολογικά τους πυρήνες(centroids) των συστάδων
2 4 6 8
-60
-50
-40
-30
-20
-10
0
10
20
SOM CLUSTERING
2 4 6 8
-40
-20
0
20
40
60
Τοπολογία 2 X 2
2 4 6 8
-40
-20
0
2 4 6 8
-20
-10
0
10
20
2 4 6 8
-60
-40
-20
0
20
SOM CLUSTERING
2 4 6 8
-50
0
50
Άθροισμα Σφαλμάτων: 6.7181*104
Άθροισμα Σφαλμάτων: 6.2638*104
Ομαδοποίηση
11/21
14. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
Ομαδοποίηση (6/8)
Μειονέκτημα μεθοδολογίων K-means και Self Organized Maps
απαιτούν σαν είσοδο τον αριθμό των ομάδων πριν προχωρήσουν στην
ομαδοποίηση
πραγματοποιήση διαδοχικών δοκιμών για την εύρεση του βέλτιστου αριθμού
ομάδων
Η μέθοδος SOTA (Self- Organizing Tree Algorithm) έρχεται να αντιμετωπίσει τους
περιορισμούς των προηγουμένων μεθοδολογίων ομαδοποίησης.
13/21
16. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
Ερμηνεία αποτελέσματων SOTA (8/8)
Mετρήσεις σε κύτταρα ελέγχου ή καρκινικά κύτταρα:
T1/C1, T2/C2, T3/C3, T4/C4, T5/C5, T6/C6, T1/T4, T2/T5
Οι ομάδες με το περισσότερο ενδιαφέρον είναι η τέταρτη
και η πέμπτη.
H τέταρτη ομάδα αποτελείται από 253 γονίδια που παρουσιάζουν
εξαιρετικά μειωμένο λόγο T2/C2 κaι ελαφρώς αυξημένος λόγος T2/T5
Καταλήξουμε ότι αυτή η ομάδα γονιδίων υπερεκφράζεται
στα φυσιολογικά κύτταρα όταν υπερεκφράζεται το γονίδιο p53.
15/21
17. Η πέμπτη ομάδα γονιδίων αποτελείται από 210 γονίδια με χαμηλές τιμές στον λόγο Τ2/C2,
αυξημένες τιμές στους λόγους Τ3/C3 και T2/T5 και εξαιρετικά υψηλή τιμή στον λόγο T5/C5
Η ομάδα αυτή απαρτίζεται από τα γονίδια που επηρεάζονται περισσότερο από τον συνδυασμό υπερέκφρασης
του ογκογονιδίου ErbB2 και υποέκφρασης του ογκοκατασταλτικού γονιδίου p53
Κατάληξη με ασφάλεια στο συμπέρασμα ότι αυτά είναι τα γονίδια που συμμετέχουν στον μηχανισμό
της καρκινογέννησης για το συγκεκριμένο είδος καρκίνου
Περαιτέρω μελέτη της συμπεριφοράς τους σε συνδυασμό με δημιουργία του γονιδιακού ρυθμιστικού δικτύου
Ερμηνεία αποτελέσματων SOTA (2/2)
Δίκτυο Γονιδιακής Ρύθμισης
Δεδομένα
Γονιδιακής Έκφρασης
data _ file
Ομαδοποίηση Κοινής
Έκφρασης
Εξαγωγή Συνρύθμισης
από Συνέκφραση
Βιολογική Γνώση Ανακάλυψη
Λειτουργίας γονιδίων
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
16/21
18. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
Αξιολόγιση μεθόδων ομαδοποίησης (1/2)
Στόχος μίας αποτελεσματικής ομαδοποιήσης , είναι η επιτεύξη
των δύο σκοπών:
Ελαχιστοποίηση της μέσης Ευκλείδειας απόστασης των δειγμάτων
από τα κέντρα των ομάδων
Δημιουργία όσο το δυνατών λιγότερων ομάδων
Η ταυτόχρονη επίτευξη των δύο στόχων είναι η χρήση της παρακάτω
μετρικής για την αξιολόγηση των αλγορίθμων:
Fitness = Average Euclidean Distances +0.02*Number Of-Clusters
17/21
19. Σύγκριση αποτελέσματων των τρίων αλγορίθμων
Αξιολόγιση μεθόδων ομαδοποίησης (1/2)
Algorithm Average Euclidean
Distances Number of Clusters Fitness Value
K-means 5.6394 2 5.6794
< < < 5.5232 4 5.6032
< < < 5.4079 9 5.5879
< < < 5.3298 16 5.6498
< < < 5.2743 25 5.7743
< < < 5.2297 36 5.9497
< < < 5.1922 49 6.1722
SOM(1X2 topology) 5.3229 2 5.3629
SOM(2X2 topology) 4.9610 4 5.0410
SOM(3X3 topology) 4.5318 9 4.7118
SOM(4X4 topology) 4.1839 16 4.4039
SOM(5X5 topology) 3.9574 25 4.4574
SOM(6X6 topology) 3.7255 36 4.4255
SOM(7X7 topology) 3.5323 49 4.5123
SOTA 3.7297 5 3.7797
Η περιοχή του αλγορίθμου SOTA που καταφέρνει να πετυχαίνει
μικρή μέση ευκλείδειας απόστασης με μόλις 5 ομάδες
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
18/21
20. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
Η επαλήθευση , ότι στους ζωικούς οργανισμούς όταν το p53 υποεκφράζεται
ή δεν εκφράζεται καθόλου και το ErbB2 υπερεκφράζεται, τότε τα κύτταρα
επιδεικνύουν εξαιρετικά επιθετική συμπεριφορά, οδηγώντας σε επιτάχυνση
των καρκινογενέσεων
Στη τρέχουσα εργασία , οι μεθοδολογίες ομαδοποιήσης που χρησιμοποιήσα,
με πρώτη την ομαδοποιήση self-organizing tree algorithm αξιοποιήθηκαν
υπεύθυνα, και δημιουργικά
Ελαχιστοποιήση του αριθμού συστάδων (Κ = 5) ,που είναι ο σκοπός
της ομαδοποιήσης ,χωρίς βέβαια να χαθούν οι σημαντικές πληροφορίες
των αρχικών γενετικών δεδομένων, που μας είναι χρήσιμες
Ανάλυση γονιδίων και clusters μπορούν να καθοδηγήσουν τους ερευνητές να
επιλέγουν τα σημαντικά γονίδια για βιολογικές μελέτες
Συμπεράσματα
19/21
21. Μελλοντική Έρευνα
Συσχέτιση: Affimetrix / Ομαδοποίηση
Συστάδες
Μεταλλαγμέν
α γονίδια :
Ρ<0.05
Fold<2.5
Χαμηλή
έκφραση
Υψηλή
έκφραση
Όνομα των εμπλεκομένων
3 γονίδιων
1η = 574 6 10 2 ( Τ1/C1) & ( T2/C2) = V1 ,V2
2η = 4442 4 2 3 T3/C3 = V3
3η = 3813 4 4 0 T4/C4 = V4
4η = 667 0 1 2 T5/C5 = V5
5η = 2696 2 3 1 (T6/C6) & (T1/T4) = V6 , V7
6η = 431 1 1 0 T2/T5 = V8
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
20/21
Αρχική προυπόθεση καθορισμού μεταλλαγμένων γονίδιων, που πραγματοποιήθηκε στα πειράματα
affimetrix:
Η μέση τιμή των δειγμάτων (T/C) να μην ξεπερνάει 0.05 που είναι η τιμή της κατανομής Ρ,
επίσης οι [Mean T / Mean C] < 2.5 , που είναι ουσιαστικά η τιπική απόκλιση
Χρήση της αρχικής προυπόθεσης της affimetrix και του μέσου όρου των κέντρων των συστάδων από τα
αποτελέσματα της ομαδοποίησης K-means για τον καθορισμό τον ακριβής αριθμού μεταλλαγμένων
γονίδιων κάθε συστάδα