Ζακιά Αλαουί Τζαμαλί

ISSEL
ISSELISSEL
http://www.auth.gr/ee
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πολυτεχνικής Σχολής
Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών
ΓΟΝΙΔΙΩΜΑΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ
ΜΕ ΜΕΘΟΔΟΥΣ YΠΟΛΟΓΙΣΤΙΚΗΣ ΝΟΗΜΟΣΥΝΗΣ
ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΣΤΟ R
Επιβλέπων Καθηγητής μου: Συμεωνίδης Ανδρέας
Αλαουί Τζαμαλί Ζακία
Ακαδημαϊκό Έτος: 2015
 Παραγωγή μεγάλων ποσοτήτων γενετικών δεδομένων στην
Μοριακή Βιολογία.
 Ανάλυση της γενετικής πληροφορίας με μεθόδους
Βιοπληροφορικής.
 Μελέτη και ανάλυση της γονιδιακής έκφρασης με μία
πειραματική τεχνική που έχει ξεχωρίσει ιδιαίτερα τα
τελευταία χρόνια : οι μικροσυστοιχίες (τσιπ DNA).
 Κοινή χρήση των μικροσυστοιχίων είναι να καθοριστεί ποια
γονίδια ενεργοποιούνται και ποια γονίδια καταστέλλονται
όταν συγκρίνονται δύο πληθυσμοί κυττάρων.
Πειραματικές Τεχνικές της Μοριακής Βιολογίας
ΔεδομένωνΟμαδοποιήσηΣυμπέρασμαΕισαγωγή
1/21
ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα
Ερευνητικό Ενδιαφέρον των πειραμάτων
Οι διάφορες μορφές καρκίνου συσχετίζονται:
 Η υπέρ-έκφραση του μεμβρανικού γονιδίου ErbB2 που οφείλεται στην γονιδιακή ενίσχυση
και/ή στην αυξημένη μεταγραφή.
 Ο καταστολέας όγκου p53 (μεταβάλλεται συνήθως σε ανθρώπινους καρκίνους) :
 Δρά ως μεταγραφικός ρυθμιστής
 Παίζει μεγάλο ρόλο στον ελέγχο της γονιδιακής έκφρασης του ErbB2
 Σε καρκίνους όπου ένα γονίδιο ErbB2 υπέρ-εκφράζεται και την p53 είναι μεταλλαγμένη
ή απουσιάζει, η εξέλιξη σε μεταστάσεις είναι πιο συχνή , υποδηλώνοντας έτσι
τη συνεργασία μεταξύ των ρ53 και ΕrbB2.
 Ανάλυση δεδομένων από πειράματα με μικροσυστοιχίες που προέρχονται από το Κέντρο
Γονιδιώματος της Ιατρικής Σχολής του Πανεπιστήμιου McGill του Καναδά.
Εισαγωγή
2/21
ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα
Κύτταρα Καρκίνου (HCT116)
P53 -/-
Χαμηλή
έκφραση
Υψηλή
έκφραση
Υψηλή
έκφραση
Χαμηλή
έκφραση
Γονιδιώματος
 Πειράματα γονιδιωματικής μελέτης από
γονίδια με καρκίνο του παχέος εντέρου HCT116
, πραγματοποιήθηκε με τη μέθοδο Affymetrix.
 Μικροσυστοιχία affimetrix: Οι ανιχνευτές
συντίθενται απευθείας στην επιφάνεια ,
το γονίδιο αντιστοιχεί στο σύνολο των
ανιχνευτών ολιγονουκλεοτιδίων.
γονιδιωματική μελέτη
Εισαγωγή
3/21
ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα
Σκοπός Διπλωματικής
ανάλυση με τη χρήση μεθόδων ομαδοποίησης δεδομένων γονιδιακής
έκφρασης που προήρθαν από πειράματα με μικροσυστοιχίες:
 Χρήση τεχνικές ομαδοποιήσης δεδομένων με σκοπό την οργάνωση
των γονίδιων σε συστάδες βάση της γονιδιακής τους έκφραση
 Περιγραφή αποτελεσμάτων που προκύπτουν από την εφαρμογή
των αλγορίθμων ομαδοποίησης
 Σύγκριση αποτελεσμάτων
 Βιολογική γνώση που προκύπτει.
Εισαγωγή
4/21
 Περιγραφή διαδικασίας παραγωγής και απόκτησης δεδομένων
γονιδιακής έκφρασης με τη μέθοδο affymetrix
 Ομαδοποιήσης δεδομένων με σκοπό την οργάνωση
γονιδίων σε συστάδες βάση της γονιδιακής τους έκφρασης
 Αλγόριθμοι ομαδοποίησης Κ-means, ο SOM (Self-Organizing Map)
και o SOTA (Self-organizing Tree Algorithm)
 Αποτελέσματα που προκύπτουν από την εφαρμογή των αλγορίθμων ομαδοποίησης
 Σύγκριση αποτελεσμάτων
 πειραματική μέθοδος εύρεσης μεταλλαγμένων γονίδιων
ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα
Σύνοψη Μεθοδολογίας
Βήματα που ακολουθήθηκαν στην εκπόνηση της παρούσας διπλωματικής εργασίας
Εισαγωγή
5/21
Συλλογή δεδομένων 1/2
ΕισαγωγήΟμαδοποιήσηΣυμπέρασμα
 Yβριδισμός Δείγματος
προετοιμασίες με βάση
Affymetrix ανάλυσης
 Σάρωση
 Σύνθεση εικόνας
 Επεξεργασία δεδομένων
 Δεδομένα:
data_ file
Microarray πείραμα
Affimerix
Ανάλυση Εικόνας
Βάση Δεδομένων
Επιλογή
Δεδομένων
και Εκτίμηση
Ελλειπών Τιμών
Πίνακας Δεδομένων
Ν γραμμές =12624 γονίδια
Ν στήλες = 8
Κανονικοποίηση
Sequence_Derived_From E vs A F vs B M vs I N vs J A vs I B Vs J E vs M F vs N
U48705 1.744469552 2.13596422 1.888315088 -1.513326608 1.876955294 5.527703424 1.547692484 1.678585976
M87338 4.667634748 -2.989415375 2.400547686 1.543124129 2.91236584 -1.824906532 -1.959941241 3.090843797
X51757 1.426221728 1.475290603 -1.04142901 -1.285911172 3.312581274 -4.729277866 3.094057616 -1.004756572
X69699 1.037252166 1.748759105 2.21083875 1.50839696 1.950610619 1.325960011 5.100428312 1.58019543
L36861 1.162979701 -1.452498334 -1.225565733 -1.259521204 -3.519242794 -2.66709275 -1.426855371 1.041557385
L13852 -1.446128578 -1.181071878 -1.413818777 1.049696806 1.203699591 -1.173154199 1.273404665 -1.357856738
X55005 1.037252166 -1.43097984 1.028806151 1.116495694 -1.326927611 -2.248545549 -1.234037077 -1.028679347
X79510 -1.51966054 -12.70936043 1.020012936 1.100770402 3.510536528 -1.017675932 -1.155685517 9.721202264
M21121 -2.32987382 -2.937274409 -1.026000432 1.085481924 2.888879018 -1.209815268 -1.057746066 2.430300566
J02843 -1.928171437 -1.581609297 -1.110857611 -2.257061997 2.407399182 -1.099832062 -1.11063337 1.620200377
X75208 -1.11844065 -5.657500074 3.293515796 -1.463193542 2.285624126 -1.25335964 -1.11414248 3.891032402
L38487 1.037252166 -2.743607965 1.028806151 1.033792309 2.246905903 1.136537153 -1.234037077 1.620200377
M33318 -4.466930496 -2.156739951 -1.233692827 1.938360579 2.949063998 -2.367257581 1.350580706 2.405752075
L13720 -2.004686177 -1.425600217 1.508249794 8.418023087 1.925919345 3.182304027 2.443907943 1.311590782
Z48481 1.426221728 -1.531399478 1.982333803 -1.074791427 2.810801207 1.886651673 -2.828001636 -1.028679347
L41690 -1.047919259 -1.760262839 -1.701000716 1.039380375 -1.186817242 1.099273639 1.092208745 -1.263806055
L00635 -1.840527281 -2.649000794 1.73611038 -1.151562243 1.575752192 2.386728021 1.031352539 1.005641613
U38545 1.037252166 -1.788724801 2.151140134 -2.552629639 2.567892461 -1.466442749 1.080464564 2.16026717
U38980 1.146436605 1.268749918 -1.086353399 -1.209140356 2.538711865 -1.445493567 1.234816645 1.092693278
U66879 -1.135478735 -1.951336146 -1.232781007 -1.305103876 -1.704437262 1.182926424 -1.322182583 1.355076679
M96577 -4.177704781 -2.485386039 -1.388572013 -1.289749713 -1.44231262 1.486240892 1.800774274 1.45818034
M64571 -1.032948984 1.077603571 1.594649534 1.550688463 1.30465504 1.010255247 1.157640605 1.215150283
L33930 1.286192686 -4.680272411 4.681067988 -2.931249347 2.516120435 1.316719872 -5.216611282 6.249344312
X72631 -1.180818167 -1.596186342 -1.036800437 -1.488172745 -1.849765936 1.531854423 -1.224544484 -1.993066235
AF070618 -2.410214297 -1.174023708 3.600821529 -2.104799878 1.590976851 12.72921611 2.43104527 -1.656715159
U69190 1.891459832 -1.610898358 1.050695644 -1.612187141 -5.365402948 5.114417187 -1.738870427 -5.554868476
AB014574 5.55234983 -1.137202522 1.375136935 -1.340828909 2.90776058 1.626122388 1.798795401 -1.210368167
M13149 1.709274696 2.278853144 1.837153841 1.869815654 2.12177555 2.22293296 1.440619419 -1.148955702
U62317 -1.139374031 -1.3415436 2.31481384 -1.511425444 1.497937269 -1.439780154 1.178688616 -1.410760248
U32645 -1.007907797 1.000631887 2.498529224 -1.036406019 2.995874537 -1.293920073 -1.939201122 -1.146242701
AW003733 1.104171661 4.401948176 4.341060101 -1.439452804 2.029463396 3.278472556 -1.454400841 -1.158838775
L14754 -2.667303822 -1.369358699 -1.749600737 -1.905312075 -1.001377048 1.239858712 -1.682777833 -1.454846506
Y07846 -1.180173897 -2.711330224 -6.998402947 -1.164357379 1.694809024 -3.284831758 -3.976341694 3.56444083
AF017995 1.405309386 -1.437826634 -2.515765765 1.157847386 2.022215313 1.976586352 -1.851055616 1.546554906
L77566 1.037252166 -1.385791003 10.05064471 1.27407917 -1.266927406 -1.086892861 2.052882672 -1.851622825
S72904 -1.638945722 -1.129720927 1.337447996 1.431404735 1.28394623 1.591152014 2.43104527 -1.080113315
D25216 1.231736947 1.239244106 -1.166400491 2.043260093 3.026444686 1.298899603 2.388395353 -1.571073912
AB014515 -1.423174156 -1.877564357 -2.23982703 -1.007616963 1.739540054 2.110711855 -1.619673664 -1.56506215
U79751 1.867053899 -2.008392759 -1.060364083 -1.209140356 2.888879018 1.446501831 -1.388291712 2.16026717
AB007915 -1.007253736 -2.683087201 1.202688881 -2.686978568 1.866660289 -1.252852175 -3.445020174 1.594884746
AB017915 3.176584759 -1.679716641 -1.20193599 -1.054122361 -1.639681716 1.233954623 1.07495199 -2.468830434
D50928 1.016226784 3.653356001 1.281331297 -4.689998955 1.683283837 -1.659395742 -4.066713096 -1.262217361
D83703 -1.229260682 -2.003811571 1.028806151 -1.197514006 1.105369202 1.59241835 -1.391258147 3.855367321
Y13710 1.08394519 -1.213923729 -1.380584652 1.377125168 1.208013926 -1.286203604 1.206795806 -1.135661999
AF029778 -1.11378847 -1.219585091 -1.187653233 -1.573272279 -1.603939714 -1.077263689 -1.141838905 -1.105633986
AF052151 -1.423174156 -1.757343664 -1.271077458 -1.289749713 1.699340599 -1.290469619 1.157640605 1.350166981
AB002386 -2.155015136 -2.044256915 1.440328612 1.044674333 1.333328778 1.084876373 1.525361738 1.388743181
Y10931 -2.487341154 -1.257613862 1.336111885 -2.498890068 -2.122080829 -7.164620289 -1.028364231 -1.422261011
AL041124 1.038405912 -1.001227846 -1.032397459 1.264104381 1.273565481 1.181105103 1.120770111 1.058612172
AI762547 -1.02658546 -1.068054764 1.000328518 1.289816244 1.304310145 1.115330616 1.288953874 1.320450523
S46622 -1.033408303 1.059636701 -1.042589141 1.294082349 1.326506189 1.092258647 1.322482878 1.118747478
X15357 1.044960035 -1.016223829 1.108418678 1.352111234 1.431646879 1.19951194 1.25200995 1.233366607
X64116 1.044284763 -1.075729619 -1.069074112 1.229972672 1.36027264 1.150025274 1.255643039 1.267431847
L02547 1.064443968 -1.004643455 1.0673923 1.116130177 1.270543869 1.05557065 1.248374598 1.245322759
X98507 -1.040197749 -1.241991329 -1.156680487 -1.033768854 -1.683318407 1.950652418 1.117427826 -1.60274879
U56417 -1.543330636 -2.483492652 -1.567742596 -2.662379468 1.025373726 1.032199316 -1.055883837 1.561366285
U56418 2.870066673 -1.420220594 1.218515087 -2.10624449 1.345379064 -1.013034505 -2.836294896 1.126425024
L17325 1.093071639 -1.04003263 1.044399484 1.096229422 1.255977745 1.111800365 1.151671441 1.252922868
L17330 -1.219858258 -1.225743568 -1.259332198 -1.124336394 -1.068748638 -1.056531587 1.158826648 1.350514738
U50277 1.208345307 1.145519762 1.075910699 1.054679373 -1.100068948 -1.273132889 -1.396323662 -1.189083585
X52009 -4.351413919 -1.167128904 -1.291899278 4.097576788 1.195398214 -3.429219967 4.774485305 -1.03553721
Δεδομένων
6/21
Συλλογή δεδομένων 2/2
Περιγραφή Στήλες Δεδομένων
 Εξι πειράματα για τα οποία πάρθηκαν μετρήσεις
 από φυσιολογικά γονίδια (C1-C6)
 από γονίδια με καρκίνο του HCT116 (T1-T6)
 Στα πρώτα τρία πειράματα
 υπερέκφραση των γονιδίων p53 και ErbB2
 Στα τρία τελευταία πειράματα
 υπερέκφραση το ErbB2 και υποεκφραστεί το p53
 Κύτταρα ελέγχου AP2 είναι τα ίδια Κύτταρα
που εξέφρασαν άδεια πλασμώδια
 Πειράματα σε 2 διαφορετικές χρονικές στιγμές
 T/C ως μέσες διαφορές τιμές
ΕισαγωγήΟμαδοποιήσηΣυμπέρασμα
ErbB2
P53+/+
vs
p53-/-
1h
P53+/+
vs
p53-/-
24h
AP2
P53+/+
Vs
P53-/-
1h
P53+/+
Vs
P53-/-
24h
p53-/-
ErbB2
Vs
AP2
1h
ErbB2
Vs
AP2
24h
P53+/+
ErbB2
Vs
AP2
1h
ErbB2
Vs
AP2
24h
(T5/C5) (T6/C6) (T1/T4) (T2/T5)
T = ErbB2 C = τα γονίδια ελέγχου
Δεδομένων
7/21
(T1/C1) (T2/C2) (T3/C3) (T4/C4)
ΕισαγωγήΔεδομένωνΣυμπέρασμα
Ομαδοποίηση (1/8)
Από την Συλλογή δεδομένων στην Ομαδοπόιηση
 Aποδοτική μέθοδος ομαδοποίησης μπορεί να οδηγήσει στην ανακάλυψη νέας
βιολογικής γνώσης για τις λειτουργίες των γονιδίων και τους μηχανισμούς που
οδηγούν σε διάφορες ασθένειες.
 Εφαρμογή τεχνικές ομαδοποίησης ως προς εξέταση γονιδίων με βάση τα προφίλ
έκφρασής τους στα διαφορετικά πειράματα που έχουν πραγματοποιηθεί
 Επίδραση μετρικών αποστάσεων στην ομαδοποίηση
 Διαδοχικές δοκιμές για την εύρεση του βέλτιστου αριθμού ομάδων
Ομαδοποίηση
8/21
2 4 6 8
-0.8-0.6-0.4-0.20.00.20.4
Index
average_timeseries
ΕισαγωγήΔεδομένωνΣυμπέρασμα
Χρήση κλασσικές τεχνικές ομαδοποίησης K-means και Self Organized Maps
 Αποτελέσματα r-code k-means clustering (1/2) (προγράμματα Ομαδοποίησης Δεδομένων)
τα κέντρα βάρη = μέσος όρους της χρονοσειράς
Συστάδες Σύνολο εντός- συστάδων
άθροισμα των τετραγώνων
1η 667230.4
2η 587036.5
3η 546687.4
4η 516637.4
5η 491612.9
6η 473239.7
Σύγκλιση
7η 473239.7
Κ = 6 συστάδες
Ομαδοποίηση (2/8)
Ομαδοποίηση
9/21
Εισαγωγή
 Αποτελέσματα r-code k-means clustering (2/2)
Ομαδοποίηση (3/8)
 Από τα αποτελέσματα της μεθοδολογίας k-means, δεν μπορούμε να βγάλουμε σαφής συμπέρσμα
για την έκφραση γονιδίων, όμως πετύχαμε την ομαδοποιήση των δεδομένων σε 6 συστάδες.
ΔεδομένωνΣυμπέρασμα
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V1
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V2
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V3
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V4
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V5
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V6
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V7
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V8
Ομαδοποίηση
10/21
ΕισαγωγήΔεδομένωνΣυμπέρασμα
 Αποτελέσματα Mathlab-code SOM (Self Organized Maps) clustering (1/2 )
(προγράμματα Ομαδοποίησης Δεδομένων)
Ομαδοποίηση (4/8)
Τοπολογία 1 X 2
 SOM µπορεί να ϑεωρηθεί ως µια παραλλαγή της µεθόδου kmeans, η οποία περιορίζει
τοπολογικά τους πυρήνες(centroids) των συστάδων
2 4 6 8
-60
-50
-40
-30
-20
-10
0
10
20
SOM CLUSTERING
2 4 6 8
-40
-20
0
20
40
60
Τοπολογία 2 X 2
2 4 6 8
-40
-20
0
2 4 6 8
-20
-10
0
10
20
2 4 6 8
-60
-40
-20
0
20
SOM CLUSTERING
2 4 6 8
-50
0
50
Άθροισμα Σφαλμάτων: 6.7181*104
Άθροισμα Σφαλμάτων: 6.2638*104
Ομαδοποίηση
11/21
ΕισαγωγήΔεδομένωνΣυμπέρασμα
Ομαδοποίηση (5/8)
 Αποτελέσματα Mathlab-code SOM clustering (2/2 )
Τοπολογία 3*3
2 4 6 8
-10
0
10
20
2 4 6 8
-10
0
10
2 4 6 8
-20
0
20
40
2 4 6 8
-30
-20
-10
0
2 4 6 8
-20
-10
0
10
2 4 6 8
-50
0
50
2 4 6 8
-40
-20
0
2 4 6 8
-20
0
20
SOM CLUSTERING
2 4 6 8
-50
0
50
Άθροισμα Σφαλμάτων: 5.7250*104
Τοπολογία 4*4
2 4 6 8
-10
-5
0
2 4 6 8
-40
-20
0
2 4 6 8
-10
0
10
2 4 6 8
-5
0
5
10
15
2 4 6 8
-10
0
10
2 4 6 8
-10
0
10
2 4 6 8
-10
0
10
20
2 4 6 8
-20
0
20
40
2 4 6 8
-20
0
20
2 4 6 8
-10
0
10
20
2 4 6 8
-10
0
10
2 4 6 8
-20
0
20
2 4 6 8
-60
-40
-20
0
2 4 6 8
-20
-10
0
10
2 4 6 8
-20
0
20
40
60
SOM CLUSTERING
2 4 6 8
-50
0
50
Άθροισμα Σφαλμάτων: 5.2803*104
 Επιλογή της τοπολογίας 4X4 με το μικρότερο άθροισμα σφαλμάτων.
Ομαδοποίηση
12/21
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
Ομαδοποίηση (6/8)
 Μειονέκτημα μεθοδολογίων K-means και Self Organized Maps
 απαιτούν σαν είσοδο τον αριθμό των ομάδων πριν προχωρήσουν στην
ομαδοποίηση
 πραγματοποιήση διαδοχικών δοκιμών για την εύρεση του βέλτιστου αριθμού
ομάδων
 Η μέθοδος SOTA (Self- Organizing Tree Algorithm) έρχεται να αντιμετωπίσει τους
περιορισμούς των προηγουμένων μεθοδολογίων ομαδοποίησης.
13/21
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
Ομαδοποίηση (7/8)
 Αποτελέσματα r-code SOTA (Self- Organizing Tree Algorithm)
Γραφική ομάδων που προέκυψαν από την ομαδοποίηση SOTA
14/21
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
Ερμηνεία αποτελέσματων SOTA (8/8)
 Mετρήσεις σε κύτταρα ελέγχου ή καρκινικά κύτταρα:
T1/C1, T2/C2, T3/C3, T4/C4, T5/C5, T6/C6, T1/T4, T2/T5
 Οι ομάδες με το περισσότερο ενδιαφέρον είναι η τέταρτη
και η πέμπτη.
 H τέταρτη ομάδα αποτελείται από 253 γονίδια που παρουσιάζουν
εξαιρετικά μειωμένο λόγο T2/C2 κaι ελαφρώς αυξημένος λόγος T2/T5
 Καταλήξουμε ότι αυτή η ομάδα γονιδίων υπερεκφράζεται
στα φυσιολογικά κύτταρα όταν υπερεκφράζεται το γονίδιο p53.
15/21
 Η πέμπτη ομάδα γονιδίων αποτελείται από 210 γονίδια με χαμηλές τιμές στον λόγο Τ2/C2,
αυξημένες τιμές στους λόγους Τ3/C3 και T2/T5 και εξαιρετικά υψηλή τιμή στον λόγο T5/C5
 Η ομάδα αυτή απαρτίζεται από τα γονίδια που επηρεάζονται περισσότερο από τον συνδυασμό υπερέκφρασης
του ογκογονιδίου ErbB2 και υποέκφρασης του ογκοκατασταλτικού γονιδίου p53
 Κατάληξη με ασφάλεια στο συμπέρασμα ότι αυτά είναι τα γονίδια που συμμετέχουν στον μηχανισμό
της καρκινογέννησης για το συγκεκριμένο είδος καρκίνου
 Περαιτέρω μελέτη της συμπεριφοράς τους σε συνδυασμό με δημιουργία του γονιδιακού ρυθμιστικού δικτύου
Ερμηνεία αποτελέσματων SOTA (2/2)
Δίκτυο Γονιδιακής Ρύθμισης
Δεδομένα
Γονιδιακής Έκφρασης
data _ file
Ομαδοποίηση Κοινής
Έκφρασης
Εξαγωγή Συνρύθμισης
από Συνέκφραση
Βιολογική Γνώση Ανακάλυψη
Λειτουργίας γονιδίων
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
16/21
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
Αξιολόγιση μεθόδων ομαδοποίησης (1/2)
 Στόχος μίας αποτελεσματικής ομαδοποιήσης , είναι η επιτεύξη
των δύο σκοπών:
Ελαχιστοποίηση της μέσης Ευκλείδειας απόστασης των δειγμάτων
από τα κέντρα των ομάδων
Δημιουργία όσο το δυνατών λιγότερων ομάδων
 Η ταυτόχρονη επίτευξη των δύο στόχων είναι η χρήση της παρακάτω
μετρικής για την αξιολόγηση των αλγορίθμων:
Fitness = Average Euclidean Distances +0.02*Number Of-Clusters
17/21
 Σύγκριση αποτελέσματων των τρίων αλγορίθμων
Αξιολόγιση μεθόδων ομαδοποίησης (1/2)
Algorithm Average Euclidean
Distances Number of Clusters Fitness Value
K-means 5.6394 2 5.6794
< < < 5.5232 4 5.6032
< < < 5.4079 9 5.5879
< < < 5.3298 16 5.6498
< < < 5.2743 25 5.7743
< < < 5.2297 36 5.9497
< < < 5.1922 49 6.1722
SOM(1X2 topology) 5.3229 2 5.3629
SOM(2X2 topology) 4.9610 4 5.0410
SOM(3X3 topology) 4.5318 9 4.7118
SOM(4X4 topology) 4.1839 16 4.4039
SOM(5X5 topology) 3.9574 25 4.4574
SOM(6X6 topology) 3.7255 36 4.4255
SOM(7X7 topology) 3.5323 49 4.5123
SOTA 3.7297 5 3.7797
 Η περιοχή του αλγορίθμου SOTA που καταφέρνει να πετυχαίνει
μικρή μέση ευκλείδειας απόστασης με μόλις 5 ομάδες
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
18/21
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
 Η επαλήθευση , ότι στους ζωικούς οργανισμούς όταν το p53 υποεκφράζεται
ή δεν εκφράζεται καθόλου και το ErbB2 υπερεκφράζεται, τότε τα κύτταρα
επιδεικνύουν εξαιρετικά επιθετική συμπεριφορά, οδηγώντας σε επιτάχυνση
των καρκινογενέσεων
 Στη τρέχουσα εργασία , οι μεθοδολογίες ομαδοποιήσης που χρησιμοποιήσα,
με πρώτη την ομαδοποιήση self-organizing tree algorithm αξιοποιήθηκαν
υπεύθυνα, και δημιουργικά
 Ελαχιστοποιήση του αριθμού συστάδων (Κ = 5) ,που είναι ο σκοπός
της ομαδοποιήσης ,χωρίς βέβαια να χαθούν οι σημαντικές πληροφορίες
των αρχικών γενετικών δεδομένων, που μας είναι χρήσιμες
 Ανάλυση γονιδίων και clusters μπορούν να καθοδηγήσουν τους ερευνητές να
επιλέγουν τα σημαντικά γονίδια για βιολογικές μελέτες
Συμπεράσματα
19/21
Μελλοντική Έρευνα
Συσχέτιση: Affimetrix / Ομαδοποίηση
Συστάδες
Μεταλλαγμέν
α γονίδια :
Ρ<0.05
Fold<2.5
Χαμηλή
έκφραση
Υψηλή
έκφραση
Όνομα των εμπλεκομένων
3 γονίδιων
1η = 574 6 10 2 ( Τ1/C1) & ( T2/C2) = V1 ,V2
2η = 4442 4 2 3 T3/C3 = V3
3η = 3813 4 4 0 T4/C4 = V4
4η = 667 0 1 2 T5/C5 = V5
5η = 2696 2 3 1 (T6/C6) & (T1/T4) = V6 , V7
6η = 431 1 1 0 T2/T5 = V8
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
20/21
 Αρχική προυπόθεση καθορισμού μεταλλαγμένων γονίδιων, που πραγματοποιήθηκε στα πειράματα
affimetrix:
 Η μέση τιμή των δειγμάτων (T/C) να μην ξεπερνάει 0.05 που είναι η τιμή της κατανομής Ρ,
 επίσης οι [Mean T / Mean C] < 2.5 , που είναι ουσιαστικά η τιπική απόκλιση
 Χρήση της αρχικής προυπόθεσης της affimetrix και του μέσου όρου των κέντρων των συστάδων από τα
αποτελέσματα της ομαδοποίησης K-means για τον καθορισμό τον ακριβής αριθμού μεταλλαγμένων
γονίδιων κάθε συστάδα
Ευχαριστώ πολύ για την προσοχή σας
21/21
1 of 22

Recommended

Μιλτιάδης Σιάββας 7523 by
Μιλτιάδης Σιάββας 7523Μιλτιάδης Σιάββας 7523
Μιλτιάδης Σιάββας 7523ISSEL
205 views38 slides
Γκιλίρης Ιωάννης 7419 by
Γκιλίρης Ιωάννης 7419Γκιλίρης Ιωάννης 7419
Γκιλίρης Ιωάννης 7419ISSEL
209 views27 slides
Νικόλαος Κατιρτζής 7185 by
Νικόλαος Κατιρτζής 7185Νικόλαος Κατιρτζής 7185
Νικόλαος Κατιρτζής 7185ISSEL
134 views33 slides
Καρβούνης Ευάγγελος by
Καρβούνης Ευάγγελος Καρβούνης Ευάγγελος
Καρβούνης Ευάγγελος ISSEL
142 views25 slides
Νικηφόρος Σακκάς by
Νικηφόρος Σακκάς Νικηφόρος Σακκάς
Νικηφόρος Σακκάς ISSEL
262 views28 slides
Πάρης Λαγάκης 7200 by
Πάρης Λαγάκης 7200Πάρης Λαγάκης 7200
Πάρης Λαγάκης 7200ISSEL
253 views20 slides

More Related Content

Viewers also liked

Κασπαρίδου Έλλη by
Κασπαρίδου ΈλληΚασπαρίδου Έλλη
Κασπαρίδου ΈλληISSEL
156 views27 slides
Χαρίτων Καραμήτας 5755 by
Χαρίτων Καραμήτας 5755Χαρίτων Καραμήτας 5755
Χαρίτων Καραμήτας 5755ISSEL
173 views30 slides
Ουζούνης Γεώργιος by
Ουζούνης ΓεώργιοςΟυζούνης Γεώργιος
Ουζούνης ΓεώργιοςISSEL
208 views33 slides
Κωνσταντίνος Σιδέρης 7254 by
Κωνσταντίνος Σιδέρης 7254Κωνσταντίνος Σιδέρης 7254
Κωνσταντίνος Σιδέρης 7254ISSEL
216 views21 slides
Κλέαρχος Θωμόπουλος 7435 by
Κλέαρχος Θωμόπουλος 7435Κλέαρχος Θωμόπουλος 7435
Κλέαρχος Θωμόπουλος 7435ISSEL
204 views20 slides
Λυκάρτσης Ιωάννης by
Λυκάρτσης ΙωάννηςΛυκάρτσης Ιωάννης
Λυκάρτσης ΙωάννηςISSEL
206 views35 slides

Viewers also liked(14)

Κασπαρίδου Έλλη by ISSEL
Κασπαρίδου ΈλληΚασπαρίδου Έλλη
Κασπαρίδου Έλλη
ISSEL156 views
Χαρίτων Καραμήτας 5755 by ISSEL
Χαρίτων Καραμήτας 5755Χαρίτων Καραμήτας 5755
Χαρίτων Καραμήτας 5755
ISSEL173 views
Ουζούνης Γεώργιος by ISSEL
Ουζούνης ΓεώργιοςΟυζούνης Γεώργιος
Ουζούνης Γεώργιος
ISSEL208 views
Κωνσταντίνος Σιδέρης 7254 by ISSEL
Κωνσταντίνος Σιδέρης 7254Κωνσταντίνος Σιδέρης 7254
Κωνσταντίνος Σιδέρης 7254
ISSEL216 views
Κλέαρχος Θωμόπουλος 7435 by ISSEL
Κλέαρχος Θωμόπουλος 7435Κλέαρχος Θωμόπουλος 7435
Κλέαρχος Θωμόπουλος 7435
ISSEL204 views
Λυκάρτσης Ιωάννης by ISSEL
Λυκάρτσης ΙωάννηςΛυκάρτσης Ιωάννης
Λυκάρτσης Ιωάννης
ISSEL206 views
Νούτσος Αντώνης 6992 by ISSEL
Νούτσος Αντώνης 6992Νούτσος Αντώνης 6992
Νούτσος Αντώνης 6992
ISSEL110 views
Σωτήριος Αγγελής by ISSEL
Σωτήριος ΑγγελήςΣωτήριος Αγγελής
Σωτήριος Αγγελής
ISSEL231 views
Ιωάννης Αντωνιάδης 7137 by ISSEL
Ιωάννης Αντωνιάδης 7137Ιωάννης Αντωνιάδης 7137
Ιωάννης Αντωνιάδης 7137
ISSEL116 views
Ναταλία Μιχαηλίδου by ISSEL
Ναταλία ΜιχαηλίδουΝαταλία Μιχαηλίδου
Ναταλία Μιχαηλίδου
ISSEL293 views
Κωνσταντίνος Παπαγγέλου 7498 by ISSEL
Κωνσταντίνος Παπαγγέλου 7498 Κωνσταντίνος Παπαγγέλου 7498
Κωνσταντίνος Παπαγγέλου 7498
ISSEL286 views
Δούμας Οδυσσέας 7168 by ISSEL
Δούμας Οδυσσέας 7168Δούμας Οδυσσέας 7168
Δούμας Οδυσσέας 7168
ISSEL239 views
Αλεξάνδρα Μπαλτζή 7485 by ISSEL
Αλεξάνδρα Μπαλτζή 7485Αλεξάνδρα Μπαλτζή 7485
Αλεξάνδρα Μπαλτζή 7485
ISSEL194 views
Βασίλειος Λώλης 5638 by ISSEL
Βασίλειος Λώλης 5638Βασίλειος Λώλης 5638
Βασίλειος Λώλης 5638
ISSEL165 views

More from ISSEL

Camera-based localization of annotated objects in indoor environments by
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsISSEL
12 views38 slides
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ... by
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...ISSEL
6 views38 slides
Design and implementation of an automation mechanism to automatically develop... by
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...ISSEL
4 views17 slides
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ... by
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ISSEL
6 views17 slides
Static Analysis of Python code and Identification of Potential Security Vulne... by
Static Analysis of Python code and Identification of Potential Security Vulne...Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...ISSEL
8 views16 slides
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ... by
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...ISSEL
26 views27 slides

More from ISSEL(20)

Camera-based localization of annotated objects in indoor environments by ISSEL
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
ISSEL12 views
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ... by ISSEL
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
ISSEL6 views
Design and implementation of an automation mechanism to automatically develop... by ISSEL
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...
ISSEL4 views
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ... by ISSEL
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ISSEL6 views
Static Analysis of Python code and Identification of Potential Security Vulne... by ISSEL
Static Analysis of Python code and Identification of Potential Security Vulne...Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...
ISSEL8 views
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ... by ISSEL
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
ISSEL26 views
Design and Development of an Authorization and Access Control Mechanism for C... by ISSEL
Design and Development of an Authorization and Access Control Mechanism for C...Design and Development of an Authorization and Access Control Mechanism for C...
Design and Development of an Authorization and Access Control Mechanism for C...
ISSEL13 views
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο... by ISSEL
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
ISSEL19 views
Analysis and profiling of developer profiles using data mining techniques fro... by ISSEL
Analysis and profiling of developer profiles using data mining techniques fro...Analysis and profiling of developer profiles using data mining techniques fro...
Analysis and profiling of developer profiles using data mining techniques fro...
ISSEL3 views
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση... by ISSEL
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...
ISSEL8 views
TOWARDS AN AUTOMATED SOURCE CODE FORMATTING SYSTEM by ISSEL
TOWARDS AN AUTOMATED SOURCE CODE FORMATTING SYSTEMTOWARDS AN AUTOMATED SOURCE CODE FORMATTING SYSTEM
TOWARDS AN AUTOMATED SOURCE CODE FORMATTING SYSTEM
ISSEL3 views
ΔΗΜΙΟΥΡΓΙΑ ΣΥΣΤΗΜΑΤΟΣ ΓΙΑ ΤΗΝ ΠΑΡΟΧΗ ΠΡΟΤΑΣΕΩΝ ΒΕΛΤΙΩΣΗΣ ΤΗΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΠΗΓ... by ISSEL
ΔΗΜΙΟΥΡΓΙΑ ΣΥΣΤΗΜΑΤΟΣ ΓΙΑ ΤΗΝ ΠΑΡΟΧΗ ΠΡΟΤΑΣΕΩΝ ΒΕΛΤΙΩΣΗΣ ΤΗΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΠΗΓ...ΔΗΜΙΟΥΡΓΙΑ ΣΥΣΤΗΜΑΤΟΣ ΓΙΑ ΤΗΝ ΠΑΡΟΧΗ ΠΡΟΤΑΣΕΩΝ ΒΕΛΤΙΩΣΗΣ ΤΗΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΠΗΓ...
ΔΗΜΙΟΥΡΓΙΑ ΣΥΣΤΗΜΑΤΟΣ ΓΙΑ ΤΗΝ ΠΑΡΟΧΗ ΠΡΟΤΑΣΕΩΝ ΒΕΛΤΙΩΣΗΣ ΤΗΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΠΗΓ...
ISSEL11 views
System Development for Prediction of Static Analysis Metrics of Source Code by ISSEL
System Development for Prediction of Static Analysis Metrics of Source CodeSystem Development for Prediction of Static Analysis Metrics of Source Code
System Development for Prediction of Static Analysis Metrics of Source Code
ISSEL6 views
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ... by ISSEL
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...
ISSEL11 views
Micro Front-ends and Microservices Architecture in Web Application Development by ISSEL
Micro Front-ends and Microservices Architecture in Web Application DevelopmentMicro Front-ends and Microservices Architecture in Web Application Development
Micro Front-ends and Microservices Architecture in Web Application Development
ISSEL8 views
Η αρχιτεκτονική των Microservices και Micro Front-ends στην Ανάπτυξη Εφαρµογώ... by ISSEL
Η αρχιτεκτονική των Microservices και Micro Front-ends στην Ανάπτυξη Εφαρµογώ...Η αρχιτεκτονική των Microservices και Micro Front-ends στην Ανάπτυξη Εφαρµογώ...
Η αρχιτεκτονική των Microservices και Micro Front-ends στην Ανάπτυξη Εφαρµογώ...
ISSEL19 views
Indoor localization using wireless networks by ISSEL
Indoor localization using wireless networksIndoor localization using wireless networks
Indoor localization using wireless networks
ISSEL5 views
Εντοπισμός θέσης σε εσωτερικούς χώρους με χρήση ασύρματων δικτύων by ISSEL
Εντοπισμός θέσης σε εσωτερικούς χώρους με χρήση ασύρματων δικτύωνΕντοπισμός θέσης σε εσωτερικούς χώρους με χρήση ασύρματων δικτύων
Εντοπισμός θέσης σε εσωτερικούς χώρους με χρήση ασύρματων δικτύων
ISSEL10 views
Design and implementation of a big data architecture for storage, real-time p... by ISSEL
Design and implementation of a big data architecture for storage, real-time p...Design and implementation of a big data architecture for storage, real-time p...
Design and implementation of a big data architecture for storage, real-time p...
ISSEL9 views
Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκ... by ISSEL
Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκ...Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκ...
Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκ...
ISSEL16 views

Ζακιά Αλαουί Τζαμαλί

  • 1. http://www.auth.gr/ee Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Πολυτεχνικής Σχολής Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών ΓΟΝΙΔΙΩΜΑΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ ΜΕΘΟΔΟΥΣ YΠΟΛΟΓΙΣΤΙΚΗΣ ΝΟΗΜΟΣΥΝΗΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΣΤΟ R Επιβλέπων Καθηγητής μου: Συμεωνίδης Ανδρέας Αλαουί Τζαμαλί Ζακία Ακαδημαϊκό Έτος: 2015
  • 2.  Παραγωγή μεγάλων ποσοτήτων γενετικών δεδομένων στην Μοριακή Βιολογία.  Ανάλυση της γενετικής πληροφορίας με μεθόδους Βιοπληροφορικής.  Μελέτη και ανάλυση της γονιδιακής έκφρασης με μία πειραματική τεχνική που έχει ξεχωρίσει ιδιαίτερα τα τελευταία χρόνια : οι μικροσυστοιχίες (τσιπ DNA).  Κοινή χρήση των μικροσυστοιχίων είναι να καθοριστεί ποια γονίδια ενεργοποιούνται και ποια γονίδια καταστέλλονται όταν συγκρίνονται δύο πληθυσμοί κυττάρων. Πειραματικές Τεχνικές της Μοριακής Βιολογίας ΔεδομένωνΟμαδοποιήσηΣυμπέρασμαΕισαγωγή 1/21
  • 3. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Ερευνητικό Ενδιαφέρον των πειραμάτων Οι διάφορες μορφές καρκίνου συσχετίζονται:  Η υπέρ-έκφραση του μεμβρανικού γονιδίου ErbB2 που οφείλεται στην γονιδιακή ενίσχυση και/ή στην αυξημένη μεταγραφή.  Ο καταστολέας όγκου p53 (μεταβάλλεται συνήθως σε ανθρώπινους καρκίνους) :  Δρά ως μεταγραφικός ρυθμιστής  Παίζει μεγάλο ρόλο στον ελέγχο της γονιδιακής έκφρασης του ErbB2  Σε καρκίνους όπου ένα γονίδιο ErbB2 υπέρ-εκφράζεται και την p53 είναι μεταλλαγμένη ή απουσιάζει, η εξέλιξη σε μεταστάσεις είναι πιο συχνή , υποδηλώνοντας έτσι τη συνεργασία μεταξύ των ρ53 και ΕrbB2.  Ανάλυση δεδομένων από πειράματα με μικροσυστοιχίες που προέρχονται από το Κέντρο Γονιδιώματος της Ιατρικής Σχολής του Πανεπιστήμιου McGill του Καναδά. Εισαγωγή 2/21
  • 4. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Κύτταρα Καρκίνου (HCT116) P53 -/- Χαμηλή έκφραση Υψηλή έκφραση Υψηλή έκφραση Χαμηλή έκφραση Γονιδιώματος  Πειράματα γονιδιωματικής μελέτης από γονίδια με καρκίνο του παχέος εντέρου HCT116 , πραγματοποιήθηκε με τη μέθοδο Affymetrix.  Μικροσυστοιχία affimetrix: Οι ανιχνευτές συντίθενται απευθείας στην επιφάνεια , το γονίδιο αντιστοιχεί στο σύνολο των ανιχνευτών ολιγονουκλεοτιδίων. γονιδιωματική μελέτη Εισαγωγή 3/21
  • 5. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Σκοπός Διπλωματικής ανάλυση με τη χρήση μεθόδων ομαδοποίησης δεδομένων γονιδιακής έκφρασης που προήρθαν από πειράματα με μικροσυστοιχίες:  Χρήση τεχνικές ομαδοποιήσης δεδομένων με σκοπό την οργάνωση των γονίδιων σε συστάδες βάση της γονιδιακής τους έκφραση  Περιγραφή αποτελεσμάτων που προκύπτουν από την εφαρμογή των αλγορίθμων ομαδοποίησης  Σύγκριση αποτελεσμάτων  Βιολογική γνώση που προκύπτει. Εισαγωγή 4/21
  • 6.  Περιγραφή διαδικασίας παραγωγής και απόκτησης δεδομένων γονιδιακής έκφρασης με τη μέθοδο affymetrix  Ομαδοποιήσης δεδομένων με σκοπό την οργάνωση γονιδίων σε συστάδες βάση της γονιδιακής τους έκφρασης  Αλγόριθμοι ομαδοποίησης Κ-means, ο SOM (Self-Organizing Map) και o SOTA (Self-organizing Tree Algorithm)  Αποτελέσματα που προκύπτουν από την εφαρμογή των αλγορίθμων ομαδοποίησης  Σύγκριση αποτελεσμάτων  πειραματική μέθοδος εύρεσης μεταλλαγμένων γονίδιων ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Σύνοψη Μεθοδολογίας Βήματα που ακολουθήθηκαν στην εκπόνηση της παρούσας διπλωματικής εργασίας Εισαγωγή 5/21
  • 7. Συλλογή δεδομένων 1/2 ΕισαγωγήΟμαδοποιήσηΣυμπέρασμα  Yβριδισμός Δείγματος προετοιμασίες με βάση Affymetrix ανάλυσης  Σάρωση  Σύνθεση εικόνας  Επεξεργασία δεδομένων  Δεδομένα: data_ file Microarray πείραμα Affimerix Ανάλυση Εικόνας Βάση Δεδομένων Επιλογή Δεδομένων και Εκτίμηση Ελλειπών Τιμών Πίνακας Δεδομένων Ν γραμμές =12624 γονίδια Ν στήλες = 8 Κανονικοποίηση Sequence_Derived_From E vs A F vs B M vs I N vs J A vs I B Vs J E vs M F vs N U48705 1.744469552 2.13596422 1.888315088 -1.513326608 1.876955294 5.527703424 1.547692484 1.678585976 M87338 4.667634748 -2.989415375 2.400547686 1.543124129 2.91236584 -1.824906532 -1.959941241 3.090843797 X51757 1.426221728 1.475290603 -1.04142901 -1.285911172 3.312581274 -4.729277866 3.094057616 -1.004756572 X69699 1.037252166 1.748759105 2.21083875 1.50839696 1.950610619 1.325960011 5.100428312 1.58019543 L36861 1.162979701 -1.452498334 -1.225565733 -1.259521204 -3.519242794 -2.66709275 -1.426855371 1.041557385 L13852 -1.446128578 -1.181071878 -1.413818777 1.049696806 1.203699591 -1.173154199 1.273404665 -1.357856738 X55005 1.037252166 -1.43097984 1.028806151 1.116495694 -1.326927611 -2.248545549 -1.234037077 -1.028679347 X79510 -1.51966054 -12.70936043 1.020012936 1.100770402 3.510536528 -1.017675932 -1.155685517 9.721202264 M21121 -2.32987382 -2.937274409 -1.026000432 1.085481924 2.888879018 -1.209815268 -1.057746066 2.430300566 J02843 -1.928171437 -1.581609297 -1.110857611 -2.257061997 2.407399182 -1.099832062 -1.11063337 1.620200377 X75208 -1.11844065 -5.657500074 3.293515796 -1.463193542 2.285624126 -1.25335964 -1.11414248 3.891032402 L38487 1.037252166 -2.743607965 1.028806151 1.033792309 2.246905903 1.136537153 -1.234037077 1.620200377 M33318 -4.466930496 -2.156739951 -1.233692827 1.938360579 2.949063998 -2.367257581 1.350580706 2.405752075 L13720 -2.004686177 -1.425600217 1.508249794 8.418023087 1.925919345 3.182304027 2.443907943 1.311590782 Z48481 1.426221728 -1.531399478 1.982333803 -1.074791427 2.810801207 1.886651673 -2.828001636 -1.028679347 L41690 -1.047919259 -1.760262839 -1.701000716 1.039380375 -1.186817242 1.099273639 1.092208745 -1.263806055 L00635 -1.840527281 -2.649000794 1.73611038 -1.151562243 1.575752192 2.386728021 1.031352539 1.005641613 U38545 1.037252166 -1.788724801 2.151140134 -2.552629639 2.567892461 -1.466442749 1.080464564 2.16026717 U38980 1.146436605 1.268749918 -1.086353399 -1.209140356 2.538711865 -1.445493567 1.234816645 1.092693278 U66879 -1.135478735 -1.951336146 -1.232781007 -1.305103876 -1.704437262 1.182926424 -1.322182583 1.355076679 M96577 -4.177704781 -2.485386039 -1.388572013 -1.289749713 -1.44231262 1.486240892 1.800774274 1.45818034 M64571 -1.032948984 1.077603571 1.594649534 1.550688463 1.30465504 1.010255247 1.157640605 1.215150283 L33930 1.286192686 -4.680272411 4.681067988 -2.931249347 2.516120435 1.316719872 -5.216611282 6.249344312 X72631 -1.180818167 -1.596186342 -1.036800437 -1.488172745 -1.849765936 1.531854423 -1.224544484 -1.993066235 AF070618 -2.410214297 -1.174023708 3.600821529 -2.104799878 1.590976851 12.72921611 2.43104527 -1.656715159 U69190 1.891459832 -1.610898358 1.050695644 -1.612187141 -5.365402948 5.114417187 -1.738870427 -5.554868476 AB014574 5.55234983 -1.137202522 1.375136935 -1.340828909 2.90776058 1.626122388 1.798795401 -1.210368167 M13149 1.709274696 2.278853144 1.837153841 1.869815654 2.12177555 2.22293296 1.440619419 -1.148955702 U62317 -1.139374031 -1.3415436 2.31481384 -1.511425444 1.497937269 -1.439780154 1.178688616 -1.410760248 U32645 -1.007907797 1.000631887 2.498529224 -1.036406019 2.995874537 -1.293920073 -1.939201122 -1.146242701 AW003733 1.104171661 4.401948176 4.341060101 -1.439452804 2.029463396 3.278472556 -1.454400841 -1.158838775 L14754 -2.667303822 -1.369358699 -1.749600737 -1.905312075 -1.001377048 1.239858712 -1.682777833 -1.454846506 Y07846 -1.180173897 -2.711330224 -6.998402947 -1.164357379 1.694809024 -3.284831758 -3.976341694 3.56444083 AF017995 1.405309386 -1.437826634 -2.515765765 1.157847386 2.022215313 1.976586352 -1.851055616 1.546554906 L77566 1.037252166 -1.385791003 10.05064471 1.27407917 -1.266927406 -1.086892861 2.052882672 -1.851622825 S72904 -1.638945722 -1.129720927 1.337447996 1.431404735 1.28394623 1.591152014 2.43104527 -1.080113315 D25216 1.231736947 1.239244106 -1.166400491 2.043260093 3.026444686 1.298899603 2.388395353 -1.571073912 AB014515 -1.423174156 -1.877564357 -2.23982703 -1.007616963 1.739540054 2.110711855 -1.619673664 -1.56506215 U79751 1.867053899 -2.008392759 -1.060364083 -1.209140356 2.888879018 1.446501831 -1.388291712 2.16026717 AB007915 -1.007253736 -2.683087201 1.202688881 -2.686978568 1.866660289 -1.252852175 -3.445020174 1.594884746 AB017915 3.176584759 -1.679716641 -1.20193599 -1.054122361 -1.639681716 1.233954623 1.07495199 -2.468830434 D50928 1.016226784 3.653356001 1.281331297 -4.689998955 1.683283837 -1.659395742 -4.066713096 -1.262217361 D83703 -1.229260682 -2.003811571 1.028806151 -1.197514006 1.105369202 1.59241835 -1.391258147 3.855367321 Y13710 1.08394519 -1.213923729 -1.380584652 1.377125168 1.208013926 -1.286203604 1.206795806 -1.135661999 AF029778 -1.11378847 -1.219585091 -1.187653233 -1.573272279 -1.603939714 -1.077263689 -1.141838905 -1.105633986 AF052151 -1.423174156 -1.757343664 -1.271077458 -1.289749713 1.699340599 -1.290469619 1.157640605 1.350166981 AB002386 -2.155015136 -2.044256915 1.440328612 1.044674333 1.333328778 1.084876373 1.525361738 1.388743181 Y10931 -2.487341154 -1.257613862 1.336111885 -2.498890068 -2.122080829 -7.164620289 -1.028364231 -1.422261011 AL041124 1.038405912 -1.001227846 -1.032397459 1.264104381 1.273565481 1.181105103 1.120770111 1.058612172 AI762547 -1.02658546 -1.068054764 1.000328518 1.289816244 1.304310145 1.115330616 1.288953874 1.320450523 S46622 -1.033408303 1.059636701 -1.042589141 1.294082349 1.326506189 1.092258647 1.322482878 1.118747478 X15357 1.044960035 -1.016223829 1.108418678 1.352111234 1.431646879 1.19951194 1.25200995 1.233366607 X64116 1.044284763 -1.075729619 -1.069074112 1.229972672 1.36027264 1.150025274 1.255643039 1.267431847 L02547 1.064443968 -1.004643455 1.0673923 1.116130177 1.270543869 1.05557065 1.248374598 1.245322759 X98507 -1.040197749 -1.241991329 -1.156680487 -1.033768854 -1.683318407 1.950652418 1.117427826 -1.60274879 U56417 -1.543330636 -2.483492652 -1.567742596 -2.662379468 1.025373726 1.032199316 -1.055883837 1.561366285 U56418 2.870066673 -1.420220594 1.218515087 -2.10624449 1.345379064 -1.013034505 -2.836294896 1.126425024 L17325 1.093071639 -1.04003263 1.044399484 1.096229422 1.255977745 1.111800365 1.151671441 1.252922868 L17330 -1.219858258 -1.225743568 -1.259332198 -1.124336394 -1.068748638 -1.056531587 1.158826648 1.350514738 U50277 1.208345307 1.145519762 1.075910699 1.054679373 -1.100068948 -1.273132889 -1.396323662 -1.189083585 X52009 -4.351413919 -1.167128904 -1.291899278 4.097576788 1.195398214 -3.429219967 4.774485305 -1.03553721 Δεδομένων 6/21
  • 8. Συλλογή δεδομένων 2/2 Περιγραφή Στήλες Δεδομένων  Εξι πειράματα για τα οποία πάρθηκαν μετρήσεις  από φυσιολογικά γονίδια (C1-C6)  από γονίδια με καρκίνο του HCT116 (T1-T6)  Στα πρώτα τρία πειράματα  υπερέκφραση των γονιδίων p53 και ErbB2  Στα τρία τελευταία πειράματα  υπερέκφραση το ErbB2 και υποεκφραστεί το p53  Κύτταρα ελέγχου AP2 είναι τα ίδια Κύτταρα που εξέφρασαν άδεια πλασμώδια  Πειράματα σε 2 διαφορετικές χρονικές στιγμές  T/C ως μέσες διαφορές τιμές ΕισαγωγήΟμαδοποιήσηΣυμπέρασμα ErbB2 P53+/+ vs p53-/- 1h P53+/+ vs p53-/- 24h AP2 P53+/+ Vs P53-/- 1h P53+/+ Vs P53-/- 24h p53-/- ErbB2 Vs AP2 1h ErbB2 Vs AP2 24h P53+/+ ErbB2 Vs AP2 1h ErbB2 Vs AP2 24h (T5/C5) (T6/C6) (T1/T4) (T2/T5) T = ErbB2 C = τα γονίδια ελέγχου Δεδομένων 7/21 (T1/C1) (T2/C2) (T3/C3) (T4/C4)
  • 9. ΕισαγωγήΔεδομένωνΣυμπέρασμα Ομαδοποίηση (1/8) Από την Συλλογή δεδομένων στην Ομαδοπόιηση  Aποδοτική μέθοδος ομαδοποίησης μπορεί να οδηγήσει στην ανακάλυψη νέας βιολογικής γνώσης για τις λειτουργίες των γονιδίων και τους μηχανισμούς που οδηγούν σε διάφορες ασθένειες.  Εφαρμογή τεχνικές ομαδοποίησης ως προς εξέταση γονιδίων με βάση τα προφίλ έκφρασής τους στα διαφορετικά πειράματα που έχουν πραγματοποιηθεί  Επίδραση μετρικών αποστάσεων στην ομαδοποίηση  Διαδοχικές δοκιμές για την εύρεση του βέλτιστου αριθμού ομάδων Ομαδοποίηση 8/21
  • 10. 2 4 6 8 -0.8-0.6-0.4-0.20.00.20.4 Index average_timeseries ΕισαγωγήΔεδομένωνΣυμπέρασμα Χρήση κλασσικές τεχνικές ομαδοποίησης K-means και Self Organized Maps  Αποτελέσματα r-code k-means clustering (1/2) (προγράμματα Ομαδοποίησης Δεδομένων) τα κέντρα βάρη = μέσος όρους της χρονοσειράς Συστάδες Σύνολο εντός- συστάδων άθροισμα των τετραγώνων 1η 667230.4 2η 587036.5 3η 546687.4 4η 516637.4 5η 491612.9 6η 473239.7 Σύγκλιση 7η 473239.7 Κ = 6 συστάδες Ομαδοποίηση (2/8) Ομαδοποίηση 9/21
  • 11. Εισαγωγή  Αποτελέσματα r-code k-means clustering (2/2) Ομαδοποίηση (3/8)  Από τα αποτελέσματα της μεθοδολογίας k-means, δεν μπορούμε να βγάλουμε σαφής συμπέρσμα για την έκφραση γονιδίων, όμως πετύχαμε την ομαδοποιήση των δεδομένων σε 6 συστάδες. ΔεδομένωνΣυμπέρασμα 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V1 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V2 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V3 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V4 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V5 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V6 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V7 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V8 Ομαδοποίηση 10/21
  • 12. ΕισαγωγήΔεδομένωνΣυμπέρασμα  Αποτελέσματα Mathlab-code SOM (Self Organized Maps) clustering (1/2 ) (προγράμματα Ομαδοποίησης Δεδομένων) Ομαδοποίηση (4/8) Τοπολογία 1 X 2  SOM µπορεί να ϑεωρηθεί ως µια παραλλαγή της µεθόδου kmeans, η οποία περιορίζει τοπολογικά τους πυρήνες(centroids) των συστάδων 2 4 6 8 -60 -50 -40 -30 -20 -10 0 10 20 SOM CLUSTERING 2 4 6 8 -40 -20 0 20 40 60 Τοπολογία 2 X 2 2 4 6 8 -40 -20 0 2 4 6 8 -20 -10 0 10 20 2 4 6 8 -60 -40 -20 0 20 SOM CLUSTERING 2 4 6 8 -50 0 50 Άθροισμα Σφαλμάτων: 6.7181*104 Άθροισμα Σφαλμάτων: 6.2638*104 Ομαδοποίηση 11/21
  • 13. ΕισαγωγήΔεδομένωνΣυμπέρασμα Ομαδοποίηση (5/8)  Αποτελέσματα Mathlab-code SOM clustering (2/2 ) Τοπολογία 3*3 2 4 6 8 -10 0 10 20 2 4 6 8 -10 0 10 2 4 6 8 -20 0 20 40 2 4 6 8 -30 -20 -10 0 2 4 6 8 -20 -10 0 10 2 4 6 8 -50 0 50 2 4 6 8 -40 -20 0 2 4 6 8 -20 0 20 SOM CLUSTERING 2 4 6 8 -50 0 50 Άθροισμα Σφαλμάτων: 5.7250*104 Τοπολογία 4*4 2 4 6 8 -10 -5 0 2 4 6 8 -40 -20 0 2 4 6 8 -10 0 10 2 4 6 8 -5 0 5 10 15 2 4 6 8 -10 0 10 2 4 6 8 -10 0 10 2 4 6 8 -10 0 10 20 2 4 6 8 -20 0 20 40 2 4 6 8 -20 0 20 2 4 6 8 -10 0 10 20 2 4 6 8 -10 0 10 2 4 6 8 -20 0 20 2 4 6 8 -60 -40 -20 0 2 4 6 8 -20 -10 0 10 2 4 6 8 -20 0 20 40 60 SOM CLUSTERING 2 4 6 8 -50 0 50 Άθροισμα Σφαλμάτων: 5.2803*104  Επιλογή της τοπολογίας 4X4 με το μικρότερο άθροισμα σφαλμάτων. Ομαδοποίηση 12/21
  • 14. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Ομαδοποίηση (6/8)  Μειονέκτημα μεθοδολογίων K-means και Self Organized Maps  απαιτούν σαν είσοδο τον αριθμό των ομάδων πριν προχωρήσουν στην ομαδοποίηση  πραγματοποιήση διαδοχικών δοκιμών για την εύρεση του βέλτιστου αριθμού ομάδων  Η μέθοδος SOTA (Self- Organizing Tree Algorithm) έρχεται να αντιμετωπίσει τους περιορισμούς των προηγουμένων μεθοδολογίων ομαδοποίησης. 13/21
  • 15. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Ομαδοποίηση (7/8)  Αποτελέσματα r-code SOTA (Self- Organizing Tree Algorithm) Γραφική ομάδων που προέκυψαν από την ομαδοποίηση SOTA 14/21
  • 16. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Ερμηνεία αποτελέσματων SOTA (8/8)  Mετρήσεις σε κύτταρα ελέγχου ή καρκινικά κύτταρα: T1/C1, T2/C2, T3/C3, T4/C4, T5/C5, T6/C6, T1/T4, T2/T5  Οι ομάδες με το περισσότερο ενδιαφέρον είναι η τέταρτη και η πέμπτη.  H τέταρτη ομάδα αποτελείται από 253 γονίδια που παρουσιάζουν εξαιρετικά μειωμένο λόγο T2/C2 κaι ελαφρώς αυξημένος λόγος T2/T5  Καταλήξουμε ότι αυτή η ομάδα γονιδίων υπερεκφράζεται στα φυσιολογικά κύτταρα όταν υπερεκφράζεται το γονίδιο p53. 15/21
  • 17.  Η πέμπτη ομάδα γονιδίων αποτελείται από 210 γονίδια με χαμηλές τιμές στον λόγο Τ2/C2, αυξημένες τιμές στους λόγους Τ3/C3 και T2/T5 και εξαιρετικά υψηλή τιμή στον λόγο T5/C5  Η ομάδα αυτή απαρτίζεται από τα γονίδια που επηρεάζονται περισσότερο από τον συνδυασμό υπερέκφρασης του ογκογονιδίου ErbB2 και υποέκφρασης του ογκοκατασταλτικού γονιδίου p53  Κατάληξη με ασφάλεια στο συμπέρασμα ότι αυτά είναι τα γονίδια που συμμετέχουν στον μηχανισμό της καρκινογέννησης για το συγκεκριμένο είδος καρκίνου  Περαιτέρω μελέτη της συμπεριφοράς τους σε συνδυασμό με δημιουργία του γονιδιακού ρυθμιστικού δικτύου Ερμηνεία αποτελέσματων SOTA (2/2) Δίκτυο Γονιδιακής Ρύθμισης Δεδομένα Γονιδιακής Έκφρασης data _ file Ομαδοποίηση Κοινής Έκφρασης Εξαγωγή Συνρύθμισης από Συνέκφραση Βιολογική Γνώση Ανακάλυψη Λειτουργίας γονιδίων ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα 16/21
  • 18. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Αξιολόγιση μεθόδων ομαδοποίησης (1/2)  Στόχος μίας αποτελεσματικής ομαδοποιήσης , είναι η επιτεύξη των δύο σκοπών: Ελαχιστοποίηση της μέσης Ευκλείδειας απόστασης των δειγμάτων από τα κέντρα των ομάδων Δημιουργία όσο το δυνατών λιγότερων ομάδων  Η ταυτόχρονη επίτευξη των δύο στόχων είναι η χρήση της παρακάτω μετρικής για την αξιολόγηση των αλγορίθμων: Fitness = Average Euclidean Distances +0.02*Number Of-Clusters 17/21
  • 19.  Σύγκριση αποτελέσματων των τρίων αλγορίθμων Αξιολόγιση μεθόδων ομαδοποίησης (1/2) Algorithm Average Euclidean Distances Number of Clusters Fitness Value K-means 5.6394 2 5.6794 < < < 5.5232 4 5.6032 < < < 5.4079 9 5.5879 < < < 5.3298 16 5.6498 < < < 5.2743 25 5.7743 < < < 5.2297 36 5.9497 < < < 5.1922 49 6.1722 SOM(1X2 topology) 5.3229 2 5.3629 SOM(2X2 topology) 4.9610 4 5.0410 SOM(3X3 topology) 4.5318 9 4.7118 SOM(4X4 topology) 4.1839 16 4.4039 SOM(5X5 topology) 3.9574 25 4.4574 SOM(6X6 topology) 3.7255 36 4.4255 SOM(7X7 topology) 3.5323 49 4.5123 SOTA 3.7297 5 3.7797  Η περιοχή του αλγορίθμου SOTA που καταφέρνει να πετυχαίνει μικρή μέση ευκλείδειας απόστασης με μόλις 5 ομάδες ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα 18/21
  • 20. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα  Η επαλήθευση , ότι στους ζωικούς οργανισμούς όταν το p53 υποεκφράζεται ή δεν εκφράζεται καθόλου και το ErbB2 υπερεκφράζεται, τότε τα κύτταρα επιδεικνύουν εξαιρετικά επιθετική συμπεριφορά, οδηγώντας σε επιτάχυνση των καρκινογενέσεων  Στη τρέχουσα εργασία , οι μεθοδολογίες ομαδοποιήσης που χρησιμοποιήσα, με πρώτη την ομαδοποιήση self-organizing tree algorithm αξιοποιήθηκαν υπεύθυνα, και δημιουργικά  Ελαχιστοποιήση του αριθμού συστάδων (Κ = 5) ,που είναι ο σκοπός της ομαδοποιήσης ,χωρίς βέβαια να χαθούν οι σημαντικές πληροφορίες των αρχικών γενετικών δεδομένων, που μας είναι χρήσιμες  Ανάλυση γονιδίων και clusters μπορούν να καθοδηγήσουν τους ερευνητές να επιλέγουν τα σημαντικά γονίδια για βιολογικές μελέτες Συμπεράσματα 19/21
  • 21. Μελλοντική Έρευνα Συσχέτιση: Affimetrix / Ομαδοποίηση Συστάδες Μεταλλαγμέν α γονίδια : Ρ<0.05 Fold<2.5 Χαμηλή έκφραση Υψηλή έκφραση Όνομα των εμπλεκομένων 3 γονίδιων 1η = 574 6 10 2 ( Τ1/C1) & ( T2/C2) = V1 ,V2 2η = 4442 4 2 3 T3/C3 = V3 3η = 3813 4 4 0 T4/C4 = V4 4η = 667 0 1 2 T5/C5 = V5 5η = 2696 2 3 1 (T6/C6) & (T1/T4) = V6 , V7 6η = 431 1 1 0 T2/T5 = V8 ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα 20/21  Αρχική προυπόθεση καθορισμού μεταλλαγμένων γονίδιων, που πραγματοποιήθηκε στα πειράματα affimetrix:  Η μέση τιμή των δειγμάτων (T/C) να μην ξεπερνάει 0.05 που είναι η τιμή της κατανομής Ρ,  επίσης οι [Mean T / Mean C] < 2.5 , που είναι ουσιαστικά η τιπική απόκλιση  Χρήση της αρχικής προυπόθεσης της affimetrix και του μέσου όρου των κέντρων των συστάδων από τα αποτελέσματα της ομαδοποίησης K-means για τον καθορισμό τον ακριβής αριθμού μεταλλαγμένων γονίδιων κάθε συστάδα
  • 22. Ευχαριστώ πολύ για την προσοχή σας 21/21