Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Ζακιά Αλαουί Τζαμαλί

76 views

Published on

Γονιδιωματική Ανάλυση Δεδομένων με Μεθόδους Υπολογιστικής Νοημοσύνης και Εφαρμογές στο R

Published in: Software
  • Be the first to comment

  • Be the first to like this

Ζακιά Αλαουί Τζαμαλί

  1. 1. http://www.auth.gr/ee Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Πολυτεχνικής Σχολής Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών ΓΟΝΙΔΙΩΜΑΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ ΜΕΘΟΔΟΥΣ YΠΟΛΟΓΙΣΤΙΚΗΣ ΝΟΗΜΟΣΥΝΗΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΣΤΟ R Επιβλέπων Καθηγητής μου: Συμεωνίδης Ανδρέας Αλαουί Τζαμαλί Ζακία Ακαδημαϊκό Έτος: 2015
  2. 2.  Παραγωγή μεγάλων ποσοτήτων γενετικών δεδομένων στην Μοριακή Βιολογία.  Ανάλυση της γενετικής πληροφορίας με μεθόδους Βιοπληροφορικής.  Μελέτη και ανάλυση της γονιδιακής έκφρασης με μία πειραματική τεχνική που έχει ξεχωρίσει ιδιαίτερα τα τελευταία χρόνια : οι μικροσυστοιχίες (τσιπ DNA).  Κοινή χρήση των μικροσυστοιχίων είναι να καθοριστεί ποια γονίδια ενεργοποιούνται και ποια γονίδια καταστέλλονται όταν συγκρίνονται δύο πληθυσμοί κυττάρων. Πειραματικές Τεχνικές της Μοριακής Βιολογίας ΔεδομένωνΟμαδοποιήσηΣυμπέρασμαΕισαγωγή 1/21
  3. 3. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Ερευνητικό Ενδιαφέρον των πειραμάτων Οι διάφορες μορφές καρκίνου συσχετίζονται:  Η υπέρ-έκφραση του μεμβρανικού γονιδίου ErbB2 που οφείλεται στην γονιδιακή ενίσχυση και/ή στην αυξημένη μεταγραφή.  Ο καταστολέας όγκου p53 (μεταβάλλεται συνήθως σε ανθρώπινους καρκίνους) :  Δρά ως μεταγραφικός ρυθμιστής  Παίζει μεγάλο ρόλο στον ελέγχο της γονιδιακής έκφρασης του ErbB2  Σε καρκίνους όπου ένα γονίδιο ErbB2 υπέρ-εκφράζεται και την p53 είναι μεταλλαγμένη ή απουσιάζει, η εξέλιξη σε μεταστάσεις είναι πιο συχνή , υποδηλώνοντας έτσι τη συνεργασία μεταξύ των ρ53 και ΕrbB2.  Ανάλυση δεδομένων από πειράματα με μικροσυστοιχίες που προέρχονται από το Κέντρο Γονιδιώματος της Ιατρικής Σχολής του Πανεπιστήμιου McGill του Καναδά. Εισαγωγή 2/21
  4. 4. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Κύτταρα Καρκίνου (HCT116) P53 -/- Χαμηλή έκφραση Υψηλή έκφραση Υψηλή έκφραση Χαμηλή έκφραση Γονιδιώματος  Πειράματα γονιδιωματικής μελέτης από γονίδια με καρκίνο του παχέος εντέρου HCT116 , πραγματοποιήθηκε με τη μέθοδο Affymetrix.  Μικροσυστοιχία affimetrix: Οι ανιχνευτές συντίθενται απευθείας στην επιφάνεια , το γονίδιο αντιστοιχεί στο σύνολο των ανιχνευτών ολιγονουκλεοτιδίων. γονιδιωματική μελέτη Εισαγωγή 3/21
  5. 5. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Σκοπός Διπλωματικής ανάλυση με τη χρήση μεθόδων ομαδοποίησης δεδομένων γονιδιακής έκφρασης που προήρθαν από πειράματα με μικροσυστοιχίες:  Χρήση τεχνικές ομαδοποιήσης δεδομένων με σκοπό την οργάνωση των γονίδιων σε συστάδες βάση της γονιδιακής τους έκφραση  Περιγραφή αποτελεσμάτων που προκύπτουν από την εφαρμογή των αλγορίθμων ομαδοποίησης  Σύγκριση αποτελεσμάτων  Βιολογική γνώση που προκύπτει. Εισαγωγή 4/21
  6. 6.  Περιγραφή διαδικασίας παραγωγής και απόκτησης δεδομένων γονιδιακής έκφρασης με τη μέθοδο affymetrix  Ομαδοποιήσης δεδομένων με σκοπό την οργάνωση γονιδίων σε συστάδες βάση της γονιδιακής τους έκφρασης  Αλγόριθμοι ομαδοποίησης Κ-means, ο SOM (Self-Organizing Map) και o SOTA (Self-organizing Tree Algorithm)  Αποτελέσματα που προκύπτουν από την εφαρμογή των αλγορίθμων ομαδοποίησης  Σύγκριση αποτελεσμάτων  πειραματική μέθοδος εύρεσης μεταλλαγμένων γονίδιων ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Σύνοψη Μεθοδολογίας Βήματα που ακολουθήθηκαν στην εκπόνηση της παρούσας διπλωματικής εργασίας Εισαγωγή 5/21
  7. 7. Συλλογή δεδομένων 1/2 ΕισαγωγήΟμαδοποιήσηΣυμπέρασμα  Yβριδισμός Δείγματος προετοιμασίες με βάση Affymetrix ανάλυσης  Σάρωση  Σύνθεση εικόνας  Επεξεργασία δεδομένων  Δεδομένα: data_ file Microarray πείραμα Affimerix Ανάλυση Εικόνας Βάση Δεδομένων Επιλογή Δεδομένων και Εκτίμηση Ελλειπών Τιμών Πίνακας Δεδομένων Ν γραμμές =12624 γονίδια Ν στήλες = 8 Κανονικοποίηση Sequence_Derived_From E vs A F vs B M vs I N vs J A vs I B Vs J E vs M F vs N U48705 1.744469552 2.13596422 1.888315088 -1.513326608 1.876955294 5.527703424 1.547692484 1.678585976 M87338 4.667634748 -2.989415375 2.400547686 1.543124129 2.91236584 -1.824906532 -1.959941241 3.090843797 X51757 1.426221728 1.475290603 -1.04142901 -1.285911172 3.312581274 -4.729277866 3.094057616 -1.004756572 X69699 1.037252166 1.748759105 2.21083875 1.50839696 1.950610619 1.325960011 5.100428312 1.58019543 L36861 1.162979701 -1.452498334 -1.225565733 -1.259521204 -3.519242794 -2.66709275 -1.426855371 1.041557385 L13852 -1.446128578 -1.181071878 -1.413818777 1.049696806 1.203699591 -1.173154199 1.273404665 -1.357856738 X55005 1.037252166 -1.43097984 1.028806151 1.116495694 -1.326927611 -2.248545549 -1.234037077 -1.028679347 X79510 -1.51966054 -12.70936043 1.020012936 1.100770402 3.510536528 -1.017675932 -1.155685517 9.721202264 M21121 -2.32987382 -2.937274409 -1.026000432 1.085481924 2.888879018 -1.209815268 -1.057746066 2.430300566 J02843 -1.928171437 -1.581609297 -1.110857611 -2.257061997 2.407399182 -1.099832062 -1.11063337 1.620200377 X75208 -1.11844065 -5.657500074 3.293515796 -1.463193542 2.285624126 -1.25335964 -1.11414248 3.891032402 L38487 1.037252166 -2.743607965 1.028806151 1.033792309 2.246905903 1.136537153 -1.234037077 1.620200377 M33318 -4.466930496 -2.156739951 -1.233692827 1.938360579 2.949063998 -2.367257581 1.350580706 2.405752075 L13720 -2.004686177 -1.425600217 1.508249794 8.418023087 1.925919345 3.182304027 2.443907943 1.311590782 Z48481 1.426221728 -1.531399478 1.982333803 -1.074791427 2.810801207 1.886651673 -2.828001636 -1.028679347 L41690 -1.047919259 -1.760262839 -1.701000716 1.039380375 -1.186817242 1.099273639 1.092208745 -1.263806055 L00635 -1.840527281 -2.649000794 1.73611038 -1.151562243 1.575752192 2.386728021 1.031352539 1.005641613 U38545 1.037252166 -1.788724801 2.151140134 -2.552629639 2.567892461 -1.466442749 1.080464564 2.16026717 U38980 1.146436605 1.268749918 -1.086353399 -1.209140356 2.538711865 -1.445493567 1.234816645 1.092693278 U66879 -1.135478735 -1.951336146 -1.232781007 -1.305103876 -1.704437262 1.182926424 -1.322182583 1.355076679 M96577 -4.177704781 -2.485386039 -1.388572013 -1.289749713 -1.44231262 1.486240892 1.800774274 1.45818034 M64571 -1.032948984 1.077603571 1.594649534 1.550688463 1.30465504 1.010255247 1.157640605 1.215150283 L33930 1.286192686 -4.680272411 4.681067988 -2.931249347 2.516120435 1.316719872 -5.216611282 6.249344312 X72631 -1.180818167 -1.596186342 -1.036800437 -1.488172745 -1.849765936 1.531854423 -1.224544484 -1.993066235 AF070618 -2.410214297 -1.174023708 3.600821529 -2.104799878 1.590976851 12.72921611 2.43104527 -1.656715159 U69190 1.891459832 -1.610898358 1.050695644 -1.612187141 -5.365402948 5.114417187 -1.738870427 -5.554868476 AB014574 5.55234983 -1.137202522 1.375136935 -1.340828909 2.90776058 1.626122388 1.798795401 -1.210368167 M13149 1.709274696 2.278853144 1.837153841 1.869815654 2.12177555 2.22293296 1.440619419 -1.148955702 U62317 -1.139374031 -1.3415436 2.31481384 -1.511425444 1.497937269 -1.439780154 1.178688616 -1.410760248 U32645 -1.007907797 1.000631887 2.498529224 -1.036406019 2.995874537 -1.293920073 -1.939201122 -1.146242701 AW003733 1.104171661 4.401948176 4.341060101 -1.439452804 2.029463396 3.278472556 -1.454400841 -1.158838775 L14754 -2.667303822 -1.369358699 -1.749600737 -1.905312075 -1.001377048 1.239858712 -1.682777833 -1.454846506 Y07846 -1.180173897 -2.711330224 -6.998402947 -1.164357379 1.694809024 -3.284831758 -3.976341694 3.56444083 AF017995 1.405309386 -1.437826634 -2.515765765 1.157847386 2.022215313 1.976586352 -1.851055616 1.546554906 L77566 1.037252166 -1.385791003 10.05064471 1.27407917 -1.266927406 -1.086892861 2.052882672 -1.851622825 S72904 -1.638945722 -1.129720927 1.337447996 1.431404735 1.28394623 1.591152014 2.43104527 -1.080113315 D25216 1.231736947 1.239244106 -1.166400491 2.043260093 3.026444686 1.298899603 2.388395353 -1.571073912 AB014515 -1.423174156 -1.877564357 -2.23982703 -1.007616963 1.739540054 2.110711855 -1.619673664 -1.56506215 U79751 1.867053899 -2.008392759 -1.060364083 -1.209140356 2.888879018 1.446501831 -1.388291712 2.16026717 AB007915 -1.007253736 -2.683087201 1.202688881 -2.686978568 1.866660289 -1.252852175 -3.445020174 1.594884746 AB017915 3.176584759 -1.679716641 -1.20193599 -1.054122361 -1.639681716 1.233954623 1.07495199 -2.468830434 D50928 1.016226784 3.653356001 1.281331297 -4.689998955 1.683283837 -1.659395742 -4.066713096 -1.262217361 D83703 -1.229260682 -2.003811571 1.028806151 -1.197514006 1.105369202 1.59241835 -1.391258147 3.855367321 Y13710 1.08394519 -1.213923729 -1.380584652 1.377125168 1.208013926 -1.286203604 1.206795806 -1.135661999 AF029778 -1.11378847 -1.219585091 -1.187653233 -1.573272279 -1.603939714 -1.077263689 -1.141838905 -1.105633986 AF052151 -1.423174156 -1.757343664 -1.271077458 -1.289749713 1.699340599 -1.290469619 1.157640605 1.350166981 AB002386 -2.155015136 -2.044256915 1.440328612 1.044674333 1.333328778 1.084876373 1.525361738 1.388743181 Y10931 -2.487341154 -1.257613862 1.336111885 -2.498890068 -2.122080829 -7.164620289 -1.028364231 -1.422261011 AL041124 1.038405912 -1.001227846 -1.032397459 1.264104381 1.273565481 1.181105103 1.120770111 1.058612172 AI762547 -1.02658546 -1.068054764 1.000328518 1.289816244 1.304310145 1.115330616 1.288953874 1.320450523 S46622 -1.033408303 1.059636701 -1.042589141 1.294082349 1.326506189 1.092258647 1.322482878 1.118747478 X15357 1.044960035 -1.016223829 1.108418678 1.352111234 1.431646879 1.19951194 1.25200995 1.233366607 X64116 1.044284763 -1.075729619 -1.069074112 1.229972672 1.36027264 1.150025274 1.255643039 1.267431847 L02547 1.064443968 -1.004643455 1.0673923 1.116130177 1.270543869 1.05557065 1.248374598 1.245322759 X98507 -1.040197749 -1.241991329 -1.156680487 -1.033768854 -1.683318407 1.950652418 1.117427826 -1.60274879 U56417 -1.543330636 -2.483492652 -1.567742596 -2.662379468 1.025373726 1.032199316 -1.055883837 1.561366285 U56418 2.870066673 -1.420220594 1.218515087 -2.10624449 1.345379064 -1.013034505 -2.836294896 1.126425024 L17325 1.093071639 -1.04003263 1.044399484 1.096229422 1.255977745 1.111800365 1.151671441 1.252922868 L17330 -1.219858258 -1.225743568 -1.259332198 -1.124336394 -1.068748638 -1.056531587 1.158826648 1.350514738 U50277 1.208345307 1.145519762 1.075910699 1.054679373 -1.100068948 -1.273132889 -1.396323662 -1.189083585 X52009 -4.351413919 -1.167128904 -1.291899278 4.097576788 1.195398214 -3.429219967 4.774485305 -1.03553721 Δεδομένων 6/21
  8. 8. Συλλογή δεδομένων 2/2 Περιγραφή Στήλες Δεδομένων  Εξι πειράματα για τα οποία πάρθηκαν μετρήσεις  από φυσιολογικά γονίδια (C1-C6)  από γονίδια με καρκίνο του HCT116 (T1-T6)  Στα πρώτα τρία πειράματα  υπερέκφραση των γονιδίων p53 και ErbB2  Στα τρία τελευταία πειράματα  υπερέκφραση το ErbB2 και υποεκφραστεί το p53  Κύτταρα ελέγχου AP2 είναι τα ίδια Κύτταρα που εξέφρασαν άδεια πλασμώδια  Πειράματα σε 2 διαφορετικές χρονικές στιγμές  T/C ως μέσες διαφορές τιμές ΕισαγωγήΟμαδοποιήσηΣυμπέρασμα ErbB2 P53+/+ vs p53-/- 1h P53+/+ vs p53-/- 24h AP2 P53+/+ Vs P53-/- 1h P53+/+ Vs P53-/- 24h p53-/- ErbB2 Vs AP2 1h ErbB2 Vs AP2 24h P53+/+ ErbB2 Vs AP2 1h ErbB2 Vs AP2 24h (T5/C5) (T6/C6) (T1/T4) (T2/T5) T = ErbB2 C = τα γονίδια ελέγχου Δεδομένων 7/21 (T1/C1) (T2/C2) (T3/C3) (T4/C4)
  9. 9. ΕισαγωγήΔεδομένωνΣυμπέρασμα Ομαδοποίηση (1/8) Από την Συλλογή δεδομένων στην Ομαδοπόιηση  Aποδοτική μέθοδος ομαδοποίησης μπορεί να οδηγήσει στην ανακάλυψη νέας βιολογικής γνώσης για τις λειτουργίες των γονιδίων και τους μηχανισμούς που οδηγούν σε διάφορες ασθένειες.  Εφαρμογή τεχνικές ομαδοποίησης ως προς εξέταση γονιδίων με βάση τα προφίλ έκφρασής τους στα διαφορετικά πειράματα που έχουν πραγματοποιηθεί  Επίδραση μετρικών αποστάσεων στην ομαδοποίηση  Διαδοχικές δοκιμές για την εύρεση του βέλτιστου αριθμού ομάδων Ομαδοποίηση 8/21
  10. 10. 2 4 6 8 -0.8-0.6-0.4-0.20.00.20.4 Index average_timeseries ΕισαγωγήΔεδομένωνΣυμπέρασμα Χρήση κλασσικές τεχνικές ομαδοποίησης K-means και Self Organized Maps  Αποτελέσματα r-code k-means clustering (1/2) (προγράμματα Ομαδοποίησης Δεδομένων) τα κέντρα βάρη = μέσος όρους της χρονοσειράς Συστάδες Σύνολο εντός- συστάδων άθροισμα των τετραγώνων 1η 667230.4 2η 587036.5 3η 546687.4 4η 516637.4 5η 491612.9 6η 473239.7 Σύγκλιση 7η 473239.7 Κ = 6 συστάδες Ομαδοποίηση (2/8) Ομαδοποίηση 9/21
  11. 11. Εισαγωγή  Αποτελέσματα r-code k-means clustering (2/2) Ομαδοποίηση (3/8)  Από τα αποτελέσματα της μεθοδολογίας k-means, δεν μπορούμε να βγάλουμε σαφής συμπέρσμα για την έκφραση γονιδίων, όμως πετύχαμε την ομαδοποιήση των δεδομένων σε 6 συστάδες. ΔεδομένωνΣυμπέρασμα 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V1 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V2 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V3 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V4 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V5 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V6 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V7 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V8 Ομαδοποίηση 10/21
  12. 12. ΕισαγωγήΔεδομένωνΣυμπέρασμα  Αποτελέσματα Mathlab-code SOM (Self Organized Maps) clustering (1/2 ) (προγράμματα Ομαδοποίησης Δεδομένων) Ομαδοποίηση (4/8) Τοπολογία 1 X 2  SOM µπορεί να ϑεωρηθεί ως µια παραλλαγή της µεθόδου kmeans, η οποία περιορίζει τοπολογικά τους πυρήνες(centroids) των συστάδων 2 4 6 8 -60 -50 -40 -30 -20 -10 0 10 20 SOM CLUSTERING 2 4 6 8 -40 -20 0 20 40 60 Τοπολογία 2 X 2 2 4 6 8 -40 -20 0 2 4 6 8 -20 -10 0 10 20 2 4 6 8 -60 -40 -20 0 20 SOM CLUSTERING 2 4 6 8 -50 0 50 Άθροισμα Σφαλμάτων: 6.7181*104 Άθροισμα Σφαλμάτων: 6.2638*104 Ομαδοποίηση 11/21
  13. 13. ΕισαγωγήΔεδομένωνΣυμπέρασμα Ομαδοποίηση (5/8)  Αποτελέσματα Mathlab-code SOM clustering (2/2 ) Τοπολογία 3*3 2 4 6 8 -10 0 10 20 2 4 6 8 -10 0 10 2 4 6 8 -20 0 20 40 2 4 6 8 -30 -20 -10 0 2 4 6 8 -20 -10 0 10 2 4 6 8 -50 0 50 2 4 6 8 -40 -20 0 2 4 6 8 -20 0 20 SOM CLUSTERING 2 4 6 8 -50 0 50 Άθροισμα Σφαλμάτων: 5.7250*104 Τοπολογία 4*4 2 4 6 8 -10 -5 0 2 4 6 8 -40 -20 0 2 4 6 8 -10 0 10 2 4 6 8 -5 0 5 10 15 2 4 6 8 -10 0 10 2 4 6 8 -10 0 10 2 4 6 8 -10 0 10 20 2 4 6 8 -20 0 20 40 2 4 6 8 -20 0 20 2 4 6 8 -10 0 10 20 2 4 6 8 -10 0 10 2 4 6 8 -20 0 20 2 4 6 8 -60 -40 -20 0 2 4 6 8 -20 -10 0 10 2 4 6 8 -20 0 20 40 60 SOM CLUSTERING 2 4 6 8 -50 0 50 Άθροισμα Σφαλμάτων: 5.2803*104  Επιλογή της τοπολογίας 4X4 με το μικρότερο άθροισμα σφαλμάτων. Ομαδοποίηση 12/21
  14. 14. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Ομαδοποίηση (6/8)  Μειονέκτημα μεθοδολογίων K-means και Self Organized Maps  απαιτούν σαν είσοδο τον αριθμό των ομάδων πριν προχωρήσουν στην ομαδοποίηση  πραγματοποιήση διαδοχικών δοκιμών για την εύρεση του βέλτιστου αριθμού ομάδων  Η μέθοδος SOTA (Self- Organizing Tree Algorithm) έρχεται να αντιμετωπίσει τους περιορισμούς των προηγουμένων μεθοδολογίων ομαδοποίησης. 13/21
  15. 15. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Ομαδοποίηση (7/8)  Αποτελέσματα r-code SOTA (Self- Organizing Tree Algorithm) Γραφική ομάδων που προέκυψαν από την ομαδοποίηση SOTA 14/21
  16. 16. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Ερμηνεία αποτελέσματων SOTA (8/8)  Mετρήσεις σε κύτταρα ελέγχου ή καρκινικά κύτταρα: T1/C1, T2/C2, T3/C3, T4/C4, T5/C5, T6/C6, T1/T4, T2/T5  Οι ομάδες με το περισσότερο ενδιαφέρον είναι η τέταρτη και η πέμπτη.  H τέταρτη ομάδα αποτελείται από 253 γονίδια που παρουσιάζουν εξαιρετικά μειωμένο λόγο T2/C2 κaι ελαφρώς αυξημένος λόγος T2/T5  Καταλήξουμε ότι αυτή η ομάδα γονιδίων υπερεκφράζεται στα φυσιολογικά κύτταρα όταν υπερεκφράζεται το γονίδιο p53. 15/21
  17. 17.  Η πέμπτη ομάδα γονιδίων αποτελείται από 210 γονίδια με χαμηλές τιμές στον λόγο Τ2/C2, αυξημένες τιμές στους λόγους Τ3/C3 και T2/T5 και εξαιρετικά υψηλή τιμή στον λόγο T5/C5  Η ομάδα αυτή απαρτίζεται από τα γονίδια που επηρεάζονται περισσότερο από τον συνδυασμό υπερέκφρασης του ογκογονιδίου ErbB2 και υποέκφρασης του ογκοκατασταλτικού γονιδίου p53  Κατάληξη με ασφάλεια στο συμπέρασμα ότι αυτά είναι τα γονίδια που συμμετέχουν στον μηχανισμό της καρκινογέννησης για το συγκεκριμένο είδος καρκίνου  Περαιτέρω μελέτη της συμπεριφοράς τους σε συνδυασμό με δημιουργία του γονιδιακού ρυθμιστικού δικτύου Ερμηνεία αποτελέσματων SOTA (2/2) Δίκτυο Γονιδιακής Ρύθμισης Δεδομένα Γονιδιακής Έκφρασης data _ file Ομαδοποίηση Κοινής Έκφρασης Εξαγωγή Συνρύθμισης από Συνέκφραση Βιολογική Γνώση Ανακάλυψη Λειτουργίας γονιδίων ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα 16/21
  18. 18. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Αξιολόγιση μεθόδων ομαδοποίησης (1/2)  Στόχος μίας αποτελεσματικής ομαδοποιήσης , είναι η επιτεύξη των δύο σκοπών: Ελαχιστοποίηση της μέσης Ευκλείδειας απόστασης των δειγμάτων από τα κέντρα των ομάδων Δημιουργία όσο το δυνατών λιγότερων ομάδων  Η ταυτόχρονη επίτευξη των δύο στόχων είναι η χρήση της παρακάτω μετρικής για την αξιολόγηση των αλγορίθμων: Fitness = Average Euclidean Distances +0.02*Number Of-Clusters 17/21
  19. 19.  Σύγκριση αποτελέσματων των τρίων αλγορίθμων Αξιολόγιση μεθόδων ομαδοποίησης (1/2) Algorithm Average Euclidean Distances Number of Clusters Fitness Value K-means 5.6394 2 5.6794 < < < 5.5232 4 5.6032 < < < 5.4079 9 5.5879 < < < 5.3298 16 5.6498 < < < 5.2743 25 5.7743 < < < 5.2297 36 5.9497 < < < 5.1922 49 6.1722 SOM(1X2 topology) 5.3229 2 5.3629 SOM(2X2 topology) 4.9610 4 5.0410 SOM(3X3 topology) 4.5318 9 4.7118 SOM(4X4 topology) 4.1839 16 4.4039 SOM(5X5 topology) 3.9574 25 4.4574 SOM(6X6 topology) 3.7255 36 4.4255 SOM(7X7 topology) 3.5323 49 4.5123 SOTA 3.7297 5 3.7797  Η περιοχή του αλγορίθμου SOTA που καταφέρνει να πετυχαίνει μικρή μέση ευκλείδειας απόστασης με μόλις 5 ομάδες ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα 18/21
  20. 20. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα  Η επαλήθευση , ότι στους ζωικούς οργανισμούς όταν το p53 υποεκφράζεται ή δεν εκφράζεται καθόλου και το ErbB2 υπερεκφράζεται, τότε τα κύτταρα επιδεικνύουν εξαιρετικά επιθετική συμπεριφορά, οδηγώντας σε επιτάχυνση των καρκινογενέσεων  Στη τρέχουσα εργασία , οι μεθοδολογίες ομαδοποιήσης που χρησιμοποιήσα, με πρώτη την ομαδοποιήση self-organizing tree algorithm αξιοποιήθηκαν υπεύθυνα, και δημιουργικά  Ελαχιστοποιήση του αριθμού συστάδων (Κ = 5) ,που είναι ο σκοπός της ομαδοποιήσης ,χωρίς βέβαια να χαθούν οι σημαντικές πληροφορίες των αρχικών γενετικών δεδομένων, που μας είναι χρήσιμες  Ανάλυση γονιδίων και clusters μπορούν να καθοδηγήσουν τους ερευνητές να επιλέγουν τα σημαντικά γονίδια για βιολογικές μελέτες Συμπεράσματα 19/21
  21. 21. Μελλοντική Έρευνα Συσχέτιση: Affimetrix / Ομαδοποίηση Συστάδες Μεταλλαγμέν α γονίδια : Ρ<0.05 Fold<2.5 Χαμηλή έκφραση Υψηλή έκφραση Όνομα των εμπλεκομένων 3 γονίδιων 1η = 574 6 10 2 ( Τ1/C1) & ( T2/C2) = V1 ,V2 2η = 4442 4 2 3 T3/C3 = V3 3η = 3813 4 4 0 T4/C4 = V4 4η = 667 0 1 2 T5/C5 = V5 5η = 2696 2 3 1 (T6/C6) & (T1/T4) = V6 , V7 6η = 431 1 1 0 T2/T5 = V8 ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα 20/21  Αρχική προυπόθεση καθορισμού μεταλλαγμένων γονίδιων, που πραγματοποιήθηκε στα πειράματα affimetrix:  Η μέση τιμή των δειγμάτων (T/C) να μην ξεπερνάει 0.05 που είναι η τιμή της κατανομής Ρ,  επίσης οι [Mean T / Mean C] < 2.5 , που είναι ουσιαστικά η τιπική απόκλιση  Χρήση της αρχικής προυπόθεσης της affimetrix και του μέσου όρου των κέντρων των συστάδων από τα αποτελέσματα της ομαδοποίησης K-means για τον καθορισμό τον ακριβής αριθμού μεταλλαγμένων γονίδιων κάθε συστάδα
  22. 22. Ευχαριστώ πολύ για την προσοχή σας 21/21

×