Successfully reported this slideshow.
Your SlideShare is downloading. ×

Ζακιά Αλαουί Τζαμαλί

Ζακιά Αλαουί Τζαμαλί

Download to read offline

Γονιδιωματική Ανάλυση Δεδομένων με Μεθόδους Υπολογιστικής Νοημοσύνης και Εφαρμογές στο R

Γονιδιωματική Ανάλυση Δεδομένων με Μεθόδους Υπολογιστικής Νοημοσύνης και Εφαρμογές στο R

More Related Content

More from ISSEL

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Ζακιά Αλαουί Τζαμαλί

  1. 1. http://www.auth.gr/ee Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Πολυτεχνικής Σχολής Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών ΓΟΝΙΔΙΩΜΑΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ ΜΕΘΟΔΟΥΣ YΠΟΛΟΓΙΣΤΙΚΗΣ ΝΟΗΜΟΣΥΝΗΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΣΤΟ R Επιβλέπων Καθηγητής μου: Συμεωνίδης Ανδρέας Αλαουί Τζαμαλί Ζακία Ακαδημαϊκό Έτος: 2015
  2. 2.  Παραγωγή μεγάλων ποσοτήτων γενετικών δεδομένων στην Μοριακή Βιολογία.  Ανάλυση της γενετικής πληροφορίας με μεθόδους Βιοπληροφορικής.  Μελέτη και ανάλυση της γονιδιακής έκφρασης με μία πειραματική τεχνική που έχει ξεχωρίσει ιδιαίτερα τα τελευταία χρόνια : οι μικροσυστοιχίες (τσιπ DNA).  Κοινή χρήση των μικροσυστοιχίων είναι να καθοριστεί ποια γονίδια ενεργοποιούνται και ποια γονίδια καταστέλλονται όταν συγκρίνονται δύο πληθυσμοί κυττάρων. Πειραματικές Τεχνικές της Μοριακής Βιολογίας ΔεδομένωνΟμαδοποιήσηΣυμπέρασμαΕισαγωγή 1/21
  3. 3. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Ερευνητικό Ενδιαφέρον των πειραμάτων Οι διάφορες μορφές καρκίνου συσχετίζονται:  Η υπέρ-έκφραση του μεμβρανικού γονιδίου ErbB2 που οφείλεται στην γονιδιακή ενίσχυση και/ή στην αυξημένη μεταγραφή.  Ο καταστολέας όγκου p53 (μεταβάλλεται συνήθως σε ανθρώπινους καρκίνους) :  Δρά ως μεταγραφικός ρυθμιστής  Παίζει μεγάλο ρόλο στον ελέγχο της γονιδιακής έκφρασης του ErbB2  Σε καρκίνους όπου ένα γονίδιο ErbB2 υπέρ-εκφράζεται και την p53 είναι μεταλλαγμένη ή απουσιάζει, η εξέλιξη σε μεταστάσεις είναι πιο συχνή , υποδηλώνοντας έτσι τη συνεργασία μεταξύ των ρ53 και ΕrbB2.  Ανάλυση δεδομένων από πειράματα με μικροσυστοιχίες που προέρχονται από το Κέντρο Γονιδιώματος της Ιατρικής Σχολής του Πανεπιστήμιου McGill του Καναδά. Εισαγωγή 2/21
  4. 4. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Κύτταρα Καρκίνου (HCT116) P53 -/- Χαμηλή έκφραση Υψηλή έκφραση Υψηλή έκφραση Χαμηλή έκφραση Γονιδιώματος  Πειράματα γονιδιωματικής μελέτης από γονίδια με καρκίνο του παχέος εντέρου HCT116 , πραγματοποιήθηκε με τη μέθοδο Affymetrix.  Μικροσυστοιχία affimetrix: Οι ανιχνευτές συντίθενται απευθείας στην επιφάνεια , το γονίδιο αντιστοιχεί στο σύνολο των ανιχνευτών ολιγονουκλεοτιδίων. γονιδιωματική μελέτη Εισαγωγή 3/21
  5. 5. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Σκοπός Διπλωματικής ανάλυση με τη χρήση μεθόδων ομαδοποίησης δεδομένων γονιδιακής έκφρασης που προήρθαν από πειράματα με μικροσυστοιχίες:  Χρήση τεχνικές ομαδοποιήσης δεδομένων με σκοπό την οργάνωση των γονίδιων σε συστάδες βάση της γονιδιακής τους έκφραση  Περιγραφή αποτελεσμάτων που προκύπτουν από την εφαρμογή των αλγορίθμων ομαδοποίησης  Σύγκριση αποτελεσμάτων  Βιολογική γνώση που προκύπτει. Εισαγωγή 4/21
  6. 6.  Περιγραφή διαδικασίας παραγωγής και απόκτησης δεδομένων γονιδιακής έκφρασης με τη μέθοδο affymetrix  Ομαδοποιήσης δεδομένων με σκοπό την οργάνωση γονιδίων σε συστάδες βάση της γονιδιακής τους έκφρασης  Αλγόριθμοι ομαδοποίησης Κ-means, ο SOM (Self-Organizing Map) και o SOTA (Self-organizing Tree Algorithm)  Αποτελέσματα που προκύπτουν από την εφαρμογή των αλγορίθμων ομαδοποίησης  Σύγκριση αποτελεσμάτων  πειραματική μέθοδος εύρεσης μεταλλαγμένων γονίδιων ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Σύνοψη Μεθοδολογίας Βήματα που ακολουθήθηκαν στην εκπόνηση της παρούσας διπλωματικής εργασίας Εισαγωγή 5/21
  7. 7. Συλλογή δεδομένων 1/2 ΕισαγωγήΟμαδοποιήσηΣυμπέρασμα  Yβριδισμός Δείγματος προετοιμασίες με βάση Affymetrix ανάλυσης  Σάρωση  Σύνθεση εικόνας  Επεξεργασία δεδομένων  Δεδομένα: data_ file Microarray πείραμα Affimerix Ανάλυση Εικόνας Βάση Δεδομένων Επιλογή Δεδομένων και Εκτίμηση Ελλειπών Τιμών Πίνακας Δεδομένων Ν γραμμές =12624 γονίδια Ν στήλες = 8 Κανονικοποίηση Sequence_Derived_From E vs A F vs B M vs I N vs J A vs I B Vs J E vs M F vs N U48705 1.744469552 2.13596422 1.888315088 -1.513326608 1.876955294 5.527703424 1.547692484 1.678585976 M87338 4.667634748 -2.989415375 2.400547686 1.543124129 2.91236584 -1.824906532 -1.959941241 3.090843797 X51757 1.426221728 1.475290603 -1.04142901 -1.285911172 3.312581274 -4.729277866 3.094057616 -1.004756572 X69699 1.037252166 1.748759105 2.21083875 1.50839696 1.950610619 1.325960011 5.100428312 1.58019543 L36861 1.162979701 -1.452498334 -1.225565733 -1.259521204 -3.519242794 -2.66709275 -1.426855371 1.041557385 L13852 -1.446128578 -1.181071878 -1.413818777 1.049696806 1.203699591 -1.173154199 1.273404665 -1.357856738 X55005 1.037252166 -1.43097984 1.028806151 1.116495694 -1.326927611 -2.248545549 -1.234037077 -1.028679347 X79510 -1.51966054 -12.70936043 1.020012936 1.100770402 3.510536528 -1.017675932 -1.155685517 9.721202264 M21121 -2.32987382 -2.937274409 -1.026000432 1.085481924 2.888879018 -1.209815268 -1.057746066 2.430300566 J02843 -1.928171437 -1.581609297 -1.110857611 -2.257061997 2.407399182 -1.099832062 -1.11063337 1.620200377 X75208 -1.11844065 -5.657500074 3.293515796 -1.463193542 2.285624126 -1.25335964 -1.11414248 3.891032402 L38487 1.037252166 -2.743607965 1.028806151 1.033792309 2.246905903 1.136537153 -1.234037077 1.620200377 M33318 -4.466930496 -2.156739951 -1.233692827 1.938360579 2.949063998 -2.367257581 1.350580706 2.405752075 L13720 -2.004686177 -1.425600217 1.508249794 8.418023087 1.925919345 3.182304027 2.443907943 1.311590782 Z48481 1.426221728 -1.531399478 1.982333803 -1.074791427 2.810801207 1.886651673 -2.828001636 -1.028679347 L41690 -1.047919259 -1.760262839 -1.701000716 1.039380375 -1.186817242 1.099273639 1.092208745 -1.263806055 L00635 -1.840527281 -2.649000794 1.73611038 -1.151562243 1.575752192 2.386728021 1.031352539 1.005641613 U38545 1.037252166 -1.788724801 2.151140134 -2.552629639 2.567892461 -1.466442749 1.080464564 2.16026717 U38980 1.146436605 1.268749918 -1.086353399 -1.209140356 2.538711865 -1.445493567 1.234816645 1.092693278 U66879 -1.135478735 -1.951336146 -1.232781007 -1.305103876 -1.704437262 1.182926424 -1.322182583 1.355076679 M96577 -4.177704781 -2.485386039 -1.388572013 -1.289749713 -1.44231262 1.486240892 1.800774274 1.45818034 M64571 -1.032948984 1.077603571 1.594649534 1.550688463 1.30465504 1.010255247 1.157640605 1.215150283 L33930 1.286192686 -4.680272411 4.681067988 -2.931249347 2.516120435 1.316719872 -5.216611282 6.249344312 X72631 -1.180818167 -1.596186342 -1.036800437 -1.488172745 -1.849765936 1.531854423 -1.224544484 -1.993066235 AF070618 -2.410214297 -1.174023708 3.600821529 -2.104799878 1.590976851 12.72921611 2.43104527 -1.656715159 U69190 1.891459832 -1.610898358 1.050695644 -1.612187141 -5.365402948 5.114417187 -1.738870427 -5.554868476 AB014574 5.55234983 -1.137202522 1.375136935 -1.340828909 2.90776058 1.626122388 1.798795401 -1.210368167 M13149 1.709274696 2.278853144 1.837153841 1.869815654 2.12177555 2.22293296 1.440619419 -1.148955702 U62317 -1.139374031 -1.3415436 2.31481384 -1.511425444 1.497937269 -1.439780154 1.178688616 -1.410760248 U32645 -1.007907797 1.000631887 2.498529224 -1.036406019 2.995874537 -1.293920073 -1.939201122 -1.146242701 AW003733 1.104171661 4.401948176 4.341060101 -1.439452804 2.029463396 3.278472556 -1.454400841 -1.158838775 L14754 -2.667303822 -1.369358699 -1.749600737 -1.905312075 -1.001377048 1.239858712 -1.682777833 -1.454846506 Y07846 -1.180173897 -2.711330224 -6.998402947 -1.164357379 1.694809024 -3.284831758 -3.976341694 3.56444083 AF017995 1.405309386 -1.437826634 -2.515765765 1.157847386 2.022215313 1.976586352 -1.851055616 1.546554906 L77566 1.037252166 -1.385791003 10.05064471 1.27407917 -1.266927406 -1.086892861 2.052882672 -1.851622825 S72904 -1.638945722 -1.129720927 1.337447996 1.431404735 1.28394623 1.591152014 2.43104527 -1.080113315 D25216 1.231736947 1.239244106 -1.166400491 2.043260093 3.026444686 1.298899603 2.388395353 -1.571073912 AB014515 -1.423174156 -1.877564357 -2.23982703 -1.007616963 1.739540054 2.110711855 -1.619673664 -1.56506215 U79751 1.867053899 -2.008392759 -1.060364083 -1.209140356 2.888879018 1.446501831 -1.388291712 2.16026717 AB007915 -1.007253736 -2.683087201 1.202688881 -2.686978568 1.866660289 -1.252852175 -3.445020174 1.594884746 AB017915 3.176584759 -1.679716641 -1.20193599 -1.054122361 -1.639681716 1.233954623 1.07495199 -2.468830434 D50928 1.016226784 3.653356001 1.281331297 -4.689998955 1.683283837 -1.659395742 -4.066713096 -1.262217361 D83703 -1.229260682 -2.003811571 1.028806151 -1.197514006 1.105369202 1.59241835 -1.391258147 3.855367321 Y13710 1.08394519 -1.213923729 -1.380584652 1.377125168 1.208013926 -1.286203604 1.206795806 -1.135661999 AF029778 -1.11378847 -1.219585091 -1.187653233 -1.573272279 -1.603939714 -1.077263689 -1.141838905 -1.105633986 AF052151 -1.423174156 -1.757343664 -1.271077458 -1.289749713 1.699340599 -1.290469619 1.157640605 1.350166981 AB002386 -2.155015136 -2.044256915 1.440328612 1.044674333 1.333328778 1.084876373 1.525361738 1.388743181 Y10931 -2.487341154 -1.257613862 1.336111885 -2.498890068 -2.122080829 -7.164620289 -1.028364231 -1.422261011 AL041124 1.038405912 -1.001227846 -1.032397459 1.264104381 1.273565481 1.181105103 1.120770111 1.058612172 AI762547 -1.02658546 -1.068054764 1.000328518 1.289816244 1.304310145 1.115330616 1.288953874 1.320450523 S46622 -1.033408303 1.059636701 -1.042589141 1.294082349 1.326506189 1.092258647 1.322482878 1.118747478 X15357 1.044960035 -1.016223829 1.108418678 1.352111234 1.431646879 1.19951194 1.25200995 1.233366607 X64116 1.044284763 -1.075729619 -1.069074112 1.229972672 1.36027264 1.150025274 1.255643039 1.267431847 L02547 1.064443968 -1.004643455 1.0673923 1.116130177 1.270543869 1.05557065 1.248374598 1.245322759 X98507 -1.040197749 -1.241991329 -1.156680487 -1.033768854 -1.683318407 1.950652418 1.117427826 -1.60274879 U56417 -1.543330636 -2.483492652 -1.567742596 -2.662379468 1.025373726 1.032199316 -1.055883837 1.561366285 U56418 2.870066673 -1.420220594 1.218515087 -2.10624449 1.345379064 -1.013034505 -2.836294896 1.126425024 L17325 1.093071639 -1.04003263 1.044399484 1.096229422 1.255977745 1.111800365 1.151671441 1.252922868 L17330 -1.219858258 -1.225743568 -1.259332198 -1.124336394 -1.068748638 -1.056531587 1.158826648 1.350514738 U50277 1.208345307 1.145519762 1.075910699 1.054679373 -1.100068948 -1.273132889 -1.396323662 -1.189083585 X52009 -4.351413919 -1.167128904 -1.291899278 4.097576788 1.195398214 -3.429219967 4.774485305 -1.03553721 Δεδομένων 6/21
  8. 8. Συλλογή δεδομένων 2/2 Περιγραφή Στήλες Δεδομένων  Εξι πειράματα για τα οποία πάρθηκαν μετρήσεις  από φυσιολογικά γονίδια (C1-C6)  από γονίδια με καρκίνο του HCT116 (T1-T6)  Στα πρώτα τρία πειράματα  υπερέκφραση των γονιδίων p53 και ErbB2  Στα τρία τελευταία πειράματα  υπερέκφραση το ErbB2 και υποεκφραστεί το p53  Κύτταρα ελέγχου AP2 είναι τα ίδια Κύτταρα που εξέφρασαν άδεια πλασμώδια  Πειράματα σε 2 διαφορετικές χρονικές στιγμές  T/C ως μέσες διαφορές τιμές ΕισαγωγήΟμαδοποιήσηΣυμπέρασμα ErbB2 P53+/+ vs p53-/- 1h P53+/+ vs p53-/- 24h AP2 P53+/+ Vs P53-/- 1h P53+/+ Vs P53-/- 24h p53-/- ErbB2 Vs AP2 1h ErbB2 Vs AP2 24h P53+/+ ErbB2 Vs AP2 1h ErbB2 Vs AP2 24h (T5/C5) (T6/C6) (T1/T4) (T2/T5) T = ErbB2 C = τα γονίδια ελέγχου Δεδομένων 7/21 (T1/C1) (T2/C2) (T3/C3) (T4/C4)
  9. 9. ΕισαγωγήΔεδομένωνΣυμπέρασμα Ομαδοποίηση (1/8) Από την Συλλογή δεδομένων στην Ομαδοπόιηση  Aποδοτική μέθοδος ομαδοποίησης μπορεί να οδηγήσει στην ανακάλυψη νέας βιολογικής γνώσης για τις λειτουργίες των γονιδίων και τους μηχανισμούς που οδηγούν σε διάφορες ασθένειες.  Εφαρμογή τεχνικές ομαδοποίησης ως προς εξέταση γονιδίων με βάση τα προφίλ έκφρασής τους στα διαφορετικά πειράματα που έχουν πραγματοποιηθεί  Επίδραση μετρικών αποστάσεων στην ομαδοποίηση  Διαδοχικές δοκιμές για την εύρεση του βέλτιστου αριθμού ομάδων Ομαδοποίηση 8/21
  10. 10. 2 4 6 8 -0.8-0.6-0.4-0.20.00.20.4 Index average_timeseries ΕισαγωγήΔεδομένωνΣυμπέρασμα Χρήση κλασσικές τεχνικές ομαδοποίησης K-means και Self Organized Maps  Αποτελέσματα r-code k-means clustering (1/2) (προγράμματα Ομαδοποίησης Δεδομένων) τα κέντρα βάρη = μέσος όρους της χρονοσειράς Συστάδες Σύνολο εντός- συστάδων άθροισμα των τετραγώνων 1η 667230.4 2η 587036.5 3η 546687.4 4η 516637.4 5η 491612.9 6η 473239.7 Σύγκλιση 7η 473239.7 Κ = 6 συστάδες Ομαδοποίηση (2/8) Ομαδοποίηση 9/21
  11. 11. Εισαγωγή  Αποτελέσματα r-code k-means clustering (2/2) Ομαδοποίηση (3/8)  Από τα αποτελέσματα της μεθοδολογίας k-means, δεν μπορούμε να βγάλουμε σαφής συμπέρσμα για την έκφραση γονιδίων, όμως πετύχαμε την ομαδοποιήση των δεδομένων σε 6 συστάδες. ΔεδομένωνΣυμπέρασμα 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V1 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V2 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V3 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V4 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V5 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V6 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V7 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V8 Ομαδοποίηση 10/21
  12. 12. ΕισαγωγήΔεδομένωνΣυμπέρασμα  Αποτελέσματα Mathlab-code SOM (Self Organized Maps) clustering (1/2 ) (προγράμματα Ομαδοποίησης Δεδομένων) Ομαδοποίηση (4/8) Τοπολογία 1 X 2  SOM µπορεί να ϑεωρηθεί ως µια παραλλαγή της µεθόδου kmeans, η οποία περιορίζει τοπολογικά τους πυρήνες(centroids) των συστάδων 2 4 6 8 -60 -50 -40 -30 -20 -10 0 10 20 SOM CLUSTERING 2 4 6 8 -40 -20 0 20 40 60 Τοπολογία 2 X 2 2 4 6 8 -40 -20 0 2 4 6 8 -20 -10 0 10 20 2 4 6 8 -60 -40 -20 0 20 SOM CLUSTERING 2 4 6 8 -50 0 50 Άθροισμα Σφαλμάτων: 6.7181*104 Άθροισμα Σφαλμάτων: 6.2638*104 Ομαδοποίηση 11/21
  13. 13. ΕισαγωγήΔεδομένωνΣυμπέρασμα Ομαδοποίηση (5/8)  Αποτελέσματα Mathlab-code SOM clustering (2/2 ) Τοπολογία 3*3 2 4 6 8 -10 0 10 20 2 4 6 8 -10 0 10 2 4 6 8 -20 0 20 40 2 4 6 8 -30 -20 -10 0 2 4 6 8 -20 -10 0 10 2 4 6 8 -50 0 50 2 4 6 8 -40 -20 0 2 4 6 8 -20 0 20 SOM CLUSTERING 2 4 6 8 -50 0 50 Άθροισμα Σφαλμάτων: 5.7250*104 Τοπολογία 4*4 2 4 6 8 -10 -5 0 2 4 6 8 -40 -20 0 2 4 6 8 -10 0 10 2 4 6 8 -5 0 5 10 15 2 4 6 8 -10 0 10 2 4 6 8 -10 0 10 2 4 6 8 -10 0 10 20 2 4 6 8 -20 0 20 40 2 4 6 8 -20 0 20 2 4 6 8 -10 0 10 20 2 4 6 8 -10 0 10 2 4 6 8 -20 0 20 2 4 6 8 -60 -40 -20 0 2 4 6 8 -20 -10 0 10 2 4 6 8 -20 0 20 40 60 SOM CLUSTERING 2 4 6 8 -50 0 50 Άθροισμα Σφαλμάτων: 5.2803*104  Επιλογή της τοπολογίας 4X4 με το μικρότερο άθροισμα σφαλμάτων. Ομαδοποίηση 12/21
  14. 14. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Ομαδοποίηση (6/8)  Μειονέκτημα μεθοδολογίων K-means και Self Organized Maps  απαιτούν σαν είσοδο τον αριθμό των ομάδων πριν προχωρήσουν στην ομαδοποίηση  πραγματοποιήση διαδοχικών δοκιμών για την εύρεση του βέλτιστου αριθμού ομάδων  Η μέθοδος SOTA (Self- Organizing Tree Algorithm) έρχεται να αντιμετωπίσει τους περιορισμούς των προηγουμένων μεθοδολογίων ομαδοποίησης. 13/21
  15. 15. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Ομαδοποίηση (7/8)  Αποτελέσματα r-code SOTA (Self- Organizing Tree Algorithm) Γραφική ομάδων που προέκυψαν από την ομαδοποίηση SOTA 14/21
  16. 16. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Ερμηνεία αποτελέσματων SOTA (8/8)  Mετρήσεις σε κύτταρα ελέγχου ή καρκινικά κύτταρα: T1/C1, T2/C2, T3/C3, T4/C4, T5/C5, T6/C6, T1/T4, T2/T5  Οι ομάδες με το περισσότερο ενδιαφέρον είναι η τέταρτη και η πέμπτη.  H τέταρτη ομάδα αποτελείται από 253 γονίδια που παρουσιάζουν εξαιρετικά μειωμένο λόγο T2/C2 κaι ελαφρώς αυξημένος λόγος T2/T5  Καταλήξουμε ότι αυτή η ομάδα γονιδίων υπερεκφράζεται στα φυσιολογικά κύτταρα όταν υπερεκφράζεται το γονίδιο p53. 15/21
  17. 17.  Η πέμπτη ομάδα γονιδίων αποτελείται από 210 γονίδια με χαμηλές τιμές στον λόγο Τ2/C2, αυξημένες τιμές στους λόγους Τ3/C3 και T2/T5 και εξαιρετικά υψηλή τιμή στον λόγο T5/C5  Η ομάδα αυτή απαρτίζεται από τα γονίδια που επηρεάζονται περισσότερο από τον συνδυασμό υπερέκφρασης του ογκογονιδίου ErbB2 και υποέκφρασης του ογκοκατασταλτικού γονιδίου p53  Κατάληξη με ασφάλεια στο συμπέρασμα ότι αυτά είναι τα γονίδια που συμμετέχουν στον μηχανισμό της καρκινογέννησης για το συγκεκριμένο είδος καρκίνου  Περαιτέρω μελέτη της συμπεριφοράς τους σε συνδυασμό με δημιουργία του γονιδιακού ρυθμιστικού δικτύου Ερμηνεία αποτελέσματων SOTA (2/2) Δίκτυο Γονιδιακής Ρύθμισης Δεδομένα Γονιδιακής Έκφρασης data _ file Ομαδοποίηση Κοινής Έκφρασης Εξαγωγή Συνρύθμισης από Συνέκφραση Βιολογική Γνώση Ανακάλυψη Λειτουργίας γονιδίων ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα 16/21
  18. 18. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Αξιολόγιση μεθόδων ομαδοποίησης (1/2)  Στόχος μίας αποτελεσματικής ομαδοποιήσης , είναι η επιτεύξη των δύο σκοπών: Ελαχιστοποίηση της μέσης Ευκλείδειας απόστασης των δειγμάτων από τα κέντρα των ομάδων Δημιουργία όσο το δυνατών λιγότερων ομάδων  Η ταυτόχρονη επίτευξη των δύο στόχων είναι η χρήση της παρακάτω μετρικής για την αξιολόγηση των αλγορίθμων: Fitness = Average Euclidean Distances +0.02*Number Of-Clusters 17/21
  19. 19.  Σύγκριση αποτελέσματων των τρίων αλγορίθμων Αξιολόγιση μεθόδων ομαδοποίησης (1/2) Algorithm Average Euclidean Distances Number of Clusters Fitness Value K-means 5.6394 2 5.6794 < < < 5.5232 4 5.6032 < < < 5.4079 9 5.5879 < < < 5.3298 16 5.6498 < < < 5.2743 25 5.7743 < < < 5.2297 36 5.9497 < < < 5.1922 49 6.1722 SOM(1X2 topology) 5.3229 2 5.3629 SOM(2X2 topology) 4.9610 4 5.0410 SOM(3X3 topology) 4.5318 9 4.7118 SOM(4X4 topology) 4.1839 16 4.4039 SOM(5X5 topology) 3.9574 25 4.4574 SOM(6X6 topology) 3.7255 36 4.4255 SOM(7X7 topology) 3.5323 49 4.5123 SOTA 3.7297 5 3.7797  Η περιοχή του αλγορίθμου SOTA που καταφέρνει να πετυχαίνει μικρή μέση ευκλείδειας απόστασης με μόλις 5 ομάδες ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα 18/21
  20. 20. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα  Η επαλήθευση , ότι στους ζωικούς οργανισμούς όταν το p53 υποεκφράζεται ή δεν εκφράζεται καθόλου και το ErbB2 υπερεκφράζεται, τότε τα κύτταρα επιδεικνύουν εξαιρετικά επιθετική συμπεριφορά, οδηγώντας σε επιτάχυνση των καρκινογενέσεων  Στη τρέχουσα εργασία , οι μεθοδολογίες ομαδοποιήσης που χρησιμοποιήσα, με πρώτη την ομαδοποιήση self-organizing tree algorithm αξιοποιήθηκαν υπεύθυνα, και δημιουργικά  Ελαχιστοποιήση του αριθμού συστάδων (Κ = 5) ,που είναι ο σκοπός της ομαδοποιήσης ,χωρίς βέβαια να χαθούν οι σημαντικές πληροφορίες των αρχικών γενετικών δεδομένων, που μας είναι χρήσιμες  Ανάλυση γονιδίων και clusters μπορούν να καθοδηγήσουν τους ερευνητές να επιλέγουν τα σημαντικά γονίδια για βιολογικές μελέτες Συμπεράσματα 19/21
  21. 21. Μελλοντική Έρευνα Συσχέτιση: Affimetrix / Ομαδοποίηση Συστάδες Μεταλλαγμέν α γονίδια : Ρ<0.05 Fold<2.5 Χαμηλή έκφραση Υψηλή έκφραση Όνομα των εμπλεκομένων 3 γονίδιων 1η = 574 6 10 2 ( Τ1/C1) & ( T2/C2) = V1 ,V2 2η = 4442 4 2 3 T3/C3 = V3 3η = 3813 4 4 0 T4/C4 = V4 4η = 667 0 1 2 T5/C5 = V5 5η = 2696 2 3 1 (T6/C6) & (T1/T4) = V6 , V7 6η = 431 1 1 0 T2/T5 = V8 ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα 20/21  Αρχική προυπόθεση καθορισμού μεταλλαγμένων γονίδιων, που πραγματοποιήθηκε στα πειράματα affimetrix:  Η μέση τιμή των δειγμάτων (T/C) να μην ξεπερνάει 0.05 που είναι η τιμή της κατανομής Ρ,  επίσης οι [Mean T / Mean C] < 2.5 , που είναι ουσιαστικά η τιπική απόκλιση  Χρήση της αρχικής προυπόθεσης της affimetrix και του μέσου όρου των κέντρων των συστάδων από τα αποτελέσματα της ομαδοποίησης K-means για τον καθορισμό τον ακριβής αριθμού μεταλλαγμένων γονίδιων κάθε συστάδα
  22. 22. Ευχαριστώ πολύ για την προσοχή σας 21/21

×