Successfully reported this slideshow.
Your SlideShare is downloading. ×

Sotirios - Filippos Tsarouchis Diploma Thesis Presentation

Sotirios - Filippos Tsarouchis Diploma Thesis Presentation

Download to read offline

A Multi-metric Algorithm for Hierarchical Clustering of Same-length Protein Sequences

A Multi-metric Algorithm for Hierarchical Clustering of Same-length Protein Sequences

More Related Content

More from ISSEL

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Sotirios - Filippos Tsarouchis Diploma Thesis Presentation

  1. 1. Αλγόριθμος Ιεραρχικής Ομαδοποίησης Πρωτεϊνικών Ακολουθιών Ίδιου Μήκους Τσαρούχης Σωτήριος – Φίλιππος ΑΕΜ: 7999 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ Επιβλέποντες Καθηγητής Περικλής, Α. Μήτκας Μεταδιδακτορικός Ερευνητής, Φώτης Ε. Ψωμόπουλος Υποψήφια Διδάκτορας, Μαρία Κωτούζα Θεσσαλονίκη, Ιούλιος 2018
  2. 2. 2 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  3. 3. 3 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  4. 4. 4 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Βιοπληροφορική Στατιστική Πληροφορική Βιολογία • Εξόρυξη Δεδομένων (Data Mining) • Ομαδοποίηση (Clustering) Πληροφορική • Πρωτεΐνες • Αμινοξέα Βιολογία
  5. 5. 5 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Ιεραρχική ομαδοποίηση μεγάλου αριθμού αμινοξικών ακολουθιών ίδιου μήκους σε εύλογο χρονικό διάστημα • Υλοποίηση του αλγορίθμου ομαδοποίησης για την ιεραρχική ομαδοποίηση πρωτεϊνών ίδιου μήκους • Βελτιστοποίηση αλγορίθμου – ελαχιστοποίηση χρόνου • Οπτικοποίηση αποτελεσμάτων
  6. 6. 6 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  7. 7. 7 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Χρήση πραγματικού σετ δεδομένων Δημιουργία του αλγορίθμου ομαδοποίησης Δημιουργία των συναρτήσεων οπτικοποίησης Δημιουργία της Shiny εφαρμογής Αξιολόγηση αποτελεσμάτων ομαδοποίησης Βελτιστοποίηση Κώδικα Χρήση τεχνητών σετ δεδομένων
  8. 8. 8 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  9. 9. 9 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Iεραρχική ομαδοποίηση Αποτέλεσμα: Δυαδικό Δένδρο Επιμέρους συναρτήσεις:
  10. 10. 10 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Επιλογές χρήστη για αρχικοποίηση: 1η επιλογή 2η επιλογή 3η επιλογή 4η επιλογή Μεμονωμένα γράμματα (Identity) Ομάδες ομοιότητας (Similarity) Δεν λαμβάνονται υπ’ όψιν οι x πρώτες στήλες Δεν λαμβάνονται υπ’ όψιν οι y1 στήλες από το τέλος Δεν λαμβάνονται υπ’ όψιν οι y2 στήλες από το τέλος για γονίδια τύπου “J6”
  11. 11. 11 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Υπολογίζονται: • Πίνακας στοιχείων μεμονωμένων γραμμάτων (CM) [20 x L] • Πίνακας συχνοτήτων μεμονωμένων γραμμάτων (FM) [21 x L] • Πίνακας στοιχείων ομάδων ομοιότητας (CSM) [11 x L] • Πίνακας συχνοτήτων ομάδων ομοιότητας (FSM) [12 x L] 𝑭𝑴 = 𝑪𝑴 𝑵 𝑭𝑺𝑴 = 𝑪𝑺𝑴 𝑵
  12. 12. 12 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Υπολογίζονται: • Ταυτότητα μεμονωμένων γραμμάτων (Identity) • Ταυτότητα ομάδων ομοιότητας (Similarity) 𝑖𝑑 = ( 𝑗=1 𝐿 FThr[, j]) /𝐿) 𝐹𝑇ℎ𝑟 , 𝑗 = 1, 𝜀𝛼𝜈 max(𝐹𝑀 , 𝑗 ) = 100 0, 𝜀𝛼𝜈 𝑚𝑎𝑥(𝐹𝑀 , 𝑗 ) < 100 , 𝑗 = 1, … , 𝐿
  13. 13. 13 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Επιλογή κατάλληλου κελιού: Identity 1. Μέγιστη τιμή πίνακα FM 2. Ελάχιστη τιμή εντροπίας 3. Μέγιστη τιμή πίνακα FSM 4. Ελάχιστη τιμή εντροπίας 5. Πρώτο στοιχείο Similarity 1. Μέγιστη τιμή πίνακα FSM 2. Ελάχιστη τιμή εντροπίας 3. Πρώτο στοιχείο
  14. 14. 14 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
  15. 15. 15 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
  16. 16. 16 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  17. 17. 17 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 • Ακολουθίες μήκους 20 αμινοξέων • Ποικιλία μεγεθών για τα σετ δεδομένων (100 έως 500,000 ακολουθίες) • Τυχαία παραγόμενες Βελτίωση του χρόνου εκτέλεσης • Ακολουθίες μήκους 20 αμινοξέων • 123 ακολουθίες αμινοξέων κλωνοτυπικών ανοσοσφαιρινών (IG) ιδίου γονιδίου (IGHV4-34) • Από ασθενείς με χρόνια λεμφοκυτταρική λευχαιμία (CLL) Βιολογική αξιολόγηση
  18. 18. 18 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Σετ δεδομένων που αποτελούνται από 100 – 500 – 1,000 – 5,000 ακολουθίες Προσέγγιση Χρόνος (sec) για 100 Ακολουθίες Χρόνος (sec) για 500 Ακολουθίες Χρόνος (sec) για 1,000 Ακολουθίες Χρόνος (sec) για 5,000 Ακολουθίες (Αρχική) Προσέγγιση 1 10.931 node stack overflow node stack overflow node stack overflow Προσέγγιση 2 10.809 69.582 node stack overflow node stack overflow Προσέγγιση 3 6.218 28.575 node stack overflow node stack overflow Προσέγγιση 4 5.965 26.853 54.979 337.496 Προσέγγιση 5 5.768 26.842 54.37 337.218 (Τελική) Προσέγγιση 6 5.177 23.658 47.89 263.14
  19. 19. 19 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Σετ δεδομένων που αποτελούνται από (100 – 250 – 500 – 1,000 – 2,500 – 5,000 – 10,000 – 25,000 – 50,000 – 100,000 – 250,000 – 500,000 ακολουθίες) Αριθμός Ακολουθιών Εισόδου Κλήσεις Συναρτήσεων Χρόνος (sec) Χρόνος (min) Χρόνος (hours) Χρόνος (days) 500,000 877,304 317,229.5 5,287.158 88.1193 3.6716 250,000 438,547 88,114.27 1,468.571 24.4762 1.0198 100,000 175,997 17,039.03 283.9838 4.7331 0.1972 50,000 88,244 5,025.016 83.7503 1.3958 0.0582 25,000 43,967 1,808.542 30.1424 0.5023 0.0209 10,000 17,597 577.927 9.6321 0.1605 0.0066 5,000 8,816 263.14 4.3857 0.0731 0.003 2,500 4,406 123.331 2.0555 0.0343 0.0014 1,000 1,757 47.89 0.7981 0.0133 0.0006 500 872 23.658 0.3943 0.0066 0.0003 250 440 12.141 0.2024 0.0033 0.0001 100 179 5.177 0.0863 0.0014 0.0000
  20. 20. 20 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 123 ακολουθίες αμινοξέων κλωνοτυπικών ανοσοσφαιρινών (IG) από ασθενείς με χρόνια λεμφοκυτταρική λευχαιμία (CLL). Όλες οι ακολουθίες περιέχουν το γονίδιο IGHV4-34 (ακολουθίες με μήκος 20 αμινοξέων) με τις • 111 (90.2%) να χωρίζονται σε 5 βιολογικές ομάδες (subsets) #4 → 101 ακολουθίες, #207 → 2 ακολουθίες, #4-34/20-1 → 2 ακολουθίες, #4-34-16 → 4 ακολουθίες, #4-34-18 → 2 ακολουθίες • 12 ακολουθίες που δεν ανοίκουν σε κάποιο subset Δημιουργήθηκαν: 20 επίπεδα και 166 clusters Αξιολογώντας την ομαδοποίηση: • #4 → (95 101 = 94%) cluster 7 - επίπεδο 3 - Identity 15% - Similarity 25% • #207→ (2 2 = 100%) cluster 37 - επίπεδο 6 - Identity 85% - Similarity 95% • #4-34/20-1 → (2 2 = 100%) cluster 57 - επίπεδο 9 - Identity 80% - Similarity 95% • #4-34-16 → (3/4 = 75%) cluster 21 - επίπεδο 4 - Identity 40% - Similarity 45% Level Average Identity Value Identity Standard Deviation Average Similarity Value Similarity Standard Deviation level.0 0 NA 0 ΝΑ level.1 5 0 7.5 3.5355 level.2 38.75 41.7083 41.25 39.66 level.3 43.5714 39.1274 46.4286 37.3847 level.4 47.5 33.6763 50.8333 32.8795 level.5 58.5294 33.1552 62.9412 31.0271 level.6 65.9523 33.4895 70 31.1448 level.7 59.5833 32.4009 73.3333 30.1326 level.8 72.4074 30.6773 75.9259 28.5898 level.9 74.1935 29.5831 78.7097 27.3242 level.10 75.8824 28.6163 79.8529 26.5286 level.11 77.2368 27.5018 81.0526 25.5258 level.12 79.3023 26.0398 82.5581 24.3578 level.13 81.1458 25.143 84.0625 23.4443 level.14 82.2222 23.7452 85.1852 22.2542 level.15 83.75 22.8225 86.3333 21.3896 level.16 84.697 21.8188 86.9697 20.3976 level.17 85.9028 21.0353 88.1944 19.5244 level.18 87.3718 20.461 89.5513 18.9186 level.19 88.5542 20.069 90.5422 18.4789 level.20 88.75 19.9981 90.7143 18.4022
  21. 21. 21 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  22. 22. 22 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
  23. 23. 23 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  24. 24. 24 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 • Παραλληλοποίηση του αλγορίθμου • Αποθήκευση των εκτελέσεων • Μια νέα τεχνική ιεραρχικής ομαδοποίησης πρωτεϊνικών ακολουθιών ίδιου μήκους με υποσχόμενα αποτελέσματα • Δυαδικό δένδρο • Χρήση ταυτότητας μεμονωμένων γραμμάτων και ταυτότητας ομάδων ομοιότητας • Οπτικοποίηση των αποτελεσμάτων • Επιθυμητή ομαδοποίηση ακολουθιών μεγάλου μήκους σε ικανοποιητικό χρονικό διάστημα
  25. 25. 25 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 • Αποθετήριο (repository) διαδικτυακής εφαρμογής Shiny στη διεύθυνση https://github.com/fpsom/CDR3-HClust/tree/master/CDR3%20Final • Conference Paper (AIAI 2018) Tsarouchis S., Kotouza M.T., Psomopoulos F.E., Mitkas P.A. (2018) A Multi- metric Algorithm for Hierarchical Clustering of Same-Length Protein Sequences. In: Iliadis L., Maglogiannis I., Plagianakos V. (eds) Artificial Intelligence Applications and Innovations. AIAI 2018. IFIP Advances in Information and Communication Technology, vol 520. Springer, Cham
  26. 26. 26 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα, τον μεταδιδακτορικό ερευνητή κ. Φώτη Ψωμόπουλο καθώς και την υποψήφια διδάκτορα Μαρία Κωτούζα για την πολύτιμη βοήθειά και καθοδήγηση τους.
  27. 27. 27 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018

×