Successfully reported this slideshow.
Your SlideShare is downloading. ×

Maria - Christina Maniou Diploma Thesis Presentation

More Related Content

More from ISSEL

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Maria - Christina Maniou Diploma Thesis Presentation

  1. 1. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας Μαρία-Χριστίνα Μάνιου, ΑΕΜ: 8552 Επιβλέποντες Καθηγητής Περικλής Α. Μήτκας Δρ. Φώτης Ε. Ψωμόπουλος Θεσσαλονίκη, Νοέμβριος 2020 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 1
  2. 2. Περιεχόμενα • Εισαγωγή • Στόχοι και Μεθοδολογία • Περιγραφή Αλγορίθμου • Πειραματικά Αποτελέσματα • Συμπεράσματα και Μελλοντικές Επεκτάσεις 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 2
  3. 3. Περιεχόμενα • Εισαγωγή • Στόχοι και Μεθοδολογία • Περιγραφή Αλγορίθμου • Πειραματικά Αποτελέσματα • Συμπεράσματα και Μελλοντικές Επεκτάσεις 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 3
  4. 4. Ανθρώπινο Γονιδίωμα Χρωμοσώματα – Δομές τύπου νήματος μέσα στον πυρήνα των κυττάρων Τοπολογικά Συσχετιζόμενοι Τομείς – Topologically Associated Domains (TADs) – Γονιδιωματικές περιοχές – Οι αλληλουχίες DNA αλληλεπιδρούν φυσικά συχνότερα μεταξύ τους παρά με αλληλουχίες εκτός του TAD. Γονίδια – Η βασική φυσική μονάδα κληρονομιάς – Ρύθμιση της γονιδιακής έκφρασης: Transcription Factors (μεταγραφικοί παράγοντες) 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 4
  5. 5. Εμπλουτισμός Προσθήκη χαρακτηριστικών στα δεδομένα από εξωτερικές πηγές Ανάλυση Εμπλουτισμού Γονιδίων – Gene Enrichment Analysis • Εστίαση σε ομάδες γονιδίων με κοινή βιολογική λειτουργία ή ρύθμιση Ανάλυση Εμπλουτισμού Μοτίβων – Motif Enrichment Analysis • Εύρεση δεσμευτικών μοτίβων Transcription Factors Binding Sites 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 5 Βαθμολογία Εμπλουτισμού Στατιστική Σημασία Προσαρμογή
  6. 6. Περιεχόμενα • Εισαγωγή • Στόχοι και Μεθοδολογία • Περιγραφή Αλγορίθμου • Πειραματικά Αποτελέσματα • Συμπεράσματα και Μελλοντικές Επεκτάσεις 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 6
  7. 7. Ορισμός του Προβλήματος Πρόβλημα • Τεράστιος όγκος δεδομένων → ζήτημα ερμηνείας και χρήσης τους • Αποθήκευση σε Βάσεις Δεδομένων → ανάλυση απομακρυσμένα Στόχοι της διπλωματικής Η σχεδίαση και υλοποίηση μίας αυτοματοποιημένης ροής διεργασιών για την πλήρη και αποτελεσματική ανάλυση πραγματικών βιολογικών δεδομένων. 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 7 1. Εμπλουτισμός 2. Αξιολόγηση 3. Οπτικοποίηση
  8. 8. Μεθοδολογία 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 8 Χρήση ενός πραγματικού σετ δεδομένων Εμπλουτισμός γονιδίων με GO Terms και KEGG Pathways Εύρεση μοτίβων πρόσδεσης μεταγραφικών παραγόντων Εφαρμογή μεθόδων εύρεσης στατιστικά σημαντικών αποτελεσμάτων Οπτικοποίηση αποτελεσμάτων InterTADs Enrichr PWMEnrich
  9. 9. Περιεχόμενα • Εισαγωγή • Στόχοι και Μεθοδολογία • Περιγραφή Αλγορίθμου • Πειραματικά Αποτελέσματα • Συμπεράσματα και Μελλοντικές Επεκτάσεις 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 9
  10. 10. Γενική Περιγραφή Αλγορίθμου Τρία ανεξάρτητα σενάρια ανάλυσης εμπλουτισμού 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 10 Σετ Δεδομένων Εισόδου Σετ Γονιδίων Gene Enrichment Analysis – All genes Gene Enrichment Analysis - genes per TAD Ακολουθίες Βάσεων Motif Enrichment Analysis
  11. 11. Gene Enrichment Analysis (1/3) • Εμπλουτισμός με τη χρήση του Enrichr: – Υπολογισμός βαθμολογίας εμπλουτισμού 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 11 Fisher-exact test για πολλές τυχαίες λίστες γονιδίων → Υπολογισμός απόκλισης z-score Fisher-exact test για τη συγκεκριμένη λίστα → Υπολογισμός p-value Υπολογισμός συνδυασμένης βαθμολογίας: c = ln (p) * z
  12. 12. Gene Enrichment Analysis (2/3) 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 12 Εμπλουτισμός Επιλογή των στατιστικά σημαντικών όρων Αντιστοίχιση με TADs Εκτίμηση στατιστικής σημασίας των TADs Προσαρμογή τιμών Προσαρμοσμένη p-value < 0.05 Τουλάχιστον 3 γονίδια Kyoto Encyclopedia of Genes and Genome Pathways (KEGG Pathways) Gene Ontology Molecular Function Terms (GO MF Terms) Gene Ontology Biological Process Terms (GO BP Terms) Υπολογισμός p-value ανά όρο εμπλουτισμού και ανά TAD
  13. 13. Προσαρμογή p-values με τη μέθοδο “False Discovery Rate-FDR”. – Σφάλμα πολλαπλών δοκιμών: αmultiple = 1- (1-α)^m • όριο αποκοπής α = 0.05, αριθμός δοκιμών m = 100: αmultiple = 0.9941 – p-values κατά αύξουσα σειρά και πολλαπλασιασμός με m/k, k: η θέση της εκάστοτε τιμής p-value στο διάνυσμα, m: ο αριθμός των ανεξάρτητων δοκιμών. P_value ← c(0.0001, 0.001, 0.006, 0.03, 0.095, 0.177, 0.234, 0.552, 0.751, 0.985) P_adjust_FDR ← c(0.001, 0.005, 0.02, 0.075, 0.19, 0.195, 0.334, 0.690, 0.834, 0.985) Gene Enrichment Analysis (3/3) 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 13
  14. 14. Motif Enrichment Analysis (1/2) 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 14 Επιλογή εγγραφών σε TFBS Επιλογή στατιστικά σημαντικών όρων Συνένωση ακολουθιών Μετατροπή σε αλληλουχίες βάσεων Εμπλουτισμός με μοτίβα Προσαρμογή τιμών Gene locus Από genomic coordinates (chromosome:start:end) σε αλληλουχίες βάσεων (Ensembl REST API ): 5:62100514:62100543 ↓ CTGTAATTTCAGCCACAGTTGTAGTGGACA PWMEnrich FDR προσαρμοσμένη p-value < 0.05
  15. 15. Motif Enrichment Analysis (2/2) Περιγραφή χρήσης PWMEnrich: – Για κάθε TAD – Υπολογισμός επιτυχιών και σύγκριση με background. – Position Weight Matrix (PWM): wα,j = log2 (pα,j ∕ bα) pa,j: η πιθανότητα νουκλεοτιδίου α στη θέση j ba: η πιθανότητα υποβάθρου του νουκλεοτιδίου α. 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 15 APEX2 Hj = 2 − Σ[pα,j * log2(pα,j)] [10*pa,j]
  16. 16. Περιεχόμενα • Εισαγωγή • Στόχοι και Μεθοδολογία • Περιγραφή Αλγορίθμου • Πειραματικά Αποτελέσματα • Συμπεράσματα και Μελλοντικές Επεκτάσεις 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 16
  17. 17. Πειραματικά Αποτελέσματα Σετ Δεδομένων – Πραγματικό σετ δεδομένων: 187.409 γεγονότα – Ακατέργαστα δεδομένα: Ινστιτούτο Εφαρμοσμένων Βιοεπιστημών - χρόνια λεμφοκυτταρική λευχαιμία – Πίνακας δεδομένων εισόδου: InterTADs Αρχεία Εξόδου Πίνακες ανά TAD και ανά χαρακτηριστικό εμπλουτισμού. 14 πίνακες Πληθώρα γραφημάτων. 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 17
  18. 18. 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 18 Οπτικοποίηση Αποτελεσμάτων
  19. 19. Οπτικοποίηση Αποτελεσμάτων 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 19
  20. 20. Οπτικοποίηση Αποτελεσμάτων 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 20 KEGG Pathways •Pathview Human T-Cell Leukemia Virus 1 Infection
  21. 21. Οπτικοποίηση Αποτελεσμάτων 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 21
  22. 22. Περιεχόμενα • Εισαγωγή • Στόχοι και Μεθοδολογία • Περιγραφή Αλγορίθμου • Πειραματικά Αποτελέσματα • Συμπεράσματα και Μελλοντικές Επεκτάσεις 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 22
  23. 23. Συμπεράσματα και Μελλοντικές Επεκτάσεις Συμπεράσματα • Τρία σενάρια ανάλυσης και εμπλουτισμού • Συσχέτιση TADs με βιολογικές διεργασίες • Λειτουργία των TADs • Κυριότεροι όροι στην ανάλυση ανά TAD, σε σχέση με τη συγκεντρωτική ανάλυση Συνεισφορά • Η σχεδίαση και υλοποίηση ενός εργαλείου για την ανάλυση βιολογικών δεδομένων Μελλοντικές Επεκτάσεις • Παραλληλοποίηση κομματιών του αλγορίθμου • Οικογένειες των μεταγραφικών παραγόντων • Εnrichplot Αποθετήριο https://github.com/mcmaniou/enrichment-analysis-perTADs 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 23
  24. 24. Ευχαριστίες Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα, τον ερευνητή κ. Φώτη Ψωμόπουλο, καθώς και τη μεταδιδακτορική ερευνήτρια κ. Μαρία Τσαγιοπούλου και τον υποψήφιο διδάκτορα κ. Νίκο Πεχλιβάνη για την πολύτιμη βοήθειά και καθοδήγηση τους. 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 24
  25. 25. Ερωτήσεις 27/11/2020 Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας 25

×