Maria - Christina Maniou Diploma Thesis Presentation
1. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών
Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω
χρήσης δεδομένων μεγάλης κλίμακας
Μαρία-Χριστίνα Μάνιου, ΑΕΜ: 8552
Επιβλέποντες
Καθηγητής Περικλής Α. Μήτκας
Δρ. Φώτης Ε. Ψωμόπουλος
Θεσσαλονίκη, Νοέμβριος 2020
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
1
2. Περιεχόμενα
• Εισαγωγή
• Στόχοι και Μεθοδολογία
• Περιγραφή Αλγορίθμου
• Πειραματικά Αποτελέσματα
• Συμπεράσματα και Μελλοντικές Επεκτάσεις
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
2
3. Περιεχόμενα
• Εισαγωγή
• Στόχοι και Μεθοδολογία
• Περιγραφή Αλγορίθμου
• Πειραματικά Αποτελέσματα
• Συμπεράσματα και Μελλοντικές Επεκτάσεις
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
3
4. Ανθρώπινο Γονιδίωμα
Χρωμοσώματα
– Δομές τύπου νήματος μέσα στον πυρήνα των κυττάρων
Τοπολογικά Συσχετιζόμενοι Τομείς – Topologically Associated Domains (TADs)
– Γονιδιωματικές περιοχές
– Οι αλληλουχίες DNA αλληλεπιδρούν φυσικά συχνότερα μεταξύ τους παρά με
αλληλουχίες εκτός του TAD.
Γονίδια
– Η βασική φυσική μονάδα κληρονομιάς
– Ρύθμιση της γονιδιακής έκφρασης: Transcription Factors (μεταγραφικοί
παράγοντες)
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
4
5. Εμπλουτισμός
Προσθήκη χαρακτηριστικών στα δεδομένα από εξωτερικές πηγές
Ανάλυση Εμπλουτισμού Γονιδίων – Gene Enrichment Analysis
• Εστίαση σε ομάδες γονιδίων με κοινή βιολογική λειτουργία ή ρύθμιση
Ανάλυση Εμπλουτισμού Μοτίβων – Motif Enrichment Analysis
• Εύρεση δεσμευτικών μοτίβων Transcription Factors Binding Sites
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
5
Βαθμολογία
Εμπλουτισμού
Στατιστική
Σημασία
Προσαρμογή
6. Περιεχόμενα
• Εισαγωγή
• Στόχοι και Μεθοδολογία
• Περιγραφή Αλγορίθμου
• Πειραματικά Αποτελέσματα
• Συμπεράσματα και Μελλοντικές Επεκτάσεις
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
6
7. Ορισμός του Προβλήματος
Πρόβλημα
• Τεράστιος όγκος δεδομένων → ζήτημα ερμηνείας και χρήσης τους
• Αποθήκευση σε Βάσεις Δεδομένων → ανάλυση απομακρυσμένα
Στόχοι της διπλωματικής
Η σχεδίαση και υλοποίηση μίας αυτοματοποιημένης ροής διεργασιών για την πλήρη και
αποτελεσματική ανάλυση πραγματικών βιολογικών δεδομένων.
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
7
1. Εμπλουτισμός
2. Αξιολόγηση
3. Οπτικοποίηση
8. Μεθοδολογία
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
8
Χρήση ενός πραγματικού σετ δεδομένων
Εμπλουτισμός γονιδίων με GO Terms και KEGG
Pathways
Εύρεση μοτίβων πρόσδεσης μεταγραφικών
παραγόντων
Εφαρμογή μεθόδων εύρεσης στατιστικά
σημαντικών αποτελεσμάτων
Οπτικοποίηση αποτελεσμάτων
InterTADs
Enrichr
PWMEnrich
9. Περιεχόμενα
• Εισαγωγή
• Στόχοι και Μεθοδολογία
• Περιγραφή Αλγορίθμου
• Πειραματικά Αποτελέσματα
• Συμπεράσματα και Μελλοντικές Επεκτάσεις
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
9
10. Γενική Περιγραφή Αλγορίθμου
Τρία ανεξάρτητα σενάρια
ανάλυσης εμπλουτισμού
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
10
Σετ Δεδομένων
Εισόδου
Σετ Γονιδίων
Gene Enrichment
Analysis – All genes
Gene Enrichment
Analysis - genes per
TAD
Ακολουθίες
Βάσεων
Motif Enrichment
Analysis
11. Gene Enrichment Analysis (1/3)
• Εμπλουτισμός με τη χρήση του Enrichr:
– Υπολογισμός βαθμολογίας εμπλουτισμού
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
11
Fisher-exact test
για πολλές
τυχαίες λίστες
γονιδίων →
Υπολογισμός
απόκλισης
z-score
Fisher-exact test
για τη
συγκεκριμένη
λίστα →
Υπολογισμός
p-value
Υπολογισμός
συνδυασμένης
βαθμολογίας:
c = ln (p) * z
12. Gene Enrichment Analysis (2/3)
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
12
Εμπλουτισμός
Επιλογή των
στατιστικά
σημαντικών
όρων
Αντιστοίχιση
με TADs
Εκτίμηση
στατιστικής
σημασίας των
TADs
Προσαρμογή
τιμών
Προσαρμοσμένη p-value < 0.05
Τουλάχιστον 3 γονίδια
Kyoto Encyclopedia of Genes and Genome Pathways (KEGG Pathways)
Gene Ontology Molecular Function Terms (GO MF Terms)
Gene Ontology Biological Process Terms (GO BP Terms)
Υπολογισμός p-value ανά όρο
εμπλουτισμού και ανά TAD
13. Προσαρμογή p-values με τη μέθοδο “False Discovery Rate-FDR”.
– Σφάλμα πολλαπλών δοκιμών:
αmultiple = 1- (1-α)^m
• όριο αποκοπής α = 0.05, αριθμός δοκιμών m = 100:
αmultiple = 0.9941
– p-values κατά αύξουσα σειρά και πολλαπλασιασμός με m/k,
k: η θέση της εκάστοτε τιμής p-value στο διάνυσμα,
m: ο αριθμός των ανεξάρτητων δοκιμών.
P_value ← c(0.0001, 0.001, 0.006, 0.03, 0.095, 0.177, 0.234, 0.552, 0.751, 0.985)
P_adjust_FDR ← c(0.001, 0.005, 0.02, 0.075, 0.19, 0.195, 0.334, 0.690, 0.834, 0.985)
Gene Enrichment Analysis (3/3)
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
13
14. Motif Enrichment Analysis (1/2)
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
14
Επιλογή
εγγραφών
σε TFBS
Επιλογή
στατιστικά
σημαντικών
όρων
Συνένωση
ακολουθιών
Μετατροπή
σε
αλληλουχίες
βάσεων
Εμπλουτισμός
με μοτίβα
Προσαρμογή
τιμών
Gene locus
Από genomic coordinates (chromosome:start:end)
σε αλληλουχίες βάσεων (Ensembl REST API ):
5:62100514:62100543
↓
CTGTAATTTCAGCCACAGTTGTAGTGGACA
PWMEnrich FDR
προσαρμοσμένη
p-value < 0.05
15. Motif Enrichment Analysis (2/2)
Περιγραφή χρήσης PWMEnrich:
– Για κάθε TAD
– Υπολογισμός επιτυχιών και σύγκριση με background.
– Position Weight Matrix (PWM):
wα,j = log2 (pα,j ∕ bα)
pa,j: η πιθανότητα νουκλεοτιδίου α στη θέση j
ba: η πιθανότητα υποβάθρου του νουκλεοτιδίου α.
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
15
APEX2
Hj = 2 − Σ[pα,j * log2(pα,j)]
[10*pa,j]
16. Περιεχόμενα
• Εισαγωγή
• Στόχοι και Μεθοδολογία
• Περιγραφή Αλγορίθμου
• Πειραματικά Αποτελέσματα
• Συμπεράσματα και Μελλοντικές Επεκτάσεις
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
16
17. Πειραματικά Αποτελέσματα
Σετ Δεδομένων
– Πραγματικό σετ δεδομένων: 187.409 γεγονότα
– Ακατέργαστα δεδομένα: Ινστιτούτο Εφαρμοσμένων Βιοεπιστημών -
χρόνια λεμφοκυτταρική λευχαιμία
– Πίνακας δεδομένων εισόδου: InterTADs
Αρχεία Εξόδου
Πίνακες ανά TAD και ανά χαρακτηριστικό εμπλουτισμού. 14 πίνακες
Πληθώρα γραφημάτων.
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
17
18. 27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
18
Οπτικοποίηση Αποτελεσμάτων
22. Περιεχόμενα
• Εισαγωγή
• Στόχοι και Μεθοδολογία
• Περιγραφή Αλγορίθμου
• Πειραματικά Αποτελέσματα
• Συμπεράσματα και Μελλοντικές Επεκτάσεις
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
22
23. Συμπεράσματα και Μελλοντικές Επεκτάσεις
Συμπεράσματα
• Τρία σενάρια ανάλυσης και εμπλουτισμού
• Συσχέτιση TADs με βιολογικές διεργασίες
• Λειτουργία των TADs
• Κυριότεροι όροι στην ανάλυση ανά TAD, σε σχέση με τη συγκεντρωτική ανάλυση
Συνεισφορά
• Η σχεδίαση και υλοποίηση ενός εργαλείου για την ανάλυση βιολογικών δεδομένων
Μελλοντικές Επεκτάσεις
• Παραλληλοποίηση κομματιών του αλγορίθμου
• Οικογένειες των μεταγραφικών παραγόντων
• Εnrichplot
Αποθετήριο https://github.com/mcmaniou/enrichment-analysis-perTADs
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
23
24. Ευχαριστίες
Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα, τον ερευνητή
κ. Φώτη Ψωμόπουλο, καθώς και τη μεταδιδακτορική ερευνήτρια κ. Μαρία Τσαγιοπούλου
και τον υποψήφιο διδάκτορα κ. Νίκο Πεχλιβάνη για την πολύτιμη βοήθειά και
καθοδήγηση τους.
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
24