Maria - Christina Maniou Diploma Thesis Presentation

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών
Τοποθεσιών με λειτουργικές βιολογικές διεργασίες μέσω
χρήσης δεδομένων μεγάλης κλίμακας
Μαρία-Χριστίνα Μάνιου, ΑΕΜ: 8552
Επιβλέποντες
Καθηγητής Περικλής Α. Μήτκας
Δρ. Φώτης Ε. Ψωμόπουλος
Θεσσαλονίκη, Νοέμβριος 2020
27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές
βιολογικές διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
1

Περιεχόμενα
• Εισαγωγή
• Στόχοι και Μεθοδολογία
• Περιγραφή Αλγορίθμου
• Πειραματικά Αποτελέσματα
• Συμπεράσματα και Μελλοντικές Επεκτάσεις
27/11/2020
2

27/11/2020
3

Ανθρώπινο Γονιδίωμα
Χρωμοσώματα
– Δομές τύπου νήματος μέσα στον πυρήνα των κυττάρων
Τοπολογικά Συσχετιζόμενοι Τομείς – Topologically Associated Domains (TADs)
– Γονιδιωματικές περιοχές
– Οι αλληλουχίες DNA αλληλεπιδρούν φυσικά συχνότερα μεταξύ τους παρά με
αλληλουχίες εκτός του TAD.
Γονίδια
– Η βασική φυσική μονάδα κληρονομιάς
– Ρύθμιση της γονιδιακής έκφρασης: Transcription Factors (μεταγραφικοί
παράγοντες)
27/11/2020
4

Εμπλουτισμός
Προσθήκη χαρακτηριστικών στα δεδομένα από εξωτερικές πηγές
Ανάλυση Εμπλουτισμού Γονιδίων – Gene Enrichment Analysis
• Εστίαση σε ομάδες γονιδίων με κοινή βιολογική λειτουργία ή ρύθμιση
Ανάλυση Εμπλουτισμού Μοτίβων – Motif Enrichment Analysis
• Εύρεση δεσμευτικών μοτίβων Transcription Factors Binding Sites
27/11/2020
5
Βαθμολογία
Εμπλουτισμού
Στατιστική
Σημασία
Προσαρμογή

27/11/2020
6

Ορισμός του Προβλήματος
Πρόβλημα
• Τεράστιος όγκος δεδομένων → ζήτημα ερμηνείας και χρήσης τους
• Αποθήκευση σε Βάσεις Δεδομένων → ανάλυση απομακρυσμένα
Στόχοι της διπλωματικής
Η σχεδίαση και υλοποίηση μίας αυτοματοποιημένης ροής διεργασιών για την πλήρη και
αποτελεσματική ανάλυση πραγματικών βιολογικών δεδομένων.
27/11/2020
7
1. Εμπλουτισμός
2. Αξιολόγηση
3. Οπτικοποίηση

Μεθοδολογία
27/11/2020
8
Χρήση ενός πραγματικού σετ δεδομένων
Εμπλουτισμός γονιδίων με GO Terms και KEGG
Pathways
Εύρεση μοτίβων πρόσδεσης μεταγραφικών
παραγόντων
Εφαρμογή μεθόδων εύρεσης στατιστικά
σημαντικών αποτελεσμάτων
Οπτικοποίηση αποτελεσμάτων
InterTADs
Enrichr
PWMEnrich

27/11/2020
9

Γενική Περιγραφή Αλγορίθμου
Τρία ανεξάρτητα σενάρια
ανάλυσης εμπλουτισμού
27/11/2020
10
Σετ Δεδομένων
Εισόδου
Σετ Γονιδίων
Gene Enrichment
Analysis – All genes
Gene Enrichment
Analysis - genes per
TAD
Ακολουθίες
Βάσεων
Motif Enrichment
Analysis

Gene Enrichment Analysis (1/3)
• Εμπλουτισμός με τη χρήση του Enrichr:
– Υπολογισμός βαθμολογίας εμπλουτισμού
27/11/2020
11
Fisher-exact test
για πολλές
τυχαίες λίστες
γονιδίων →
Υπολογισμός
απόκλισης
z-score
Fisher-exact test
για τη
συγκεκριμένη
λίστα →
p-value
συνδυασμένης
βαθμολογίας:
c = ln (p) * z

27/11/2020
12
Επιλογή των
στατιστικά
σημαντικών
όρων
Αντιστοίχιση
με TADs
Εκτίμηση
στατιστικής
σημασίας των
TADs
τιμών
Προσαρμοσμένη p-value < 0.05
Τουλάχιστον 3 γονίδια
Kyoto Encyclopedia of Genes and Genome Pathways (KEGG Pathways)
Gene Ontology Molecular Function Terms (GO MF Terms)
Gene Ontology Biological Process Terms (GO BP Terms)
Υπολογισμός p-value ανά όρο
εμπλουτισμού και ανά TAD

Προσαρμογή p-values με τη μέθοδο “False Discovery Rate-FDR”.
– Σφάλμα πολλαπλών δοκιμών:
αmultiple = 1- (1-α)^m
• όριο αποκοπής α = 0.05, αριθμός δοκιμών m = 100:
αmultiple = 0.9941
– p-values κατά αύξουσα σειρά και πολλαπλασιασμός με m/k,
k: η θέση της εκάστοτε τιμής p-value στο διάνυσμα,
m: ο αριθμός των ανεξάρτητων δοκιμών.
P_value ← c(0.0001, 0.001, 0.006, 0.03, 0.095, 0.177, 0.234, 0.552, 0.751, 0.985)
P_adjust_FDR ← c(0.001, 0.005, 0.02, 0.075, 0.19, 0.195, 0.334, 0.690, 0.834, 0.985)
27/11/2020
13

Motif Enrichment Analysis (1/2)
27/11/2020
14
Επιλογή
εγγραφών
σε TFBS
Επιλογή
στατιστικά
σημαντικών
όρων
Συνένωση
ακολουθιών
Μετατροπή
σε
αλληλουχίες
βάσεων
με μοτίβα
τιμών
Gene locus
Από genomic coordinates (chromosome:start:end)
σε αλληλουχίες βάσεων (Ensembl REST API ):
5:62100514:62100543
↓
CTGTAATTTCAGCCACAGTTGTAGTGGACA
PWMEnrich FDR
προσαρμοσμένη
p-value < 0.05

Motif Enrichment Analysis (2/2)
Περιγραφή χρήσης PWMEnrich:
– Για κάθε TAD
– Υπολογισμός επιτυχιών και σύγκριση με background.
– Position Weight Matrix (PWM):
wα,j = log2 (pα,j ∕ bα)
pa,j: η πιθανότητα νουκλεοτιδίου α στη θέση j
ba: η πιθανότητα υποβάθρου του νουκλεοτιδίου α.
27/11/2020
15
APEX2
Hj = 2 − Σ[pα,j * log2(pα,j)]
[10*pa,j]

27/11/2020
16

Πειραματικά Αποτελέσματα
Σετ Δεδομένων
– Πραγματικό σετ δεδομένων: 187.409 γεγονότα
– Ακατέργαστα δεδομένα: Ινστιτούτο Εφαρμοσμένων Βιοεπιστημών -
χρόνια λεμφοκυτταρική λευχαιμία
– Πίνακας δεδομένων εισόδου: InterTADs
Αρχεία Εξόδου
Πίνακες ανά TAD και ανά χαρακτηριστικό εμπλουτισμού. 14 πίνακες
Πληθώρα γραφημάτων.
27/11/2020
17

27/11/2020
18
Οπτικοποίηση Αποτελεσμάτων

27/11/2020
19

27/11/2020
20
KEGG Pathways
•Pathview
Human T-Cell Leukemia Virus 1 Infection

27/11/2020
Ανάπτυξη αλγορίθμου συσχέτισης Χρωμοσωμικών Τοποθεσιών με λειτουργικές βιολογικές
διεργασίες μέσω χρήσης δεδομένων μεγάλης κλίμακας
21

27/11/2020
22

Συμπεράσματα και Μελλοντικές Επεκτάσεις
Συμπεράσματα
• Τρία σενάρια ανάλυσης και εμπλουτισμού
• Συσχέτιση TADs με βιολογικές διεργασίες
• Λειτουργία των TADs
• Κυριότεροι όροι στην ανάλυση ανά TAD, σε σχέση με τη συγκεντρωτική ανάλυση
Συνεισφορά
• Η σχεδίαση και υλοποίηση ενός εργαλείου για την ανάλυση βιολογικών δεδομένων
Μελλοντικές Επεκτάσεις
• Παραλληλοποίηση κομματιών του αλγορίθμου
• Οικογένειες των μεταγραφικών παραγόντων
• Εnrichplot
Αποθετήριο https://github.com/mcmaniou/enrichment-analysis-perTADs
27/11/2020
23

Ευχαριστίες
Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα, τον ερευνητή
κ. Φώτη Ψωμόπουλο, καθώς και τη μεταδιδακτορική ερευνήτρια κ. Μαρία Τσαγιοπούλου
και τον υποψήφιο διδάκτορα κ. Νίκο Πεχλιβάνη για την πολύτιμη βοήθειά και
καθοδήγηση τους.
27/11/2020
24

Ερωτήσεις
27/11/2020
25

Maria - Christina Maniou Diploma Thesis Presentation

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Maria - Christina Maniou Diploma Thesis Presentation

Similar to Maria - Christina Maniou Diploma Thesis Presentation (20)

More from ISSEL

More from ISSEL (20)

Maria - Christina Maniou Diploma Thesis Presentation