4. Ανάπτυξη αλγόριθμου - μεθοδολογίας που θα ενοποιεί
και θα αξιοποιεί τις πληροφορίες από πειράματα DNA
μικροσυστοιχιών, RNA-seq και ChIP-seq.
Εφαρμογή αυτού του αλγόριθμου - μεθοδολογίας σε
βιολογικά συστήματα προκειμένου να εξαχθούν
συμπεράσματα για την λειτουργία τους. Το σύστημα
μοντέλο που μελετήθηκε είναι ανθρώπινα κύτταρα μετά
από ιική μόλυνση.
Μελέτη του επαναπρογραμματισμού του ανθρώπινου
γονιδιώματος μετά από ιική μόλυνση.
Στόχοι
6. Βάσεις δεδομένων
•GEO Datasets, SRA και Array Express Archive – δεδομένα από τεχνικές
υψηλής απόδοσης από δημοσιευμένες μελέτες
•ISGs (Interferon Stimulated genes)
Γονίδια που ρυθμίζονται
από τις Ιντερφερόνες
•INTERFEROME
7. • NfKB.org – Γονίδια που ρυθμίζονται από τον μεταγραφικό παράγοντα
Nf-κB (Thanos D., Maniatis T. 1992, Antonaki A., Thanos D. , 2011)
• ENCODE (The Encyclopedia Of DNA Elements) – δεδομένα από ChIP-seq
πειράματα που πραγματοποιήθηκαν σε 147 ανθρώπινες κυτταρικές
σειρές και μελετήθηκαν 119 μεταγραφικοί παράγοντες και 13 ιστονικές
τροποποιήσεις.
Βάσεις δεδομένων
8. RNA - Transcriptome Histone ModificationsProteins -Transcription
factors
•TOPHAT
•HTSeq-count/DESeq
•Cufflinks/Cuffdiff
ChIP-seqChIP-seqDNA microarrays RNA-seq
•RMA
•T-test
•Fold change
•BOWTIE
•MACS
•CEAS
•BOWTIE
•MACS
•CEAS
LIST OF DIFFERENTIALLY
EXPRESSED GENES
DNA BINDING
POSITIONS
DEFENSE RESPONSE MODULE
Διαγραμματική απεικόνιση των τεχνολογιών και της ανάλυσης
τους που χρησιμοποιήθηκαν στη παρούσα εργασία
10. DNA μικροσυστοιχίες
• HG-U 133_Plus_2 μικροσυστοιχίες : 3500 μελέτες με 100.000
πειράματα
• 20.000 γονίδια
• 16 κυτταρικές σειρές
• 12 ιικά και 3 βακτηριακά στελέχη
• 60 πειράματα
11. RNA - Transcriptome Histone ModificationsProteins -Transcription
factors
•TOPHAT
•HTSeq-count/DESeq
•Cufflinks/Cuffdiff
ChIP-seqChIP-seqDNA microarrays RNA-seq
•RMA
•T-test
•Fold change
•BOWTIE
•MACS
•CEAS
•BOWTIE
•MACS
•CEAS
LIST OF DIFFERENTIALLY
EXPRESSED GENES
DNA BINDING
POSITIONS
DEFENSE RESPONSE MODULE
Διαγραμματική απεικόνιση των τεχνολογιών και της ανάλυσης
τους που χρησιμοποιήθηκαν στη παρούσα εργασία
12. CEL files
Κανονικοποίηση με
τον αλγόριθμο RMA
στο πρόγραμμα
Αffymetrix
Expression Console
Στατιστική
επεξεργασία στο
πρόγραμμα TMeV
•T-test
Ενοποίηση όλων των
δεδομένων και δημιουργία
βάσης δεδομένων
Microsoft Access {SQL} και
Excel
Υπολογισμός του λόγου
αλλαγής της έκφρασης
κάθε γονιδίου.
Ανάλυση DNA μικροσυστοιχιών
13. RNA - Transcriptome Histone ModificationsProteins -Transcription
factors
•TOPHAT
•HTSeq-count/DESeq
•Cufflinks/Cuffdiff
ChIP-seqChIP-seqDNA microarrays RNA-seq
•RMA
•T-test
•Fold change
•BOWTIE
•MACS
•CEAS
•BOWTIE
•MACS
•CEAS
LIST OF DIFFERENTIALLY
EXPRESSED GENES
DNA BINDING
POSITIONS
DEFENSE RESPONSE MODULE
Διαγραμματική απεικόνιση των τεχνολογιών και της ανάλυσης
τους που χρησιμοποιήθηκαν στη παρούσα εργασία
15. RNA - Transcriptome Histone ModificationsProteins -Transcription
factors
•TOPHAT
•HTSeq-count/DESeq
•Cufflinks/Cuffdiff
ChIP-seqChIP-seqDNA microarrays RNA-seq
•RMA
•T-test
•Fold change
•BOWTIE
•MACS
•CEAS
•BOWTIE
•MACS
•CEAS
LIST OF DIFFERENTIALLY
EXPRESSED GENES
DNA BINDING
POSITIONS
DEFENSE RESPONSE MODULE
Διαγραμματική απεικόνιση των τεχνολογιών και της ανάλυσης
τους που χρησιμοποιήθηκαν στη παρούσα εργασία
16. Ανάλυση RNA-seq
1. Fastq αρχεία - Χαρτογράφηση διαβασμάτων με τον αλγόριθμο
TOPHAT.
2. Υπολογισμός του αριθμού των διαβασμάτων που αντιστοιχούν
σε κάθε γονίδιο με τον αλγόριθμο HTSeq-count .
3. Εύρεση γονιδίων των οποίων η έκφραση μεταβάλλεται με τον
αλγόριθμο DESEQ.
4. Ανάλυσης της γονιδιακής οντολογίας των γονιδίων που
επάγονται.
17. RNA - Transcriptome Histone ModificationsProteins -Transcription
factors
•TOPHAT
•HTSeq-count/DESeq
•Cufflinks/Cuffdiff
ChIP-seqChIP-seqDNA microarrays RNA-seq
•RMA
•T-test
•Fold change
•BOWTIE
•MACS
•CEAS
•BOWTIE
•MACS
•CEAS
LIST OF DIFFERENTIALLY
EXPRESSED GENES
DNA BINDING
POSITIONS
DEFENSE RESPONSE MODULE
Διαγραμματική απεικόνιση των τεχνολογιών και της ανάλυσης
τους που χρησιμοποιήθηκαν στη παρούσα εργασία
19. RNA - Transcriptome Histone ModificationsProteins -Transcription
factors
•TOPHAT
•HTSeq-count/DESeq
•Cufflinks/Cuffdiff
ChIP-seqChIP-seqDNA microarrays RNA-seq
•RMA
•T-test
•Fold change
•BOWTIE
•MACS
•CEAS
•BOWTIE
•MACS
•CEAS
LIST OF DIFFERENTIALLY
EXPRESSED GENES
DNA BINDING
POSITIONS
DEFENSE RESPONSE MODULE
Διαγραμματική απεικόνιση των τεχνολογιών και της ανάλυσης
τους που χρησιμοποιήθηκαν στη παρούσα εργασία
20. ENCODE database
Ανάλυση ChIP-seq
1. Αρχεία BED με τις συντεταγμένες των θέσεων πρόσδεσης
μεταγραφικών παραγόντων και ιστονικών τροποποιήσεων για τις
κυτταρικές σειρές HeLa, A549, HUVEC.
2. Χρήση του αλγόριθμου CEAS για τον εντοπισμό των γονιδίων κοντά
στα οποία υπάρχει πρόσδεση των μεταγραφικών παραγόντων και
των ιστονικών τροποποιήσεων.
3. Ταυτοποίηση των μεταγραφικών παραγόντων οι οποίοι
προσδένονται σε απόσταση εως 5000bp ανοδικά η καθοδικά από το
σημείο έναρξης της μεταγραφής όλων των γονιδίων.
4. Μελέτη ύπαρξης ρυθμιστικού συμπλόκου μεταγραφικών
παραγόντων και ιστονικών τροποποιήσεων με βάση τις κοινές θέσεις
πρόσδεσής τους στο DNA.
21. RNA - Transcriptome Histone ModificationsProteins -Transcription
factors
•TOPHAT
•HTSeq-count/DESeq
•Cufflinks/Cuffdiff
ChIP-seqChIP-seqDNA microarrays RNA-seq
•RMA
•T-test
•Fold change
•BOWTIE
•MACS
•CEAS
•BOWTIE
•MACS
•CEAS
LIST OF DIFFERENTIALLY
EXPRESSED GENES
DNA BINDING
POSITIONS
DEFENSE RESPONSE MODULE
Διαγραμματική απεικόνιση των τεχνολογιών και της ανάλυσης
τους που χρησιμοποιήθηκαν στη παρούσα εργασία
X
Gene repression
Gene activation
X
23. Βάση δεδομένων με ενοποιημένα τα
αποτελέσματα των DNA μικροσυστοιχιών
24. 0
200
400
600
800
1000
Q1 Q2 Q3 Q4
ISGs
NF-KB
Interferome
4 ομάδες-τεταρτημόρια γονιδίων με βάση τη συχνότητα εμφάνισης τους στα
πειράματα όπου εμφανίζουν στατιστικά σημαντική διαφορική έκφραση.
Βιολογικές λειτουργίες στις οποίες συμμετέχουν
τα 500 γονίδια που εμφανίζουν αλλαγή της
έκφρασής τους στα περισσότερα πειράματα
immune response
response to virus
defense response
response to organic substance
regulation of cell proliferation
response to wounding
regulation of apoptosis
regulation of programmed cell death
regulation of cell death
inflammatory response
Έλεγχος της αξιοπιστίας της μεθοδολογίας ανάλυσης των
δεδομένων DNA μικροσυστοιχιών
Βιολογικές λειτουργίες στις οποίες συμμετέχουν τα 500
γονίδια που εμφανίζουν αλλαγή της έκφρασής τους στα
λιγότερα πειράματα
sulfur compound biosynthetic process
sexual reproduction
proteolysis
glutathione biosynthetic process
transmembrane transport
spermatogenesis
male gamete generation
organic acid transport
peptide biosynthetic process
positive regulation of protein ubiquitination
34. TSS
2500bp 1500bp 1000bp 500bp
H3K36me3 FOS
2000bp
JUN
JUND
H3K79me2
EP300
H3K4me1
H3K4me2
CTCFSTAT3
GTF3C2
TCF7L2
H3K4me3
USF2
RAD21
STAT1
PRDM1
H3K27ac
SMARCC1
MYC
CEBPB
H3K9ac
MAFK
SMARCC2
SMC3
BRCA1
GTF2F1
POL2
H2AFZ
RFX5
MAX CHD2
RCOR1
ELK1
TBP
MXI1
MAZ
ZKSCAN1
ZNF143
Θέσεις πρόσδεσης των μεταγραφικών παραγόντων και ιστονικών
τροποποιήσεων του ρυθμιστικού συμπλόκου από το σημείο
έναρξης της μεταγραφής των 348 γονιδίων
35. Συμπεράσματα
• Αναπτύχθηκε ένας αξιόπιστος αλγόριθμος -
μεθοδολογία για την ενοποίηση και αξιοποίηση
πληροφοριών από πειράματα DNA μικροσυστοιχιών,
RNA-seq, ChIP-seq.
• Εντοπίστηκε ένας πυρήνας 348 γονιδίων τα οποία
επάγονται σε όλες τις ανθρώπινες κυτταρικές σειρές
μετά από μόλυνσή τους.
• Εντοπίστηκε ένα λειτουργικό σύμπλοκο μεταγραφικών
παραγόντων και ιστονικών τροποποιήσεων που
ρυθμίζουν αυτά τα γονίδια.
• Εφαρμογή της συγκεκριμένης μεθοδολογίας σε άλλα
συστήματα μελέτης.
36. Dr. Dimitris Thanos
Alexandros Polyzos
Maria Kapasa
Mat Lavigne
Marios Agelopoulos
George Sianidis
Chrysa Nikopoulou
Eleni Psarra
Ersi Tsellou
Aggelos Banos
Stefanos Tsiftsoglou
Antonis Kokkalis
Fwtis Kyrilis
Eirini Alexopoulou
Maria Papathanassiou
Maria Pliatsika
Depy Papadopoulou
Menie Merika
Ethan Ford
Spyros Foutadakis
Aggeliki Tsalta
Mariana Kolovou
Σας ευχαριστώ πολύ!
Editor's Notes
Καλησπέρα ονομάζομαι Ευθύμης Αυγέρης και θα σας παρουσιάσω τη διπλωματική μου εργασία με τίτλο ΔΙΚΤΥΑ ΜΕΤΑΓΡΑΦΙΚΩΝ ΠΑΡΑΓΟΝΤΩΝ ΚΑΙ ΕΠΑΝΑΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΤΟΥ ΑΝΘΡΩΠΙΝΟΥ ΓΟΝΙΔΙΩΜΑΤΟΣ ΜΕΤΑ ΑΠΟ ΙΙΚΗ ΜΟΛΥΝΣΗ που πραγματοποιήθηκε στο εργαστήριο μοριακής βιολογίας του Δημήτρη Θάνου
Σύμφωνα με το κεντρικό δόγμα της βιολογίας η γενετική πληροφορία που είναι αποθηκευμένη στο DNA κάθε κυττάρου μεταγράφεται σε RNA και στη συνέχεια μεταφράζεται σε λειτουργικές πρωτεΐνες. Μια ομάδα πρωτεϊνών, οι μεταγραφικοί παράγοντες προσδένονται στο DNA και ρυθμίζουν την έκφραση των γονιδίων.
Σήμερα οι τεχνολογίες έχουν προχωρήσει αρκετά ώστε να μπορούμε να ποσοτικοποιήσουμε με μεγάλη ακρίβεια τον αριθμό των μορίων του RNA, του DNA και των πρωτεϊνών ακόμα και σε επίπεδο ενός κυττάρου.
Στην διάρκεια της διπλωματικής μου επικεντρώθηκα στην εφαρμογή αλγορίθμων που επεξεργάζονται πληροφορίες από αυτές τις νέες τεχνολογίες.
Για την ανίχνευση των μορίων RNA και τον υπολογισμό της ποσότητας τους έχουν αναπτυχθεί οι τεχνολογίες των DNA μικροσυστοιχιών και του RNA-seq τις οποίες και εφαρμόζουμε στο εργαστήριο και θα αναφερθώ εκτενώς πιο κάτω στην παρουσίασή μου. Ομοίως για την ταυτοποίηση των θέσεων πρόσδεσης αυτών των μεταγραφικών παραγόντων χρησιμοποιήσαμε την τεχνολογία του ChIP-seq.
Στόχος μας είναι να εντοπίσουμε μηχανισμούς ρύθμισης της έκφρασης των γονιδίων. Δηλαδή ποιές είναι οι πρωτεΐνες και τα γονίδια που συνεργάζονται προκειμένου να ρυθμίσουν τον φαινότυπο ενός κυττάρου.
Για να μελετήσουμε τους μηχανισμούς ρύθμισης της έκφρασης των γονιδίων ως σύστημα επιλέξαμε το μοντέλο των ανθρώπινων κυττάρων που έχουν μολυνθεί με ιό.
Ο λόγος που επιλέξαμε αυτό το σύστημα είναι επειδή οι ιοί έχουν χρησιμοποιηθεί ευρύτατα για την μελέτη της κυτταρικής απόκρισης σε μολυσματικούς παράγοντες, αλλά και επειδή στο εργαστήριο μας έχει γίνει εκτενής μελέτη γύρω από την έκφραση αντι-ιικών γονιδίων σε διάφορες ανθρώπινες αλλά και ποντικίσιες κυτταρικές σειρές.
Ο ιός αρχικά εισέρχεται στο κύτταρο, ενσωματώνει το γενετικό του υλικό στο DNA του κυττάρου και χρησιμοποιεί τις βασικές λειτουργίες του για να πολλαπλασιαστεί και να μολύνει νέα κύτταρα, πολλές φορές οδηγώντας στο θάνατο του κυττάρου. Η ιική μόλυνση προκαλεί τον επαναπρογραμματισμό της γονιδιακής έκφρασης των κυττάρων ξενιστών και ενεργοποιούνται περίπλοκοι μηχανισμοί απόκρισης. Η ρύθμιση της γονιδιακής τους έκφρασης πραγματοποιείται σε επίπεδο μεταγραφικών παραγόντων οι οποίοι προσδένονται στις λειτουργικές περιοχές των γονιδίων, αποσιωπώντας ή επάγοντάς τα .
Παράλληλα και στο επίπεδο οργάνωσης της χρωματίνης στην οποία συμμετέχουν τα νουκλεοσώματα και οι ιστόνες πραγματοποιείται ένας αριθμός μέτα-μεταφραστικών τροποποιήσεων οι οποίες έχουν σημαντικό ρόλο στη ρύθμιση της γονιδιακής έκφρασης. Οι τροποποιήσεις αυτές μαρκάρουν περιοχές του DΝΑ και μπορεί να οδηγήσουν σε αποσιώπηση ή ενεργοποίηση του αντίστοιχου γονιδίου. Από τις πιο καλά μελετημένες ιστονικές τροποποιήσεις είναι H3K4me1, 2 ,3 οι οποίες σχετίζονται με ενεργοποίηση γονιδίων, ενώ η Η3Κ23me3 έχει δειχθεί να σχετίζεται με την αποσιώπηση γονιδίων.
Οι στόχοι της εργασίας είναι η ανάπτυξη ενός αλγόριθμου - μεθοδολογίας που θα αξιοποιεί την πληροφορία από πειράματα DNA μικροσυστοιχιών, RNA-seq, ChIP-seq και η εφαρμογή της σε βιολογικά συστήματα προκειμένου να εξαχθούν συμπεράσματα για την λειτουργία τους. Το σύστημα μοντέλο που χρησιμοποιήθηκε σε αυτή τη διπλωματική εργασία ήταν ανθρώπινα κύτταρα μετά από μόλυνση με ιούς και μελετήθηκε ο επαναπρογραμματισμός του ανθρώπινου γονιδιώματος μετά από ιική μόλυνση.
Για τη συλλογή των πειραματικών δεδομένων χρησιμοποιήθηκαν διαδικτυακές βάσεις δεδομένων. Οι βάσεις δεδομένων GEO Datasets, SRA και Array Express Archive περιέχουν δεδομένα από τεχνικές υψηλής απόδοσης όπως DNA μικροσυστοιχίες, RNA-seq και ChIP-seq από δημοσιευμένες μελέτες.
Οι βάσεις δεδομένων ISGs και INTERFEROME περιέχουν τα γονίδια που ρυθμίζονται από τις ιντερφερόνες οι οποίες αποτελούν κεντρικά γονίδια της αντι-ιικής απόκρισης του κυττάρου.
Η βάση δεδομένων NfKB.org χρησιμοποιήθηκε για να εντοπιστούν τα γονίδια που ρυθμίζονται από τον μεταγραφικό παράγοντα Nf-κB ο οποίος έχει αποδειχθεί ότι εμπλέκεται στη γονιδιακή ρύθμιση μετά από ιική μόλυνση σε αρκετές μελέτες αλλά και από μελέτες του εργαστηρίου μας.
Τέλος η βάση δεδομένων ENCODE περιέχει πληροφορίες από ChIP-seq πειράματα που πραγματοποιήθηκαν σε 147 ανθρώπινες κυτταρικές σειρές και μελετήθηκαν 119 μεταγραφικοί παράγοντες και 13 ιστονικές τροποποιήσεις.
Οι DNA μικροσυστοιχίες αποτελούν μια τεχνολογία η οποία ανιχνεύει τον αριθμό των μορίων του RNA του κυττάρου σε μια καθορισμένη χρονική στιγμή. Ολικό RNA απομονώνεται από τα προς μελέτη κύτταρα. Τα μόρια RNA μετατρέπονται σε cDNA, σημαίνονται με μια φθορίζουσα χρωστική και τμηματοποιούνται. Στη συνέχεια υβριδοποιούνται σε μια μικροσυστοιχία που αποτελείται από εκατομμύρια ιχνηθέτες τοποθετημένους σε προκαθορισμένες θέσεις για κάθε γονίδιο. Τέλος ο φθορισμός ανιχνεύεται με ένα σαρωτή και από τη βιοπληροφορική ανάλυση οι τιμές του φθορισμού αντιστοιχούν σε επίπεδα έκφρασης κάθε γονιδίου.
Η DNA μικροσυστοιχία που μελετήθηκε στη παρούσα εργασία είναι η HG-U 133_Plus_2 και έχει χρησιμοποιηθεί σε περισσότερες από 3500 μελέτες όπου πραγματοποιήθηκαν 100.000 πειράματα. Με αυτή την μικροσυστοιχία έχουν πραγματοποιηθεί στο εργαστήριό μας πειράματα μόλυνσης κυττάρων Hela και Νamalwa με τον ιό sendai. Ανιχνεύει τα επίπεδα έκφρασης περίπου 20.000 γονιδίων. Στην εργασία αυτή αναλύθηκαν δεδομένα από μόλυνση 16 διαφορετικών κυτταρικών σειρών με 12 ιικά και 3 βακτηριακά στελέχη σε 60 πειράματα.
Για την βιοπληροφορική ανάλυση των δεδομένων από τα πειράματα των DNA μικροσυστοιχιών τα αρχικά CEL αχρεία με τις τιμές της έντασης φθορισμού των ιχνηθετών κανονικοποιήθηκαν με τον αλγόριθμο RMA στο πρόγραμμα Αffymetrix expression console. Στη συνέχεια πραγματοποιήθηκε στατιστική επεξεργασία των δεδομένων στο πρόγραμμα ΤMeV όπου εντοπίστηκαν τα στατιστικά σημαντικά μεταβαλλόμενα γονίδια με το Τ-Test. Υπολογίστηκε ο λόγος αλλαγής της έκφρασης κάθε γονιδίου και με τη χρήση της γλώσσας προγραμματισμού SQL δημιουργήθηκε μία βάση δεδομένων με ενοποιημένα τα δεδομένα όλων των πειραμάτων.
Μετά τις DNA μικροσυστοιχίες αναπτύχθηκε η τεχνολογία του RNA-seq. Αυτή η τεχνολογία χρησιμοποιείται για να υπολογισμό της γονιδιακής έκφρασης με υψηλότερη ακρίβεια από τις DNA μικροσυστοιχίες.
Ολικό RNA απομονώνεται από τα προς μελέτη κύτταρα και μετατρέπεται σε δίκλωνα μόρια cDNA. Τα μόρια αυτά πολλαπλασιάζονται και προσκολλώνται σε αυτά προσαρτήματα (adapters). Στη συνέχεια πραγματοποιείται αλληλούχιση των μορίων από το ένα ή και τα δύο άκρα τους και ακολουθεί βιοπληροφορική ανάλυση των δεδομένων ώστε να ποσοτικοποιηθεί ο αριθμός των μορίων RNA που έχει μεταγραφεί σε μια δεδομένη στιγμή στο κύτταρο και στη συνέχεια να εντοπιστούν οι αλλαγές της έκφρασής τους.
Για τη βιοπληροφορική ανάλυση των RNA-seq δεδομένων χρησιμοποιήθηκαν fastq αρχεία τα οποία περιέχουν τις βάσεις του κάθε τμήματος που αλληλουχήθηκε και μία τιμή με το ποιοτικό σκορ της κάθε βάσης. Αρχικά πραγματοποιήθηκε χαρτογράφηση των διαβασμάτων στο ανθρώπινο γονιδίωμα με τον αλγόριθμο TOPHAT. Ύστερα υπολογίστηκε ο αριθμός των διαβασμάτων που αντιστοιχούν σε κάθε γονίδιο με τον αλγόριθμο HTSeq-count και στη συνέχεια εντοπίστηκε η διαφορική έκφραση των γονιδίων με τον αλγόριθμο DESEQ. Τέλος αναλύθηκε η γονιδιακή οντολογία των γονιδίων που επάγονται μετά τη μόλυνση των κυττάρων
Για την ανίχνευση των θέσεων πρόσδεσης των μεταγραφικών παραγόντων και των ιστονικών τροποποιήσεων στο DNA χρησιμοποιείται η τεχνολογία του ChIP-seq. Αρχικά προσηλώνονται οι πρωτεΐνες ή οι ιστονικές τροποποιήσεις στη χρωματίνη η οποία στη συνέχεια τμηματοποιείται. Τα τμήματα DNA όπου είναι προσδεδεμένος ο μεταγραφικός παράγοντας ή η ιστονική τροποποίηση ανοσοκατακρημνίζονται με ειδικά προς τις συγκεκριμένες πρωτεΐνες αντισώματα και αυτά τα τμήματα DNA απομονώνονται. Τέλος αλληλουχούνται και από τη βιοπληροφορική ανάλυση αντιστοιχούνται τα DNA τμήματα στο γονιδίωμα του οργανισμού που μελετάται και εντοπίζονται οι θέσεις πρόσδεσης των μεταγραφικών παραγόντων ή των ιστονικών τροποποιήσεων στο DNA.
Τα δεδομένα από πειράματα ChIP-seq συλλέχθηκαν από τη βάση δεδομένων του ENCODE. Χρησιμοποιήθηκαν αρχεία BED που περιέχουν τις συντεταγμένες των θέσεων πρόσδεσης μεταγραφικών παραγόντων και ιστονικών τροποποιήσεων για τις κυτταρικές σειρές HeLa, A549, HUVEC. Τα αρχεία αυτά επεξεργάσθηκαν με τον αλγόριθμο CEAS για να εντοπιστούν τα γονίδια κοντά στα οποία υπάρχει πρόσδεση των μεταγραφικών παραγόντων και των ιστονικών τροποποιήσεων. Στη συνέχεια ταυτοποιήθηκαν οι μεταγραφικοί παράγοντες που προσδένονται σε απόσταση έως 5000 ζεύγη βάσεων ανοδικά ή καθοδικά από το σημείο έναρξης της μεταγραφής όλων των γονιδίων και σχετίζονται με τη ρύθμιση της έκφρασή τους . Τέλος μελετήθηκε η ύπαρξη ρυθμιστικών συμπλόκων μεταγραφικών παραγόντων και ιστονικών τροποποιήσεων με βάση τις κοινές θέσεις πρόσδεσής τους στο DNA.
Το μεταγράφωμα μελετήθηκε με τις τεχνολογίες των DNA μικροσυστοιχιών και του RNA-seq. Από την ανάλυση των δεδομένων αυτών εντοπίστηκαν τα γονίδια των οποίων η έκφραση μεταβάλλεται μετά από την μόλυνση των κυττάρων. Από την ανάλυση πειραμάτων ChIP-seq εντοπίστηκαν οι θέσεις πρόσδεσης των μεταγραφικών παραγόντων αλλά και των ιστονικών τροποποιήσεων που ρυθμίζουν τα συγκεκριμένα γονίδια επάγοντας ή καταστέλοντάς τα και ταυτοποιήθηκε ένα ρυθμιστικό σύμπλοκο της αμυντικής απόκρισης των κυττάρων.
Πραγματοποιήθηκε ανάλυση σε 60 μελέτες αλλαγής της γονιδιακής έκφρασης μετά από ιική μόλυνση σε ανθρώπινες κυτταρικές σειρές με DNA μικροσυστοιχίες
Η βάση δεδομένων που δημιουργήθηκε από την ανάλυση των πειραμάτων DNA μικροσυστοιχιών περιέχει όλα τα δεδομένα στοιχισμένα με βάση τον κωδικό του κάθε probe. Συνολικά υπάρχουν 20.000 γονίδια. Η δεύτερη στήλη περιέχει τη σύντομη περιγραφή του γονιδίου, η επόμενη στήλη περιέχει το επίσημο σύμβολο του γονιδίου. Επιπλέον δίνεται μια στήλη με τους κωδικούς ENTREZ. Στις επόμενες 3 στήλες φαίνεται εάν το γονίδιο ρυθμίζεται από τον Nf-kB και τις ιντερφερόνες σύμφωνα με τις βάσεις δεδομένων Νf-κΒ, ISGs και INTERFEROME. Ακολουθούν οι τιμές της έκφρασης του γονιδίου από κάθε μελέτη. Για παράδειγμα αυτό το γονίδιο φαίνεται οτί ρυθμίζεται από τις ιντερφερόνες Η επόμενη στήλη περιέχει την τιμή του λόγου αλλαγή της έκφρασης του γονιδίου. Ως κατώφλι για τον λόγο αλλαγής έκφρασης χρησιμοποιήθηκε η τιμή 1.5. Τέλος δίνεται η τιμή p-value που καθορίζει εάν ο λόγος αλλαγής έκφρασης του γονιδίου είναι στατιστικά σημαντικός. Επομένως για να χαρακτηριστεί ένα γονίδιο ότι είναι διαφορικά εκφραζόμενο οφείλει να έχει τιμή λόγου αλλαγής της έκφρασης μεγαλύτερη/ίση με 1.5 ή μικρότερη/ίση με0.66 και τιμή p-value μικρότερη/ίση με 0.05
.
Για τον έλεγχο της αξιοπιστίας της μεθοδολογίας ανάλυσης που χρησιμοποιήσαμε, ταξινομήσαμε τα 20.000 γονίδια της μικροσυστοιχίας με βάση τον αριθμό των πειραμάτων στα οποία μεταβάλλεται η έκφρασή τους. Στη συνέχεια χωρίστηκαν σε 4 ομάδες - τεταρτημόρια των 5.000 γονιδίων. Ύστερα υπολογίστηκε ο αριθμός των γονιδίων του κάθε τεταρτημορίου που περιέχονται στις βάσεις δεδομένων ISGs, INTERFEROME και Nf-kB και σχετίζονται με αμυντικές λειτουργίες του κυττάρου. Όπως φαίνεται στη εικόνα το πρώτο τεταρτημόριο περιέχει τα περισσότερα γονίδια που εντοπίζονται σε αυτές τις βάσεις δεδομένων και μειώνονται καθώς προχωράμε στις επόμενες ομάδες.
Επιπλέον πραγματοποιήθηκε ανάλυση της γονιδιακής οντολογίας των 500 γονιδίων που εμφανίζουν μεταβολές της έκφρασής τους στα περισσότερα πειράματα και στα 500 γονίδια που εμφανίζουν αλλαγή της έκφρασής τους στα λιγότερα πειράματα. Οι βιολογικές λειτουργίες που συμμετέχουν πρώτα 500 γονίδια σχετίζονται με ανοσολογικές αποκρίσεις, και μερικές από αυτές είναι η απόκριση σε ιούς, η αμυντική απόκριση, η ρύθμιση της απόπτωσης και του κυτταρικού θανάτου. Σε αντίθεση τα 500 γονίδια που εμφανίζουν αλλαγή της έκφρασής τους στα λιγότερα πειράματα δεν συμμετέχουν σε λειτουργίες σχετικές με ανοσολογικές αποκρίσεις και μερικές από αυτές είναι η σεξουαλική αναπαραγωγή, η πρωτεόλυση και μεταφορά οργανικών οξέων.
Τα δεδομένα από την ανάλυση των DNA μικροσυστοιχιών χωρίστηκαν σε 4 ομάδες με βάση την κυτταρική σειρά στα οποία πραγματοποιήθηκε η μόλυνση. Οι ομάδες χωρίστηκαν σε πειράματα που πραγματοποιήθηκαν σε ενδοθηλιακά, επιθηλιακά, κύτταρα του ανοσοποιητικού συστήματος και καρκινικά κύτταρα. Εντοπίστηκε το σύνολο των γονιδίων που επάγονται σε κάθε ομάδα και τα γονίδια αυτά συγκρίθηκαν μεταξύ τους για να εντοπιστούν τα κοινά υπερεκφραζόμενα γονίδια μετά από μόλυνση σε όλες τις κυτταρικές σειρές. Εντοπίστηκαν έτσι 348 επαγόμενα γονίδια που αποτελούν την υπογραφή της αμυντικής απόκρισης των κυττάρων κατόπιν μόλυνσης.
Τα 348 γονίδια φαίνονται σε αυτό το πίνακα και εντοπίζονται γονίδια όπως η IFNB1 και πολλά γονίδια ρύθμισης των ιντερφερονών (π.χ IRF2, IRF7) όπως επίσης διάφορες χημειοκίνες (π.χ. CCL5, CXCL10), ιντερλευκίνες (π.χ. IL7, IL15) γονίδια του JAK-STAT μονοπατιού (π.χ. JAK1, STAT1) και κασπάσες (CASP1, CASP4) που εμπλέκονται στη διαδικασία της απόπτωσης
Από την ανάλυση της γονιδιακής οντολογίας βρέθηκε ότι οι βιολογικές λειτουργίες όπου αυτά συμμετέχουν, σχετίζονται με την ανοσολογική απόκριση, την απόκριση σε ιούς, τον κυτταρικό θάνατο αλλά και τη ρύθμιση της απόπτωσης.
Αντίστοιχα τα στατιστικά σημαντικότερα σηματοδοτικά μονοπάτια στα οποία αυτά συμμετέχουν είναι το σηματοδοτικό μονοπάτι των Jak-STAT, των Toll υποδοχέων καθώς επίσης και το μονοπάτι της απόπτωσης.
Για να καθοριστούν οι σχέσεις μεταξύ των 348 αυτών γονιδίων δημιουργήθηκε ένα δίκτυο, όπου φαίνονται οι αλληλεπιδράσεις που υπάρχουν μεταξύ τους με βάση δημοσιευμένες μελέτες από πρωτεομικά δεδομένα, δεδομένων συνέκφρασης και συνεντοπισμού. Για τη δημιουργία του δικτύου αυτού χρησιμοποιήθηκε η βάση δεδομένων Genemania. Τα περισσότερα από τα 348 αλληλεπιδρούν με τα υπόλοιπα. Ενδιαφέρον παρουσιάζει μια ομάδα 105 γονιδίων όπου παρατηρούνται οι περισσότερες αλληλεπιδράσεις μεταξύ τους .
Με κίτρινο χρώμα παρουσιάζονται τα γονίδια που συμμετέχουν στο σηματοδοτικό μονοπάτι των Toll υποδοχέων
Από την ανάλυση των δεδομένων από πειράματα ChIP-seq για τους μεταγραφικούς παράγοντες για τις κυτταρικές σειρές HeLa, A549 και HUVEC δημιουργήθηκε μία βάση δεδομένων με την απόσταση των θέσεων πρόσδεσής τους από το σημείο έναρξης της μεταγραφής των 348 γονιδίων. Στο συγκεκριμένο πίνακα επιλέχθηκαν μόνο οι θέσεις πρόσδεσης που βρίσκονται σε απόσταση έως 5000 ζεύγη βάσεων ανοδικά ή καθοδικά από το σημείο έναρξης της μεταγραφής αυτών των γονιδίων.
Από την ανάλυση των ChIP-seq δεδομένων δημιουργήθηκε ένας θερμικός χάρτης με ομαδοποιημένους όλους τους μεταγραφικούς παράγοντες των τριών κυτταρικών σειρών που μελετήθηκαν, με βάση τη κοινή πρόσδεσή τους σε απόσταση έως 5.000 ζεύγη βάσεων ανοδικά η καθοδικά του σημείου έναρξης της μεταγραφής των 348 γονιδίων. Το κόκκινο χρώμα αντιστοιχεί στην ύπαρξη πρόσδεσης του μεταγραφικού παράγοντα στη συγκεκριμένη περιοχή των γονιδίων ενώ σε περίπτωση που δεν υπάρχει πρόσδεση σε αυτή τη περιοχή αντιστοιχεί το μαύρο χρώμα. Σύμφωνα με αυτό το πρόγραμμα εντοπίστηκαν 4 ομάδες μεταγραφικών παραγόντων που σχετίζονται με τη ρύθμιση αυτών των γονιδίων.
1 ομάδα: Μεταγραφικοί παράγοντες από κύτταρα HUVEC & A549 . Σε κοντινές αποστάσεις MYC και CTCF. YY1 και SP1 ανήκουν στην ίδια οικογένεια των zing finger πρωτεϊνών και εμπλέκονται στην κυτταρική διαφοροποίηση, στην απόπτωση και στις ανοσολογικές αποκρίσεις.
2 ομάδα : Μεταγραφικοί παράγοντες από κύτταρα HELA . 8 μεταγραφικοί παράγοντες. PRDM1 και IRF3 σχετίζονται με την έκφραση της IFNB. NFYA και NFYB μέλη τριμερούς συμπλόκου που ρυθμίζει την γονιδιακή έκφραση αρκετών γονιδίων. ELK4 και GABPA ανήκουν στην ίδια οικογένεια των πρωτεϊνών τύπου ΕTS και ρυθμίζουν πολλές κυτταρικές λειτουργίες όπως η κυτταρική διαφοροποίηση, ο κυτταρικός πολλαπλασιασμός, η απόπτωση και ανoσολογική απόκριση.
3 ομάδα: Μεταγραφικοί παράγοντες από κύτταρα HeLa . Ρύθμιση 271 γονιδίων. MAX ο οποίος δημιουργεί ομοδιμερή ή ετεροδιμερή με τους ΜΥC και ΜΧΙ1. TFAP2C και TFAP2A. ΚΑΙ οι Ε2F1,E2F4 και E2F6 μέλη της ίδιας οικογένειας των παραγόντων ελέγχου του κυτταρικού κύκλου και έχουν σημαντικό ρόλο στον έλεγχο του κυτταρικού κύκλου και τη ρυθμιση ογκοκατασταλτικών γονιδίων.
4 ομάδα: Μεταγραφικοί παράγοντες από κύτταρα HELA . SMARCC1,SMARCC2 και SMARCA4 μέλη του SWI/SNF συμπλόκου. BRF2 και BDP1 σχετίζονται με τη δράση της RNA pol III.
Τέλος χρησιμοποιήθηκαν οι κοινές θέσεις πρόσδεσης των μεταγραφικών παραγόντων και των ιστονικών τροποποιήσεων της κυτταρικής σειράς HeLa για την ομαδοποίηση τους όπως φαίνεται σε αυτό το θερμικό χάρτη. Με έντονο κίτρινο χρώμα παρουσιάζονται οι μεταγραφικοί παράγοντες και οι ιστονικές τροποποιήσεις οι οποίοι έχουν μεταξύ τους τις περισσότερες κοινές θέσεις πρόσδεσης ενώ με μπλε τις λιγότερες.
Εντοπίστηκε ένα ρυθμιστικό σύμπλοκο που αποτελείται από 31 μεταγραφικούς παράγονται και 8 ιστονικές τροποποιήσεις
Αναπτύχθηκε ένας αξιόπιστος αλγόριθμος - μεθοδολογία για την αξιοποίηση πληροφοριών από πειράματα DNA μικροσυστοιχιών, RNA-seq, ChIP-seq
Εντοπίστηκε ένας πυρήνας 348 γονιδίων τα οποία επάγονται σε όλες τις κυτταρικές σειρές μετά από μόλυνσή τους και ταυτοποιήθηκε ένα λειτουργικό σύμπλοκο μεταγραφικών παραγόντων και ιστονικών τροποποιήσεων που ρυθμίζουν αυτά τα γονίδια.
Η ίδια μεθοδολογία μπορεί να εφαρμοστεί για να απαντηθούν βιολογικά ερωτήματα σε άλλα συστήματα μελέτης όπως στην περίπτωση του καρκίνου. Μπορούν να συλλεχθούν δεδομένα DNA μικροστυστοιχιών και RNA-seq από φυσιολογικούς και καρκινικούς ιστούς για ένα συγκεκριμένο τύπο καρκίνου και να υπολογιστεί η διαφορική γονιδιακή έκφραση. Σε αυτά τα δεδομένα μπορούν να ενοποιηθούν και πληροφορίες για τις θέσεις πρόσδεσης μεταγραφικών παραγόντων και ιστονικών τροποποιήσεων από ChIP-seq πειράματα και να εντοπιστούν ρυθμιστικά σύμπλοκα
Θα ήθελα να ευχαριστήσω τον κ. Θάνο που μου έδωσε την δυνατότητα να πραγματοποιήσω την εργασία μου στο εργαστήριό του και την συνολική του υποστήριξη. Ένα μεγάλο ευχαριστώ στον Αλέξανδρο Πολύζο που ήταν ο υπεύθυνός μου και με καθοδήγησε όλα αυτά τα χρόνια και την Μαρία Καπασά που με βοήθησε σημαντικά σε όλη τη διάρκεια της διπλωματικής μου εργασίας. Τέλος θέλω να ευχαριστήσω και όλα τα υπόλοιπα μέλη του εργαστηρίου.
Σας ευχαριστώ πολύ