4. Βιοπληροφορική
• Σύμπραξη της βιολογίας με τα
μαθηματικά και την πληροφορική.
• Πληθώρα δεδομένων προς εξέταση.
• Αναφέρεται και ωςΥπολογιστική
Βιολογία.
5. RNA Sequencing
Sequenced-based τεχνολογία για την παρουσία και ποσότητα του RNA σε
κάποιο βιολογικό δείγμα.
Mapping Summarization
Normalization
Differential
Expression
6. Στόχοι της Διπλωματικής
• Αυτοματοποίηση της εκτέλεσης ροών εργασίας RNA-Seq με σκοπό
τον υπολογισμό της διαφορικής έκφρασης γονιδίων.
• Ενοποίηση των επιμέρους αποτελεσμάτων και δημιουργία
προβλεπτών της έκφρασης με χρήση αλγορίθμων μηχανικής μάθησης.
• Δημιουργία γραφικού περιβάλλοντος χρήστη.
8. Μεθοδολογία Διπλωματικής
Χρήση πραγματικού γονιδιώματος DNA
Αυτοματοποιημένη εκτέλεση RNA-Seq με χρήση τμήματος DNA
Εκτέλεση ροών με ολοκληρωμένο DNA και σύγκριση αποτελεσμάτων
Ενοποίηση αποτελεσμάτων και συνδυασμός με τεχνητά δεδομένα
Εκπαίδευση και αξιολόγηση μοντέλων μηχανικής μάθησης
Δημιουργία φιλικού προς το χρήστη γραφικού περιβάλλοντος
10. Εκτέλεση Pipelines με χρήση Docker Container
Kallisto Pipeline
• Kallisto aligner
• Sleuth πακέτο στην R για DE ανάλυση
Tophat2 Pipeline
• Bowtie aligner
• Tophat2 mapper
• Cufflinks για DE ανάλυση
HISAT2 Pipeline
• Hisat2 aligner
• SAMtools για την επεξεργασία ευθυγραμμισμένων
ακολουθιών
• StringTie για την κατασκευή transcripts από τις ακολουθίες
• DESeq2 πακέτο στην R για DE ανάλυση
11. Εκτέλεση Pipelines με χρήση Docker Container
RSEM Pipeline
• Bowtie aligner
• SAMtools για την επεξεργασία
ευθυγραμμισμένων ακολουθιών
• RSEM και EBSeq πακέτο στην R για DE
ανάλυση
EBSeq Pipeline
• EBSeq πακέτο στην R για DE ανάλυση
BitSeq Pipeline
• Bowtie aligner
• SAMtools για την επεξεργασία ευθυγραμμισμένων
ακολουθιών
• BitSeq πακέτο στην R για DE ανάλυση
12. Dockerization
Χρήση Ubuntu-based εικόνας
Κατέβασμα πηγαίου κώδικα ή εκτελέσιμων
Εφαρμογή μη-διαδραστικού terminal
Εγκατάσταση της R και εξαρτήσεων
Dockerfile
docker build
Παραγόμενη
Εικόνα
Container
βασισμένο στην
εικόνα
docker run
16. Είσοδος και αποτελέσματα
• Γονιδίωμα: mus musculus mm10 από το UCSC (https://genome.ucsc.edu/cgi-
bin/hgGateway?redirect=manual&source=genome.ucsc.edu).
• 6 ζευγάρια FastQ αρχείων με 20000 γονίδια από τα οποία τα 1000 είναι DE.
• Αρχείο τεχνητών δεδομένων γνωρίζοντας την κλάση DE των γονιδίων.
• Ενοποίηση των αποτελεσμάτων σε αρχείο .csv μεγέθους 3264*66
19. Συγκριτική χρονική αξιολόγηση
Χρόνος παραγωγής ενός
μοντέλου καθώς αυξάνεται ο
αριθμός των παρατηρήσεων
στο σύνολο εκπαίδευσης.
Με κόκκινη γραμμή
παρουσιάζεται ο αλγόριθμος
του xgBoost ενώ με μπλε ο
αλγόριθμος των Random
Forests.
25. Ευχαριστίες
Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα καθώς
και τον αναπληρωτή καθηγητή κ. Ανδρέα Συμεωνίδη που με δέχτηκαν
στο εργαστήριο, όπως και τους κυρίους Φώτη Ψωμόπουλο, Αλέξανδρο
Δημόπουλο και Παναγιώτη Μούλο για την πολύτιμη βοήθεια και την
καθοδήγηση τους.