Successfully reported this slideshow.
Your SlideShare is downloading. ×

Konstantinos Koukoutegos Diploma Thesis Presentation

Konstantinos Koukoutegos Diploma Thesis Presentation

Download to read offline

Aggregating Differential Gene Expression Analysis Workflows Using Containers and Machine Learning

Aggregating Differential Gene Expression Analysis Workflows Using Containers and Machine Learning

More Related Content

More from ISSEL

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Konstantinos Koukoutegos Diploma Thesis Presentation

  1. 1. ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΦΟΡΙΚΗΣ ΕΚΦΡΑΣΗΣ ΓΟΝΙΔΙΩΝ ΜΕ ΧΡΗΣΗ ΚΟΝΤΕΙΝΕΡ ΚΑΙ ΑΛΓΟΡΙΘΜΩΝ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ Κωνσταντίνος Κουκουτέγος ΑΕΜ: 8436 Επιβλέποντες: Καθηγητής Περικλής Α. Μήτκας Αν. Καθηγητής Ανδρέας Λ. Συμεωνίδης Ερευνητής Γ’ Φώτης Ε.Ψωμόπουλος Λέκτορας Αλέξανδρος Δημόπουλος Ερευνητής Παναγιώτης Μούλος Θεσσαλονίκη, 16 Ιουλίου 2020
  2. 2. Περιεχόμενα 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  3. 3. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  4. 4. Βιοπληροφορική • Σύμπραξη της βιολογίας με τα μαθηματικά και την πληροφορική. • Πληθώρα δεδομένων προς εξέταση. • Αναφέρεται και ωςΥπολογιστική Βιολογία.
  5. 5. RNA Sequencing Sequenced-based τεχνολογία για την παρουσία και ποσότητα του RNA σε κάποιο βιολογικό δείγμα. Mapping Summarization Normalization Differential Expression
  6. 6. Στόχοι της Διπλωματικής • Αυτοματοποίηση της εκτέλεσης ροών εργασίας RNA-Seq με σκοπό τον υπολογισμό της διαφορικής έκφρασης γονιδίων. • Ενοποίηση των επιμέρους αποτελεσμάτων και δημιουργία προβλεπτών της έκφρασης με χρήση αλγορίθμων μηχανικής μάθησης. • Δημιουργία γραφικού περιβάλλοντος χρήστη.
  7. 7. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  8. 8. Μεθοδολογία Διπλωματικής Χρήση πραγματικού γονιδιώματος DNA Αυτοματοποιημένη εκτέλεση RNA-Seq με χρήση τμήματος DNA Εκτέλεση ροών με ολοκληρωμένο DNA και σύγκριση αποτελεσμάτων Ενοποίηση αποτελεσμάτων και συνδυασμός με τεχνητά δεδομένα Εκπαίδευση και αξιολόγηση μοντέλων μηχανικής μάθησης Δημιουργία φιλικού προς το χρήστη γραφικού περιβάλλοντος
  9. 9. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  10. 10. Εκτέλεση Pipelines με χρήση Docker Container Kallisto Pipeline • Kallisto aligner • Sleuth πακέτο στην R για DE ανάλυση Tophat2 Pipeline • Bowtie aligner • Tophat2 mapper • Cufflinks για DE ανάλυση HISAT2 Pipeline • Hisat2 aligner • SAMtools για την επεξεργασία ευθυγραμμισμένων ακολουθιών • StringTie για την κατασκευή transcripts από τις ακολουθίες • DESeq2 πακέτο στην R για DE ανάλυση
  11. 11. Εκτέλεση Pipelines με χρήση Docker Container RSEM Pipeline • Bowtie aligner • SAMtools για την επεξεργασία ευθυγραμμισμένων ακολουθιών • RSEM και EBSeq πακέτο στην R για DE ανάλυση EBSeq Pipeline • EBSeq πακέτο στην R για DE ανάλυση BitSeq Pipeline • Bowtie aligner • SAMtools για την επεξεργασία ευθυγραμμισμένων ακολουθιών • BitSeq πακέτο στην R για DE ανάλυση
  12. 12. Dockerization Χρήση Ubuntu-based εικόνας Κατέβασμα πηγαίου κώδικα ή εκτελέσιμων Εφαρμογή μη-διαδραστικού terminal Εγκατάσταση της R και εξαρτήσεων Dockerfile docker build Παραγόμενη Εικόνα Container βασισμένο στην εικόνα docker run
  13. 13. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 5. Πειραματικά Αποτελέσματα 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις
  14. 14. Μοντέλα μηχανικής μάθησης Random Forests • Bagging • Κυρίαρχες παράμετροι tuning • Mtry • Nodesize • Sample_size xGBoost • Boosting • Κυρίαρχες παράμετροι tuning • Colsample_bytree • Max_depth • Subsample • Eta
  15. 15. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  16. 16. Είσοδος και αποτελέσματα • Γονιδίωμα: mus musculus mm10 από το UCSC (https://genome.ucsc.edu/cgi- bin/hgGateway?redirect=manual&source=genome.ucsc.edu). • 6 ζευγάρια FastQ αρχείων με 20000 γονίδια από τα οποία τα 1000 είναι DE. • Αρχείο τεχνητών δεδομένων γνωρίζοντας την κλάση DE των γονιδίων. • Ενοποίηση των αποτελεσμάτων σε αρχείο .csv μεγέθους 3264*66
  17. 17. Χρόνος αναζήτησης βέλτιστου μοντέλου
  18. 18. Σταθερότητα βέλτιστων μοντέλων
  19. 19. Συγκριτική χρονική αξιολόγηση Χρόνος παραγωγής ενός μοντέλου καθώς αυξάνεται ο αριθμός των παρατηρήσεων στο σύνολο εκπαίδευσης. Με κόκκινη γραμμή παρουσιάζεται ο αλγόριθμος του xgBoost ενώ με μπλε ο αλγόριθμος των Random Forests.
  20. 20. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  21. 21. Εφαρμογή Shiny
  22. 22. Εφαρμογή Shiny
  23. 23. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  24. 24. Μελλοντικές επεκτάσεις • Αυτοματοποίηση επιπλέον ροών εργασίας RNA Sequencing • Χρήση διαφορετικών μοντέλων μηχανικής μάθησης • Βελτιστοποίηση εφαρμογής Αποθετήριο • https://github.com/fpsom/koukoutekThesis
  25. 25. Ευχαριστίες Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα καθώς και τον αναπληρωτή καθηγητή κ. Ανδρέα Συμεωνίδη που με δέχτηκαν στο εργαστήριο, όπως και τους κυρίους Φώτη Ψωμόπουλο, Αλέξανδρο Δημόπουλο και Παναγιώτη Μούλο για την πολύτιμη βοήθεια και την καθοδήγηση τους.
  26. 26. Ευχαριστώ για την προσοχή σας! Ερωτήσεις;

×