Konstantinos Koukoutegos Diploma Thesis Presentation

ISSEL
ISSELISSEL
ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΦΟΡΙΚΗΣ ΕΚΦΡΑΣΗΣ ΓΟΝΙΔΙΩΝ ΜΕ
ΧΡΗΣΗ ΚΟΝΤΕΙΝΕΡ ΚΑΙ ΑΛΓΟΡΙΘΜΩΝ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ
ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ
Κωνσταντίνος Κουκουτέγος
ΑΕΜ: 8436
Επιβλέποντες:
Καθηγητής Περικλής Α. Μήτκας
Αν. Καθηγητής Ανδρέας Λ. Συμεωνίδης
Ερευνητής Γ’ Φώτης Ε.Ψωμόπουλος
Λέκτορας Αλέξανδρος Δημόπουλος
Ερευνητής Παναγιώτης Μούλος
Θεσσαλονίκη, 16 Ιουλίου 2020
Περιεχόμενα
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq
4. Εκπαίδευση προβλεπτών μηχανικής μάθησης
6. Εφαρμογή Shiny
7. Μελλοντικές επεκτάσεις
5. Πειραματικά Αποτελέσματα
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq
4. Εκπαίδευση προβλεπτών μηχανικής μάθησης
6. Εφαρμογή Shiny
7. Μελλοντικές επεκτάσεις
5. Πειραματικά Αποτελέσματα
Βιοπληροφορική
• Σύμπραξη της βιολογίας με τα
μαθηματικά και την πληροφορική.
• Πληθώρα δεδομένων προς εξέταση.
• Αναφέρεται και ωςΥπολογιστική
Βιολογία.
RNA Sequencing
Sequenced-based τεχνολογία για την παρουσία και ποσότητα του RNA σε
κάποιο βιολογικό δείγμα.
Mapping Summarization
Normalization
Differential
Expression
Στόχοι της Διπλωματικής
• Αυτοματοποίηση της εκτέλεσης ροών εργασίας RNA-Seq με σκοπό
τον υπολογισμό της διαφορικής έκφρασης γονιδίων.
• Ενοποίηση των επιμέρους αποτελεσμάτων και δημιουργία
προβλεπτών της έκφρασης με χρήση αλγορίθμων μηχανικής μάθησης.
• Δημιουργία γραφικού περιβάλλοντος χρήστη.
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq
4. Εκπαίδευση προβλεπτών μηχανικής μάθησης
6. Εφαρμογή Shiny
7. Μελλοντικές επεκτάσεις
5. Πειραματικά Αποτελέσματα
Μεθοδολογία Διπλωματικής
Χρήση πραγματικού γονιδιώματος DNA
Αυτοματοποιημένη εκτέλεση RNA-Seq με χρήση τμήματος DNA
Εκτέλεση ροών με ολοκληρωμένο DNA και σύγκριση αποτελεσμάτων
Ενοποίηση αποτελεσμάτων και συνδυασμός με τεχνητά δεδομένα
Εκπαίδευση και αξιολόγηση μοντέλων μηχανικής μάθησης
Δημιουργία φιλικού προς το χρήστη γραφικού περιβάλλοντος
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq
4. Εκπαίδευση προβλεπτών μηχανικής μάθησης
6. Εφαρμογή Shiny
7. Μελλοντικές επεκτάσεις
5. Πειραματικά Αποτελέσματα
Εκτέλεση Pipelines με χρήση Docker Container
Kallisto Pipeline
• Kallisto aligner
• Sleuth πακέτο στην R για DE ανάλυση
Tophat2 Pipeline
• Bowtie aligner
• Tophat2 mapper
• Cufflinks για DE ανάλυση
HISAT2 Pipeline
• Hisat2 aligner
• SAMtools για την επεξεργασία ευθυγραμμισμένων
ακολουθιών
• StringTie για την κατασκευή transcripts από τις ακολουθίες
• DESeq2 πακέτο στην R για DE ανάλυση
Εκτέλεση Pipelines με χρήση Docker Container
RSEM Pipeline
• Bowtie aligner
• SAMtools για την επεξεργασία
ευθυγραμμισμένων ακολουθιών
• RSEM και EBSeq πακέτο στην R για DE
ανάλυση
EBSeq Pipeline
• EBSeq πακέτο στην R για DE ανάλυση
BitSeq Pipeline
• Bowtie aligner
• SAMtools για την επεξεργασία ευθυγραμμισμένων
ακολουθιών
• BitSeq πακέτο στην R για DE ανάλυση
Dockerization
Χρήση Ubuntu-based εικόνας
Κατέβασμα πηγαίου κώδικα ή εκτελέσιμων
Εφαρμογή μη-διαδραστικού terminal
Εγκατάσταση της R και εξαρτήσεων
Dockerfile
docker build
Παραγόμενη
Εικόνα
Container
βασισμένο στην
εικόνα
docker run
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq
4. Εκπαίδευση προβλεπτών μηχανικής μάθησης
5. Πειραματικά Αποτελέσματα
6. Εφαρμογή Shiny
7. Μελλοντικές επεκτάσεις
Μοντέλα μηχανικής μάθησης
Random Forests
• Bagging
• Κυρίαρχες παράμετροι tuning
• Mtry
• Nodesize
• Sample_size
xGBoost
• Boosting
• Κυρίαρχες παράμετροι tuning
• Colsample_bytree
• Max_depth
• Subsample
• Eta
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq
4. Εκπαίδευση προβλεπτών μηχανικής μάθησης
6. Εφαρμογή Shiny
7. Μελλοντικές επεκτάσεις
5. Πειραματικά Αποτελέσματα
Είσοδος και αποτελέσματα
• Γονιδίωμα: mus musculus mm10 από το UCSC (https://genome.ucsc.edu/cgi-
bin/hgGateway?redirect=manual&source=genome.ucsc.edu).
• 6 ζευγάρια FastQ αρχείων με 20000 γονίδια από τα οποία τα 1000 είναι DE.
• Αρχείο τεχνητών δεδομένων γνωρίζοντας την κλάση DE των γονιδίων.
• Ενοποίηση των αποτελεσμάτων σε αρχείο .csv μεγέθους 3264*66
Χρόνος αναζήτησης βέλτιστου μοντέλου
Σταθερότητα βέλτιστων μοντέλων
Συγκριτική χρονική αξιολόγηση
Χρόνος παραγωγής ενός
μοντέλου καθώς αυξάνεται ο
αριθμός των παρατηρήσεων
στο σύνολο εκπαίδευσης.
Με κόκκινη γραμμή
παρουσιάζεται ο αλγόριθμος
του xgBoost ενώ με μπλε ο
αλγόριθμος των Random
Forests.
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq
4. Εκπαίδευση προβλεπτών μηχανικής μάθησης
6. Εφαρμογή Shiny
7. Μελλοντικές επεκτάσεις
5. Πειραματικά Αποτελέσματα
Εφαρμογή Shiny
Εφαρμογή Shiny
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq
4. Εκπαίδευση προβλεπτών μηχανικής μάθησης
6. Εφαρμογή Shiny
7. Μελλοντικές επεκτάσεις
5. Πειραματικά Αποτελέσματα
Μελλοντικές επεκτάσεις
• Αυτοματοποίηση επιπλέον ροών εργασίας RNA Sequencing
• Χρήση διαφορετικών μοντέλων μηχανικής μάθησης
• Βελτιστοποίηση εφαρμογής
Αποθετήριο
• https://github.com/fpsom/koukoutekThesis
Ευχαριστίες
Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα καθώς
και τον αναπληρωτή καθηγητή κ. Ανδρέα Συμεωνίδη που με δέχτηκαν
στο εργαστήριο, όπως και τους κυρίους Φώτη Ψωμόπουλο, Αλέξανδρο
Δημόπουλο και Παναγιώτη Μούλο για την πολύτιμη βοήθεια και την
καθοδήγηση τους.
Ευχαριστώ για την προσοχή σας!
Ερωτήσεις;
1 of 26

More Related Content

Similar to Konstantinos Koukoutegos Diploma Thesis Presentation(20)

KanoutasThomasThesisKanoutasThomasThesis
KanoutasThomasThesis
ThomasKanoutas18 views
diplomatiki_vatikiotisdiplomatiki_vatikiotis
diplomatiki_vatikiotis
Fotios Vatikiotis180 views
Συνοπτική παρουσίαση του ΙΤΣΑΚΣυνοπτική παρουσίαση του ΙΤΣΑΚ
Συνοπτική παρουσίαση του ΙΤΣΑΚ
Institute of Engineering Seismology and Earthquake Engineering115 views
Panagiotis DoxopoulosPanagiotis Doxopoulos
Panagiotis Doxopoulos
ISSEL248 views
Εργαστήριο Τεχνολογίας Κυκλωμάτων και ΑυτοματισμώνΕργαστήριο Τεχνολογίας Κυκλωμάτων και Αυτοματισμών
Εργαστήριο Τεχνολογίας Κυκλωμάτων και Αυτοματισμών
ΤΕΙ Κρήτης - Technological Educational Institute of Crete970 views

More from ISSEL(20)

Konstantinos Koukoutegos Diploma Thesis Presentation

  • 1. ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΦΟΡΙΚΗΣ ΕΚΦΡΑΣΗΣ ΓΟΝΙΔΙΩΝ ΜΕ ΧΡΗΣΗ ΚΟΝΤΕΙΝΕΡ ΚΑΙ ΑΛΓΟΡΙΘΜΩΝ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ Κωνσταντίνος Κουκουτέγος ΑΕΜ: 8436 Επιβλέποντες: Καθηγητής Περικλής Α. Μήτκας Αν. Καθηγητής Ανδρέας Λ. Συμεωνίδης Ερευνητής Γ’ Φώτης Ε.Ψωμόπουλος Λέκτορας Αλέξανδρος Δημόπουλος Ερευνητής Παναγιώτης Μούλος Θεσσαλονίκη, 16 Ιουλίου 2020
  • 2. Περιεχόμενα 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  • 3. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  • 4. Βιοπληροφορική • Σύμπραξη της βιολογίας με τα μαθηματικά και την πληροφορική. • Πληθώρα δεδομένων προς εξέταση. • Αναφέρεται και ωςΥπολογιστική Βιολογία.
  • 5. RNA Sequencing Sequenced-based τεχνολογία για την παρουσία και ποσότητα του RNA σε κάποιο βιολογικό δείγμα. Mapping Summarization Normalization Differential Expression
  • 6. Στόχοι της Διπλωματικής • Αυτοματοποίηση της εκτέλεσης ροών εργασίας RNA-Seq με σκοπό τον υπολογισμό της διαφορικής έκφρασης γονιδίων. • Ενοποίηση των επιμέρους αποτελεσμάτων και δημιουργία προβλεπτών της έκφρασης με χρήση αλγορίθμων μηχανικής μάθησης. • Δημιουργία γραφικού περιβάλλοντος χρήστη.
  • 7. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  • 8. Μεθοδολογία Διπλωματικής Χρήση πραγματικού γονιδιώματος DNA Αυτοματοποιημένη εκτέλεση RNA-Seq με χρήση τμήματος DNA Εκτέλεση ροών με ολοκληρωμένο DNA και σύγκριση αποτελεσμάτων Ενοποίηση αποτελεσμάτων και συνδυασμός με τεχνητά δεδομένα Εκπαίδευση και αξιολόγηση μοντέλων μηχανικής μάθησης Δημιουργία φιλικού προς το χρήστη γραφικού περιβάλλοντος
  • 9. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  • 10. Εκτέλεση Pipelines με χρήση Docker Container Kallisto Pipeline • Kallisto aligner • Sleuth πακέτο στην R για DE ανάλυση Tophat2 Pipeline • Bowtie aligner • Tophat2 mapper • Cufflinks για DE ανάλυση HISAT2 Pipeline • Hisat2 aligner • SAMtools για την επεξεργασία ευθυγραμμισμένων ακολουθιών • StringTie για την κατασκευή transcripts από τις ακολουθίες • DESeq2 πακέτο στην R για DE ανάλυση
  • 11. Εκτέλεση Pipelines με χρήση Docker Container RSEM Pipeline • Bowtie aligner • SAMtools για την επεξεργασία ευθυγραμμισμένων ακολουθιών • RSEM και EBSeq πακέτο στην R για DE ανάλυση EBSeq Pipeline • EBSeq πακέτο στην R για DE ανάλυση BitSeq Pipeline • Bowtie aligner • SAMtools για την επεξεργασία ευθυγραμμισμένων ακολουθιών • BitSeq πακέτο στην R για DE ανάλυση
  • 12. Dockerization Χρήση Ubuntu-based εικόνας Κατέβασμα πηγαίου κώδικα ή εκτελέσιμων Εφαρμογή μη-διαδραστικού terminal Εγκατάσταση της R και εξαρτήσεων Dockerfile docker build Παραγόμενη Εικόνα Container βασισμένο στην εικόνα docker run
  • 13. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 5. Πειραματικά Αποτελέσματα 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις
  • 14. Μοντέλα μηχανικής μάθησης Random Forests • Bagging • Κυρίαρχες παράμετροι tuning • Mtry • Nodesize • Sample_size xGBoost • Boosting • Κυρίαρχες παράμετροι tuning • Colsample_bytree • Max_depth • Subsample • Eta
  • 15. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  • 16. Είσοδος και αποτελέσματα • Γονιδίωμα: mus musculus mm10 από το UCSC (https://genome.ucsc.edu/cgi- bin/hgGateway?redirect=manual&source=genome.ucsc.edu). • 6 ζευγάρια FastQ αρχείων με 20000 γονίδια από τα οποία τα 1000 είναι DE. • Αρχείο τεχνητών δεδομένων γνωρίζοντας την κλάση DE των γονιδίων. • Ενοποίηση των αποτελεσμάτων σε αρχείο .csv μεγέθους 3264*66
  • 19. Συγκριτική χρονική αξιολόγηση Χρόνος παραγωγής ενός μοντέλου καθώς αυξάνεται ο αριθμός των παρατηρήσεων στο σύνολο εκπαίδευσης. Με κόκκινη γραμμή παρουσιάζεται ο αλγόριθμος του xgBoost ενώ με μπλε ο αλγόριθμος των Random Forests.
  • 20. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  • 23. 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αυτοματοποιημένη εκτέλεση ροών εργασίας RNA-Seq 4. Εκπαίδευση προβλεπτών μηχανικής μάθησης 6. Εφαρμογή Shiny 7. Μελλοντικές επεκτάσεις 5. Πειραματικά Αποτελέσματα
  • 24. Μελλοντικές επεκτάσεις • Αυτοματοποίηση επιπλέον ροών εργασίας RNA Sequencing • Χρήση διαφορετικών μοντέλων μηχανικής μάθησης • Βελτιστοποίηση εφαρμογής Αποθετήριο • https://github.com/fpsom/koukoutekThesis
  • 25. Ευχαριστίες Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα καθώς και τον αναπληρωτή καθηγητή κ. Ανδρέα Συμεωνίδη που με δέχτηκαν στο εργαστήριο, όπως και τους κυρίους Φώτη Ψωμόπουλο, Αλέξανδρο Δημόπουλο και Παναγιώτη Μούλο για την πολύτιμη βοήθεια και την καθοδήγηση τους.
  • 26. Ευχαριστώ για την προσοχή σας! Ερωτήσεις;