Successfully reported this slideshow.
Your SlideShare is downloading. ×

Melpomeni Seraki Diploma Thesis Presentation

More Related Content

More from ISSEL

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Melpomeni Seraki Diploma Thesis Presentation

  1. 1. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΣΤΟΧΟ ΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΑΝΑΛΥΣΗΣ ΒΙΟΔΕΔΟΜΕΝΩΝ ΜΕΓΑΛΗΣ ΚΛΙΜΑΚΑΣ ΜΕ ΧΡΗΣΗ Κ-MERS Εκπόνηση: Σεράκη Μελπομένη ΑΕΜ: 8636 Επίβλεψη: Καθηγητής Περικλής, Α. Μήτκας Δρ. Φώτης Ε. Ψωμόπουλος Θεσσαλονίκη, Νοέμβριος 2020
  2. 2. Περιεχόμενα Συμπεράσματα και Μελλοντικές Επεκτάσεις 02 03 04 05 Στόχοι και Μεθοδολογία Περιγραφή Αλγορίθμου 01 Εισαγωγή Πειραματικά Αποτελέσματα Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  3. 3. Περιεχόμενα Συμπεράσματα και Μελλοντικές Επεκτάσεις 02 03 04 05 Στόχοι και Μεθοδολογία Περιγραφή Αλγορίθμου 01 Εισαγωγή Πειραματικά Αποτελέσματα Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  4. 4. Βιοπληροφορική Biology Data ScienceInformation engineering Mathematics Statistics Computer science Chemistry Γενετικές πληροφορίες – Αδενίνη (Α), Κυτοσίνη (C), Γουανίνη (G) και Θυμίνη (Τ). Ψηφιακές πληροφορίες – Διαχείριση – Έλεγχος – Ανάλυση – Εξαγωγή σημαντικών συμπερασμάτων Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  5. 5. Ανάλυση K-mers Χρήση • Απλοποίηση • Καταμέτρηση και σύγκριση • Συναρμολόγηση γονιδιώματος Χαρακτηριστικά • Εμφάνιση μοναδικών k-mers σε βιολογικά σημαντική επανάληψη • Συναρμολόγηση γονιδιώματος από το διαφορετικό περιεχόμενο των μοναδικών k-mers 5 Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020 Καταμέτρηση του αριθμού των υποστρωμάτων που έχουν μήκος k σε μια συμβολοσειρά S
  6. 6. Περιεχόμενα Συμπεράσματα και Μελλοντικές Επεκτάσεις 02 03 04 05 Στόχοι και Μεθοδολογία Περιγραφή Αλγορίθμου 01 Εισαγωγή Πειραματικά Αποτελέσματα Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  7. 7. Στόχοι της Διπλωματικής Οπτικοποίηση αποτελεσμάτων. Αυτοματοποίηση της εκτέλεσης ροών εργασίας Snakemake για την επεξεργασία γονιδιωμάτων (DNA) και την k-mers ανάλυσή τους. Σωστή επεξεργασία των δεδομένων και χρήση τους σε αλγορίθμους μηχανικής μάθησης. Αξιολόγηση και εξαγωγή χρήσιμων πληροφοριών. Διαχώριση γενετικού υλικού στις καταλλήλου μήκους αλληλουχίες και δημιουργία πινάκων με κατάλληλες πληροφορίες. Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  8. 8. Μεθοδολογία Διπλωματικής 01 0 Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020 Εκτέλεση λογισμικού για διαφορετικών αριθμών κοπές του γενετικού υλικού Υπολογισμός εντροπίας και αριθμού Gödel Αξιολόγηση με την χρήση αλγορίθμων μηχανικής μάθησης, της μεθόδου PCA και μέσου λάθους από την κανονική κατανομή. Οπτικοποίηση αποτελεσμάτων Επιλογή της βέλτιστης παραμέτρου κοπής του γενετικού υλικού
  9. 9. Περιεχόμενα Συμπεράσματα και Μελλοντικές Επεκτάσεις 02 03 04 05 Στόχοι και Μεθοδολογία Περιγραφή Αλγορίθμου 01 Εισαγωγή Πειραματικά Αποτελέσματα Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  10. 10. Γενική Περιγραφή Αλγορίθμου Σχεδίαση ροών εργασίας Snakemake Συναρτήσεις δημιουργίας του σετ δεδομένων Συναρτήσεις αξιολόγησης των δεδομένων Συναρτήσεις οπτικοποίησης των δεδομένων Συναρτήσεις επιλογής του καταλληλότερου k Python Natural Language Toolkit Seaborn Scikit-learn
  11. 11. 11 Παράδειγμα Υπολογισμού Δεδομένων AACGTAACGT k=5 {ACGTA: 1, CGTAA : 1 , GTAAC : 1 , TAACG : 1 , AACGT : 2} Πιθανότητα κατανομής , {0.16, 0.16, 0.16, 0.16, 0.33} Π.χ. 𝑀𝐿𝐸𝑃𝑟𝑜𝑏𝐷𝑖𝑠𝑡 ′ACGTA′ = 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦 ′ACGTA′ = v𝑎𝑙𝑢𝑒 ′ACGTA ′ 𝑠𝑢𝑚 𝑣𝑎𝑙𝑢𝑒 𝑜𝑓 𝑘−𝑚𝑒𝑟𝑠 = 1 6 = 0.16 Εντροπία , {0.43, 0.43, 0.43, 0.43, 0.52} Π.χ. 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 ′ACGTA′ = −𝑀𝐿𝐸𝑃𝑟𝑜𝑏𝐷𝑖𝑠𝑡 ′ACGTA′ ∗ log2 𝑀𝐿𝐸𝑃𝑟𝑜𝑏𝐷𝑖𝑠𝑡 ′ACGTA′ = 0.52 Αριθμός gödel , {17.90, 15.46, 14.82, 16.56, 20.43} Π.χ. 𝑔𝑜𝑑𝑒𝑙 𝑛𝑢𝑚𝑏𝑒𝑟𝑖𝑛𝑔 ′ACGTA′ = log 2 ∗ 1 + log 3 ∗ 3 + log 5 ∗ 4 + log 7 ∗ 2 + log 11 ∗ 1 = 20.43 Κλάση των k-mers , {4, 4, 4, 4, 1} 𝑐𝑙𝑎𝑠𝑠 ′ AACGT′ = number of k − mers with same value = 1 𝑐𝑙𝑎𝑠𝑠 ′ ACGTA′ = 𝑐𝑙𝑎𝑠𝑠 ′ CGTAA′ = 𝑐𝑙𝑎𝑠𝑠 ′ GTAAC′ = 𝑐𝑙𝑎𝑠𝑠 ′ TAACG′ = number of k − mers with same value =4 Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  12. 12. Μέθοδοι Αξιολόγησης Δεδομένων Γραμμικής παλινδρόμησης (Linear Regression) k- Κοντινότεροι γείτονες (k- Nearest Neighbors) Κανονική κατανομή( GaussianNB) Πολυωνυμική κατανομή Bayes (Multinomial Naive Bayes) Τυχαία δάση (RandomForestClassifier ) Μέθοδος PCA Δέντρο απόφασης (Decision Tree) Αλγόριθμοι μηχανικής μάθησης Μείωση διαστάσεων δεδομένων Μέση τετραγωνική απόκλιση (MSD) Κανονική κατανομήΑριθμοί Gödel
  13. 13. Περιεχόμενα Συμπεράσματα και Μελλοντικές Επεκτάσεις 02 03 04 05 Στόχοι και Μεθοδολογία Περιγραφή Αλγορίθμου 01 Εισαγωγή Πειραματικά Αποτελέσματα Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  14. 14. Πειραματικά Αποτελέσματα Δύο Διαφορετικά Σετ Δεδομένων Set A: Ζυμομύκητα (S. Cerevisiae) • 12.000.000 βάσεις • 17 ξεχωριστές αλληλουχίες • Διερεύνηση k = 4 - 100 Set Β: SARS-CoV-2 • 470.000.000 βάσεις • 15.502 διαφορετικές ακολουθίες • Μήκος από 29.833 - 31.358 χαρακτήρες • Διερεύνηση k =4-50 • Απαίτηση χωρητικότητας RAM Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  15. 15. Σύγκριση Αποτελεσμάτων(1/3) Διαγράμματα δεδομένων Ζυμομύκητα (S. Cerevisiae) SARS-CoV-2 Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020 Δείκτης θέσηςΧ Υ Χ Υ Συνολικά K-mers με ίδια τιμή εμφάνισης K-mer Αριθμός εμφάνισης συγκεκριμένου K-mer μέσα στο αρχείο εισόδου Αριθμός εμφάνισης συγκεκριμένου K-mer μέσα στο αρχείο εισόδου K-mer
  16. 16. Σύγκριση Αποτελεσμάτων(2/3) Διαγράμματα αξιολόγησης Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020 Ζυμομύκητα (S. Cerevisiae) SARS-CoV-2 Χ Υ Χ Υ ` Κανονική κατανομή Αλγόριθμος Μέση Ακρίβεια Μέγιστη Ακρίβεια Ελάχιστη Ακρίβεια Λόγος της συχνότητας προς το εύρος των τιμών που αντιπροσωπεύει το ορθογώνιο Μέση συχνότητα εμφάνισης της συγκεκριμένης περιοχής τιμών
  17. 17. Σύγκριση αποτελεσμάτων(3/3) Χρόνος εκτέλεσης Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020 Ζυμομύκητα (S. Cerevisiae) SARS-CoV-2
  18. 18. Περιεχόμενα Συμπεράσματα και Μελλοντικές Επεκτάσεις 02 03 04 05 Στόχοι και Μεθοδολογία Περιγραφή Αλγορίθμου 01 Εισαγωγή Πειραματικά Αποτελέσματα Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  19. 19. Συμπεράσματα  Το μοναδικό περιεχόμενο σε ένα γονιδίωμα αποτελεί χαρακτηριστική πληροφορία.  Αυξημένες απαιτήσεις τόσο σε RAM όσο και σε πολυπλοκότητα.  Υποσχόμενη ανάλυση η κοπή του γενετικού υλικού σε k-mers διαφόρων μηκών και η χρήση τους ως features για αξιολόγηση. Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  20. 20. Μελλοντικές Επεκτάσεις Υλοποίηση Εφαρμογής  Επιτάχυνση της διαδικασίας υπολογισμού των υπολογίσιμων μεγεθών  Μείωση της κατανάλωση μνήμης  Παραλληλοποίηση του αλγορίθμου  Εφαρμογή καλύτερων αλγορίθμων μηχανικής ανάγνωσης Αποθετήριο: https://github.com/seramelp/Snakemake-k-mer/ Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  21. 21. Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα και τον ερευνητή κ. Φώτη Ψωμόπουλο και τον κ. Αναστάσιο Τογκουσίδη για την πολύτιμη βοήθειά και καθοδήγηση τους σε αυτή την διπλωματική. Ευχαριστίες Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  22. 22. Ευχαριστώ για την προσοχή σας! 22

×