5. Ανάλυση K-mers
Χρήση
• Απλοποίηση
• Καταμέτρηση και σύγκριση
• Συναρμολόγηση γονιδιώματος
Χαρακτηριστικά
• Εμφάνιση μοναδικών k-mers σε
βιολογικά σημαντική επανάληψη
• Συναρμολόγηση γονιδιώματος από το
διαφορετικό περιεχόμενο των μοναδικών
k-mers
5
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Καταμέτρηση του αριθμού των υποστρωμάτων που έχουν μήκος k
σε μια συμβολοσειρά S
7. Στόχοι της Διπλωματικής
Οπτικοποίηση αποτελεσμάτων.
Αυτοματοποίηση της εκτέλεσης ροών εργασίας Snakemake για
την επεξεργασία γονιδιωμάτων (DNA) και την k-mers ανάλυσή
τους.
Σωστή επεξεργασία των δεδομένων και χρήση τους
σε αλγορίθμους μηχανικής μάθησης.
Αξιολόγηση και εξαγωγή χρήσιμων πληροφοριών.
Διαχώριση γενετικού υλικού στις καταλλήλου μήκους
αλληλουχίες και δημιουργία πινάκων με κατάλληλες
πληροφορίες.
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
8. Μεθοδολογία Διπλωματικής
01
0
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Εκτέλεση λογισμικού για διαφορετικών αριθμών κοπές του γενετικού
υλικού
Υπολογισμός εντροπίας και αριθμού Gödel
Αξιολόγηση με την χρήση αλγορίθμων μηχανικής μάθησης, της μεθόδου
PCA και μέσου λάθους από την κανονική κατανομή.
Οπτικοποίηση αποτελεσμάτων
Επιλογή της βέλτιστης παραμέτρου κοπής του γενετικού υλικού
14. Πειραματικά Αποτελέσματα
Δύο Διαφορετικά Σετ Δεδομένων
Set A: Ζυμομύκητα (S. Cerevisiae)
• 12.000.000 βάσεις
• 17 ξεχωριστές αλληλουχίες
• Διερεύνηση k = 4 - 100
Set Β: SARS-CoV-2
• 470.000.000 βάσεις
• 15.502 διαφορετικές ακολουθίες
• Μήκος από 29.833 - 31.358 χαρακτήρες
• Διερεύνηση k =4-50
• Απαίτηση χωρητικότητας RAM
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
15. Σύγκριση Αποτελεσμάτων(1/3)
Διαγράμματα δεδομένων
Ζυμομύκητα (S. Cerevisiae) SARS-CoV-2
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Δείκτης θέσηςΧ
Υ
Χ
Υ
Συνολικά K-mers με
ίδια τιμή εμφάνισης
K-mer
Αριθμός εμφάνισης συγκεκριμένου K-mer
μέσα στο αρχείο εισόδου
Αριθμός εμφάνισης συγκεκριμένου K-mer
μέσα στο αρχείο εισόδου
K-mer
16. Σύγκριση Αποτελεσμάτων(2/3)
Διαγράμματα αξιολόγησης
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Ζυμομύκητα (S. Cerevisiae) SARS-CoV-2
Χ
Υ
Χ
Υ `
Κανονική
κατανομή
Αλγόριθμος
Μέση Ακρίβεια
Μέγιστη Ακρίβεια
Ελάχιστη Ακρίβεια
Λόγος της συχνότητας προς το εύρος
των τιμών που αντιπροσωπεύει το
ορθογώνιο
Μέση συχνότητα εμφάνισης της
συγκεκριμένης περιοχής τιμών
19. Συμπεράσματα
Το μοναδικό περιεχόμενο σε ένα γονιδίωμα αποτελεί
χαρακτηριστική πληροφορία.
Αυξημένες απαιτήσεις τόσο σε RAM όσο και σε πολυπλοκότητα.
Υποσχόμενη ανάλυση η κοπή του γενετικού υλικού σε k-mers
διαφόρων μηκών και η χρήση τους ως features για αξιολόγηση.
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
20. Μελλοντικές Επεκτάσεις
Υλοποίηση Εφαρμογής
Επιτάχυνση της διαδικασίας υπολογισμού των υπολογίσιμων
μεγεθών
Μείωση της κατανάλωση μνήμης
Παραλληλοποίηση του αλγορίθμου
Εφαρμογή καλύτερων αλγορίθμων μηχανικής ανάγνωσης
Αποθετήριο: https://github.com/seramelp/Snakemake-k-mer/
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
21. Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα και τον
ερευνητή κ. Φώτη Ψωμόπουλο και τον κ. Αναστάσιο Τογκουσίδη για την
πολύτιμη βοήθειά και καθοδήγηση τους σε αυτή την διπλωματική.
Ευχαριστίες
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020