Melpomeni Seraki Diploma Thesis Presentation

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ
ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΣΤΟΧΟ ΤΗ
ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΑΝΑΛΥΣΗΣ ΒΙΟΔΕΔΟΜΕΝΩΝ ΜΕΓΑΛΗΣ
ΚΛΙΜΑΚΑΣ ΜΕ ΧΡΗΣΗ Κ-MERS
Εκπόνηση:
Σεράκη Μελπομένη
ΑΕΜ: 8636
Επίβλεψη:
Καθηγητής Περικλής, Α. Μήτκας
Δρ. Φώτης Ε. Ψωμόπουλος
Θεσσαλονίκη, Νοέμβριος 2020

Περιεχόμενα
Συμπεράσματα και Μελλοντικές Επεκτάσεις
02
03
04
05
Στόχοι και Μεθοδολογία
Περιγραφή Αλγορίθμου
01 Εισαγωγή
Πειραματικά Αποτελέσματα
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020

Βιοπληροφορική
Biology
Data ScienceInformation engineering
Mathematics
Statistics
Computer science
Chemistry
Γενετικές πληροφορίες
– Αδενίνη (Α), Κυτοσίνη (C), Γουανίνη (G) και Θυμίνη (Τ).
Ψηφιακές πληροφορίες
– Διαχείριση
– Έλεγχος
– Ανάλυση
– Εξαγωγή σημαντικών συμπερασμάτων

Ανάλυση K-mers
Χρήση
• Απλοποίηση
• Καταμέτρηση και σύγκριση
• Συναρμολόγηση γονιδιώματος
Χαρακτηριστικά
• Εμφάνιση μοναδικών k-mers σε
βιολογικά σημαντική επανάληψη
• Συναρμολόγηση γονιδιώματος από το
διαφορετικό περιεχόμενο των μοναδικών
k-mers
5
Καταμέτρηση του αριθμού των υποστρωμάτων που έχουν μήκος k
σε μια συμβολοσειρά S

Στόχοι της Διπλωματικής
Οπτικοποίηση αποτελεσμάτων.
Αυτοματοποίηση της εκτέλεσης ροών εργασίας Snakemake για
την επεξεργασία γονιδιωμάτων (DNA) και την k-mers ανάλυσή
τους.
Σωστή επεξεργασία των δεδομένων και χρήση τους
σε αλγορίθμους μηχανικής μάθησης.
Αξιολόγηση και εξαγωγή χρήσιμων πληροφοριών.
Διαχώριση γενετικού υλικού στις καταλλήλου μήκους
αλληλουχίες και δημιουργία πινάκων με κατάλληλες
πληροφορίες.

Μεθοδολογία Διπλωματικής
01
0
Εκτέλεση λογισμικού για διαφορετικών αριθμών κοπές του γενετικού
υλικού
Υπολογισμός εντροπίας και αριθμού Gödel
Αξιολόγηση με την χρήση αλγορίθμων μηχανικής μάθησης, της μεθόδου
PCA και μέσου λάθους από την κανονική κατανομή.
Οπτικοποίηση αποτελεσμάτων
Επιλογή της βέλτιστης παραμέτρου κοπής του γενετικού υλικού

Γενική Περιγραφή Αλγορίθμου
Σχεδίαση ροών εργασίας
Snakemake
Συναρτήσεις δημιουργίας του σετ
δεδομένων
Συναρτήσεις αξιολόγησης των δεδομένων
Συναρτήσεις οπτικοποίησης των
δεδομένων
Συναρτήσεις επιλογής του
καταλληλότερου k
Python Natural Language Toolkit
Seaborn
Scikit-learn

11
Παράδειγμα Υπολογισμού Δεδομένων
AACGTAACGT k=5
{ACGTA: 1, CGTAA : 1 , GTAAC : 1 , TAACG : 1 , AACGT : 2}
Πιθανότητα κατανομής , {0.16, 0.16, 0.16, 0.16, 0.33}
Π.χ. 𝑀𝐿𝐸𝑃𝑟𝑜𝑏𝐷𝑖𝑠𝑡 ′ACGTA′
= 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦 ′ACGTA′
=
v𝑎𝑙𝑢𝑒 ′ACGTA
′
𝑠𝑢𝑚 𝑣𝑎𝑙𝑢𝑒 𝑜𝑓 𝑘−𝑚𝑒𝑟𝑠
=
1
6
= 0.16
Εντροπία , {0.43, 0.43, 0.43, 0.43, 0.52}
Π.χ. 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 ′ACGTA′
= −𝑀𝐿𝐸𝑃𝑟𝑜𝑏𝐷𝑖𝑠𝑡 ′ACGTA′
∗ log2 𝑀𝐿𝐸𝑃𝑟𝑜𝑏𝐷𝑖𝑠𝑡 ′ACGTA′
= 0.52
Αριθμός gödel , {17.90, 15.46, 14.82, 16.56, 20.43}
Π.χ. 𝑔𝑜𝑑𝑒𝑙 𝑛𝑢𝑚𝑏𝑒𝑟𝑖𝑛𝑔 ′ACGTA′
= log 2 ∗ 1 + log 3 ∗ 3 + log 5 ∗ 4 + log 7 ∗ 2 + log 11 ∗ 1 = 20.43
Κλάση των k-mers , {4, 4, 4, 4, 1}
𝑐𝑙𝑎𝑠𝑠 ′ AACGT′
= number of k − mers with same value = 1
𝑐𝑙𝑎𝑠𝑠 ′ ACGTA′
= 𝑐𝑙𝑎𝑠𝑠 ′ CGTAA′
= 𝑐𝑙𝑎𝑠𝑠 ′ GTAAC′
= 𝑐𝑙𝑎𝑠𝑠 ′ TAACG′
= number of k − mers with same value =4

Μέθοδοι Αξιολόγησης Δεδομένων
Γραμμικής παλινδρόμησης (Linear Regression) k- Κοντινότεροι γείτονες (k- Nearest Neighbors)
Κανονική κατανομή( GaussianNB)
Πολυωνυμική κατανομή Bayes (Multinomial Naive Bayes)
Τυχαία δάση (RandomForestClassifier )
Μέθοδος PCA
Δέντρο απόφασης (Decision Tree)
Αλγόριθμοι μηχανικής
μάθησης
Μείωση διαστάσεων
δεδομένων
Μέση τετραγωνική απόκλιση
(MSD) Κανονική κατανομήΑριθμοί Gödel

Πειραματικά Αποτελέσματα
Δύο Διαφορετικά Σετ Δεδομένων
Set A: Ζυμομύκητα (S. Cerevisiae)
• 12.000.000 βάσεις
• 17 ξεχωριστές αλληλουχίες
• Διερεύνηση k = 4 - 100
Set Β: SARS-CoV-2
• 470.000.000 βάσεις
• 15.502 διαφορετικές ακολουθίες
• Μήκος από 29.833 - 31.358 χαρακτήρες
• Διερεύνηση k =4-50
• Απαίτηση χωρητικότητας RAM

Σύγκριση Αποτελεσμάτων(1/3)
Διαγράμματα δεδομένων
Ζυμομύκητα (S. Cerevisiae) SARS-CoV-2
Δείκτης θέσηςΧ
Υ
Χ
Υ
Συνολικά K-mers με
ίδια τιμή εμφάνισης
K-mer
Αριθμός εμφάνισης συγκεκριμένου K-mer
μέσα στο αρχείο εισόδου
Αριθμός εμφάνισης συγκεκριμένου K-mer
μέσα στο αρχείο εισόδου
K-mer

Σύγκριση Αποτελεσμάτων(2/3)
Διαγράμματα αξιολόγησης
Χ
Υ
Χ
Υ `
Κανονική
κατανομή
Αλγόριθμος
Μέση Ακρίβεια
Μέγιστη Ακρίβεια
Ελάχιστη Ακρίβεια
Λόγος της συχνότητας προς το εύρος
των τιμών που αντιπροσωπεύει το
ορθογώνιο
Μέση συχνότητα εμφάνισης της
συγκεκριμένης περιοχής τιμών

Σύγκριση αποτελεσμάτων(3/3)
Χρόνος εκτέλεσης

Συμπεράσματα
 Το μοναδικό περιεχόμενο σε ένα γονιδίωμα αποτελεί
χαρακτηριστική πληροφορία.
 Αυξημένες απαιτήσεις τόσο σε RAM όσο και σε πολυπλοκότητα.
 Υποσχόμενη ανάλυση η κοπή του γενετικού υλικού σε k-mers
διαφόρων μηκών και η χρήση τους ως features για αξιολόγηση.

Μελλοντικές Επεκτάσεις
Υλοποίηση Εφαρμογής
 Επιτάχυνση της διαδικασίας υπολογισμού των υπολογίσιμων
μεγεθών
 Μείωση της κατανάλωση μνήμης
 Παραλληλοποίηση του αλγορίθμου
 Εφαρμογή καλύτερων αλγορίθμων μηχανικής ανάγνωσης
Αποθετήριο: https://github.com/seramelp/Snakemake-k-mer/

Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα και τον
ερευνητή κ. Φώτη Ψωμόπουλο και τον κ. Αναστάσιο Τογκουσίδη για την
πολύτιμη βοήθειά και καθοδήγηση τους σε αυτή την διπλωματική.
Ευχαριστίες

Ευχαριστώ για την προσοχή σας!
22

Melpomeni Seraki Diploma Thesis Presentation

Recommended

Recommended

More Related Content

Similar to Melpomeni Seraki Diploma Thesis Presentation

Similar to Melpomeni Seraki Diploma Thesis Presentation (20)

More from ISSEL

More from ISSEL (20)

Melpomeni Seraki Diploma Thesis Presentation