Melpomeni Seraki Diploma Thesis Presentation

ISSEL
ISSELISSEL
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ
ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΣΤΟΧΟ ΤΗ
ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΑΝΑΛΥΣΗΣ ΒΙΟΔΕΔΟΜΕΝΩΝ ΜΕΓΑΛΗΣ
ΚΛΙΜΑΚΑΣ ΜΕ ΧΡΗΣΗ Κ-MERS
Εκπόνηση:
Σεράκη Μελπομένη
ΑΕΜ: 8636
Επίβλεψη:
Καθηγητής Περικλής, Α. Μήτκας
Δρ. Φώτης Ε. Ψωμόπουλος
Θεσσαλονίκη, Νοέμβριος 2020
Περιεχόμενα
Συμπεράσματα και Μελλοντικές Επεκτάσεις
02
03
04
05
Στόχοι και Μεθοδολογία
Περιγραφή Αλγορίθμου
01 Εισαγωγή
Πειραματικά Αποτελέσματα
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Περιεχόμενα
Συμπεράσματα και Μελλοντικές Επεκτάσεις
02
03
04
05
Στόχοι και Μεθοδολογία
Περιγραφή Αλγορίθμου
01 Εισαγωγή
Πειραματικά Αποτελέσματα
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Βιοπληροφορική
Biology
Data ScienceInformation engineering
Mathematics
Statistics
Computer science
Chemistry
Γενετικές πληροφορίες
– Αδενίνη (Α), Κυτοσίνη (C), Γουανίνη (G) και Θυμίνη (Τ).
Ψηφιακές πληροφορίες
– Διαχείριση
– Έλεγχος
– Ανάλυση
– Εξαγωγή σημαντικών συμπερασμάτων
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Ανάλυση K-mers
Χρήση
• Απλοποίηση
• Καταμέτρηση και σύγκριση
• Συναρμολόγηση γονιδιώματος
Χαρακτηριστικά
• Εμφάνιση μοναδικών k-mers σε
βιολογικά σημαντική επανάληψη
• Συναρμολόγηση γονιδιώματος από το
διαφορετικό περιεχόμενο των μοναδικών
k-mers
5
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Καταμέτρηση του αριθμού των υποστρωμάτων που έχουν μήκος k
σε μια συμβολοσειρά S
Περιεχόμενα
Συμπεράσματα και Μελλοντικές Επεκτάσεις
02
03
04
05
Στόχοι και Μεθοδολογία
Περιγραφή Αλγορίθμου
01 Εισαγωγή
Πειραματικά Αποτελέσματα
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Στόχοι της Διπλωματικής
Οπτικοποίηση αποτελεσμάτων.
Αυτοματοποίηση της εκτέλεσης ροών εργασίας Snakemake για
την επεξεργασία γονιδιωμάτων (DNA) και την k-mers ανάλυσή
τους.
Σωστή επεξεργασία των δεδομένων και χρήση τους
σε αλγορίθμους μηχανικής μάθησης.
Αξιολόγηση και εξαγωγή χρήσιμων πληροφοριών.
Διαχώριση γενετικού υλικού στις καταλλήλου μήκους
αλληλουχίες και δημιουργία πινάκων με κατάλληλες
πληροφορίες.
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Μεθοδολογία Διπλωματικής
01
0
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Εκτέλεση λογισμικού για διαφορετικών αριθμών κοπές του γενετικού
υλικού
Υπολογισμός εντροπίας και αριθμού Gödel
Αξιολόγηση με την χρήση αλγορίθμων μηχανικής μάθησης, της μεθόδου
PCA και μέσου λάθους από την κανονική κατανομή.
Οπτικοποίηση αποτελεσμάτων
Επιλογή της βέλτιστης παραμέτρου κοπής του γενετικού υλικού
Περιεχόμενα
Συμπεράσματα και Μελλοντικές Επεκτάσεις
02
03
04
05
Στόχοι και Μεθοδολογία
Περιγραφή Αλγορίθμου
01 Εισαγωγή
Πειραματικά Αποτελέσματα
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Γενική Περιγραφή Αλγορίθμου
Σχεδίαση ροών εργασίας
Snakemake
Συναρτήσεις δημιουργίας του σετ
δεδομένων
Συναρτήσεις αξιολόγησης των δεδομένων
Συναρτήσεις οπτικοποίησης των
δεδομένων
Συναρτήσεις επιλογής του
καταλληλότερου k
Python Natural Language Toolkit
Seaborn
Scikit-learn
11
Παράδειγμα Υπολογισμού Δεδομένων
AACGTAACGT k=5
{ACGTA: 1, CGTAA : 1 , GTAAC : 1 , TAACG : 1 , AACGT : 2}
Πιθανότητα κατανομής , {0.16, 0.16, 0.16, 0.16, 0.33}
Π.χ. 𝑀𝐿𝐸𝑃𝑟𝑜𝑏𝐷𝑖𝑠𝑡 ′ACGTA′
= 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦 ′ACGTA′
=
v𝑎𝑙𝑢𝑒 ′ACGTA
′
𝑠𝑢𝑚 𝑣𝑎𝑙𝑢𝑒 𝑜𝑓 𝑘−𝑚𝑒𝑟𝑠
=
1
6
= 0.16
Εντροπία , {0.43, 0.43, 0.43, 0.43, 0.52}
Π.χ. 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 ′ACGTA′
= −𝑀𝐿𝐸𝑃𝑟𝑜𝑏𝐷𝑖𝑠𝑡 ′ACGTA′
∗ log2 𝑀𝐿𝐸𝑃𝑟𝑜𝑏𝐷𝑖𝑠𝑡 ′ACGTA′
= 0.52
Αριθμός gödel , {17.90, 15.46, 14.82, 16.56, 20.43}
Π.χ. 𝑔𝑜𝑑𝑒𝑙 𝑛𝑢𝑚𝑏𝑒𝑟𝑖𝑛𝑔 ′ACGTA′
= log 2 ∗ 1 + log 3 ∗ 3 + log 5 ∗ 4 + log 7 ∗ 2 + log 11 ∗ 1 = 20.43
Κλάση των k-mers , {4, 4, 4, 4, 1}
𝑐𝑙𝑎𝑠𝑠 ′ AACGT′
= number of k − mers with same value = 1
𝑐𝑙𝑎𝑠𝑠 ′ ACGTA′
= 𝑐𝑙𝑎𝑠𝑠 ′ CGTAA′
= 𝑐𝑙𝑎𝑠𝑠 ′ GTAAC′
= 𝑐𝑙𝑎𝑠𝑠 ′ TAACG′
= number of k − mers with same value =4
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Μέθοδοι Αξιολόγησης Δεδομένων
Γραμμικής παλινδρόμησης (Linear Regression) k- Κοντινότεροι γείτονες (k- Nearest Neighbors)
Κανονική κατανομή( GaussianNB)
Πολυωνυμική κατανομή Bayes (Multinomial Naive Bayes)
Τυχαία δάση (RandomForestClassifier )
Μέθοδος PCA
Δέντρο απόφασης (Decision Tree)
Αλγόριθμοι μηχανικής
μάθησης
Μείωση διαστάσεων
δεδομένων
Μέση τετραγωνική απόκλιση
(MSD) Κανονική κατανομήΑριθμοί Gödel
Περιεχόμενα
Συμπεράσματα και Μελλοντικές Επεκτάσεις
02
03
04
05
Στόχοι και Μεθοδολογία
Περιγραφή Αλγορίθμου
01 Εισαγωγή
Πειραματικά Αποτελέσματα
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Πειραματικά Αποτελέσματα
Δύο Διαφορετικά Σετ Δεδομένων
Set A: Ζυμομύκητα (S. Cerevisiae)
• 12.000.000 βάσεις
• 17 ξεχωριστές αλληλουχίες
• Διερεύνηση k = 4 - 100
Set Β: SARS-CoV-2
• 470.000.000 βάσεις
• 15.502 διαφορετικές ακολουθίες
• Μήκος από 29.833 - 31.358 χαρακτήρες
• Διερεύνηση k =4-50
• Απαίτηση χωρητικότητας RAM
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Σύγκριση Αποτελεσμάτων(1/3)
Διαγράμματα δεδομένων
Ζυμομύκητα (S. Cerevisiae) SARS-CoV-2
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Δείκτης θέσηςΧ
Υ
Χ
Υ
Συνολικά K-mers με
ίδια τιμή εμφάνισης
K-mer
Αριθμός εμφάνισης συγκεκριμένου K-mer
μέσα στο αρχείο εισόδου
Αριθμός εμφάνισης συγκεκριμένου K-mer
μέσα στο αρχείο εισόδου
K-mer
Σύγκριση Αποτελεσμάτων(2/3)
Διαγράμματα αξιολόγησης
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Ζυμομύκητα (S. Cerevisiae) SARS-CoV-2
Χ
Υ
Χ
Υ `
Κανονική
κατανομή
Αλγόριθμος
Μέση Ακρίβεια
Μέγιστη Ακρίβεια
Ελάχιστη Ακρίβεια
Λόγος της συχνότητας προς το εύρος
των τιμών που αντιπροσωπεύει το
ορθογώνιο
Μέση συχνότητα εμφάνισης της
συγκεκριμένης περιοχής τιμών
Σύγκριση αποτελεσμάτων(3/3)
Χρόνος εκτέλεσης
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Ζυμομύκητα (S. Cerevisiae) SARS-CoV-2
Περιεχόμενα
Συμπεράσματα και Μελλοντικές Επεκτάσεις
02
03
04
05
Στόχοι και Μεθοδολογία
Περιγραφή Αλγορίθμου
01 Εισαγωγή
Πειραματικά Αποτελέσματα
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Συμπεράσματα
 Το μοναδικό περιεχόμενο σε ένα γονιδίωμα αποτελεί
χαρακτηριστική πληροφορία.
 Αυξημένες απαιτήσεις τόσο σε RAM όσο και σε πολυπλοκότητα.
 Υποσχόμενη ανάλυση η κοπή του γενετικού υλικού σε k-mers
διαφόρων μηκών και η χρήση τους ως features για αξιολόγηση.
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Μελλοντικές Επεκτάσεις
Υλοποίηση Εφαρμογής
 Επιτάχυνση της διαδικασίας υπολογισμού των υπολογίσιμων
μεγεθών
 Μείωση της κατανάλωση μνήμης
 Παραλληλοποίηση του αλγορίθμου
 Εφαρμογή καλύτερων αλγορίθμων μηχανικής ανάγνωσης
Αποθετήριο: https://github.com/seramelp/Snakemake-k-mer/
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα και τον
ερευνητή κ. Φώτη Ψωμόπουλο και τον κ. Αναστάσιο Τογκουσίδη για την
πολύτιμη βοήθειά και καθοδήγηση τους σε αυτή την διπλωματική.
Ευχαριστίες
Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
Ευχαριστώ για την προσοχή σας!
22
1 of 22

More Related Content

Similar to Melpomeni Seraki Diploma Thesis Presentation(20)

Nikolaos OikonomouNikolaos Oikonomou
Nikolaos Oikonomou
ISSEL208 views
Συνοπτική παρουσίαση του ΙΤΣΑΚΣυνοπτική παρουσίαση του ΙΤΣΑΚ
Συνοπτική παρουσίαση του ΙΤΣΑΚ
Institute of Engineering Seismology and Earthquake Engineering115 views
diplomatiki_vatikiotisdiplomatiki_vatikiotis
diplomatiki_vatikiotis
Fotios Vatikiotis180 views
Angelos kaltsikisAngelos kaltsikis
Angelos kaltsikis
ISSEL270 views
Πρακτικη_Νεοφυτου_5683Πρακτικη_Νεοφυτου_5683
Πρακτικη_Νεοφυτου_5683
Christina Neofytou294 views
Adaptive Control of Ball-Beam SystemAdaptive Control of Ball-Beam System
Adaptive Control of Ball-Beam System
Georgios-Marios Papadopoulos745 views
Απολογισμός ερευνητικών & τεχνολογικών δραστηριοτήτων 2016 Απολογισμός ερευνητικών & τεχνολογικών δραστηριοτήτων 2016
Απολογισμός ερευνητικών & τεχνολογικών δραστηριοτήτων 2016
Institute of Engineering Seismology and Earthquake Engineering217 views

More from ISSEL(20)

Melpomeni Seraki Diploma Thesis Presentation

  • 1. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΣΤΟΧΟ ΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΑΝΑΛΥΣΗΣ ΒΙΟΔΕΔΟΜΕΝΩΝ ΜΕΓΑΛΗΣ ΚΛΙΜΑΚΑΣ ΜΕ ΧΡΗΣΗ Κ-MERS Εκπόνηση: Σεράκη Μελπομένη ΑΕΜ: 8636 Επίβλεψη: Καθηγητής Περικλής, Α. Μήτκας Δρ. Φώτης Ε. Ψωμόπουλος Θεσσαλονίκη, Νοέμβριος 2020
  • 2. Περιεχόμενα Συμπεράσματα και Μελλοντικές Επεκτάσεις 02 03 04 05 Στόχοι και Μεθοδολογία Περιγραφή Αλγορίθμου 01 Εισαγωγή Πειραματικά Αποτελέσματα Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  • 3. Περιεχόμενα Συμπεράσματα και Μελλοντικές Επεκτάσεις 02 03 04 05 Στόχοι και Μεθοδολογία Περιγραφή Αλγορίθμου 01 Εισαγωγή Πειραματικά Αποτελέσματα Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  • 4. Βιοπληροφορική Biology Data ScienceInformation engineering Mathematics Statistics Computer science Chemistry Γενετικές πληροφορίες – Αδενίνη (Α), Κυτοσίνη (C), Γουανίνη (G) και Θυμίνη (Τ). Ψηφιακές πληροφορίες – Διαχείριση – Έλεγχος – Ανάλυση – Εξαγωγή σημαντικών συμπερασμάτων Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  • 5. Ανάλυση K-mers Χρήση • Απλοποίηση • Καταμέτρηση και σύγκριση • Συναρμολόγηση γονιδιώματος Χαρακτηριστικά • Εμφάνιση μοναδικών k-mers σε βιολογικά σημαντική επανάληψη • Συναρμολόγηση γονιδιώματος από το διαφορετικό περιεχόμενο των μοναδικών k-mers 5 Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020 Καταμέτρηση του αριθμού των υποστρωμάτων που έχουν μήκος k σε μια συμβολοσειρά S
  • 6. Περιεχόμενα Συμπεράσματα και Μελλοντικές Επεκτάσεις 02 03 04 05 Στόχοι και Μεθοδολογία Περιγραφή Αλγορίθμου 01 Εισαγωγή Πειραματικά Αποτελέσματα Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  • 7. Στόχοι της Διπλωματικής Οπτικοποίηση αποτελεσμάτων. Αυτοματοποίηση της εκτέλεσης ροών εργασίας Snakemake για την επεξεργασία γονιδιωμάτων (DNA) και την k-mers ανάλυσή τους. Σωστή επεξεργασία των δεδομένων και χρήση τους σε αλγορίθμους μηχανικής μάθησης. Αξιολόγηση και εξαγωγή χρήσιμων πληροφοριών. Διαχώριση γενετικού υλικού στις καταλλήλου μήκους αλληλουχίες και δημιουργία πινάκων με κατάλληλες πληροφορίες. Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  • 8. Μεθοδολογία Διπλωματικής 01 0 Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020 Εκτέλεση λογισμικού για διαφορετικών αριθμών κοπές του γενετικού υλικού Υπολογισμός εντροπίας και αριθμού Gödel Αξιολόγηση με την χρήση αλγορίθμων μηχανικής μάθησης, της μεθόδου PCA και μέσου λάθους από την κανονική κατανομή. Οπτικοποίηση αποτελεσμάτων Επιλογή της βέλτιστης παραμέτρου κοπής του γενετικού υλικού
  • 9. Περιεχόμενα Συμπεράσματα και Μελλοντικές Επεκτάσεις 02 03 04 05 Στόχοι και Μεθοδολογία Περιγραφή Αλγορίθμου 01 Εισαγωγή Πειραματικά Αποτελέσματα Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  • 10. Γενική Περιγραφή Αλγορίθμου Σχεδίαση ροών εργασίας Snakemake Συναρτήσεις δημιουργίας του σετ δεδομένων Συναρτήσεις αξιολόγησης των δεδομένων Συναρτήσεις οπτικοποίησης των δεδομένων Συναρτήσεις επιλογής του καταλληλότερου k Python Natural Language Toolkit Seaborn Scikit-learn
  • 11. 11 Παράδειγμα Υπολογισμού Δεδομένων AACGTAACGT k=5 {ACGTA: 1, CGTAA : 1 , GTAAC : 1 , TAACG : 1 , AACGT : 2} Πιθανότητα κατανομής , {0.16, 0.16, 0.16, 0.16, 0.33} Π.χ. 𝑀𝐿𝐸𝑃𝑟𝑜𝑏𝐷𝑖𝑠𝑡 ′ACGTA′ = 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦 ′ACGTA′ = v𝑎𝑙𝑢𝑒 ′ACGTA ′ 𝑠𝑢𝑚 𝑣𝑎𝑙𝑢𝑒 𝑜𝑓 𝑘−𝑚𝑒𝑟𝑠 = 1 6 = 0.16 Εντροπία , {0.43, 0.43, 0.43, 0.43, 0.52} Π.χ. 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 ′ACGTA′ = −𝑀𝐿𝐸𝑃𝑟𝑜𝑏𝐷𝑖𝑠𝑡 ′ACGTA′ ∗ log2 𝑀𝐿𝐸𝑃𝑟𝑜𝑏𝐷𝑖𝑠𝑡 ′ACGTA′ = 0.52 Αριθμός gödel , {17.90, 15.46, 14.82, 16.56, 20.43} Π.χ. 𝑔𝑜𝑑𝑒𝑙 𝑛𝑢𝑚𝑏𝑒𝑟𝑖𝑛𝑔 ′ACGTA′ = log 2 ∗ 1 + log 3 ∗ 3 + log 5 ∗ 4 + log 7 ∗ 2 + log 11 ∗ 1 = 20.43 Κλάση των k-mers , {4, 4, 4, 4, 1} 𝑐𝑙𝑎𝑠𝑠 ′ AACGT′ = number of k − mers with same value = 1 𝑐𝑙𝑎𝑠𝑠 ′ ACGTA′ = 𝑐𝑙𝑎𝑠𝑠 ′ CGTAA′ = 𝑐𝑙𝑎𝑠𝑠 ′ GTAAC′ = 𝑐𝑙𝑎𝑠𝑠 ′ TAACG′ = number of k − mers with same value =4 Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  • 12. Μέθοδοι Αξιολόγησης Δεδομένων Γραμμικής παλινδρόμησης (Linear Regression) k- Κοντινότεροι γείτονες (k- Nearest Neighbors) Κανονική κατανομή( GaussianNB) Πολυωνυμική κατανομή Bayes (Multinomial Naive Bayes) Τυχαία δάση (RandomForestClassifier ) Μέθοδος PCA Δέντρο απόφασης (Decision Tree) Αλγόριθμοι μηχανικής μάθησης Μείωση διαστάσεων δεδομένων Μέση τετραγωνική απόκλιση (MSD) Κανονική κατανομήΑριθμοί Gödel
  • 13. Περιεχόμενα Συμπεράσματα και Μελλοντικές Επεκτάσεις 02 03 04 05 Στόχοι και Μεθοδολογία Περιγραφή Αλγορίθμου 01 Εισαγωγή Πειραματικά Αποτελέσματα Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  • 14. Πειραματικά Αποτελέσματα Δύο Διαφορετικά Σετ Δεδομένων Set A: Ζυμομύκητα (S. Cerevisiae) • 12.000.000 βάσεις • 17 ξεχωριστές αλληλουχίες • Διερεύνηση k = 4 - 100 Set Β: SARS-CoV-2 • 470.000.000 βάσεις • 15.502 διαφορετικές ακολουθίες • Μήκος από 29.833 - 31.358 χαρακτήρες • Διερεύνηση k =4-50 • Απαίτηση χωρητικότητας RAM Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  • 15. Σύγκριση Αποτελεσμάτων(1/3) Διαγράμματα δεδομένων Ζυμομύκητα (S. Cerevisiae) SARS-CoV-2 Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020 Δείκτης θέσηςΧ Υ Χ Υ Συνολικά K-mers με ίδια τιμή εμφάνισης K-mer Αριθμός εμφάνισης συγκεκριμένου K-mer μέσα στο αρχείο εισόδου Αριθμός εμφάνισης συγκεκριμένου K-mer μέσα στο αρχείο εισόδου K-mer
  • 16. Σύγκριση Αποτελεσμάτων(2/3) Διαγράμματα αξιολόγησης Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020 Ζυμομύκητα (S. Cerevisiae) SARS-CoV-2 Χ Υ Χ Υ ` Κανονική κατανομή Αλγόριθμος Μέση Ακρίβεια Μέγιστη Ακρίβεια Ελάχιστη Ακρίβεια Λόγος της συχνότητας προς το εύρος των τιμών που αντιπροσωπεύει το ορθογώνιο Μέση συχνότητα εμφάνισης της συγκεκριμένης περιοχής τιμών
  • 17. Σύγκριση αποτελεσμάτων(3/3) Χρόνος εκτέλεσης Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020 Ζυμομύκητα (S. Cerevisiae) SARS-CoV-2
  • 18. Περιεχόμενα Συμπεράσματα και Μελλοντικές Επεκτάσεις 02 03 04 05 Στόχοι και Μεθοδολογία Περιγραφή Αλγορίθμου 01 Εισαγωγή Πειραματικά Αποτελέσματα Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  • 19. Συμπεράσματα  Το μοναδικό περιεχόμενο σε ένα γονιδίωμα αποτελεί χαρακτηριστική πληροφορία.  Αυξημένες απαιτήσεις τόσο σε RAM όσο και σε πολυπλοκότητα.  Υποσχόμενη ανάλυση η κοπή του γενετικού υλικού σε k-mers διαφόρων μηκών και η χρήση τους ως features για αξιολόγηση. Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  • 20. Μελλοντικές Επεκτάσεις Υλοποίηση Εφαρμογής  Επιτάχυνση της διαδικασίας υπολογισμού των υπολογίσιμων μεγεθών  Μείωση της κατανάλωση μνήμης  Παραλληλοποίηση του αλγορίθμου  Εφαρμογή καλύτερων αλγορίθμων μηχανικής ανάγνωσης Αποθετήριο: https://github.com/seramelp/Snakemake-k-mer/ Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  • 21. Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα και τον ερευνητή κ. Φώτη Ψωμόπουλο και τον κ. Αναστάσιο Τογκουσίδη για την πολύτιμη βοήθειά και καθοδήγηση τους σε αυτή την διπλωματική. Ευχαριστίες Σεράκη Μελπομένη ΑΕΜ:8636 Νοέμβριος 2020
  • 22. Ευχαριστώ για την προσοχή σας! 22