The ever-increasing impact of neurocognitive diseases is more and more apparent, as statistics show that due to the longer life expectancy established today, minor (Mild Cognitive Impairment-MCI) and major cognitive diseases (Dementia) will soon be a societal problem that cannot be ignored. Most of the currently established methods of neurodegeneration diagnosis are either invasive (blood tests, neuroimaging) and/or require a full neuropsychological and clinical assessment, which is performed in a clinical environment and usually requires a lot of time. To make the diagnosis process simpler, studies exist that focus on the speech decline which usually accompanies the cognitive one, so as to classify people according to their cognitive status, often by collecting speech data from structured interviews and deploying a machine learning model. In this study, the validity of a multiclass classification process is examined, aiming to robustly differentiate between earlier stages of the clinical spectrum of aging. Τhe target classes of this study comprise Healthy controls, Subjective Cognitive Decline (SCD), Early-MCI (E-MCI), Late-MCI (L-MCI). To collect data, 84 persons, aged 50 to 85, were recorded at the Greek Association of Alzheimer’s Disease and Related Disorders (GAADRD) center “Agia Eleni”, collecting a total of 1621 recordings along with their personal information. The recording process consisted of 5 different stages having the format of an informal interview with questions and dual-task prompts, so as to steadily increase the required cognitive effort, aiming at examining the performance differences across the stages. Three different types of audio features were extracted: silence features, prosodic features, and zero-crossings features. To quantify the changes in the participants’ speech between stages, a new feature vector was formed by subtracting the individual feature vectors between stages. The features per stage as well as the new features were evaluated with three classifiers, namely Random Forest, Extra-Trees and Support Vector Machines. Three sets of experiments were conducted according to the split of data in test and train data. First two sets consist of experiments in a 4-classes-classification as described, with random split of instances and split of instances per person accordingly, while the 3rd set consists of binary classifiers for further examination of the models’ distinctive ability. Different experiments were conducted, where models created by utilizing stage differences, features per stage, or even used in an ensemble majority voting system. (...)
3. ΠεριγραφήΠροβλήματος
● Αύξηση του πληθυσμού → Αύξηση Επιπολασμού Άνοιας
● Έγκαιρη διάγνωση
των νοητικών διαταραχών →
● Πρόκληση: Χρήση νέων τεχνολογιών για έγκυρη, έγκαιρη και χαμηλού κόστους διάγνωση
● Σύγχρονες μελέτες + εξασθένηση της ομιλίας για ταξινόμηση του ατόμου σε κατηγορία νοητικής έκπτωσης
Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
3
Καθυστέρηση της εξέλιξης, διατήρηση του
ίδιου λειτουργικού νοητικού επιπέδου
Υγιή
άτομα
Υποκειμενική
Νοητική
Διαταραχή (SCD)
Πρώιμη Ήπια Νοητική
Διαταραχή (Ε-MCI)
Όψιμη Ήπια Νοητική
Διαταραχή (L-MCI)
Άνοια
(AD)
05/12/2022
4. Σκοπός της διπλωματικής:
Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
4
● Ανάπτυξη μοντέλων Μηχανικής Μάθησης για χρήση τους σε αξιόπιστο remote screening test
● Επέκταση της μελέτης σε ταξινόμηση 4 κλάσεων (Healthy, SCD, E-MCI, L-MCI)
● Λιγότερο αυστηρή μορφή συλλογής δεδομένων για δυνατότητα ευκολότερης αυτοεξέτασης
Περιγραφή προτεινόμενης εφαρμογής:
Καταγραφή
ομιλητή
Επεξεργασία καταγραφής
από μοντέλο Μηχανικής
Μάθησης Πρόβλεψη
05/12/2022
5. Συμμετέχοντες
Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
5
● Συνεργασία ΤΗΜΜΥ ΑΠΘ με Εταιρεία Νόσου Alzheimer και Συγγενών Διαταραχών (Alzheimer Hellas)
● Διάγνωση από κάποιον ειδικό ψυχολόγο με κάποιο επιβεβαιωμένο τεστ (όπως η Νοητική Εκτίμηση Montreal /
Montreal Cognitive Assessment – MoCA)
● H πειραματική διαδικασία υλοποιήθηκε στο Κέντρο Ημέρας ”Αγία Ελένη” της Alzheimer Hellas
● Δημογραφικά στοιχεία συλλέχθηκαν από τη βάση δεδομένων του κέντρου
05/12/2022
6. Διαδικασία Καταγραφής Δεδομένων Ομιλίας
Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
6
● Διάρκεια: ~30 λεπτά
● Μορφή: Συζήτηση/συνέντευξη, σε τρεις συνθήκες:
α) σε κανονικές συνθήκες αφήγησης, β) σε απλό νοητικό έργο και γ) σε διπλό νοητικό έργο
● Ηχογράφηση: Μέσω κινητού τηλεφώνου
● Στάδιο 1: Απλές αυτοβιογραφικές ερωτήσεις (καθήμενο άτομο)
● Στάδιο 2: Ερωτήσεις κρίσεως (καθήμενο άτομο)
● Στάδιο 3: Απλές ερωτήσεις περιγραφής (περπάτημα σε τετράγωνο)
● Στάδιο 4: Ερωτήσεις κρίσεως (περπάτημα σε τετράγωνο)
● Στάδιο 5: Ερωτήσεις κρίσεως (μοτίβο βημάτων : 3 μπρος – 3 πίσω)
Στάδια ηχογράφησης:
Στόχος της ύπαρξης σταδίων → Σταδιακή αύξηση
απαιτούμενου νοητικού έργου.
05/12/2022
8. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
8
Προεπεξεργασία Δεδομένων
● Annotation & Segmentation (Praat)
● Μορφή αρχείων: Kavelidis_Dimitrios_Internet_2.wav
● Προσωπικός φάκελος ανά άτομο
● Noisereduce, SNR (Python)
● Αρχείο CSV με τα δημογραφικά στοιχεία των
συμμετεχόντων
05/12/2022
9. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
9
Εξαγωγή χαρακτηριστικών
● Global features
● 3 κατηγορίες αρχικών χαρακτηριστικών:
• Συνολική Διάρκεια
τμημάτων Παύσεων &
Ομιλίας
• Στατιστικά τμημάτων
Παύσεων & Ομιλίας
• Λόγοι στατιστικών μεταξύ
τμημάτων Παύσεων/Ομιλίας
Χαρακτηριστικά σχετικά με:
• Pitch
• Intensity
• Jitter / Shimmer / HNR
• Zero - Crossings
• Min, Max, Mean
Instantaneous Zero-
Crossing Rate
Χαρακτηριστικά
Παύσεων
Χαρακτηριστικά
Προσωδίας
Χαρακτηριστικά
Μηδενικών
Διελεύσεων (Zero-
Crossings)
05/12/2022
10. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
10
Χαρακτηριστικά Παύσεων
● Επιλογή δυναμικού κατωφλιού:
Threshold = audio.dBFS + audio.dBFS*0.5
Παύσεις:
1. Συνολική Διάρκεια Παυσεων ‐ Total Silence
Duration
2. Αριθμός Παύσεων ‐ # of silences
3. Μέση Διάρκεια Παύσης ‐ Avg Silence Duration
4. Διάμεσος Διάρκειας Παύσης ‐ Median Silence
Duration
5. Τυπική Απόκλιση Διάρκειας Παύσης ‐ Std Silence
Duration
6. Ελάχιστη Διάρκεια Παύσης ‐ Min Silence Duration
7. Μεγιστη Διάρκεια Παύσης ‐ Max Silence Duration
8. Q1 Quartile Διάρκεια Παύσης ‐ Q1 Silence Duration
9. Q3 Quartile Διάρκεια Παύσης ‐ Q3 Silence Duration
Ομιλία:
1. Συνολική Διάρκεια Ομιλίας ‐ Total Non Silent
Duration
2. Αριθμός τμημάτων Oμιλίας ‐ # of Non Silent
Segments
3. Μέση Διάρκεια Oμιλίας ‐ Avg Non Silent Duration
4. Διάμεσος Διάρκειας Oμιλίας ‐ Median Non Silent
Duration
5. Τυπική Απόκλιση Διάρκειας Oμιλίας ‐ Std Non Silent
Duration
6. Ελάχιστη Διάρκεια Oμιλίας ‐ Min Non SilentDuration
7. Μεγιστη Διάρκεια Oμιλίας ‐ Max Non Silent
Duration
8. Q1 Quartile Διάρκεια Oμιλίας ‐ Q1 Non Silent
Duration
9. Q3 Quartile Διάρκεια Oμιλίας ‐ Q3 Non Silent
Duration
Αναλογίες ‐ Ratios:
1. Λόγος Συνολικής Διάρκειας Παύσεων / Ομιλίας ‐ Ratio
Silent vs Non
Silent Duration
2. Λόγος Αριθμού τμημάτων Παύσεων / Oμιλίας ‐ Ratio #
of Silent /
Non Silent segments
3. Λόγος Μέσης Διάρκειας Παύσεων / Ομιλίας ‐ Ratio Avg
Silent / Non
Silent Duration
4. Λόγος Διάμεσου Διάρκειας Παύσεων / Oμιλίας ‐ Ratio
Median Silent
/ Non Silent Duration
5. Λόγος Τυπικής Απόκλισης Διάρκειας Παύσεων / Oμιλίας
‐ Ratio Std
Silent / Non Silent Duration
6. Λόγος Q1 Quartile Διάρκειας Παύσεων / Oμιλίας ‐ Ratio
Q1 Silent /
Non Silent Duration
7. Λόγος Q3 Quartile Διάρκεια Παύσεων / Oμιλίας ‐ Ratio
Q3 Silent /
Non Silent Duration
05/12/2022
11. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
11
Χαρακτηριστικά Προσωδίας
Τόνος - Pitch:
1. Μέση τιμή & τυπική απόκλιση της F0 ‐ meanF0 &
minF0
2. Μέγιστη & Ελάχιστη τιμή F0 ‐ maxF0 & minF0
Ένταση - Intensity:
1. Μέση τιμή έντασης ‐ meanIntensity
2. Μέγιστη τιμή έντασης ‐ maxIntensity
3. Ελάχιστη τιμή έντασης ‐ minIntensity
4. Τυπική απόκλιση της έντασης ‐ stdIntensity
Jitter – Shimmer – Harmonic to Noise Ratio (HNR):
1. Jitter (τοπικό, απόλυτο / local, absolute)
2. Jitter (τοπικό / local)
3. Jitter (ραπ / rap)
4. Jitter (ppq5)
5. Jitter (DDP)
6. HNR
7. Shimmer (τοπικό / local)
8. Shimmer (τοπικό, dB / local, dB)
9. Shimmer (apq3)
10. Shimmer (apq5)
11. Shimmer (apq11) 12. Shimmer (DDA)
Jitter και Shimmer: μετρήσεις των διαταραχών
στην F0.
● Προσωδία: είναι ο ρυθμός, ο τόνος και ο επιτονισμός της
ομιλίας καθώς και άλλα ακουστικά χαρακτηριστικά
05/12/2022
12. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
12
Χαρακτηριστικά Μηδενικών Διελεύσεων
Τα χαρακτηριστικά μηδενικών
διελεύσεων που εξήχθησαν ήταν:
1. Zero‐Crossings: Συνολικός αριθμός
μηδενικών διελεύσεων
2. Μέσος στιγμιαίος ZCR / mean
instantaneous zcr
3. Μέγιστος στιγμιαίος ZCR / max
instantaneous zcr
4. Ελάχιστος στιγμιαίος ZCR / min
instantaneous zcr
Μηδενικές Διελεύσεις / Zero‐Crossings: Ο
αριθμός των φορών που ένα (ψηφιακό) σήμα
διασχίζει το μηδέν
05/12/2022
13. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
13
Χαρακτηριστικά Διαφορών Σταδίων
Παράδειγμα:
Στάδιο 5 Στάδιο 1 Διαφορά 5-1
𝑥1
𝑥2
⋮
𝑥𝑛
−
𝑦1
𝑦2
⋮
𝑦𝑛
=
𝑑𝑖𝑓𝑓1
𝑑𝑖𝑓𝑓2
⋮
𝑑𝑖𝑓𝑓𝑛
• Διανύσματα χαρακτηριστικών από κάθε στάδιο
• Δημιουργία νέων χαρακτηριστικών από αφαίρεση
των διανυσμάτων χαρακτηριστικών σταδίων
Μορφή διανύσματος αρχικών
χαρακτηριστικών σε κάποιο στάδιο:
𝑠𝑖𝑙1
𝑠𝑖𝑙2
⋮
𝑠𝑖𝑙𝑛
𝑝𝑟𝑜𝑠1
𝑝𝑟𝑜𝑠2
⋮
𝑝𝑟𝑜𝑠𝑛
𝑧𝑐𝑟1
𝑧𝑐𝑟2
⋮
𝑧𝑐𝑟𝑛
05/12/2022
14. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
14
Διαδικασία στα επί μέρους μοντέλα:
Φόρτωση csv
αρχείων σε
pandas
DataFrames.
Δημιουργία
πινάκων x
(χαρακτηριστικών)
και y
(διαγνώσεων).
Split (τυχαίο ή με
βάση τα άτομα) σε
train και test
dataset
Encoding & Scaling
& Normalizing
Feature Selection
(Univariate
Feature Selection
ή Feature
Importances)
Εκπαίδευση
ταξινομητή
Repeated
Stratified K-fold
Cross Validation
Classification
Report
Δοκιμές ταξινομητών:
• Επιπλέον Δένδρων (Extra Trees - ET)
• Τυχαίου Δάσους (Random Forest - RF)
• Μηχανών Διανυσμάτων Υποστήριξης (Support Vector Machines – SVM)
05/12/2022
15. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
15
Διαδικασία κατασκευής ensemble συστήματος διάγνωσης:
Επιλογή
μοντέλων
Πιθανότητα
πρόβλεψης για
κάθε κλάση ανά
στάδιο
Άθροισμα
πιθανοτήτων.
«Πλειοψηφία»
(Majority Voting)
Τελική
Πρόβλεψη
05/12/2022
16. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
16
Σετ πειραμάτων:
3: Πειράματα σε δυαδικούς ταξινομητές
2: Πειράματα με Διαχωρισμό βασισμένο στα άτομα
1: Πειράματα με Τυχαίο Διαχωρισμό Δεδομένων (80%-20% / train-test σε όλες τις ηχογραφήσεις)
05/12/2022
17. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
17
Τυχαίοςδιαχωρισμόςδεδομένων:
Πείραμα 1.1 - Ταξινόμηση στα αρχικά
χαρακτηριστικά ανά στάδιο ηχογράφησης:
Παράδειγμα πίνακα σύγχυσης (Στάδιο 4) και πίνακας
καλύτερων αποτελεσμάτων
Μοντέλο Στάδιο Feat.
Selection
Accuracy Precision Recall F1 - Score
ET 1 Feat.
Importances
0.572 0.581 0.575 0.574
ET 2 Feat.
Importances
0.684 0.541 0.555 0.528
ET 3 None 0.587 0.663 0.632 0.611
ET 4 None 0.648 0.771 0.666 0.646
ET 5 Feat.
Importances
0.625 0.713 0.687 0.693
AEGS: Age Education Gender Stress
(δημογραφικά στοιχεία συμμετεχόντων)
Χρήση AEGS → μέση ακρίβεια: 0.806
05/12/2022
18. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
18
Τυχαίοςδιαχωρισμόςδεδομένων:
Πείραμα 1.2 - Ταξινόμηση στα αρχικά χαρακτηριστικά
ανεξαρτήτως σταδίου ηχογράφησης:
Μοντέλο Feat.
Selection
Accuracy Precision Recall F1 - Score
ET Feat.
Importances
0.679 0.708 0.685 0.674
ET + AEGS Feat.
Importances
0.913 0.921 0.918 0.918
Πίνακας σύγχυσης και πίνακας καλύτερων αποτελεσμάτων
05/12/2022
19. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
19
Τυχαίοςδιαχωρισμόςδεδομένων:
Πείραμα 1.3 - Ταξινόμηση στα χαρακτηριστικά των
διαφορών μεταξύ σταδίων ηχογράφησης:
Παράδειγμα πίνακα σύγχυσης (Διαφορά 5-1) και
πίνακας καλύτερων αποτελεσμάτων
Μοντέλο Διαφορά Feat.
Selection
Accuracy Precision Recall F1 - Score
ET 4-1 None 0.812 0.798 0.790 0.792
ET 5-1 None 0.833 0.807 0.803 0.804
ET 3-2 None 0.834 0.840 0.838 0.839
ET 5-2 None 0.803 0.758 0.751 0.748
Χωρίς χρήση AEGS → μέση ακρίβεια: 0.789
Με χρήση AEGS → μέση ακρίβεια: 0.928
05/12/2022
21. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
21
2ο σετ πειραμάτων:
Διαχωρισμόςδεδομένωνμε βάση τα άτομα(LOSO-like):
• 5 E-MCI
• 4 Healthy
• 3 SCD
• 3 L-MCI
~ 20% του συνολικού πλήθους, όλες οι ηχογραφήσεις
05/12/2022
22. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
22
Διαχωρισμόςδεδομένωνμε βάση τα άτομα:
Πείραμα 2.1 - Ταξινόμηση στα αρχικά
χαρακτηριστικά ανά στάδιο ηχογράφησης:
Παράδειγμα πίνακα σύγχυσης και πίνακας
αποτελεσμάτων
Μοντέλο Στάδιο Feat.
Selection
Accuracy Precision Recall F1 - Score
ET 1 Feat.
Importances
0.394 0.358 0.353 0.365
ET 2 None 0.640 0.758 0.582 0.610
RF 3 Feat.
Importances
0.524 0.726 0.490 0.460
ET 4 None 0.581 0.676 0.506 0.545
RF 5 None 0.574 0.523 0.487 0.516
Χρήση AEGS → μέση ακρίβεια: 0.614
05/12/2022
23. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
23
Διαχωρισμόςδεδομένωνμε βάση τα άτομα:
Πείραμα 2.2 - Ταξινόμηση στα αρχικά χαρακτηριστικά
ανεξαρτήτως σταδίου ηχογράφησης:
Πίνακας σύγχυσης και πίνακας καλύτερων αποτελεσμάτων
Μοντέλο Feat.
Selection
Accuracy Precision Recall F1 - Score
SVM (C=1) None 0.586 0.678 0.513 0.552
SVM (C=0.4) + AEGS Feat.
Importances
0.636 0.760 0.543 0.570
05/12/2022
24. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
24
Διαχωρισμόςδεδομένωνμε βάση τα άτομα:
Πείραμα 2.3 - Ταξινόμηση στα χαρακτηριστικά των
διαφορών μεταξύ σταδίων ηχογράφησης:
Παράδειγμα πίνακα σύγχυσης (Διαφορά 5-2) και
πίνακας καλύτερων αποτελεσμάτων
Μοντέλο Διαφορά Feat.
Selection
Accuracy Precision Recall F1 - Score
ET 4-2 Feat.
Importances
0.417 0.371 0.360 0.357
ET 5-2 None 0.418 0.398 0.363 0.381
ET 5-1 None 0.344 0.405 0.308 0.319
ET 2-1 Feat.
Importances
0.310 0.316 0.265 0.282
Χωρίς χρήση AEGS → μέση ακρίβεια: 0.311
Με χρήση AEGS → μέση ακρίβεια: 0.494
05/12/2022
25. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
25
Διαχωρισμόςδεδομένωνμε βάση τα άτομα:
Πείραμα 2.4 - Ταξινόμηση με Εnsemble MajorityVoting σύστημα
στα 10 μοντέλα διαφορών του Πειράματος 2.3 (χωρίς AEGS):
Precision Recall F1 - Score Πλήθος
E-MCI 0.39 0.60 0.48 6824
Healthy 0.63 0.49 0.55 6720
L-MCI 0.30 0.12 0.18 3624
SCD 0.15 0.15 0.15 3312
Accuracy 0.41 20480
Macro avg 0.37 0.34 0.34 20480
Weighted avg 0.42 0.41 0.40 20480
Πίνακας σύγχυσης και Classification Report
05/12/2022
26. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
26
Παρατηρήσεις:
• Μεγάλεςδιαφορέςανάμεσαστα1.1-1.4και2.1-2.4
• 1.1–1.4μοντέλα→ overfitting(?)
• Δοκιμή:Τυχαίοsplit σε84κλάσεις
Συμπέρασμα: Πειράματα1.1–1.4 → Human Identification λειτουργία
Μοντέλο Feat.
Selection
Accuracy Precision Recall F1 - Score
ET Feat.
Importances
0.560 0.585 0.532 0.521
ET + AEGS None 0.912 0.902 0.865 0.857
05/12/2022
27. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
27
Δυαδικοίταξινομητές:
Πείραμα 3.1 – Δυαδική Ταξινόμηση στα αρχικά
χαρακτηριστικά ανά στάδιο ηχογράφησης:
Μοντέλο Στάδιο Feat.
Selection
Accuracy Precision Recall F1 - Score
SVM (C=1),
Healthy vs MCI
4 None 0.977 0.978 0.968 0.977
SVM (C=1),
SCD vs MCI
3 Feat.
Importances
0.756 0.571 0.500 0.651
SVM (C=1),
Healthy vs SCD
4 None 0.925 0.934 0.909 0.924
Πίνακας καλύτερων αποτελεσμάτων
05/12/2022
28. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
28
Δυαδικοίταξινομητές:
Πείραμα 3.2 - Ταξινόμηση στα αρχικά χαρακτηριστικά
ανεξαρτήτως σταδίου ηχογράφησης:
Μοντέλο Feat.
Selection
Accuracy Precision Recall F1 - Score
SVM (C=1),
Healthy vs MCI
None 0.941 0.944 0.921 0.940
SVM (C=1),
SCD vs MCI
None 0.715 0.630 0.507 0.646
SVM (C=1),
Healthy vs SCD
None 0.914 0.916 0.916 0.914
05/12/2022
30. Γενικά Συμπεράσματα
Misclassify των υπόλοιπων κλάσεων σε E-MCI.
Υψηλή διακριτική ικανότητα για MCI vs Healthy και SCD vs Healthy,
δυσκολία για MCI vs SCD.
Υψηλότερη απόδοση με χρήση AEGS.
Προτεινόμενος τρόπος: Χρήση των αρχικών χαρακτηριστικών ανεξαρτήτως
σταδίου ή η χρήση των αρχικών χαρακτηριστικών ανά στάδιο σε Ensemble
σύστημα Majority Voting.
Ανάπτυξη αξιόπιστου screening remote test!
Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
30
05/12/2022
32. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
32
Παρουσιάσεις και Δημοσιεύσεις:
"Cognitive decline detection using speech features: A machine learning
approach" at HELINA 7th Panhellenic Conference «Acoustics 2022»,
Thessaloniki, October 2022
“Αναγνώριση Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας”
(accepted/to be presented) at 13th Panhellenic Conference of Alzheimer’s
Disease (PICAD) and 5th Mediterranean Conference on
Neurodegenerative Diseases(MeCoND), Thessaloniki, February 2023
"Cognitive decline detection using speech features: A machine learning
approach” / JAES (Journal of the Audio Engineering Society) / To be
submitted
05/12/2022
33. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
33
Ευχαριστίες:
Θα ήθελα να ευχαριστήσω θερμά τους:
• κ. Ανδρέα Συμεωνίδη
• κ. Εμμανουήλ Τσαρδούλια
• κ. Ελένη Πόπτση
• κ. Θωμά Καρανικιώτη
• κ. Μάγδα Τσολάκη
για την καθοδήγηση, την εμπιστοσύνη και την έμπνευση.
05/12/2022
Καλημέρα ,
Το θέμα της διπλωματικής μου εργασίας αφορά την ανάπτυξη ενός διαγνωστικού τεστ για την κατηγοριοποίηση του ατόμου σε κάποιο πρώιμο στάδιο άνοιας (νοητικής έκπτωσης) με βάση το λόγο του.
Ένα από τα σημαντικότερα ζητήματα υγείας στην σημερινή κοινωνία που παραμένει ακόμα άλυτο πρόβλημα είναι η εμφάνιση της άνοιας σε ένα σημαντικό ποσοστό του πληθυσμού. Σύμφωνα με τα στατιστικά στοιχεία, 12-18% των ατόμων άνω των 60 ζει με κάποια πρώιμη μορφή άνοιας. (Μάλιστα Οι δημογραφικές προβλέψεις μάλιστα, δείχνουν ότι ο παγκόσμιος πληθυσμός ηλικίας άνω των 60 ετών ολοένα και θα μεγαλώνει μέχρι το 2050, οδηγώντας σε σαφώς μεγαλύτερο επιπολασμό της άνοιας.)
Ταυτόχρονα, η άνοια που οφείλεται στη Νόσο Αλτσχάιμερ που είναι και η συνηθέστερη αιτία, είναι ανίατη, συνεπώς η προσοχή των επιστημόνων έχει στραφεί στην όσο το δυνατόν νωρίτερη αναγνώριση των νοητικών ελλειμμάτων με σκοπό την επιβράδυνση της πορείας της άνοιας αλλά και την συντήρηση των γνωστικών λειτουργιών του ατόμου σε βιώσιμο/αυτόνομο επίπεδο.
Οι λύσεις που έχουν δοθεί για το πρόβλημα της διάγνωσης της άνοιας και χρησιμοποιούνται κατά κόρον σήμερα, αποτελούν ”ακριβές” και παρεμβατικές μεθόδους διάγνωσης καθώς απαιτείται ειδικός εξοπλισμός για την κλινική εξέταση, η παρουσία επαγγελματιών, όπως και χρόνος τόσο από τα υποκείμενα όσο και από τους εξεταστές. Τα τελευταία χρόνια, πολλοί ερευνητές ασχολούνται με το να δώσουν νέες λύσεις σε αυτό το πρόβλημα, εκμεταλλευόμενοι την εξασθένηση της ομιλίας που εμφανίζουν τα υποκείμενα με νοητική έκπτωση, συλλέγοντας δεδομένα ομιλίας από δομημένες συνεντέυξεις και στη συνέχεια αναπτύσσοντας ένα μοντέλο Μηχανικής Μάθησης. Οι προηγούμενες έρευνες, αφορούν κυρίως δυαδική ταξινόμηση (AD vs Healthy ή Healthy vs MCI), παρόλα αυτά υπάρχουν και άλλα πρώιμα στάδια.
Υποκειμενική Νοητική Διαταραχή: Τα άτομα αυτά έχουν αποτελέσματα υγιούς ατόμου στις γνωστικές αξιολογήσεις τους, παρόλα αυτά χαρακτηρίζονται από έντονα παράπονα πως ξεχνάνε σε σχέση με το παρελθόν.
Ήπια Νοητική Διαταραχή: Πρόδρομο/προκλινικό στάδιο άνοιας, ενώ χωρίζεται σε Πρώιμη ή Όψιμη με βάση την επεισοδιακή μνήμη των ατόμων.
Σε αυτή τη μελέτη, εξετάζεται η εγκυρότητα μίας διαδικασίας με χρήση μοντέλων Μηχανικής Μάθησης για την ταξινόμηση του υποκειμένου σε περισσότερες από δύο κλάσεις. Συγκεκριμένα οι κατηγορίες με τις οποίες ασχολείται η συγκεκριμένη μελέτη είναι Υγιής, Υποκειμενική Νοητική Διαταραχή (SCD), Πρώιμη και Όψιμη Ήπια Νοητική Διαταραχή. Ταυτόχρονα σε σχέση με τις άλλες έρευνες, επιλέγεται μία πιο ελεύθερη μορφή στις συνεντεύξεις ώστε να είναι απλούστερη η διαδικασία αυτοεξέτασης.
Έτσι τελικά, το screening test προτείνεται να δουλεύει ως εξής: 1. Ο χρήστης λαμβάνει από το κινητό κάποια προτροπή/ερώτηση
2. Απαντάει στην ερώτηση αυτή.
3. Η συγκεκριμένη ηχογράφηση επεξεργάζεται από το εκάστοτε μοντέλο που έχει αναπτυχθεί ώστε τελικά να δοθεί
4. Πρόβλεψη
Η συγκεκριμένη έρευνα υλοποιήθηκε στα πλαίσια συνεργασίας του τμήματός μας και της Εταιρείας Νόσου Alzheimer και Συγγενών Διαταραχών (Alzheimer Hellas) και έτσι η πειραματική διαδικασία υλοποιήθηκε, στο μεγαλύτερο μέρος της, στο Κέντρο Ημέρας ”Αγία Ελένη” της Alzheimer Hellas
Όλοι οι συμμετέχοντες έχουν διαγνωστεί από τους ψυχολόγους του Κέντρου με βάση κάποια νευροψυχολογική εκτίμηση κάνοντας κάποιο από τα επιβεβαιωμένα τεστ.
Η βαθμίδες εκπαίδευσης ήταν 1 για πρωτοβάθμια, 2 για δευτεροβάθμια και 3 για τριτοβάθμια εκπαίδευση, ενώ F (Female) και M (Male) είναι οι πληροφορίες για γυναίκες και άνδρες αντίστοιχα.
Για τη διαδικασία ηχογράφησης λοιπόν, χορηγούνταν στα άτομα μία σειρά ερωτήσεων σε μορφή συνέντευξης. Η διάρκεια της διαδικασίας ήταν περίπου 30 λεπτά για τον κάθε συμμετέχοντα, ενώ φυσικά όλοι υπέγραφαν πριν την συμμετοχή τους ένα εγκεκριμένο έντυπο συγκατάθεσης. Σύμφωνα με το πειραματικό πρωτόκολλο που αναπτύχθηκε, η συνέντευξη αυτή είχε 5 διαφορετικά στάδια:
Στόχος της ύπαρξης σταδίων → Ποσοτικοποίηση της εξασθένησης κατά την αύξηση του απαιτούμενου νοητικού έργου
Στη συνέχεια η συνέντευξη του κάθε ατόμου χωρίστηκε σε επί μέρους αρχεία ηχογραφήσεων ανά ερώτηση. Στο στάδιο αυτό δοκιμάστηκε αποθορυβοποίηση με το πακέτο noisereduce της Python, η οποία όμως τελικά δεν πραγματοποιήθηκε στα τελικά μοντέλα αφού φάνηκε πως αλλοίωνε περισσότερο τα αρχεία από ό,τι τα καθάριζε. Τέλος υπήρχε φυσικά και αρχείο CSV με τις διαγνώσεις και τα υπόλοιπα στοιχεία των ατόμων.
Να πούμε εδώ ότι λόγω της διαφοράς μεγέθους των ηχογραφήσεων, επιλέχθηκαν global χαρακτηριστικά που αφορούν όλο το σήμα ώστε να μπορούν να συγκριθούν μεταξύ τους (αντίθετα με χαρακτηριστικά που είναι window level based)
Συγκεκριμένα εξήχθησαν 3 οικογένειες βασικών χαρακτηριστικών σχετικές με τις Παύσεις, την Προσωδία και τις Μηδενικές Διελεύσεις.
Τα χαρακτηριστικά Παύσεων ή Σιωπών (Silence) προκύπτουν από διάφορα στατιστικά που βγαίνουν με βάση τις παύσεις που έκανε το κάθε άτομο. Ο διαχωρισμός ανάμεσα στο ποιο μέρος της ηχογράφησης θεωρείται λόγος και ποιο παύση, προκύπτει από έναν αλγόριθμο της βιβλιοθήκης pydub, ο οποίος χρησιμοποιεί ένα κατώφλι έντασης σε dBFS (Decibels relative to Full Scale). Το κατώφλι που επιλέχθηκε εδώ, ήταν ένα δυναμικό προσαρμοστικό κατώφλι (adaptive threshold), καθώς δεν μιλούσαν όλα τα άτομα με την ίδια ένταση.
Έτσι προκύπτουν χαρακτηριστικά για τα τμήματα Παύσεων, τα αντίστοιχα για τα τμήματα Ομιλίας και οι Αναλογίες μεταξύ αυτών των χαρακτηριστικών.
Jitter και Shimmer: μετρήσεις των ανωμαλιών/διαταραχών στην θεμελιώδη συχνότητα F0.
Jitter : ορίζεται ως η παράμετρος της διακύμανσης της συχνότητας από κύκλο σε κύκλο Το jitter επηρεάζεται κυρίως από την έλλειψη ελέγχου της δόνησης των φωνητικών χορδών, κι έτσι οι φωνές των ασθενών με παθολογίες έχουν συχνά υψηλότεροποσοστό jitter,
Shimmer : σχετίζεται με τη μεταβολή του πλάτους του ηχητικού κύματος το shimmer αλλάζει με τη μείωση της γλωττιδικής αντίστασης και των μαζικών βλαβών στις φωνητικές χορδές και συσχετίζεται με την παρουσία εκπομπής θορύβου και αναπνοής
Το HNR είναι μια αξιολόγηση της αναλογίας μεταξύ περιοδικών συνιστωσών, ένα χαμηλό HNR υποδηλώνει ασθενική φωνή και δυσφωνία
Praat - Python
Μηδενικές Διελεύσεις / Zero‐Crossings: Ο αριθμός των φορών που ένα (ψηφιακό) σήμα διασχίζει το μηδέν και αυτό το χαρακτηριστικό έχει σκοπό να προσεγγίσει τη συχνότητα του σήματος.
Τα προηγούμενα τα ονομάζουμε αρχικά χαρακτηριστικά
Τα χαρακτηριστικά αυτά προκύπτουν από την αφαίρεση κάθε χαρακτηριστικού της ηχογράφησης ενός ατόμου σε ένα στάδιο με το αντίστοιχο χαρακτηριστικό μίας ηχογράφησης του ατόμου σε ένα επόμενο στάδιο. Δημιουργείται, λοιπόν, ένα νέο διάνυσμα χαρακτηριστικών. Έτσι δημιουργούνται 10 αρχεία διαφορών2-1, 3-1, 4-1, 5-1, 3-2, 4-2, 5-2, 4-3, 5-3, 5-4
Επιλογή μοντέλων από διαφορετικά στάδια / διαφορές σταδίων
Πιθανότητα πρόβλεψης για την κάθε κλάση ανά στάδιο
Άθροισμα πιθανοτήτων πρόβλεψης από κάθε στάδιο για κάθε κλάση.
Απόφαση με βάση την μεγαλύτερη πιθανότητα (Majority Voting)
Τελική Πρόβλεψη
Στο πρώτο σετ λοιπόν έχουμε τυχαίο διαχωρισμό δεδομένων και προχωράμε στο πείραμα 1 στο οποίο βλέπουμε τα καλύτερα μοντέλα ανά στάδιο ηχογράφησης
Τα AEGS χαρακτηριστικά είναι Age Education Gender Stress. (χωρίς τη χρήση AEGS)
Χρησιμοποιούμε τις ηχογραφήσεις από όλα τα στάδια, δηλαδή γίνεται ταξινόμηση ανεξαρτήτως σταδίου
Ταξινόμηση με τη χρήση διαφορών
Φυσικά το γεγονός ότι χρησιμοποιήσαμε διαφορετικές ηχογραφήσεις ίδιων ατόμων στο train και test set μας προβληματίζει σε σχέση με την ανεξαρτησία των παρατηρήσεών μας. Έτσι περνάμε σε ένα δεύτερο σετ πειραμάτων στο οποίο ξεχωρίζουμε κάθε φορά κάποια άτομα με όλες τις ηχογραφήσεις τους για να χρησιμοποιηθούν στο test set, χωρίς να έχουν χρησιμοποιηθεί στο training set.
Το γεγονός ότι τα αποτελέσματα αποκλίνουν τόσο μεταξύ των 2 σετ πειραμάτων, δείχνει ότι για κάποιο λόγο στα πειράματα 1.1-1.4 έχει γίνει overfitting, και έτσι οδηγούμαστε στη δοκιμή ενός πειράματος με τυχαίο split αλλά σε 84 κλάσεις (μία για τον κάθε συμμετέχοντα ονομαστικά), ώστε να ελέγξουμε το πόσο σημαντική είναι η επιρροή του διαχωρισμού στα δεδομένα μας.
Αποδεικνύεται τελικά από τα αποτελέσματα λοιπόν ότι η προσέγγιση στα πειράματα 1.1 – 1.4 λειτουργεί από ό,τι φαίνεται καλύτερα περισσότερο για το πρόβλημα του Human Identification, αλλά δεν είναι πλήρως αξιόπιστη για τις ζητούμενες διαγνώσεις.
Έτσι λοιπόν κρίνονται πιο αξιόπιστα τα αποτελέσματα του 2ου σετ πειραμάτων, με τα καλύτερα αποτελέσματα να προέρχονται από το πείραμα 2.1
Στη συνέχεια κάνουμε και κάποια πειράματα για δυαδικούς ταξινομητές για τις επί μέρους κατηγορίες (εδώ οι κατηγορίες MCI είναι σαν μία).
Όπως φαίνεται, τα κύρια λάθη που κάνουν τα μοντέλα, είναι κυρίως η λάθος
ταξινόμηση (misclassify) των υπόλοιπων κατηγοριών ως E-MCI.
Υψηλή διακριτική ικανότητα ανάμεσα στις κατηγορίες MCI vs Healthy και SCD vs Healthy, δυσκολία στην διάκριση μεταξύ MCI και SCD
Τα χαρακτηριστικά AEGS ανεβάζουν στα περισσότερα πειράματα πολύ σημαντικά την απόδοση.
Αποδοτικότερος τρόπος η χρήση των αρχικών χαρακτηριστικών ανεξαρτήτως σταδίου ή η χρήση των αρχικών χαρακτηριστικών ανά στάδιο σε Ensemble σύστημα Majority Voting, το οποίο όμως χρησιμοποιεί μόνο τα μοντέλα που έχουν πάνω από 50% απόδοση στις διαφορετικές μετρικές ώστε το σύστημα να λειτουργεί όντως ως μηχανισμός ενίσχυσης και να μην χειροτερεύει τα αποτελέσματα.
Ανάπτυξη αξιόπιστου screening remote test!
Εμπλουτισμός Βάσης Δεδομένων με περισσότερα άτομα και κινητές συσκευές σε διαφορετικές συνθήκες ηχογράφησης
ο εμπλουτισμός της βάσης, είναι σημαντικό να γίνει με περισσότερες κινητές συσκευές (λόγω των διαφορετικών μικροφώνων των συσκευών), ώστε να υπάρχει μεγαλύτερη ποικιλία ειδών ηχογραφήσεων στην βάση δεδομένων και συνεπώς αυτή να καλύπτει το φάσμα όλων των διαφορετικών ποιοτικά ηχογραφήσεων που προκύπτουν από τη χρήση διαφορετικής κινητήςσυσκευής.
Αξιολόγηση ερωτήσεων και χρήση μόνο των στατιστικά σημαντικών
LOSO: κρίνεται ενδιαφέρουσα η προσέγγιση του cross-validation με την μέθοδο Leaving One Subject Out (LOSO), που συνηθίζεται να χρησιμοποιείται σε τέτοια προβλήματα και αφορά το cross-validation με τόσες επικαλύψεις (folds) όσα και τα άτομα που συμμετέχουν στην έρευνα.