Cognitive decline detection using speech features: A machine learning approach

Ιούνιος 2022 Υπολογισμός χρονισμούφωτεινώνσηματοδοτών με Ενισχυτική 1
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσωΧαρακτηριστικών Ομιλίας
Εκπόνηση:
Καβελίδης Φραντζής Δημήτριος
ΑΕΜ: 9351
Επιβλέποντες:
Ανδρέας Συμεωνίδης
Καθηγητής ΑΠΘ
Εμμανουήλ Τσαρδούλιας
Μεταδιδακτορικός ερευνητής
Διπλωματική Εργασία

05/12/2022 Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης
μέσω Χαρακτηριστικών Ομιλίας
2
01
06
05
03
ΕΙΣΑΓΩΓΗ
ΠΕΙΡΑΜΑΤΑ &
ΑΠΟΤΕΛΕΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ &
ΜΕΛΛΟΝΤΙΚΕΣΕΠΕΚΤΑΣΕΙΣ
ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ
ΔΕΔΟΜΕΝΩΝ
ΕΞΑΓΩΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ 04
02
ΣΥΜΜΕΤΕΧΟΝΤΕΣ &
ΣΥΛΛΟΓΗ ΔΕΔΟΜΕΝΩΝ

ΠεριγραφήΠροβλήματος
● Αύξηση του πληθυσμού → Αύξηση Επιπολασμού Άνοιας
● Έγκαιρη διάγνωση
των νοητικών διαταραχών →
● Πρόκληση: Χρήση νέων τεχνολογιών για έγκυρη, έγκαιρη και χαμηλού κόστους διάγνωση
● Σύγχρονες μελέτες + εξασθένηση της ομιλίας για ταξινόμηση του ατόμου σε κατηγορία νοητικής έκπτωσης
3
Καθυστέρηση της εξέλιξης, διατήρηση του
ίδιου λειτουργικού νοητικού επιπέδου
Υγιή
άτομα
Υποκειμενική
Νοητική
Διαταραχή (SCD)
Πρώιμη Ήπια Νοητική
Διαταραχή (Ε-MCI)
Όψιμη Ήπια Νοητική
Διαταραχή (L-MCI)
Άνοια
(AD)
05/12/2022

Σκοπός της διπλωματικής:
4
● Ανάπτυξη μοντέλων Μηχανικής Μάθησης για χρήση τους σε αξιόπιστο remote screening test
● Επέκταση της μελέτης σε ταξινόμηση 4 κλάσεων (Healthy, SCD, E-MCI, L-MCI)
● Λιγότερο αυστηρή μορφή συλλογής δεδομένων για δυνατότητα ευκολότερης αυτοεξέτασης
Περιγραφή προτεινόμενης εφαρμογής:
Καταγραφή
ομιλητή
Επεξεργασία καταγραφής
από μοντέλο Μηχανικής
Μάθησης Πρόβλεψη
05/12/2022

Συμμετέχοντες
5
● Συνεργασία ΤΗΜΜΥ ΑΠΘ με Εταιρεία Νόσου Alzheimer και Συγγενών Διαταραχών (Alzheimer Hellas)
● Διάγνωση από κάποιον ειδικό ψυχολόγο με κάποιο επιβεβαιωμένο τεστ (όπως η Νοητική Εκτίμηση Montreal /
Montreal Cognitive Assessment – MoCA)
● H πειραματική διαδικασία υλοποιήθηκε στο Κέντρο Ημέρας ”Αγία Ελένη” της Alzheimer Hellas
● Δημογραφικά στοιχεία συλλέχθηκαν από τη βάση δεδομένων του κέντρου
05/12/2022

Διαδικασία Καταγραφής Δεδομένων Ομιλίας
6
● Διάρκεια: ~30 λεπτά
● Μορφή: Συζήτηση/συνέντευξη, σε τρεις συνθήκες:
α) σε κανονικές συνθήκες αφήγησης, β) σε απλό νοητικό έργο και γ) σε διπλό νοητικό έργο
● Ηχογράφηση: Μέσω κινητού τηλεφώνου
● Στάδιο 1: Απλές αυτοβιογραφικές ερωτήσεις (καθήμενο άτομο)
● Στάδιο 2: Ερωτήσεις κρίσεως (καθήμενο άτομο)
● Στάδιο 3: Απλές ερωτήσεις περιγραφής (περπάτημα σε τετράγωνο)
● Στάδιο 4: Ερωτήσεις κρίσεως (περπάτημα σε τετράγωνο)
● Στάδιο 5: Ερωτήσεις κρίσεως (μοτίβο βημάτων : 3 μπρος – 3 πίσω)
Στάδια ηχογράφησης:
Στόχος της ύπαρξης σταδίων → Σταδιακή αύξηση
απαιτούμενου νοητικού έργου.
05/12/2022

Μεθοδολογία
7
05/12/2022

8
Προεπεξεργασία Δεδομένων
● Annotation & Segmentation (Praat)
● Μορφή αρχείων: Kavelidis_Dimitrios_Internet_2.wav
● Προσωπικός φάκελος ανά άτομο
● Noisereduce, SNR (Python)
● Αρχείο CSV με τα δημογραφικά στοιχεία των
συμμετεχόντων
05/12/2022

9
Εξαγωγή χαρακτηριστικών
● Global features
● 3 κατηγορίες αρχικών χαρακτηριστικών:
• Συνολική Διάρκεια
τμημάτων Παύσεων &
Ομιλίας
• Στατιστικά τμημάτων
Παύσεων & Ομιλίας
• Λόγοι στατιστικών μεταξύ
τμημάτων Παύσεων/Ομιλίας
Χαρακτηριστικά σχετικά με:
• Pitch
• Intensity
• Jitter / Shimmer / HNR
• Zero - Crossings
• Min, Max, Mean
Instantaneous Zero-
Crossing Rate
Χαρακτηριστικά
Παύσεων
Προσωδίας
Μηδενικών
Διελεύσεων (Zero-
Crossings)
05/12/2022

10
Χαρακτηριστικά Παύσεων
● Επιλογή δυναμικού κατωφλιού:
Threshold = audio.dBFS + audio.dBFS*0.5
Παύσεις:
1. Συνολική Διάρκεια Παυσεων ‐ Total Silence
Duration
2. Αριθμός Παύσεων ‐ # of silences
3. Μέση Διάρκεια Παύσης ‐ Avg Silence Duration
4. Διάμεσος Διάρκειας Παύσης ‐ Median Silence
Duration
5. Τυπική Απόκλιση Διάρκειας Παύσης ‐ Std Silence
Duration
6. Ελάχιστη Διάρκεια Παύσης ‐ Min Silence Duration
7. Μεγιστη Διάρκεια Παύσης ‐ Max Silence Duration
8. Q1 Quartile Διάρκεια Παύσης ‐ Q1 Silence Duration
9. Q3 Quartile Διάρκεια Παύσης ‐ Q3 Silence Duration
Ομιλία:
1. Συνολική Διάρκεια Ομιλίας ‐ Total Non Silent
Duration
2. Αριθμός τμημάτων Oμιλίας ‐ # of Non Silent
Segments
3. Μέση Διάρκεια Oμιλίας ‐ Avg Non Silent Duration
4. Διάμεσος Διάρκειας Oμιλίας ‐ Median Non Silent
Duration
5. Τυπική Απόκλιση Διάρκειας Oμιλίας ‐ Std Non Silent
Duration
6. Ελάχιστη Διάρκεια Oμιλίας ‐ Min Non SilentDuration
7. Μεγιστη Διάρκεια Oμιλίας ‐ Max Non Silent
Duration
8. Q1 Quartile Διάρκεια Oμιλίας ‐ Q1 Non Silent
Duration
9. Q3 Quartile Διάρκεια Oμιλίας ‐ Q3 Non Silent
Duration
Αναλογίες ‐ Ratios:
1. Λόγος Συνολικής Διάρκειας Παύσεων / Ομιλίας ‐ Ratio
Silent vs Non
Silent Duration
2. Λόγος Αριθμού τμημάτων Παύσεων / Oμιλίας ‐ Ratio #
of Silent /
Non Silent segments
3. Λόγος Μέσης Διάρκειας Παύσεων / Ομιλίας ‐ Ratio Avg
Silent / Non
Silent Duration
4. Λόγος Διάμεσου Διάρκειας Παύσεων / Oμιλίας ‐ Ratio
Median Silent
/ Non Silent Duration
5. Λόγος Τυπικής Απόκλισης Διάρκειας Παύσεων / Oμιλίας
‐ Ratio Std
Silent / Non Silent Duration
6. Λόγος Q1 Quartile Διάρκειας Παύσεων / Oμιλίας ‐ Ratio
Q1 Silent /
Non Silent Duration
7. Λόγος Q3 Quartile Διάρκεια Παύσεων / Oμιλίας ‐ Ratio
Q3 Silent /
Non Silent Duration
05/12/2022

11
Χαρακτηριστικά Προσωδίας
Τόνος - Pitch:
1. Μέση τιμή & τυπική απόκλιση της F0 ‐ meanF0 &
minF0
2. Μέγιστη & Ελάχιστη τιμή F0 ‐ maxF0 & minF0
Ένταση - Intensity:
1. Μέση τιμή έντασης ‐ meanIntensity
2. Μέγιστη τιμή έντασης ‐ maxIntensity
3. Ελάχιστη τιμή έντασης ‐ minIntensity
4. Τυπική απόκλιση της έντασης ‐ stdIntensity
Jitter – Shimmer – Harmonic to Noise Ratio (HNR):
1. Jitter (τοπικό, απόλυτο / local, absolute)
2. Jitter (τοπικό / local)
3. Jitter (ραπ / rap)
4. Jitter (ppq5)
5. Jitter (DDP)
6. HNR
7. Shimmer (τοπικό / local)
8. Shimmer (τοπικό, dB / local, dB)
9. Shimmer (apq3)
10. Shimmer (apq5)
11. Shimmer (apq11) 12. Shimmer (DDA)
Jitter και Shimmer: μετρήσεις των διαταραχών
στην F0.
● Προσωδία: είναι ο ρυθμός, ο τόνος και ο επιτονισμός της
ομιλίας καθώς και άλλα ακουστικά χαρακτηριστικά
05/12/2022

12
Χαρακτηριστικά Μηδενικών Διελεύσεων
Τα χαρακτηριστικά μηδενικών
διελεύσεων που εξήχθησαν ήταν:
1. Zero‐Crossings: Συνολικός αριθμός
μηδενικών διελεύσεων
2. Μέσος στιγμιαίος ZCR / mean
instantaneous zcr
3. Μέγιστος στιγμιαίος ZCR / max
instantaneous zcr
4. Ελάχιστος στιγμιαίος ZCR / min
instantaneous zcr
Μηδενικές Διελεύσεις / Zero‐Crossings: Ο
αριθμός των φορών που ένα (ψηφιακό) σήμα
διασχίζει το μηδέν
05/12/2022

13
Χαρακτηριστικά Διαφορών Σταδίων
Παράδειγμα:
Στάδιο 5 Στάδιο 1 Διαφορά 5-1
𝑥1
𝑥2
⋮
𝑥𝑛
−
𝑦1
𝑦2
⋮
𝑦𝑛
=
𝑑𝑖𝑓𝑓1
𝑑𝑖𝑓𝑓2
⋮
𝑑𝑖𝑓𝑓𝑛
• Διανύσματα χαρακτηριστικών από κάθε στάδιο
• Δημιουργία νέων χαρακτηριστικών από αφαίρεση
των διανυσμάτων χαρακτηριστικών σταδίων
Μορφή διανύσματος αρχικών
χαρακτηριστικών σε κάποιο στάδιο:
𝑠𝑖𝑙1
𝑠𝑖𝑙2
⋮
𝑠𝑖𝑙𝑛
𝑝𝑟𝑜𝑠1
𝑝𝑟𝑜𝑠2
⋮
𝑝𝑟𝑜𝑠𝑛
𝑧𝑐𝑟1
𝑧𝑐𝑟2
⋮
𝑧𝑐𝑟𝑛
05/12/2022

14
Διαδικασία στα επί μέρους μοντέλα:
Φόρτωση csv
αρχείων σε
pandas
DataFrames.
Δημιουργία
πινάκων x
(χαρακτηριστικών)
και y
(διαγνώσεων).
Split (τυχαίο ή με
βάση τα άτομα) σε
train και test
dataset
Encoding & Scaling
& Normalizing
Feature Selection
(Univariate
Feature Selection
ή Feature
Importances)
Εκπαίδευση
ταξινομητή
Repeated
Stratified K-fold
Cross Validation
Classification
Report
Δοκιμές ταξινομητών:
• Επιπλέον Δένδρων (Extra Trees - ET)
• Τυχαίου Δάσους (Random Forest - RF)
• Μηχανών Διανυσμάτων Υποστήριξης (Support Vector Machines – SVM)
05/12/2022

15
Διαδικασία κατασκευής ensemble συστήματος διάγνωσης:
Επιλογή
μοντέλων
Πιθανότητα
πρόβλεψης για
κάθε κλάση ανά
στάδιο
Άθροισμα
πιθανοτήτων.
«Πλειοψηφία»
(Majority Voting)
Τελική
Πρόβλεψη
05/12/2022

16
Σετ πειραμάτων:
3: Πειράματα σε δυαδικούς ταξινομητές
2: Πειράματα με Διαχωρισμό βασισμένο στα άτομα
1: Πειράματα με Τυχαίο Διαχωρισμό Δεδομένων (80%-20% / train-test σε όλες τις ηχογραφήσεις)
05/12/2022

17
Τυχαίοςδιαχωρισμόςδεδομένων:
Πείραμα 1.1 - Ταξινόμηση στα αρχικά
χαρακτηριστικά ανά στάδιο ηχογράφησης:
Παράδειγμα πίνακα σύγχυσης (Στάδιο 4) και πίνακας
καλύτερων αποτελεσμάτων
Μοντέλο Στάδιο Feat.
Selection
Accuracy Precision Recall F1 - Score
ET 1 Feat.
Importances
0.572 0.581 0.575 0.574
ET 2 Feat.
Importances
0.684 0.541 0.555 0.528
ET 3 None 0.587 0.663 0.632 0.611
ET 4 None 0.648 0.771 0.666 0.646
ET 5 Feat.
Importances
0.625 0.713 0.687 0.693
AEGS: Age Education Gender Stress
(δημογραφικά στοιχεία συμμετεχόντων)
Χρήση AEGS → μέση ακρίβεια: 0.806
05/12/2022

18
Πείραμα 1.2 - Ταξινόμηση στα αρχικά χαρακτηριστικά
ανεξαρτήτως σταδίου ηχογράφησης:
Μοντέλο Feat.
Selection
ET Feat.
Importances
0.679 0.708 0.685 0.674
ET + AEGS Feat.
Importances
0.913 0.921 0.918 0.918
Πίνακας σύγχυσης και πίνακας καλύτερων αποτελεσμάτων
05/12/2022

19
Πείραμα 1.3 - Ταξινόμηση στα χαρακτηριστικά των
διαφορών μεταξύ σταδίων ηχογράφησης:
Παράδειγμα πίνακα σύγχυσης (Διαφορά 5-1) και
πίνακας καλύτερων αποτελεσμάτων
Μοντέλο Διαφορά Feat.
Selection
ET 4-1 None 0.812 0.798 0.790 0.792
ET 5-1 None 0.833 0.807 0.803 0.804
ET 3-2 None 0.834 0.840 0.838 0.839
ET 5-2 None 0.803 0.758 0.751 0.748
Χωρίς χρήση AEGS → μέση ακρίβεια: 0.789
Με χρήση AEGS → μέση ακρίβεια: 0.928
05/12/2022

20
Πείραμα 1.4 - Ταξινόμηση με Εnsemble MajorityVoting σύστημα
στα 10 μοντέλα διαφορών του Πειράματος 1.3 (χωρίς AEGS):
Πίνακας σύγχυσης και Classification Report
Precision Recall F1 - Score Πλήθος
E-MCI 0.80 0.98 0.88 25216
Healthy 0.98 0.92 0.95 30212
L-MCI 0.98 0.84 0.90 13097
SCD 0.97 0.86 0.91 20412
Accuracy 0.91 88937
Macro avg 0.93 0.90 0.91 88937
Weighted avg 0.92 0.91 0.91 88937
05/12/2022

21
2ο σετ πειραμάτων:
Διαχωρισμόςδεδομένωνμε βάση τα άτομα(LOSO-like):
• 5 E-MCI
• 4 Healthy
• 3 SCD
• 3 L-MCI
~ 20% του συνολικού πλήθους, όλες οι ηχογραφήσεις
05/12/2022

22
Διαχωρισμόςδεδομένωνμε βάση τα άτομα:
Πείραμα 2.1 - Ταξινόμηση στα αρχικά
Παράδειγμα πίνακα σύγχυσης και πίνακας
αποτελεσμάτων
Selection
ET 1 Feat.
Importances
0.394 0.358 0.353 0.365
ET 2 None 0.640 0.758 0.582 0.610
RF 3 Feat.
Importances
0.524 0.726 0.490 0.460
ET 4 None 0.581 0.676 0.506 0.545
RF 5 None 0.574 0.523 0.487 0.516
Χρήση AEGS → μέση ακρίβεια: 0.614
05/12/2022

23
Πίνακας σύγχυσης και πίνακας καλύτερων αποτελεσμάτων
Selection
SVM (C=1) None 0.586 0.678 0.513 0.552
SVM (C=0.4) + AEGS Feat.
Importances
0.636 0.760 0.543 0.570
05/12/2022

24
Πείραμα 2.3 - Ταξινόμηση στα χαρακτηριστικά των
διαφορών μεταξύ σταδίων ηχογράφησης:
Παράδειγμα πίνακα σύγχυσης (Διαφορά 5-2) και
πίνακας καλύτερων αποτελεσμάτων
Μοντέλο Διαφορά Feat.
Selection
ET 4-2 Feat.
Importances
0.417 0.371 0.360 0.357
ET 5-2 None 0.418 0.398 0.363 0.381
ET 5-1 None 0.344 0.405 0.308 0.319
ET 2-1 Feat.
Importances
0.310 0.316 0.265 0.282
Χωρίς χρήση AEGS → μέση ακρίβεια: 0.311
Με χρήση AEGS → μέση ακρίβεια: 0.494
05/12/2022

25
Πείραμα 2.4 - Ταξινόμηση με Εnsemble MajorityVoting σύστημα
στα 10 μοντέλα διαφορών του Πειράματος 2.3 (χωρίς AEGS):
E-MCI 0.39 0.60 0.48 6824
Healthy 0.63 0.49 0.55 6720
L-MCI 0.30 0.12 0.18 3624
SCD 0.15 0.15 0.15 3312
Accuracy 0.41 20480
Macro avg 0.37 0.34 0.34 20480
Weighted avg 0.42 0.41 0.40 20480
Πίνακας σύγχυσης και Classification Report
05/12/2022

26
Παρατηρήσεις:
• Μεγάλεςδιαφορέςανάμεσαστα1.1-1.4και2.1-2.4
• 1.1–1.4μοντέλα→ overfitting(?)
• Δοκιμή:Τυχαίοsplit σε84κλάσεις
Συμπέρασμα: Πειράματα1.1–1.4 → Human Identification λειτουργία
Selection
ET Feat.
Importances
0.560 0.585 0.532 0.521
ET + AEGS None 0.912 0.902 0.865 0.857
05/12/2022

27
Δυαδικοίταξινομητές:
Πείραμα 3.1 – Δυαδική Ταξινόμηση στα αρχικά
Selection
SVM (C=1),
Healthy vs MCI
4 None 0.977 0.978 0.968 0.977
SVM (C=1),
SCD vs MCI
3 Feat.
Importances
0.756 0.571 0.500 0.651
SVM (C=1),
Healthy vs SCD
4 None 0.925 0.934 0.909 0.924
Πίνακας καλύτερων αποτελεσμάτων
05/12/2022

28
Selection
SVM (C=1),
Healthy vs MCI
None 0.941 0.944 0.921 0.940
SVM (C=1),
SCD vs MCI
None 0.715 0.630 0.507 0.646
SVM (C=1),
Healthy vs SCD
None 0.914 0.916 0.916 0.914
05/12/2022

29
Πείραμα 3.3 - Ταξινόμηση με Εnsemble Majority
Voting σύστημα στα 5 μοντέλα διαφορών του
Πειράματος 1.2 (χωρίς AEGS):
Healthy 1.00 0.76 0.87 7600
MCI 0.83 1.00 0.91 8775
Accuracy 0.89 16375
Macro avg 0.91 0.88 0.89 16375
Weighted avg 0.91 0.89 0.89 16375
MCI 0.83 0.95 0.89 8875
SCD 0.28 0.09 0.13 1872
Accuracy 0.80 10647
Macro avg 0.56 0.52 0.51 10647
Weighted avg 0.73 0.80 0.75 10647
Healthy 1.00 1.00 1.00 7600
SCD 1.00 1.00 1.00 1872
Accuracy 1.00 9472
Macro avg 1.00 1.00 1.00 9472
Weighted avg 1.00 1.00 1.00 9472
05/12/2022

Γενικά Συμπεράσματα
Misclassify των υπόλοιπων κλάσεων σε E-MCI.
Υψηλή διακριτική ικανότητα για MCI vs Healthy και SCD vs Healthy,
δυσκολία για MCI vs SCD.
Υψηλότερη απόδοση με χρήση AEGS.
Προτεινόμενος τρόπος: Χρήση των αρχικών χαρακτηριστικών ανεξαρτήτως
σταδίου ή η χρήση των αρχικών χαρακτηριστικών ανά στάδιο σε Ensemble
σύστημα Majority Voting.
Ανάπτυξη αξιόπιστου screening remote test!
30
05/12/2022

Μελλοντικές Επεκτάσεις
Εμπλουτισμός Βάσης
Δεδομένων Αξιολόγηση ερωτήσεων
1 2
3
Leaving One Subject Out -
LOSO
31
05/12/2022

32
Παρουσιάσεις και Δημοσιεύσεις:
 "Cognitive decline detection using speech features: A machine learning
approach" at HELINA 7th Panhellenic Conference «Acoustics 2022»,
Thessaloniki, October 2022
 “Αναγνώριση Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας”
(accepted/to be presented) at 13th Panhellenic Conference of Alzheimer’s
Disease (PICAD) and 5th Mediterranean Conference on
Neurodegenerative Diseases(MeCoND), Thessaloniki, February 2023
 "Cognitive decline detection using speech features: A machine learning
approach” / JAES (Journal of the Audio Engineering Society) / To be
submitted
05/12/2022

33
Ευχαριστίες:
Θα ήθελα να ευχαριστήσω θερμά τους:
• κ. Ανδρέα Συμεωνίδη
• κ. Εμμανουήλ Τσαρδούλια
• κ. Ελένη Πόπτση
• κ. Θωμά Καρανικιώτη
• κ. Μάγδα Τσολάκη
για την καθοδήγηση, την εμπιστοσύνη και την έμπνευση.
05/12/2022

Ευχαριστώ πολύ για την προσοχή σας!
Ερωτήσεις;

Cognitive decline detection using speech features: A machine learning approach

Recommended

Recommended

More Related Content

Similar to Cognitive decline detection using speech features: A machine learning approach

Similar to Cognitive decline detection using speech features: A machine learning approach (6)

More from ISSEL

More from ISSEL (20)

Cognitive decline detection using speech features: A machine learning approach

Editor's Notes