SlideShare a Scribd company logo
1 of 39
Download to read offline
Σημασιολογική επεξεργασία ακουστικού σήματος
Semadic audio modeling
Νικολαίδης Δημητριος 2019/241
Εργασία στο μάθημα: Τεχνολογίες Ήχου και Εικόνας.
Υπεύθυνος Καθηγητής :Dr Κωστάκης Ρήγας
Διεθνές Πανεπιστήμιο Ελλάδος.
Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρονικών Συστημάτων
Θεσσαλονίκη, Οκτώβριος 2021
Σελίδα 2 από 39
ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ
Περίληψη ...........................................................................................................................................................4
Abstract ..............................................................................................................................................................5
1 Εισαγωγή....................................................................................................................................................6
1.1 Αναγκαιότητα της σημασιολογικής ανάλυσης ..................................................................................6
1.2 Έρευνες σχετικά με την σημασιολογική ανάλυση ηχου . .................................................................6
2.1 Γενική περιγραφη της διαδικασίας επεξεργασιας...........................................................................7
2.2 Short term processing. ......................................................................................................................7
2.3 Επεξεργασια μεσου μεγεθους ( Mid-term processing)...................................................................7
2.4 Κλασεις ηχου.....................................................................................................................................8
3. Χαρακτηριστικά ήχου (Audio features ).......................................................................................................9
Βασικές γνώσεις από την επεξεργασία σήματος..........................................................................................9
3.1 Χαρακτηριστικά ήχου στο πεδίο του χρόνου....................................................................................9
3.1.1 Συχνότητα , Πλάτος ( Ένταση ). .................................................................................................9
3.1.2 Ενέργεια ....................................................................................................................................9
3.1.3 Zero crossing rate - Ρυθμός διαπεράσεων από το μηδεν......................................................10
3.1.4 Εντροπία της ενέργειας ( Εntropy Energy ) ............................................................................12
3.2 Χαρακτηριστικά ήχου στο πεδίο της συχνότητας...........................................................................13
3.2.1. Κέντρο βάρους φάσματος και εύρος φασματος ( Spectral Centroid and Spread ). .............13
3.2.4 Φασματική απόσβεση ( Spectral Roll off ) . .........................................................................16
3.2.5 ΜFCCs . Mel Frequency Cepstral Coefficient [8]......................................................................17
3.2.6 Διανυσμα χρώματος ( chroma vector ) [10],...........................................................................19
Εξαγωγή πληροφορίας ακουστικού σήματος σε πραγματολογικό επίπεδο (Annotation ) ..........................21
4. MIR Εργαλειοθήκη του MATLAB για επεξεργασία ακουστικού σήματος .................................................21
4.1 Γενική περιγραφή της εργαλειοθήκης MIR ...................................................................................21
4.3 Παράδειγμα ανάλυσης τονικότητας [14] ........................................................................................22
4.4 Παράδειγμα ανάλυσης ρυθμικότητας [14]......................................................................................23
4.5 Κατακερματοποιση δεδομένων . ( Data Segmentation ) [14] ........................................................24
4.6 Ανάλυση δεδομένων . [14]...............................................................................................................24
Παραδείγματα εφαρμογών ............................................................................................................................25
5 Χρήση της μηχανικής μάθησης για την συναισθηματική ανάλυση μουσικής . .....................................25
5.1 Συντομη παρουσιαση της μηχανικης μαθησης..............................................................................25
5.2 Εισαγωγή – προεπισκόπηση της εφαρμογής ..................................................................................25
Σελίδα 3 από 39
5.3 Θεωριες πανω στις οποιες βασιστηκαν το μοντελο της συναισθηματικης αναλυσης . ..........26
5.4 Machine Learning Approaches [18] .................................................................................................27
Σταδια επεξεργασιας συναισθηματικης αναλυσης ηχου με την χρηση της μηχανικης μαθησης.............28
5.4.1 Συνολα δεδομενων Audio Dataset.............................................................................................28
5.4.2 Εξαγωγή χαρακτηριστικών για την κατηγοριοπιηση με κριτήριο την διέγερση ( Arousal features
extraction)....................................................................................................................................................28
5.4.3 Categorized arousal using K-means clustering High / Low..........................................................28
5.4.4 Κατηγοριοποιηση σθενους με την χρηση του social tag last.fm Valence mapping...................29
5.4.5 Labeling based on Emotion model . ...................................................................................................29
5.4.6 Ταξινομητες προγνωσης ( Classifier Prediction ). ........................................................................30
5.4.7 Κατάταξη των χαρακτηριστικών με βάση τον αλγόριθμο ταξινόμησης Random Forrest.....30
6. Συναισθηματική ανάλυση μουσικής με κριτήριο το φασματόγραμμα Chroma ..................................31
6.1 Προεπισκόπηση μελέτης.................................................................................................................31
6.2 Convolutional Neural Networks (CNNs) Συνελεκτικά Νευρωνικά Δίκτυα .....................................31
6.3 H μεθοδολογία της έρευνάς. Σταδια επεξεργασιας .......................................................................32
6.3.1 Εξαγωγή του φασματογράμματος Chromagram . ..................................................................32
6.3.2 Eπαυξηση δεδομένων ( Data augmentation)...........................................................................32
6.3.3 Επεξεργασία για την εξαγωγή των βαθιών χαρακτηριστικών του ήχου ............................33
6.3.3 Εις βάθους εξαγωγή χαρακτηριστικών ..................................................................................34
6.3.4 Ταξινόμηση ηχητικων αρχειων με την βοηθεια των ταξινομητων SVM και SoftMax .........34
6.3.5 Επεξεργασία , Επισήμανση δεδομένων - Πειραματικά αποτελέσματα [26]........................34
6.4 Εκτίμηση της απόδοσης των νευρωνικων δικτυών για την συναισθηματική ανάλυση ηχου.....36
7 Συμπεράσματα -- Αξιολόγηση ................................................................................................................36
Βιβλιογραφία – Αναφορές...............................................................................................................................37
Σελίδα 4 από 39
ΠΕΡΙΛΗΨΗ
Αντικείμενο της παρούσης εργασίας είναι η ανάλυση ηχου τόσο σε πραγματολογικό επίπεδο όσο και σε
σημασιολογικό .Αρχικα γίνεται μια μικρή αναφορά σε βασική θεωρία επεξεργασιας σήματος η οποία αποτελεί το
υπόβαθρο για τον υπολογισμό των χαρακτηριστικών. Η εργαλειοθήκη Matlab ΜIRToolBox παρέχει εύχρηστα και
δοκιμασμένα εργαλεία για την εξαγωγή μουσικής πληροφορίας μέσα από καθαρά μετρήσιμες φυσικές ποσότητες
όπως η ενέργεια η συχνότητα. Ο μετασχηματισμός φυσικών αντικειμενικών μετρήσεων σε μουσικά
χαρακτηριστικά πολλές φορές υποκειμενικά όπως η χροιά ο τόνος κτλ. γίνεται με την βοήθεια ετοίμων
συναρτήσεων και βιβλιοθηκών. Δεδομένου της ικανότητα της μουσικής να προκαλεί και να μεταφέρει
συναισθήματα , δίνει στην συναισθηματική ανάλυση μια δυναμική και ένα καινοτόμο επιστημονικό πεδίο με
πολλά όμως σκοτεινά σημεία. Οι μελέτες στις οποίες θα γίνει αναφορά στην παρούσα χρησιμοποιούν προηγμένες
μεθόδους της τεχνητής νοημοσύνης για ταξινόμηση των τραγουδιών. Η πρώτη ερευνά χρησιμοποίει μεθόδους
της μηχανικής μάθησης για την κατηγοριοπιηση των ενώ η δευτερη βασίζεται στα Συνελεκτικά Νευρωνικά δίκτυα.
Στην δευτερη περίπτωση η κατηγοριοπιηση βασίζεται αποκλειστικά ένα οπτικό κριτήριο το φασματόγραμμα
Chroma . Για τη κατανόηση της εργασίας αυτών κρίθηκε αναγκαίο να γίνει συντομη αναφορά στα Συνελεκτικά
Νευρωνικά δίκτυα και στις μεθόδους της μηχανική μάθησης όπου απαιτείτε
Λέξεις Κλειδιά : Music emotion recognition ,· Music features, Matlab ΜIRToolBox, Deep learning , Deep
features , Chroma Spectrograms, Semantic Audio ,· Emotion models, feature extraction., neural networks
Σελίδα 5 από 39
ABSTRACT
This paper aims to make a small presentation on .sound analysis. This analysis will and semantic level. First, a
small reference is made to basic signal processing theory which is the basis for the calculation of characteristics. The
Matlab MIRToolBox toolbox provides easy-to-use and proven tools for extracting music information through
measurable physical quantities such as energy and frequency. The transformation of physical objective
measurements into musical characteristics is often under personal perception, such as the tone, tone, etc., with the
help of ready-made functions and libraries. The ability of music to trigger emotions makes the emotional analysis of
sound a new scientific field with many grey regions. Use advanced methods of artificial intelligence to classify songs
and music. The first research uses machine learning methods to classify them while the second is based on.
Convolution Neural Networks In the second case the is based only on a visual criterion as the Chroma spectrogram.
To understand whole the prosses . it was necessary to make a brief reference to the Collective Neural Networks and
the methods of machine learning.
Key words : Music emotion recognition ,· Music features, Matlab ΜIRToolBox, Deep learnig , Deep features
Chroma Spectrograms, Semantic Audio ,· Emotion models, feature extraction , neural networks
Σελίδα 6 από 39
1 ΕΙΣΑΓΩΓΉ
1.1 Εισαγωγή στο αντικείμενο της εργασίας
Αντικείμενο της παρούσης εργασίας είναι η επεξεργασία ηχητικού σήματος τόσο σε πραγματολογικό επίπεδο
(annotation) όσο και σε σημασιολογικό επίπεδο (semantic ). Αρχικά στο κεφάλαιο 2 , θα παρουσιαστούν τα
χαρακτηριστικά σήματος τα οποία εξάγονται σε επίπεδο annotation. Τα μεγέθη αυτά χρησιμοποιούνται κατόπιν την
επεξεργασία σε επίπεδο semantic. Τέτοια χαρακτηριστικά είναι παραδείγματος χάρη η ενέργεια και το διανυσμα
χρώματος. Στην συνέχεια θα αναφερθούμε στην εργαλειοθήκη MIR toolbox του Matlab και θα γίνει παρουσίαση της
διαδικασίας επεξεργασίας των δεδομένων. Το συγκεκριμένο παράδειγμα που θα παραθέσουμε έχει σαν στόχο την
ανάδειξη των σχέσεων των παραπάνω παραμέτρων σήματος με τα μουσικά του χαρακτηριστικά όπως ο ρυθμός ,
η τονικότητα ή η χροιά. Στην συνέχεια στο κεφάλαιο 4 θα γίνει αρχικά μια γενική παρουσίαση επεξεργασία του
ακουστικού σήματος σε σημασιολογικό επίπεδο με την χρήση της μηχανικής μάθησης με την βοήθεια και πάλι της
εργαλειοθήκης MIR toolbox του Matlab [1]. Κατόπιν θα γίνει αναφορά σε δυο συγκεκριμένες εφαρμογές. Οι
εφαρμογές αυτές έχουν να κάνουν με ένα πεδίο σημασιολογικής προσέγγισης με πολλές εφαρμογές και προκλήσεις
αφορά την. Συναισθηματική ανάλυση της μουσικής ( Music emotion recognition). Με απλά λόγια η μηχανή ο
υπολογιστής να μπορεί να καθορίσει «ακούγοντας » ένα μουσικό τραγούδι ή ήχο τα συναισθήματα που παράγονται ή
διεγείρονται από αυτό. Το αντικείμενο της εργασίας ασχολείται με ένα πολύ μικρό μέρος ενός μεγάλου πεδίου της
επιστήμης των υπολογιστών αυτό των συστημάτων της τεχνητής νοημοσύνης Artificial Intelligence System.
1.1 Αναγκαιότητα της σημασιολογικής ανάλυσης
Ο όρος semantic προκύπτει από την ελληνική λέξη “σημασία” και μπορεί να αποδοθεί στην λέξη η έννοια «το
περιεχόμενο που μεταβιβάζει μια λέξη ή μια ομάδα λέξεων στη διαδικασία της επικοινωνίας¨». Κρίθηκε αναγκαίο στην
πορεία του χρόνου σε εφαρμογές του συγχρόνου ανθρώπου όπως η αναγνώριση φωνής , η μετάφραση κείμενων
κ.α. ο υπολογιστής να μπορεί να βγάζει νόημα «σημασία » από αυτά που ακούει ή διαβάζει .Για παράδειγμα όταν
διαβάζει μέσα σε ένα κείμενο ¨ «Ο Γιώργος είναι μαύρος» να μπορεί να αποφανθεί εάν ο Γιώργος είναι λερωμένος
ή είναι έγχρωμος ή φοράει απλά μαύρα ρούχα. Όταν ακούει έναν ήχο να μπορεί να αποφανθεί εάν αυτός ο ήχος
είναι ομιλία , είναι θόρυβος η απλά ένας πετεινός που λαλεί .Για το κάνει αυτό υπολογιστής θα έπρεπε να αποκτήσει
τρόπο τινά χαρακτηριστικά και ιδιότητες νοημοσύνης. Τέτοιες εφαρμογές αρχικά ήταν : οι μηχανές αναζήτησης
στο web , η ρομποτική και φυσικά στρατιωτικές εφαρμογές όπως συστήματα ασφάλειας και καταδείξεως στόχου.
O σημασιολογικός ιστός ( Semantic Web ) [2] παρέχει ένα πολύ ευρύ και δυναμικό πεδίο για την διαχείριση και
μοίρασμα των επισημασμένων δεδομένων. Η αποθήκευση των μουσικών μεταδιδόμενων στο semantic web δίνει μια
ευκαιρία για την δημιουργία ενός παγκοσμίου και ενοποιημένου προτύπου για την κατηγοριοπιηση αυτών. Τα
τελευταία χρονιά έχουν ήδη αναπτυχθεί μουσική πράκτορες όπως το Music Οntology και το Audio Features Οntology.
Χρησιμοποιώντας τους πράκτορές αυτούς ( Agents ) θα είναι πολύ εύκολο για έναν αδαή Αμερικάνο DJ στην
Αλαμπάμα να παίξει μια ‘παραγγελιά’ : ένα παλιό λυπητερό βαρύ ζεϊμπέκικο. Ας δώσουμε ακόμα ένα διαφορετικό
σενάρια τρία λεπτά πριν την πτώση του αεροπλάνου καταγράφηκε ένας εκκωφαντικός ήχο από το μαύρο κουτί
του Boeing 737 .Μπορούμε μέσω της επεξεργασιας να αποφανθούμε εάν ο ήχος προερχόταν από σπάσιμο του
φτερού από μηχανική βλάβη ή από έκρηξη λόγω τρομοκρατικής ενέργειας
1.2 Έρευνες σχετικά με την σημασιολογική ανάλυση ηχου .
Οι Kim et al. [3] διεξήγαγε εκτενή έρευνα για την συναισθηματική ανάλυση του ηχου ( Music Emotion Recognition
, MER ) Παρουσίασαν μια επισκόπηση των μεθόδων που βασίζονται σε δυο κατηγορίες πληροφορίας .Η πρώτη
κατηγορία αφορά τις πληροφορίες κειμένου όπως συνθέτης , Social tags, τίτλος τραγουδιού. Η δευτερη κατηγορία
αφορά τα μουσικά χαρακτηριστικά όπως ( τόνος , ρυθμός ,στοίχοι ) καθώς και τους συνδυασμούς των δυο παραπάνω.
Παρόμοια μελέτη έγινε και από τους Barthet et al [4] ο οποιος επικεντρώθηκε στην αναθεώρηση των προηγούμενων
μελετών χρησιμοποιώντας την ιδια μεθοδο κατηγοριοποίησης. Ωστόσο, καμία από τις δυο μελέτες δεν εξέτασαν
πραγματικά τα δεδομένα και τα αποτελέσματα ταξινόμησης . Εάν δηλαδή όντως ένα τραγούδι που έχει επισημανθεί
ως λυπητερό προκαλεί λύπη στον ακροατή. Επίσης δεν ερευνήσαν την συσχέτιση των χαρακτηριστικών με την
ακρίβεια των μεθόδων της MER που εφαρμοστήκαν. Αν και είναι πολύ σημαντικό η επιλογή της κατάλληλη μεθόδου
μηχανικής μάθησης για την επεξεργασία. Ποιο σημαντικός παράγοντας είναι η επιλογή των κατάλληλων μουσικών
χαρακτηριστικών ( κριτηρίων ) τα οποία θα χρησιμοποιήσει το μοντέλο για την ταξινόμηση και εκπαίδευση του .
Σελίδα 7 από 39
2 ΣΤΑΔΙΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΗΧΟΥ ( SHORT TERM – MID-TERM PROCESSING ).
2.1 Γενική περιγραφη της διαδικασίας επεξεργασιας.
Ένα αρχείο ηχου , ένα τραγούδι είναι ένα μεγάλο αρχείο δεδομένων. Τυπικό μέγεθος ενός τραγουδιού 3 λεπτών
είναι 5 MB. To σύνολο των 5 MB είναι δύσκολο να αναλυθεί εξολοκλήρου. Είναι αναγκαίο η επεξεργασία να γινείτε
σε μικρότερο αριθμό δεδομένων .Ένας άλλος λόγος που είναι αναγκαία η διαίρεση είναι ότι ορισμένα χαρακτηριστικά
εξάγονται κάνοντας σύγκριση των τιμών της εξαγόμενης μέτρησης μεταξύ μετρήσεων της ίδιας τιμής γειτονικών
χρονικών διαστημάτων του τραγουδιού . Για τον λόγο αυτό διαιρούμε το αρχείο .Η διαίρεση αυτή γίνεται και σε
αρχεία μικρού ( Short term) μεγέθους και σε αρχεία μεσαίου μεγέθους (Mid-term [5]). Η επεξεργασία γίνεται και
στα δυο επίπεδα δηλαδή και στο Short term και στο Mid term. Tα αποτελέσματα από τις δυο επεξεργασιας
συγκρίνονται ώστε να εξαχθούν τα επιθυμητά αποτέλεσμα. Σκοπός της εργασίας δεν είναι να παρουσιάσει όλα τα
χαρακτηριστικά του ηχου που μπορούν να εξαχθούν αλλά να παρουσιάσει ορισμένα βασικά που χρησιμοποιούνται
για την πραγματολογική και σημασιολογική ανάλυσή κάνοντας χρηση πάντα των βιβλιοθηκών του Matlab .
2.2 Short term processing.
Κατά την μεθοδο αυτή το μουσικό αρχείο χωριζεται σε μικρά κομματια που πολλές φορές είναι και
αλληλοκαλυπτομενα . Το μέγεθος αυτών των κομματιών ποικίλει ανάλογα την εφαρμογή και το ζητούμενο
χαρακτηριστικό. Κάνοντας χρηση της παρακάτω συνάρτησης στο ΜatLab μπορώ να εξάγω μέχρι και 23 διαφορετικα
μουσικά χαρακτηριστικά από ένα αρχείο ηχου.
Εικονα 2.1 : Διαδικασία εξαγωγής μεσοπρόθεσμων στατιστικών στοιχείων ήχου. [6]
H παραπάνω συνάρτηση έχει σαν ορίσματα :
• Signals : το υπό εξεργασία σημα ηχου.
• fs: η συχνότητα δειγματοληψίας.
• win :To κομμάτι από το αρχικό αρχείο που θέλουμε να κόψουμε και να επεξεργαστούμε ( σε
δευτερόλεπτα ).
• Step :Ανά ποσά δευτερόλεπτα θέλουμε να γίνει αυτή η διαίρεση ( υπάρχει η δυνατότητα αληλοκαλυψης
over lap όπως αναφέρθηκε παραπάνω ).
2.3 Επεξεργασια μεσου μεγεθους ( Mid-term processing).
Σύμφωνα με αυτόν τον τύπο επεξεργασίας το ηχητικό σήμα πρώτα χωρίζεται σε Mid-term τμήματα και στη
συνέχεια, για κάθε τμήμα, πραγματοποιείται Short term processing . Στο Εικονα 2.1 διακρίνεται η διαδικασία
Σελίδα 8 από 39
εξαγωγής μεσοπρόθεσμων στατιστικών στοιχείων του ήχου. Αριστερά διακρίνεται το mid term τμήμα το οποίο με την
σειρά του χωριζεται σε πέντε short term μέρη. Δεξιά εχω τα εξαγόμενα αποτελέσματα υστέρα από στατιστική
ανάλυσή και υπολογισμούς. Συνήθως τα mid term κομματια είναι τάξης μεγέθους 1 έως 10 δευτερόλεπτα ανάλογα
με την εφαρμογή.
Κατά τη διάρκεια της ενδιάμεσης επεξεργασίας, υποθέτουμε ότι τα μεσοπρόθεσμα τμήματα παρουσιάζουν
ομοιογένεια ως προς τον τύπο ήχου θεωρούμε δηλαδή ότι ανήκουν σε ένα και μόνο τραγούδι .Μόνο με αυτή την
προϋπόθεση μπορούμε να προχωρήσουμε στην εξαγωγή ασφαλών και ακριβή μετρήσεων. Υπάρχουν περιπτώσεις που
η διαδικασια είναι ανάποδη. Παράδειγμα τέτοιων περιπτώσεων είναι όταν θέλουμε να προσδιορίσουμε το είδος ενός
τραγουδιού. Σε αυτές τις περιπτώσεις πρώτα έχουμε την επεξεργασία σε Short term επίπεδο και κατόπιν την
στατιστική ανάλυσή όλων των Short term μετρήσεων.
2.4 Κλασεις ηχου.
Στην ενότητα αυτή θα παρουσιάσουμε των διαχωρισμό των ήχων σε κλασεις. θα γίνει αναφορά σε αυτήν την
ταξινόμηση παρακάτω. Οι κλασεις αυτές του ηχου συναντιούνται κατά την ηχητική εξεργασία κινηματογραφικών
ταινιών. Στην Εικονα 2.2 φαίνεται αυτή η ταξινόμηση.
Εικονα 2.2: Κλασεις ηχου. [5]
Σελίδα 9 από 39
3. ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΗΧΟΥ (AUDIO FEATURES ).
Βασικές γνώσεις από την επεξεργασία σήματος
Πριν προχωρησουμε στην παρουσιαση των μουσικών χαρακτηριστικών ( Audio Features ) του ηχου θα κανουμε
μια συντομη αλλά αναγκαία αναφορά στα σταδια επεξεργασιας του ηχου καθώς και σε μετρήσεις που έχουν σχέση
με αυτά τα χαρακτηριστικά . Είναι προφανές ότι για την κατανόηση της εργασίας ειδικά σε αυτό το κεφάλαιο ο
αναγνώστης θα πρέπει να έχει βασικές γνώσεις επεξεργασίας σήματος .Επιπρόσθετα θα πρέπει να έχει κατανοήσει
πλήρως την διαφορά μεταξύ του πεδίου χρόνου και του πεδίου συχνότητας. Θα προσπαθήσουμε να μην σταθούμε
τόσο στις μαθηματικές εξισώσεις και να δώσουμε την φυσική σημασία και ερμηνεία αυτών των τιμών . Τα
μαθηματικά είναι μια υπέροχη διαγαλαξιακή γλώσσα αρκεί να την μιλάς. Τα χαρακτηριστικά ήχου που θα
παρουσιάσουμε μπορούν να εξαχθούν με την βοήθεια του περιβάλλοντος αριθμητικής υπολογιστικής MATLAB το
οποίο θα παρουσιάσουμε αμέσως μετα.
Ας πάρουμε το κουβάρι από την αρχή. Ο ήχος είναι η αίσθηση που προκαλείται λόγω της διέγερσης των
αισθητηρίων οργάνων της ακοής από μεταβολές πίεσης υλικών σωμάτων όπως ο ατμοσφαιρικός αέρας. Αυτές οι
μεταβολές διαδίδονται με τη μορφή ηχητικών κυμάτων. Πολλές φορές στην πράξη, ο όρος χρησιμοποιείται ως
ταυτόσημος με την έννοια των ηχητικών κυμάτων. Για παράδειγμα, συνηθίζεται η έκφραση διάδοση του ήχου αντί του
ορθότερου διάδοση των ηχητικών κυμάτων. Με την βοήθεια ενός ηλεκτρομηχανικού μετατροπέα ή ποιο καλά
μικρόφωνο τα ηχητικά κύματα , πυκνώματα και αραιώματα , μετατρέπονται σε ηλεκτρικά και έτσι βλέπω στον
παλμογράφο μου ένα ηλεκτρικό σήμα συνήθως την τάση του σήματος .Το σημα αυτό είναι μονοδιάστατο αφού έχει
μόνο μια τιμή σε συνάρτηση με το χρόνο την ανεξάρτητη μεταβλητή . Επιπροσθέτως το παραπάνω σημα αναφέρεται
στην βιβλιογραφία ως σήμα συνεχούς χρόνου και συνεχής τιμής καθώς επίσης και ως αναλογικό αφού μεταβάλλεται
συνεχώς. Είναι σήμα στοχαστικό επειδή δεν είναι εκ των προτέρων γνωστές οι τιμές που λαμβάνει, αλλά
περιγράφονται στατιστικά ( πιθανότικα ). Χαρακτηρίζεται επίσης και σαν σήμα απεριοδικό για την ακρίβεια
ημιπεριοδικο Quasiperiodic [7].
3.1 Χαρακτηριστικά ήχου στο πεδίο του χρόνου.
3.1.1 Συχνότητα , Πλάτος ( Ένταση ).
Εικονα 3.1: Ημιτονικο σήμα πλάτους Vp και περιόδου Τ
Στην Εικονα 3.1 διακρίνεται η μορφή ενός Ημιτονικο σήματος το οποία βέβαια δεν είναι αντιπροσωπευτικό ενός
μουσικό σήματος. Παρολαταυτα πολύ βασικό ( βλέπε ανάλυση Fourier ).To πλάτος μετριέται από την μέση μέχρι την
κορυφή και συμβολίζεται με Vp (Peak) και μετριέται σε Volt . H συχνότητα είναι το αντίστροφο της περιόδου μια
μετριέται σε Hz .H περίοδος μετριέται σε sec. Η ένταση είναι το πόσο σιγανά ή δυνατά ακούγεται κάποιος ήχος και
3.1.2 Ενέργεια .
Σελίδα 10 από 39
Η ενέργεια ενός ηχητικού σήματος μετριέται σε Joule και δίνεται απο την παρακάτω μαθηματική
εξίσωση
Ενώ αντίστοιχα η ισχύς δίνεται από τον τύπο
H ισχύς είναι η κανονικοποιημενη τιμή της ενέργειας στην παρούσα εργασία. Καταχρηστικός χρησιμοποιείται ο
όρος ενέργεια αλλά για λογούς απλότητας τον κρατάμε. Μελετώντας την ενέργεια σε επίπεδο short term σε ηχητικά
σήματα παρατηρούμε στατιστικά ότι στην περίπτωση που αυτά αφορούν ανθρώπινό λόγο η τιμή της ενέργειας έχει
μεγάλες διακυμάνσεις ( Fluctuations ). Άλλο μια σημαντική πληροφορία την οποία μπορούμε να εξάγουμε από την
στατιστική ανάλυση των τιμών της ενέργειας και παρατηρώντας με λογική την Εικονα 3.2. Η Εικονα 3.2 δίνει to
ιστόγραμμα της τυπικής απόκλισης της ενέργειας
Εικονα 3.2 : Συσχέτιση της τυπικής απόκλισης της ενέργειας σε σήμα ήχου ( δεξιά) και σε ανθρώπινη
ομιλία (αριστερά )
• Στον άξονας χ διατάσσονται οι τιμές της τυπικής απόκλισης δια του μέσου όρου των τιμών :
𝜎2
𝜇
• Στον άξονας y είναι η συχνότητα εμφάνισης του όρου
𝜎2
𝜇
Στην εικόνα 2 βλέπουμε δυο ιστογράμματά ( καμπύλες ) το ένα δεξιά το ποιο αναφέρετε σε ανθρώπινή ομιλία
και ένα αριστερά σε μουσική. Παρατηρούμε ότι στην περίπτωση της μουσικής η συχνότητα εμφάνισης του μέγιστου
είναι σχεδόν διπλάσια σε σχέση με αυτό της ανθρώπινης ομιλίας . Συμπεραίνουμε δηλαδή ότι στον ανθρώπινο λόγο
η τιμη της ενεργείας έχει πολύ μεγαλύτερη διασπορά από ότι στην μουσική. Διασπορά στην στατιστική είναι ένα
μέγεθος που δείχνει την κατανομή ενός μεγέθους , στην περίπτωση μας η ενέργεια , γύρω από τη μέση τιμή του.
3.1.3 Zero crossing rate - Ρυθμός διαπεράσεων από το μηδεν.
O καθαρός αυτός αριθμός ZCR δηλώνει πόσες φορές στον χρόνο το σήμα διαπερνά την τιμή μηδέν δηλαδή πόσες
φορές η τιμη του σήματος γίνεται από θετική αρνητική ή το αντίστροφο. Στα ελληνικά ο όρος μπορεί αποδοθεί έως
διαπεραση από το μηδέν αλλά εμείς θα κρατήσουμε το αγγλικό ακρωνύμιο Z.C.R για λόγους ευκολίας .Το ίδιο θα
Σελίδα 11 από 39
τηρήσουμε και με αντίστοιχους αγγλικούς όρους . O αριθμός αυτός ορίζεται σύμφωνα με τον παρακάτω μαθηματική
ισότητα
Oπου:
• sign είναι η συνάρτηση πρόσημού.
• WL είναι ο αριθμός των διακεκριμένων δειγμάτων.
• Χi τα διακριτά σήματα μετα την δειγματοληψία.
Εικόνα 3.3 : Συσχέτιση της τιμής του ZCR ( Zero Crossing Rate ) σε σήμα ανθρώπινης ομιλίας.
Η τιμή του ZCR υποδηλώνει την παρουσία θορύβου σε ένα σήμα. Εάν η τιμή είναι μικρή τότε στατιστικά έχουμε
σήμα χωρίς θόρυβο. Στην Εικόνα 3.3 έχουμε το διάγραμμα ενός σήματος ομιλίας σε αντιστοιχία με τις τιμές του
ZCR . Όπως φαίνεται και στην εικόνα 3 στα σημεία παύσης όπου έχω μεγαλύτερο σηματοθορυβικο συντελεστή
Signal/Noise οι αντίστοιχες τιμές του ZCR είναι αυξημένες σε σχέση με αυτές που καταγράφονται στην περιοχή
oπου έχω ομιλία ( λέξεις - φωνήματα ).
Στην Εικόνα 3.4 έχουμε μια άλλη συσχέτιση δυο σημάτων ενός μουσικής και ενός ανθρώπινης ομιλίας.
Εικόνα 3.4 : Ιστόγραμμα της τυπικής απόκλισης της τιμής ZCR ( Zero Crossing Rate ) σε σήμα
ανθρώπινης ομιλίας και σε μουσικό σήμα . [6]
Σελίδα 12 από 39
Οπού:
• στον άξονα y έχουμε την τιμή της τυπικής απόκλισης της τιμής του ZCR.
• Άξονα x την συχνότητα εμφάνισης της τιμής της τυπικής απόκλισης.
Παρατηρούμε ότι στην περίπτωση της μουσικής ( αριστερή κυματομορφη ) τιμή του ZCR δεν παρουσιάζει μεγάλες
μεταβολές και είναι σχετικά μεγάλη σε σχέση με αυτό της ομιλίας που έχει μεγαλύτερο spread και μικρότερες τιμές
3.1.4 Εντροπία της ενέργειας ( Εntropy Energy ).
Η εντροπία είναι ένα μέγεθος χωρίς μονάδες .Όταν αναφερόμαστε σε εντροπία αναφερόμαστε σε εντροπία
ενέργειας Η φυσική σημασία του μεγέθους αυτού στην παρούσα εργασία είναι στο εάν υπάρχουν απότομες αλλαγές
στην ενέργεια που μεταφέρει το σήμα. Γενικά η φυσική σημασία της εντροπίας μπορεί να θεωρηθεί ότι είναι η
έκφραση του μέτρου της αταξίας ενός συστήματος .
Εικόνα 3.5 : Πάνω διάγραμμα ακουστικό σήμα στον χρόνο που αντιστοιχεί σε 3 πυροβολισμούς , Κάτω
διάγραμμα μεταβολές της εντροπίας του αντίστοιχα. [6]
Ας δούμε όμως τι άλλα συμπεράσματα μπορούμε να εξάγουμε από την τιμή αυτή. Στην Εικόνα 3.5 στο πάνω
διάγραμμα βλέπουμε ένα ακουστικό σήμα στον χρόνο που αντιστοιχεί σε 3 πυροβολισμούς και στο κάτω διάγραμμα
τις μεταβολές της εντροπίας της ενέργειας του αντίστοιχα. Οι τρεις βυθίσεις της τιμής της εντροπίας αντιστοιχούν
στους τρεις πυροβολισμούς. Ένα άλλο παράδειγμα δίνεται στην Εικόνα 3.6 οπού δίνεται ένα ιστόγραμμα από τα
ελάχιστα της εντροπίας 3 διαφορετικών ειδών μουσικής κλασσική , τζαζ και ηλεκτρονικής. Παρατηρούμε ότι στην
περίπτωση της κλασσικής μουσικής παρουσιάζονται πολύ συχνά ελάχιστα ( 0.25) ενώ αντίστοιχα στην ηλεκτρονική
μουσική όχι . Αυτό μπορεί να εξηγηθεί εξαρχής μια και η κλασσική είναι ποιο απαλή ποιο soft και δεν έχει μεγάλες
διακυμάνσεις σε σχέση με την ηλεκτρονική η οποία παρουσιάζει μεγάλες αυξομειώσεις ( Μπαμ- μπουμ).
Σελίδα 13 από 39
Εικόνα 3.6 : Ιστόγραμμα από τα ελάχιστα της εντροπίας τριών διαφορετικών ειδών μουσικής
κλασσική , τζαζ και ηλεκτρονικής. [6]
3.2 Χαρακτηριστικά ήχου στο πεδίο της συχνότητας.
Στην προηγουμενη ενότητα αναφερθήκαμε στα χαρακτηρίστηκα του ηχου στο πεδίο του χρόνου. Στην παρούσα
ενότητα θα μεταπηδήσουμε στο πεδίο της συχνότητας. Πριν προχωρησουμε όμως θα αποσαφηνίσουμε την διαφορά
για τους μη μύστες της επεξεργασιας σήματος . Κάθε συνεχή σήμα μπορεί να αναπαρασταθεί – αναλυθεί ως άθροισα
απλών τριγωνομετρικών συναρτήσεων συγκεκριμένης συχνότητας ( ημίτονά) η οποία είναι γνωστή ως σειρά
«ανάπτυγμα» Fourier. Με απλά λογία κάθε αναλογικό σήμα είναι ένα μπουκέτο από φάσμα συχνοτήτων. Όταν
αναφερόμαστε στο πεδίο της συχνότητας αναφερόμαστε σε χαρακτηριστικά που έχουν να κάνουν με το φασματικό
περιεχόμενο του σήματος. .Η Εικόνα 3.7 δείχνει παραστατικά αυτή την σχέση μεταξύ των δυο πεδίων χρόνου και
συχνότητας
Εικόνα 3.7: Μετασχηματισμός Fourierr.
3.2.1. Κέντρο βάρους φάσματος και εύρος φασματος ( Spectral Centroid and Spread ).
Το Spectral Centroid και το Spread είναι δυο βασικές και μέτρησης που μας δίνουν πληροφορίες σε επίπεδο
annotation για το ηχητικό σήμα.
Σελίδα 14 από 39
Το Spectral Centroid δίνεται από την μαθηματική σχέση :
Ενώ αντίστοιχα το φασματικό εύρος δίνετε από την παρακάτω μαθηματική σχέση:
Ο τιμη Spectral Centroid μας δίνει πληροφορίες για το που βρίσκεται ο κύριος όγκος της πληροφορίας ενός
σήματος ως προς την συχνότητα Εάν δηλαδή η τιμη είναι μικρή τότε σημαίνει ότι το σημα περιέχει κυρίως χαμηλές
συχνότητες .Εχει παρατηρηθεί ότι μεγάλες τιμές αυτής της μέτρησης αναφέρονται σε ήχους με μεγαλύτερη
λαμπρότητα ( brightness ). H λαμπρότητα του ηχου έχει σχέση με την κατανομή του συχνοτικου περιεχομένου του.
Εικόνα 3.8 : Ιστόγραμμα της τιμής Spectral Centroid σε τρία διαφορετικά είδη ηχητικών σημάτων [6].
Στην Εικόνα 3.8 έχουμε ιστογράμματα της τυπικής απόκλισης τριών διαφορετικών ειδών σημάτων ηχου όπως
κατηγοριοποιήθηκαν στην ενότητα 2.4. Το others 1 αναφέρεται σε σήματα περιβάλλοντος όπως η βροχή , η ησυχία
, ο άνεμος. Το «others 2» αναφέρεται σε σήματα περιβάλλοντος όπως το κλείσιμο μιας πόρτας ο κεραυνός , το
σπάσιμο ενός τζαμιού. Το «others 3» αναφέρεται σε συνεχή σήματα περιβάλλοντος όπως ο ήχος μιας μηχανής , το
ποδοβολητό ενός αλόγου. Όπως δείχνει το διάγραμμά στην τρίτη περίπτωση στον ήχο μιας μηχανής έχουμε
μεγαλύτερη τιμη της παραμέτρου Spectral Centroid και ο ήχος είναι ποιο «λαμπρός ». Ενώ αντίθετα στην περίπτωση
ήχων χαμηλής έντασης όπως της βροχής έχουμε μικρότερες τιμές. Από την άλλη πλευρά η παράμετρος αυτή όπως
αναφέραμε και προηγούμενος δείχνει πως κατανέμεται η ενέργεια στο πεδίο της συχνότητας. Όταν η τιμη της
Spectral Centroid είναι μικρή αυτό σημαίνει ότι το σήμα είναι συγκεντρωμένο «μαζεμένο » γύρω από μια τιμη.
Σελίδα 15 από 39
Εικόνα 3.9 : Iστόγραμματα της μέγιστης τιμής του φασματικού εύρους ( Spectral Spread ) σε τρία
διαφορετικά είδη μουσικής [6].
Στην Εικόνα 3.9 βλέπουμε το Spread της φασματικής κατανομής σε τρία διαφορετικά είδη μουσικής κλασσική , jazz
και ηλεκτρονική. Όπως φαίνεται και από το διάγραμμα η ηλεκτρονική μουσική έχει μεγαλύτερο Spread.
3.2.2 Εντροπία Φάσματος .( Spectral Entropy .
H εντροπία φάσματος υπολογίζεται με τον ίδιο τρόπο που υπολογίζεται και η εντροπία ενεργείας H εντροπία
χρησιμοποιείται για τον εντοπισμό των περιόδων παύσης και των ενεργών περιόδων ομιλίας στον ανθρώπινο λόγο.
Η ιδιότητα αυτή είναι ένα καλό εργαλείο στην αναγνώρισης φωνής. Ο εντοπισμός των ενεργών περιοχών σε ένα σήμα
ομιλίας είναι ένα βασικό και σημαντικό στάδιο επεξεργασιας στην αναγνώριση φωνής ( speech recognition ).Η
εντροπία δίνεται από τον παρακάτω μαθηματικό τύπο
Στην Εικόνα 3.10 έχουμε ιστογράμματα από την τυπική απόκλιση της φασματικής εντροπίας για τρία διαφορετικά
είδη ακουστικού σήματος : Ομιλίας , Μουσικής και ηχου περιβάλλοντος. Όσο μικρότερη είναι αυτή η τιμη τόσο
υπάρχουν μέσα στο ηχητικό σήμα περίοδοι παύσης .
Εικόνα 3.10 : Iστόγραμματα από την τυπική απόκλιση της φασματικής εντροπίας για τρία
διαφορετικά είδη ακουστικού σήματος [6].
Διαπιστώνουμε και πειραματικά αυτό που περιμέναμε από την κοινή παρατήρηση ότι δηλαδή η ανθρώπινη ομιλία
έχει μεγαλύτερες αυξομειώσεις της ενέργειας από ότι στις άλλες δυο περιπτώσεις.
Σελίδα 16 από 39
3.2.3 Φασματική Ροή ( Specral flux ).
H παράμετρος αυτή μας δείχνει τις μεταβολές στην φασματική κατανομή της ενέργειας , μεταξύ δύων
διαδοχικών γειτονικών χρονικών περιόδων του σήματος .Η φασματική ροή εκφράζεται από τον παρακάτω
μαθηματικό τύπο
Εικόνα 3.11 : Ιστογράμματα της μέσης τιμής της Φασματικής ροής για δυο διαφορετικά είδη
ακουστικού σήματος μουσικής και ομιλίας [6].
H τιμη της spectral flux χρησιμοποιείται για να ορίσει τον ρυθμό ( τέμπο ) σε ένα ακουστικό σημα .Στη Εικόνα 3.11
φαίνονται δυο Ιστογράμματα της μέσης τιμής της Φασματικής ροής για δυο διαφορετικά είδη σήματος μουσικής
και ομιλίας .Όπως μπορούμε να παρατηρήσουμε στην περίπτωση της μουσικής , όπου έχουμε ρυθμό , η τιμη είναι
σαφώς υψηλότερη ενώ στην ομιλία η οποία είναι ημιπεριοδικο φαινόμενο η τιμη είναι μικρότερη .Από την άλλη
μεριά επειδή έχουμε περισσότερα είδη εναλλαγών στον ανθρώπινο λόγο η φασματική ροή λαμβάνει περισσότερες
τιμές.
3.2.4 Φασματική απόσβεση ( Spectral Roll off ).
Μονάδες μέτρησης του Spectral Roll είναι τα Hz .Σε αναλογία με την συχνότητας αποκοπής στα φίλτρα διέλευσης
η παράμετρος αυτή δηλώνει την συχνότητα κάτω από την οποία συγκεντρώνεται όλη η ενέργεια του σήματος. Η
συχνότητα spectral Roll off μας δίνει πληροφορίες για το σχήμα της φασματικής κατανομής του σήματος.
Χρησιμοποιείται για τον διαχωρισμό των σημάτων ομιλίας και μη . Χρησιμοποιείται επίσης για τον διαχωρισμό
τραγουδιών μεταξύ τους .Ο γενικός κανόνας είναι ότι όσο μεγαλύτερη είναι η τιμη αυτή τόσο μεγαλύτερο είναι το
συχνοτικο περιεχόμενο του ακουστικού σήματος. Το Spectral Roll off εκφράζεται από τον παρακάτω μαθηματικό
τύπο
Όπου
• sk είναι η τιμη του φάσματος στο ραβδογραμμα k.
• b1 and b2 είναι τα δυο άκρα με βάση τα οποία υπολογίζεται η συχνότητα Roll off.
Σελίδα 17 από 39
• κ είναι το ποσοστό της συνολικής ενέργειας που περιέχεται μεταξύ των b1 και i..
Εικόνα 3.12 : H συχνότητα spectral Roll off για τέσσερα διαφορετικά είδη μουσικής [6].
Στην Εικόνα 3.12 βλέπουμε ένα παράδειγμα συσχέτισης της συχνότητας spectral Roll off σε τέσσερα διαδοχικά
διαφορετικά είδη μουσικής. Τα πρώτα 5 δευτερόλεπτα αντιστοιχούν σε μουσική κλασσικής μουσικής, τα επόμενα
10 σε δυο διαφορετικά είδη ηλεκτρονικής μουσικής , ενώ τα τελευταία πέντε δευτερόλεπτα σε μουσική jazz. Είναι
εύκολο να παρατηρήσει κάνεις ότι στην περίπτωση της ηλεκτρονικής μουσικής έχουμε μεγαλύτερη συχνότατα Roll
off αφού όπως έχουμε επισημάνει και σε προηγουμένη παράγραφό η ηλεκτρονική μουσική έχει μεγάλο φάσμα
συχνότητάς
3.2.5 ΜFCCs . Mel Frequency Cepstral Coefficient [8].
O συντελεστής ΜFCC είναι πολύ χρήσιμο και αξιόπιστο εργαλείο. Χρησιμοποιείται ευρέως στο πεδίο της
μηχανικής μάθησης για στην αναγνώριση φωνής. Πριν αναφερθούμε στα Mel Spectrograms θα πρέπει να
καταλάβουμε τι είναι τα Mel Scale και γιατί είναι τόσο χρήσιμα στην επεξεργασία σήματος . H Mel scale είναι μια
λογαριθμική έκφραση της συχνότητας του υπό εξέταση σήματος . Αυτός ο μετασχηματισμός κρίθηκε αναγκαίος διότι
η πράξη έδειξε ότι ο άνθρωπος αν και είναι εύκολο να διακρίνει την διαφορά μεταξύ ενός ήχου συχνότητας 100 Hz
από έναν ήχο 200 Hz του είναι δύσκολο να ξεχωρίσει έναν ήχο 1100 Hz από έναν ήχο 1200 Hz. To ανθρώπινο αυτί έχει
δηλαδή την ιδιομορφία όσο ποιο ψηλές είναι οι συχνότητες τόσο ποιο δύσκολο είναι να τις ξεχωρίσει .Το παραπάνω
γεγονός κάνει τα Mel Social δυνατό εργαλείο σε διαδικασίες αναγνώρισης και διαχωρισμού κάνοντας χρήση της
τεχνητής νοημοσύνης αφού κάτ. ουσία μιμείται την αντίληψη του ανθρώπου ως αναφορά τις συχνότητες .
Ο μετασχηματισμός των Hz σε κλίμακα Μel δίνεται από την παρακάτω σχέση
Εικόνα 3.13 :Διάγραμμα Μel vs Hz [9].
Όπως παρατηρούμε στην Εικόνα 3.13 στο διάγραμμά οι μικρότερες συχνότητες απέχουν μεταξύ τους
περισσότερο από ότι οι μεγάλες επειδή ενώ οι τιμές Mel values αυξάνονται γραμμικά τα Hz αυξάνονται εκθετικά
Σελίδα 18 από 39
λογαριθμική σχέση γαρ. Mε την βοήθεια το melSpectrogram μπορούμε να οπτικοποιησουμε ηχητικά σήματα.
Παράδειγμα οπτικοποιησης δίνεται στις παρακάτω δυο εικόνες Εικόνα 3.14 και Εικόνα 3.15
Εικόνα 3.14 : Οπτικοποιησης ηχου με την χρήση του Mel Scale [8].
Κλασσικά στον άξονα x έχω τον χρόνο και στον άξονα y την συχνότητα Προσοχή ο άξονας του y δεν είναι
γραμμικός αλλά λογαριθμικός δηλαδή σε Mel. Για κάθε τιμη της συχνότητας έχουμε διαφορετικό χρώμα το οποίο
αντιστοιχεί σε διαφορετική ισχύ Κατ’ ουσία δηλαδή το διάγραμμα είναι τρισδιάστατο. Κίτρινο χρώμα αντιστοιχεί σε
- 30 db. ισχύ (power ).
Ας κανουμε εδώ μια μικρή παρένθεση και να αναφερθούμε στο ταλαιπωρημένο db. To ντεσιμπέλ (decibel,
συντομογραφία dB) είναι μονάδα η οποία ακολουθεί λογαριθμική κλίμακα και στην οποία εκφράζεται η διάφορα ο
λόγος στάθμης μίας φυσικής ποσότητας σε σχέση με μια άλλη . Άλλες φορές παρουσιάζεται ως καθαρός αριθμός
(λόγος σύγκρισης ) και άλλες φορές με μονάδες ισχύος ή ενέργειας. Στην περίπτωση μας εικόνα 12 δεν είναι λόγος
σύγκρισης αλλά ισχύς Sound power level (SWL).H ισχύς του ηχητικού βήματος σημειώνεται ως LW και δίνεται από
την μαθηματική σχέση
Όπου :
• P είναι η ισχύς του σήματος που εξετάζουμε ( sound power) .
• P0 η ισχύς αναφοράς η οποία αντιστοιχεί σε 1 pW
Στην εικόνα 13 βλέπουμε τρεις διαφορετικούς ήχους .Στην πρώτη περίπτωση από αριστερά παριστάνεται ο ήχος
μιας κιθάρας , στην μέση ένα λάκτισμα και στην δεξιά μιας ντραμς. Η οπτικοποιησης και η όλη επεξεργασία έγινε με
την βοήθεια της βιβλιοθήκης Python LIbrosa [10]
Εικόνα 3.15: Οπτικοποιηση τριών διαφορετικών ήχων μια κιθάρας , μιας κλωτσιάς και μιας ντραμς
με την χρήση του Mel Scale [8].
Σελίδα 19 από 39
3.2.6 Διανυσμα χρώματος ( chroma vector ) [11].
Για να μπορέσουμε να παρουσιάσουμε το Διανυσμα χρώματος (Chroma vector ) και την εφαρμογή του το
χρωμογραφημα ( Chromagram ) είναι απαρατήρητο να κάνουμε αναφορά σε στοιχεία μουσικολογίας. Απαραίτητα
θα πρέπει να αποσαφηνίσουμε τι είναι pitch και τι οκτάβα .Στην Εργασία θα κρατήσουμε τον όρο pitch ως έχει θα
μπορούσαμε να τον αποδώσουμε με τον όρο Τόνος ή τονικότητα αλλά προτιμήσαμε τον αγγλικό όρο προς αποφυγή
παρεξηγήσεων. Με τον όρο Pitch μπορούμε να αποφανθούμε εάν ένας ήχος είναι μπάσος ή πρίμος. Θα μπορούσε
κάποιος να συσχετίσει το pitch με την συχνότητα του ήχου μεγάλη ή μικρή αλλά αυτή η συσχέτιση δεν είναι
ακριβής . Η συχνότητα του ήχου είναι ένα καθαρά μετρήσιμο φυσικό μέγεθος ενώ αντίθετα ο όρος Pitch είναι εν
μέρη υποκειμενικός όπως και οι μουσικές νότες με τις οποίες έχουν μια αναλογία .Τα pitches κατηγοριοποιούνται
σε δώδεκα κλασεις ( Τα pitch δεν είναι οι νότες ).
Σύμφωνα με τη δυτική μουσική θεωρία, υπάρχουν επτά νότες και ακούν στα ονόματα Ντο, Ρε, Μι, Φα, Σολ, Λα και
Σι, ενώ οι αντίστοιχες αγγλικές ονομασίες είναι C, D, E, F, G, A και B. Αυτό δεν θα πρέπει να μας κάνει να τις συγχέουμε
με τα Pitch διότι οι νότες είναι επτά ΝΤΟ-ΡΕ-ΜΙ-ΦΑ-ΣΟΛ-ΛΑ-ΣΙ και όχι δώδεκα . Στη μουσική με τον όρο “οκτάβα”
χαρακτηρίζουμε μια νότα που έχει ακριβώς τη διπλάσια ή τη μισή συχνότητα από έναν δοσμένο τόνο. Αυτό δημιουργεί
την υποκειμενική αίσθηση της απόλυτης ταύτισης των φθόγγων ( νότες ) με τη διαφορά, ότι αυτοί με την υψηλότερη
συχνότητα γίνονται αντιληπτοί ως οξύτεροι, ενώ με τη χαμηλότερη ως βαρύτεροι. Κατά τα αντιστοιχία με τις νότες οι
κλασεις των δώδεκα pitch (Chroma value ) επαναλαμβάνονται ανά οκτάβα .Οι δώδεκα αυτές κλασεις των Pitches
αντιστοιχούν στο C, C♯, D, D♯, E , F, F♯, G, G♯, A, A♯, B .
Κάθε οκτάβα έχει τα Pitches , υπάρχει ένα Pitch C στην πρώτη οκτάβα και ένα άλλο Pitch C στην επόμενη οκτάβα
τα δυο αυτά Pitch έχουν διαφορετική συχνότητα παρόλα αυτά ακούγονται σαν ίδια .Όλες τα Pitch C από όλες τις
οκτάβες τις ονομάζουμε κλάση C. Η κλάση C , A ,D κοκ αποτελεί το Chroma value .Chroma Vector σε ένα ήχο είναι
το άθροισμα ας πούμε καταχρηστικώς διανυσματικό των Chroma values του ακουστικού σήματος το οποίο όπως
έχουμε αναφέρει είναι ένα μπουκέτο από συχνότητες διαφορετικού πλάτους οι οποίες όταν φτάνουν στο ανθρώπινο
αυτί δημιουργούν την αίσθηση του ήχου .Το αυτί όμως δεν είναι ούτε παλμογράφος ούτε Spectrum analyzer
αντιλαμβάνεται με τον δικό του τρόπο αυτό τον ήχο .Στην Εικόνα 3.16 βλέπουμε το Chromagram από το τραγούδι
Rich Girl’ by Hall & Oates [12]
Εικόνα 3.16 : Chromagram από το μουσικό κομμάτι Rich Girl’ by Hall & Oates [8].
Κλασσικά στον άξονα x o χρόνος , ενώ στον άξονα y οι κλασεις Picth Α , Β , G ,F ,D .To κίτρινο σημαίνει ότι στην
συγκεκριμένη χρονική στιγμή έχουμε αυξημένη συνιστώσα της αντίστοιχης κλάσης και το σκούρο χρώμα το αντίθετο
Η λογική είναι ιδιά με το spectrogram που αναπτύξαμε στην προηγουμένη παράγραφο. Παράδειγμα στο παραπάνω
μουσικό τραγούδι την χρονική στιγμή 0.16 sec έχουμε παρουσία της C κλάσης. Όπως παρατηρούν όσοι έχουν κάποια
μουσική παιδεία ( εγώ δεν έχω , λίγο τρίγωνο στα κάλαντα ) το
Εικόνα 3.17 : Chromagram του D μινόρε.
Σελίδα 20 από 39
συγκεκριμένο μουσικό κομμάτι πατάει στο κλειδί του F ματζόρε , για αυτό και η πλειονότητα των κλάσεων με ισχυρή
παρουσία βρίσκονται στις κλάσεις F, G, A, Bb, C, and D. Στην Εικόνα 3.17 βλέπουμε την αναπαράσταση του D μινόρε
σε χρωμογραφημα. Όπως παρατηρούμε ο ήχος είναι απαλλαγμένος από θόρυβο .Ξεκάθαρα μπορούμε να
διακρίνουμε ότι οι ισχυρές κλασεις (κίτρινο χρώμα ) είναι οι C , D, F και Α το οποίο είναι και το αναμενόμενο από το
μουσικό κλειδί F ματζόρε.
Σελίδα 21 από 39
ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ ΑΚΟΥΣΤΙΚΟΥ ΣΗΜΑΤΟΣ ΣΕ ΠΡΑΓΜΑΤΟΛΟΓΙΚΟ ΕΠΙΠΕΔΟ
(ANNOTATION )
4. MIR Εργαλειοθήκη του MATLAB για επεξεργασία ακουστικού σήματος .
4.1 Γενική περιγραφή της εργαλειοθήκης MIR.
Η εργαλειοθήκη ΜIRToolBox [13]είναι μια βιβλιοθήκη συναρτήσεων του MATLAB η οποία σχεδιάστηκε ώστε
να εξάγει πληροφορίες μουσικού περιεχομένου από ηχητικά σήματα .Η εξαγωγή αυτών των χαρακτηριστικών γίνεται
μέσω στατιστική ανάλυσης των δειγμάτων .Τέτοιες πληροφορίες είναι το ηχόχρωμα (timbre) η τονικότητα (tonality,)
ο ρυθμός (rhythm) ή το μοτίβο (Form). Το ΜIRToolBox περιέχει επίσης επιπρόσθετα συναρτήσεις κατασκευασμένες
για στατιστική ανάλυση τμηματοποίησης (segmentation) και ομαδοποίησης ( clustering ) δεδομένων. Τα δεδομένα
και οι μέθοδοι είναι φτιαγμένα με αντικειμενοστραφή προσανατολισμό .και αρχιτεκτονική .Είναι λίγα τα λογισμικά
τα οποία κάνουν παρόμοια δουλειά .Στον αντίποδα του ΜIRToolBox είναι το Marsyas (Music Analysis, Retrieval and
Synthesis for Audio Signals) το οποίο είναι και ανοικτού κώδικα επιπροσθέτως [14]. Στην Εικόνα 4.1 παραθέτονται σε
σχηματικό διάγραμμα τα χαρακτηριστικά και οι πληροφορίες που μπορούν να εξαχθούν με το ΜIRToolBox και δεν
είναι οι μόνες
Εικόνα 4.1 : Πληροφορίες που μπορούν να εξαχθούν μέσω του ΜIRToolBox [15].
Η επεξεργασία ξεκινά από αριστερά και καταλήγει δεξιά .Πάνω είναι οι απλές διαδικασίες επεξεργασιας ενώ
τέρμα κάτω οι ποιο συνθέτες και λεπτομερείς. Βασικό εργαλείο του ΜIRToolBox για την εξαγωγή πληροφοριών στο
πεδίο της συχνότητας είναι η FFT .H Fast Fourier transform η οποία είναι ένας αλγόριθμος που υπολογίζει γρήγορά
τον διακριτό μετασχηματισμό Fourier. Διακριτός διότι το αναλογικό σήμα έχει υποστεί δειγματοληψία. Ορισμένες
μουσικές πληροφορίες που μπορούμε να εξορύξουμε με την βοήθεια της FFT είναι :
➢ Ανάλυσης ηχοχρώματος. Η Χροιά του ηχου το ηχόχρωμα το οποίο προσδιορίζεται πιθανοκρατικα μέσω των
τιμών του spectral Centroid , το Roll-off και του brightness.
➢ Ανάλυσης τονικότητας . Η εκτίμηση του pitch γίνεται με την βοήθεια της αυτοσυσχετισης της φασματικής
καμπύλης.
➢ Ανάλυσης ρυθμικότητας. Παραγωγιζοντας στον χρόνο την καμπύλη του φασματογραφήματος υπολογίζουμε την
τιμη της spectral flux η οποία μας με την σειρά της μας δίνει πληροφορίες για τον ρυθμό (περίοδο ).
Παρακάτω θα αναλύσουμε εκτενώς τα τρία παραδείγματα που αναφέραμε προηγουμένως
4.2 Παράδειγμα ανάλυσης ηχοχρώματος [15].
Σελίδα 22 από 39
Ένας απλός και εύχρηστος τρόπος να προσδιορίσουμε την χροιά βασίζεται στον υπολογισμό των συντελεστών
MFCCs Mel-frequency cepstral coefficients (MFCCs). Στην Εικόνα 4.2 βλεπουμε την διαδικασια και τα σταδια
επεξεργασιας. Αρχικα .το σημα ηχου χωριζεται σε κομματια (Frames ). Χρησιμοποιώντας την συνάρτηση mirspectrum
κάνω ανάλυση στο πεδίο της συχνότητας του σήματος παίρνω το φάσμα και κατόπιν το μετατρέπω σε Mel-scale.
Σκοπός της όλης διαδικασίας είναι να υπολογίσω τους 40 συντελεστές MFCC . Οι συντελέστε αυτοί αντιστοιχούν σε
40 περιοχές συχνοτήτων. Αυτό γίνεται Θετοντας 40 ζωνοπερατα φίλτρα στο υπό επεξεργασία σημα εχω τους
αντίστοιχους 40 συντελεστές. Συνήθως δεν χρησιμοποιούνται όλοι οι συντελεστές για την εξαγωγή συμπερασμάτων.
Η χροιά είναι η ιδιαιτερότητα του κάθε ήχου και μας δίνει την δυνατότητα να τον ξεχωρίζουμε από τους άλλους. Ενώ
δεν ξέρουμε γερμανικά ή κινέζικα παραταυτα μπορούμε να διακρίνουμε έναν ομιλητή Γερμανό ή κινέζο .Εάν
ακούσουμε δύο ήχους ίδιας έντασης ακόμα και ίδιας νότας από μια κιθάρα και από ένα πιάνο καταλαβαίνουμε
εύκολα από ποιο όργανο προέρχεται ο καθένας και ο λόγος είναι ότι το πιάνο και η κιθάρα έχουν διαφορετικό
ηχόχρωμα (Timbre).
Η όλη διαδικασια μπορεί να εκτελεστεί σε μια μόνο γραμμή εντολών καλώντας την mimic function Έχοντας
σαν όρισμα το αρχείο ηχου .
Εικόνα 4.2 :Διαδικασια και τα σταδια επεξεργασιας MFCCs [15].
4.3 Παράδειγμα ανάλυσης τονικότητας [15].
Για την ανάλυση και τον προσδιορισμό της τονικότητας χρησιμοποιείται το Chromagram το οποίο παρουσιάσαμε
και σε προηγουμενη ενότητα .Το εξαγόμενο διάγραμμα Chromagram δείχνει την κατανομή της ενέργειας σε σχέση
με τις δώδεκα κλασεις των pitches .Ο C. Krumhansl at al [16] παρουσίασαν μια μέθοδο για τον υπολογισμό της
τονικότητας ενός μουσικού κομματιού .Η μέθοδος υπολογίζει την ετεροσυσχετση της κατανομής των κλάσεων του
υπό εξέταση δείγματος με δείγματα κάθε δυνατής τονικότητας .Η μέθοδος βασίζεται σε στατιστικά δεδομένα
διαφόρων ειδών μουσικής ως προς την τονικότητα. Όσο μεγαλύτερη είναι η τιμη της ετεροσυσχετιση τόσο η
τονικότητα του υπό εξέταση κομματιού είναι όμοια με την τονικότητας του αντίστοιχου δείγματος από την βάση
δεδομένων . Η Εικόνα 4.3 δείχνει τα σταδια και την διαδικασια υπολογισμού της τονικότητας. Στο τελικό στάδιο τέρμα
δεξιά έχουμε τους συντελεστές βάρους Key strength για κάθε κλάση
Εικόνα 4.3 :Διαδικασια και τα σταδια επεξεργασιας για την ανάλυση της τονικότητας [15].
Σελίδα 23 από 39
Μια ποιο ακριβή προσέγγιση της τονικότητας γίνεται με την βοήθεια του self-organizing map (SOM) .Το SOM
ανήκει στις τεχνικές μη καθοδηγουμένης εκμάθησης μηχανικής μάθησης ( Machine learnig ) η τεχνική της μη
καθοδηγούμενης εκμάθησης έχει σαν στόχο την διαμόρφωση ομάδων δεδομένων ,στην περίπτωση μας η τονικότητα
των μουσικών κομματιών με την βοήθεια κάποιων κριτήριων ομοιότητας [17]. Δεν απαιτείται η χρησιμοποίηση
προηγούμενων δεδομένων εκπαίδευσης αλλά η ομαδοποίηση γίνεται απευθείας από τα δεδομένα εισόδου Η
εκτίμηση της τονικότητας γίνεται μετατρέποντας το αποκτηθεν Chromagram σε χάρτη SOM. Στην Εικόνα 4.4
βλεπουμε τον χάρτη SOM των δυο πρώτων δευτερολέπτων της σονάτας Mozart σε A ματζόρε. Οι περιοχές με
φωτεινές αποχρώσεις αντιστοιχούν σε κλασεις με ισχυρή παρουσία.
Εικόνα 4.4 : Χάρτης SOM ( self-organizing map ) ως προς την τονικότητα [15].
4.4 Παράδειγμα ανάλυσης ρυθμικότητας [15].
Ένας συνηθισμένος τρόπος εκτίμησης του ρυθμού περιγράφεται στην Εικόνα 4.5 και βασίζεται στην ακουστική
μοντελοποίηση. Αρχικα το ηχητικό σημα χωριζεται σε ακουστικά κανάλια χρησιμοποιώντας κλασσικά μια συστοιχία
ζωνοπερατων φίλτρων. Τα φίλτρα αυτά μπορεί να είναι μέχρι είκοσι. Η ρυθμικότητα γενικά συσχετίζεται με τις
αυξομειώσεις της ενεργείας. Η κυματομορφη envelope των αυξομειώσεων ανορθώνεται για να έχουμε μια ποιο
λεπτομερή περιγραφη των αυξομειώσεων για κάθε περιοχή
Εικόνα 4.5 : Διαδικασια και τα σταδια επεξεργασιας για την ανάλυση της ρυθμικότητας ( Tempo) [15].
Η περιοδικότητα υπολογίζεται με την βοήθεια της αυτοσυσχετισης .Στην περίπτωση που το Tempo , ρυθμός
μεταβάλλεται κατά την διάρκεια του τραγουδιού είναι αναγκαίο ο υπολογισμός να γίνεται χωρίζοντας το τραγούδι
σε μικρά κομματια ( Short term – processing ). Για την εκτίμηση της περιοδικότητας το periodogram φιλτράρεται
στοχευμενα με αποτερω σκοπό να βρω την πιθανή ρυθμικότητα . Η πιθανή ρυθμικότητα θα «βγάζει» , θα εμφανίζει
υψηλά peaks τα οποία αντιστοιχούν στο Tempo ( beat per minutes). Όλη αυτή η διαδικασια που περιγράψαμε
παραπάνω μπορεί να εκτελεστεί σε μια μόνο γραμμή εντολών καλώντας απευθείας την συνάρτηση ( κλάση )
midtempo με όρισμα a το υπό εξέταση σημα , και frame η χρονική περίοδος στην οποία θα επεξεργαστεί αφού
πρώτα κοπεί το υπό εξέταση αρχείο
Σελίδα 24 από 39
mirtempo(a,’Frame’)
4.5 Κατακερματοποιση δεδομένων . ( Data Segmentation ) [15].
H κατακερματοποιση δεδομένων είναι η διαδικασια κατά την οποία τα δεδομένα χωρίζονται ανά ομάδες .Στην
περίπτωση μας δεδομένα είναι οι διακριτές τιμές του δειγματοληπτημενου ακουστικού σήματος. Τα κριτήριά
ομαδοποίησης μπορεί να είναι πολλά και ορίζονται ανάλογα την εφαρμογή. Ο διαχωρισμός γίνεται με σκοπό την
αποδοτικότερη και γρηγορότερη ανάλυση των δεδομένων .Ο πόλεμος του Big Data τώρα αρχίζει. Στην παράγραφο
αυτή θα παρουσιάσουμε την διαδικασια ομαδοποίησης με κριτήριο την ρυθμικότητα. Στην Εικόνα 4.6 φαίνεται
διαδικασια και τα σταδια Κατακερματοποιησης - ομαδοποίησης με κριτήριο της ρυθμικότητα. Με την Βοήθεια του
MIR Toolbox μπορούμε αυτόματα να ομαδοποιήσουμε ηχητικά σήματα τα οποία παρουσιάζουν ομοιογένεια .Ο
κατακερματισμός αυτός γίνεται συγκεκριμένα με κριτήριο της χρονικές μεταβολές στην ένταση σε συνδυασμό με
αλλά χαρακτηριστικά όπως το ηχόχρωμα ( timbre ).
Εικόνα 4.6 :Διαδικασια και σταδια κατακερματοποιησης με κριτήριο την ρυθμικότητα [15].
Αρχικά το κομμάτι χωριζεται σε frames . Για κάθε κομμάτι υπολογίζονται οι συντελεστές MFCC .Στο επόμενο
στάδιο κατασκευάζεται o πίνακας εγγύτητάς similarity matrix για το σύνολο των frames . Κάνοντας χρήση της
μαθηματικής συνέλιξης βρίσκουμε την Novelty. Στον όρο Novelty μπορούμε να αποδώσουμε την έννοια της
μικροδιαφοράς , της διαφορετικότητας. Προσδιορίζοντας τις μικροδιαφορές λοιπόν δημιουργούμε ένα τελικό πίνακα
εγγύτητάς απαλλαγμένο από θόρυβο ( Πίνακας τέρμα δεξιά ) Η παραπάνω διαδικασια αυτόματα επισημάνει τις
χρονικές στιγμές οπού έχουμε σημαντικές διάφορες σε μουσική η ήχο και έτσι κατασκευάζει τις συστάδες
δεδομένων
4.6 Ανάλυση δεδομένων . [15]
To MIRToolbox περιέχει διαφορά εργαλεία για την ανάλυση δεδομένων .Τέτοια εργαλεία είναι ο Peak extractor
ανιχνευτής κορυφών και συναρτήσεις η οποίες υπολογίζουν ιστογράμματα ,εντροπία ενέργειας διαπεραση του
μηδενός , ανιχνεύουν ασυνέχειες . Επιπρόσθετα περιέχει εργαλεία στατιστικά ανάλυσης τα οποία δίνουν
παραμέτρους όπως η διασπορά , η κλίση ( Spectral Skewness ) η επιπεδοτητα ( Spectral Flatness ) σε διάφορες τύπου
απεικονίσεις όπως ιστογράμματα , διαγράμματα κορυφών , φασματογράμματα συχνοτήτων .Oι συναρτήσεις
mirpeaks προσφέρουν επιπλέον δυνατότητες στην ανάλυση δεδομένων. Αυτό γίνεται καθορίζοντας ένα κατώφλι
επιλογής .Εφαρμόζοντας κατόπιν μοντέλα καθοδηγουμένης εκμάθησης , χρησιμοποιώντας τεχνικές όπως αυτής της
K-Nearest Neighbours or Gaussian Mixture Model μπορούμε να κατηγοριοποιήσουμε ηχητικά αρχεία πχ μουσική σε
ομάδες όπως κλασσική μουσική , ποπ , ποντιακή κ.α.
Σελίδα 25 από 39
ΠΑΡΑΔΕΙΓΜΑΤΑ ΕΦΑΡΜΟΓΩΝ .
5 ΧΡΗΣΗ ΤΗΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΓΙΑ ΤΗΝ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΑΝΑΛΥΣΗ ΜΟΥΣΙΚΗΣ .
5.1 Συντομη παρουσιαση της μηχανικης μαθησης.
Κρίθηκε απόλυτα αναγκαίο να κανουμε μια μικρή παρουσιαση της μηχανικής μάθησης η οποία θα
χρησιμοποιηθεί για την συναισθηματική ανάλυση διότι είναι ένας καινούργιος κλάδος της επιστήμης των
υπολογιστών και έχει καινούργιους δυσνόητους όρους. Θα προσπαθήσουμε να συνδέσουμε την θεωρία της
μηχανικής μάθησης με το αντικείμενο της παρούσης εργασίας με όσο γίνεται ποιο απλά λόγια. Machine Learnig
Μηχανική μάθηση είναι πεδίο της επιστήμης των υπολογιστών που αναπτύχθηκε από τη μελέτη της αναγνώρισης
προτύπων. Ο υπολογιστής δηλαδή καλείτε να αναγνώριση πρότυπα ( μοτίβα ) στην περίπτωση μας π.χ ένα χορευτικό
κομμάτι από μια μπαλάντα. Η μηχανική μάθηση βασίζεται στην κατασκευή αλγορίθμων που μπορούν να μαθαίνουν
από τα δεδομένα και να κατόπιν να κάνουν προβλέψεις σχετικά με αυτά . Με απλά λόγια Κατά αντιστοιχία με τον
άνθρωπο ο οποιος μαθαίνει στο διάβα του βίου του , ωριμάζει ,«εκπαιδεύεται» και μπορεί με ακρίβεια και αξιοπιστία
να διακρίνει και να ξεχωρίζει . Οι αλγόριθμοι της μηχανικής μάθησης μπορούν να εκπαιδεύονται από τα δεδομένα
εισόδου. Θα πρέπει δηλαδή να εκπαιδεύσουμε το πρόγραμμα μας ( software ) πριν το βάλουμε να δουλέψει
δηλαδή να ξεχωρίσει π.χ εάν ένα τραγούδι είναι χορευτικό ή μπαλάντα. Η εκπαίδευση υλοποιείται όχι με τον
πατροπαράδοτο τρόπο γράφοντας ξεχωριστό custom κώδικα αλλά «αυτόματα». Βάζουμε λοιπόν τον υπολογιστή
να ακούσει 5 ζεϊμπέκικα και του λεμέ αυτό είναι ζεϊμπέκικο .Κατόπιν βάζουμε τον υπολογιστή να ακούσει 5
τσιφτετέλια και του λεμέ αυτό είναι τσιφτετέλι .Η μηχανή κατόπιν μπορεί και κάνει τον απαιτούμενο διαχωρισμό.
Μια κατηγορία μεθόδου μηχανικής μάθησης είναι το supervised Machine learnig ( Επιβλεπόμενη μάθηση) όπου
τα δεδομένα που εισάγονται είναι ήδη προσημασμενα [17]. O ταξινομητης support vector Machine (SVM) που θα
αναφερθούμε παρακάτω είναι ένα παράδειγμα supervised Machine learnig. Αντίθετα στο Unsupervised Machine
learnigng ( μη-επιβλεπόμενη μάθηση) τα εισαγόμενα δεδομένα δεν είναι προσημασμενα .Ο ίδιος ο αλγόριθμος
βρίσκει τα κρυμμένα μοτίβα και ομαδοποιεί τα δεδομένα Οι αλγόριθμοι αυτοί δηλαδή δεν χρειάζονται την
ανθρώπινη παρέμβαση .Έχουν την ικανότητα να βρίσκουν μόνοι τους τις ομοιότητες ή τις διαφορές . Η μη-
επιβλεπόμενη μάθηση αποτελεί κατηγορία της μηχανικής μάθησης, στόχος της οποίας είναι η ανακάλυψη της πιθανής
δομής που μπορεί να κρύβεται ακόμα και πίσω από μη χαρακτηρισμένα δεδομένα. Διότι άλλα τα μάτια του λαγοί αλλά
της κουκουβάγιας Η έρευνα που θα παρουσιάσουμε βασίζεται στην δευτερη μεθοδο
5.2 Εισαγωγή – προεπισκόπηση της εφαρμογής.
Η αναγνώριση συναισθημάτων μουσικής music emotion recognition (MER ) σχετίζεται με διάφορες τάξεις κλάδων
όπως η μουσικολογία, η ψυχολογία και η φυσιολογία. Με τη συνεχιζόμενη πρόοδο στον τομέα της ανάκτησης
δεδομένων ηχου (βλέπε Matlab ) υπάρχει ένας ενθουσιασμός για τη διερεύνηση και την κατανόηση του
πολυδιάστατου περιεχομένου της μουσικής. Η ικανότητα της μουσικής να επηρεάζει τα συναισθήματά του ανθρώπου
,έστρεψε την προσοχή της επιστημονικής κοινότητας στο πεδίο της συναισθηματικής ανάλυσης .Όμως ,λόγω του
τεράστιου όγκου της μουσικής και της ποικιλίας του μουσικού περιεχομένου ( παραδοσιακά, ροκ κ.ο.κ ) ,η
διαδικασια εξευρενεσης και προσδιορισμού του συναισθήματος συναντά δυσκολίες και αναπάντητα ακόμα
ερωτηματικά. Πολλοί ερευνητές στην προσπάθεια συναισθηματικής ανάλυσης χρησιμοποιούν τα μεταδιδόμενα (
metadata ) του τραγουδιού όπως τίτλος , τραγουδιστής , χρονολογία καθώς επίσης εξαγόμενα χαρακτηριστικά του
όπως φωτεινότητα, ο ρυθμός κ.ο.κ .Χαρακτηριστικά δηλαδή σε επίπεδο annotation όπως τα παρουσιάσαμε στο
κεφάλαιο 3 της παρούσης εργασίας.
Το έργο της εν γένη επιστημονικής κοινότης μέχρι πρότινος ήταν στην διερεύνηση του τρόπου που η μουσική
επηρεάζει τα συναισθήματα δεν υπάρχουν μελέτες για την ποσοτικοποίηση και την κατηγοριοποίηση των
ανθρώπινων συναισθημάτων στη μουσική. Μια από τις ποιο ενδιαφέρουσες προσεγγίσεις προσδιορισμού των
συναισθημάτων στην μουσική είναι το μοντέλο συναισθημάτων του Russell [18]. Εμείς θα ασχοληθούμε με το απλό
δισδιάστατο μοντέλο το οποίο προσφέρει ένα απλό και αποτελεσματικό εργαλείο ταξινόμησης. Στην Εικόνα 5.1
δίνεται το μοντέλο. Στο άξονα x είναι η τιμη σθένος ( Valence ) ενώ στον άξονα y είναι η ερωτική διάθεση , διέγερση
( arousal )
Σελίδα 26 από 39
Εικόνα 5.1 : Δισδιάστατο μοντέλο συναισθημάτων του Russell [19].
Ένα παράδειγμα εφαρμογής της αναγνώρισης συναισθημάτων μουσικής είναι τα προηγμένα συστήματα
συστάσεων μουσικής ( βλέπε spotify ) με στόχο την δημιουργία προσωπικής μουσικής βιβλιοθήκης σύμφωνα με το
γούστο του χρήστη. Άλλες παρόμοιες εφαρμογές συναντιούνται στην μουσικοθεραπεία για την αντιμετώπιση
συναισθηματικών διαταραχών σε ανθρώπους και όχι μόνο . Η εφαρμογή spotify προτείνει λίστες μουσικής για
διάφορες ανθρώπινες δραστηριότητας όπως διάβασμα , γράψιμο , τρέξιμο , Cross fit. Σε πρόσφατες έρευνες, έχει
αποδειχθεί ότι η επιλογή κατάλληλης μουσικής μπορεί να βελτιώσει την ψυχολογική κατάσταση του ακροατή ή
αντίστοιχα να βελτιώσει την επίδοση του σε αερόβιές ή αναερόβιες δραστηριότητας. Στόχος αυτής της εργασίας είναι
να παρουσιάσει την αυτοματοποιημένη διαδικασία αναγνώρισης μουσικών συναισθημάτων για διάφορα είδη
μουσικής. Το αυτοματοποιημένο αυτό σύστημα μπορεί επίσης να θεωρηθεί ως η σκουληκοτρυπα δυο διαφορετικών
επιστημονικών πεδίων της Μηχανικής Μάθησης ( Machine Learnig ) με την ανθρώπινη ψυχολογία ( Human
psychology) . Η υλοποίηση του συστήματος ( μοντέλου ) βασίστηκε στην επεξεργασία οκτώ διακριτών
χαρακτηριστικών του ήχου. Τα Χαρακτηριστικά αυτά είναι ο τόνος , ο ρυθμός , οι συντελεστές MFCC , η τονικότητας ,
το mode , η φωτεινότητας, η συχνότητα Roll-off και η ενέργεια. Χαρτογραφήθηκαν επίσης οι τέσσερις βασικές
κατηγορίες διάθεσης [18]
Στην εικόνα 22 φαίνεται ποιο παραστατικά το δισδιάστατο μοντέλο συναισθημάτων του Russell που αναφέραμε
προηγουμένως Υπάρχουν και πιο λεπτομερή ελικοειδή τρισδιάστατα μοντέλα απεικόνισης του συναισθήματος αλλά
δεν είναι αντικείμενο της παρούσης εργασίας γιατί θα πλατειάσουμε. Η κατηγοριοποίηση των μουσικών κλιπ έγινε
με βάση τη θεωρία των Gabrielsson και Lindström [20]. Για την εκπαίδευση του μοντέλου έγινε χρηση του Social tag
last.fm. Στη συνέχεια πραγματοποιήθηκε αυτόματη ομαδοποίηση με την χρηση του μαθηματικού αλγόριθμου K-
means. Ο αλγόριθμος k-means [21] έχει χρησιμοποιηθεί κατά κόρον στην εξόρυξη πληροφορίας και στην δημιουργία
συστάδων . Τέλος, συγκρίθηκαν τα αποτελέσματα από διάφορους αλγόριθμους μηχανικής μάθησης, όπως ANN,
linear discriminant, ensemble Learner και SVM για την αξιολόγηση της μεθόδου.
5.3 Θεωριες πανω στις οποιες βασιστηκαν το μοντελο της συναισθηματικης αναλυσης .
Το 2009 ο Han at al [22]και λίγο αργότερα το 2016 ο Han at al [23] στην ερευνητική τους εργασία διαπίστωσαν
πως κοινά χαρακτηριστικά του ήχου, όπως το ύψος ,η χροιά ,το τέμπο ,ο ρυθμός , η ενέργεια, δίνουν σημαντικές
πληροφορίες στον προσδιορισμό συναισθημάτων. Το 2014, ο Saurabh H. Deshmukh [10]
Σελίδα 27 από 39
Εικόνα 5.2 : Δισδιάστατο μοντέλο συναισθημάτων του Russell.
χρησιμοποίησε το Brightness ως νέο εργαλείο συναισθηματικής ανάλυσης . Η εργασία των Gabrielsson και Lindström
[20] απέδειξε την ύπαρξη ενός ένα μοτίβου σύνδεσης της μουσικής με το συναίσθημα. Σύμφωνα με το μοτίβο αυτό η
διέγερση ( Arousal ) έχει συνάφεια με παραμέτρους όπως ο ρυθμός ( γρήγορος ή αργός ), την φωτεινότητα (
υψηλή ΄ή χαμηλή ), τον τόνο (υψηλός ή χαμηλός ) και το ηχόχρωμα (απαλό ή φωτεινό). Αντίστοιχα το σθένος (
Valence ) έχει συνάφεια με το mode (ελάσσον ή μείζον) και την αρμονία ( σύμφωνη ή συγκρουσιακή ). Ωστόσο, το
πιο σημαντικό είναι ότι οι Hevner [24]και Rigg [25] έδειξαν ότι η έννοια του συναισθήματος δεν εξαρτάται σχεδόν από
έναν μόνο χαρακτηριστικό που αναφέραμε αλλά σε συνδυασμό τους. Για παράδειγμα, οι δυνατές συγχορδίες και οι
συγχορδίες με υψηλό τόνο σχετίζονται με πιο θετικό σθένος από τις απαλές συγχορδίες και τις χαμηλόφωνες
συγχορδίες, ανεξάρτητα από τον τρόπο λειτουργίας.
5.4 Machine Learning Approaches [19]
Με βάση λοιπόν τις μελέτες της ψυχολογίας που αναφέρθηκαν παραπάνω οι μηχανικοί της πληροφορικής και οι
ειδήμονες της μηχανικής μάθησης πιάσανε δουλειά. Το σύστημα αναγνώρισης μπορεί να χωριστεί στα ακόλουθα
στάδια όπως φαίνεται και στο Σχήμα 5.3 και βασίζεται στην μεθοδο UnSupervised learnig .
Σχήμα 5.3 : Σταδια επεξεργασιας για την συναισθηματική ανάλυση ηχητικού σήματος [19].
Semadic audio modeling nikolaidis dimitrios εργασια .up dated
Semadic audio modeling nikolaidis dimitrios εργασια .up dated
Semadic audio modeling nikolaidis dimitrios εργασια .up dated
Semadic audio modeling nikolaidis dimitrios εργασια .up dated
Semadic audio modeling nikolaidis dimitrios εργασια .up dated
Semadic audio modeling nikolaidis dimitrios εργασια .up dated
Semadic audio modeling nikolaidis dimitrios εργασια .up dated
Semadic audio modeling nikolaidis dimitrios εργασια .up dated
Semadic audio modeling nikolaidis dimitrios εργασια .up dated
Semadic audio modeling nikolaidis dimitrios εργασια .up dated
Semadic audio modeling nikolaidis dimitrios εργασια .up dated
Semadic audio modeling nikolaidis dimitrios εργασια .up dated

More Related Content

Similar to Semadic audio modeling nikolaidis dimitrios εργασια .up dated

Pli37 3 biblio plhroforikis1
Pli37 3 biblio plhroforikis1Pli37 3 biblio plhroforikis1
Pli37 3 biblio plhroforikis1
VLASIS
 
τεχνολογίες διαδικτύου πανεπιστημιο πατρων
τεχνολογίες διαδικτύου πανεπιστημιο πατρωντεχνολογίες διαδικτύου πανεπιστημιο πατρων
τεχνολογίες διαδικτύου πανεπιστημιο πατρων
Maria Pappi
 
εγχειρίδιο χρήσης αβακίου ιι
εγχειρίδιο χρήσης αβακίου ιιεγχειρίδιο χρήσης αβακίου ιι
εγχειρίδιο χρήσης αβακίου ιι
GREGORA65
 
εγχειρίδιο χρήσης αβακίου ιι
εγχειρίδιο χρήσης αβακίου ιιεγχειρίδιο χρήσης αβακίου ιι
εγχειρίδιο χρήσης αβακίου ιι
GREGORA65
 
εγχειρίδιο χρήσης αβακίου ιι
εγχειρίδιο χρήσης αβακίου ιιεγχειρίδιο χρήσης αβακίου ιι
εγχειρίδιο χρήσης αβακίου ιι
fosimeon
 
ptuxiakh-teliki_morfi _ savakis-koutroumanos
ptuxiakh-teliki_morfi _ savakis-koutroumanosptuxiakh-teliki_morfi _ savakis-koutroumanos
ptuxiakh-teliki_morfi _ savakis-koutroumanos
Vasileios Savvakis
 
Δημιουργία Πλατφόρμας Διεξαγωγής Online Διαγωνισμών Προγραμματισμού
Δημιουργία Πλατφόρμας Διεξαγωγής Online Διαγωνισμών ΠρογραμματισμούΔημιουργία Πλατφόρμας Διεξαγωγής Online Διαγωνισμών Προγραμματισμού
Δημιουργία Πλατφόρμας Διεξαγωγής Online Διαγωνισμών Προγραμματισμού
Stesia Papavasileiou
 
Faidon Panagiotopoulos - Bayesian Network collision
Faidon Panagiotopoulos - Bayesian Network collisionFaidon Panagiotopoulos - Bayesian Network collision
Faidon Panagiotopoulos - Bayesian Network collision
Fedon Panagiotopoulos
 
Πρακτικός Οδηγός Χρήσης για τον Εκπαιδευτή της Πλατφόρμας Ασύγχρονης Τηλεκπαί...
Πρακτικός Οδηγός Χρήσης για τον Εκπαιδευτή της Πλατφόρμας Ασύγχρονης Τηλεκπαί...Πρακτικός Οδηγός Χρήσης για τον Εκπαιδευτή της Πλατφόρμας Ασύγχρονης Τηλεκπαί...
Πρακτικός Οδηγός Χρήσης για τον Εκπαιδευτή της Πλατφόρμας Ασύγχρονης Τηλεκπαί...
makrib
 

Similar to Semadic audio modeling nikolaidis dimitrios εργασια .up dated (19)

Eisagogi epistimi ypologiston
Eisagogi epistimi ypologistonEisagogi epistimi ypologiston
Eisagogi epistimi ypologiston
 
Eisagogi epistimi ypologiston
Eisagogi epistimi ypologistonEisagogi epistimi ypologiston
Eisagogi epistimi ypologiston
 
Β ΕΠΑΛ ΒΙΒΛΙΟ - Eisagogi epistimi ypologiston
Β ΕΠΑΛ ΒΙΒΛΙΟ - Eisagogi epistimi ypologiston Β ΕΠΑΛ ΒΙΒΛΙΟ - Eisagogi epistimi ypologiston
Β ΕΠΑΛ ΒΙΒΛΙΟ - Eisagogi epistimi ypologiston
 
Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ - Β' τάξη ΓΕΛ
Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ - Β' τάξη ΓΕΛΕισαγωγή στις Αρχές της Επιστήμης των Η/Υ - Β' τάξη ΓΕΛ
Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ - Β' τάξη ΓΕΛ
 
Thesis_Angelopoulos_Spyridon
Thesis_Angelopoulos_SpyridonThesis_Angelopoulos_Spyridon
Thesis_Angelopoulos_Spyridon
 
Pli37 3 biblio plhroforikis1
Pli37 3 biblio plhroforikis1Pli37 3 biblio plhroforikis1
Pli37 3 biblio plhroforikis1
 
τεχνολογίες διαδικτύου πανεπιστημιο πατρων
τεχνολογίες διαδικτύου πανεπιστημιο πατρωντεχνολογίες διαδικτύου πανεπιστημιο πατρων
τεχνολογίες διαδικτύου πανεπιστημιο πατρων
 
εγχειρίδιο χρήσης αβακίου ιι
εγχειρίδιο χρήσης αβακίου ιιεγχειρίδιο χρήσης αβακίου ιι
εγχειρίδιο χρήσης αβακίου ιι
 
εγχειρίδιο χρήσης αβακίου ιι
εγχειρίδιο χρήσης αβακίου ιιεγχειρίδιο χρήσης αβακίου ιι
εγχειρίδιο χρήσης αβακίου ιι
 
εγχειρίδιο χρήσης αβακίου ιι
εγχειρίδιο χρήσης αβακίου ιιεγχειρίδιο χρήσης αβακίου ιι
εγχειρίδιο χρήσης αβακίου ιι
 
Thesis_sachos5468
Thesis_sachos5468Thesis_sachos5468
Thesis_sachos5468
 
ptuxiakh-teliki_morfi _ savakis-koutroumanos
ptuxiakh-teliki_morfi _ savakis-koutroumanosptuxiakh-teliki_morfi _ savakis-koutroumanos
ptuxiakh-teliki_morfi _ savakis-koutroumanos
 
αναφορά
αναφοράαναφορά
αναφορά
 
Δημιουργία Πλατφόρμας Διεξαγωγής Online Διαγωνισμών Προγραμματισμού
Δημιουργία Πλατφόρμας Διεξαγωγής Online Διαγωνισμών ΠρογραμματισμούΔημιουργία Πλατφόρμας Διεξαγωγής Online Διαγωνισμών Προγραμματισμού
Δημιουργία Πλατφόρμας Διεξαγωγής Online Διαγωνισμών Προγραμματισμού
 
Faidon Panagiotopoulos - Bayesian Network collision
Faidon Panagiotopoulos - Bayesian Network collisionFaidon Panagiotopoulos - Bayesian Network collision
Faidon Panagiotopoulos - Bayesian Network collision
 
Υπολογιστικη πολυπλοκοτητα
Υπολογιστικη πολυπλοκοτηταΥπολογιστικη πολυπλοκοτητα
Υπολογιστικη πολυπλοκοτητα
 
Πρακτικός Οδηγός Χρήσης για τον Εκπαιδευτή της Πλατφόρμας Ασύγχρονης Τηλεκπαί...
Πρακτικός Οδηγός Χρήσης για τον Εκπαιδευτή της Πλατφόρμας Ασύγχρονης Τηλεκπαί...Πρακτικός Οδηγός Χρήσης για τον Εκπαιδευτή της Πλατφόρμας Ασύγχρονης Τηλεκπαί...
Πρακτικός Οδηγός Χρήσης για τον Εκπαιδευτή της Πλατφόρμας Ασύγχρονης Τηλεκπαί...
 
diplomatiki_vatikiotis
diplomatiki_vatikiotisdiplomatiki_vatikiotis
diplomatiki_vatikiotis
 
thesis
thesisthesis
thesis
 

More from Dimitrios Nikolaidis

Nikolaidis dimitrios intelligent electrical networks
Nikolaidis dimitrios intelligent electrical networksNikolaidis dimitrios intelligent electrical networks
Nikolaidis dimitrios intelligent electrical networks
Dimitrios Nikolaidis
 

More from Dimitrios Nikolaidis (20)

EΡΓΑΣΤΗΡΙΑΚΗ ΔΟΚΙΜΑΣΙΑ A Τετραμηνο Ηλεκτροτεχνεια Ι.doc
EΡΓΑΣΤΗΡΙΑΚΗ ΔΟΚΙΜΑΣΙΑ A Τετραμηνο Ηλεκτροτεχνεια Ι.docEΡΓΑΣΤΗΡΙΑΚΗ ΔΟΚΙΜΑΣΙΑ A Τετραμηνο Ηλεκτροτεχνεια Ι.doc
EΡΓΑΣΤΗΡΙΑΚΗ ΔΟΚΙΜΑΣΙΑ A Τετραμηνο Ηλεκτροτεχνεια Ι.doc
 
Robotics Nikolaidis Dimitrios.pdf
Robotics Nikolaidis Dimitrios.pdfRobotics Nikolaidis Dimitrios.pdf
Robotics Nikolaidis Dimitrios.pdf
 
Nikolaidis electrical braking solution in drives
Nikolaidis   electrical braking solution in drivesNikolaidis   electrical braking solution in drives
Nikolaidis electrical braking solution in drives
 
Nikolaidis dimitrios intelligent electrical networks
Nikolaidis dimitrios intelligent electrical networksNikolaidis dimitrios intelligent electrical networks
Nikolaidis dimitrios intelligent electrical networks
 
Semadic audio modeling nikolaidis dimitrios
Semadic audio modeling nikolaidis dimitriosSemadic audio modeling nikolaidis dimitrios
Semadic audio modeling nikolaidis dimitrios
 
Epal texnologia
Epal texnologiaEpal texnologia
Epal texnologia
 
Nikolaidis dimitrios sensorless motor control
Nikolaidis dimitrios  sensorless motor controlNikolaidis dimitrios  sensorless motor control
Nikolaidis dimitrios sensorless motor control
 
Sensorless motor control1
Sensorless motor control1Sensorless motor control1
Sensorless motor control1
 
Protipo a gimnasiou
Protipo a gimnasiouProtipo a gimnasiou
Protipo a gimnasiou
 
Protipo g gimnasioy
Protipo g gimnasioyProtipo g gimnasioy
Protipo g gimnasioy
 
Orismos eidi kai simasia ereynas
Orismos eidi kai simasia  ereynasOrismos eidi kai simasia  ereynas
Orismos eidi kai simasia ereynas
 
Mpataries ΜΠΑΤΑΡΙΕΣ ΕΙΔΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ
Mpataries ΜΠΑΤΑΡΙΕΣ ΕΙΔΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ Mpataries ΜΠΑΤΑΡΙΕΣ ΕΙΔΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ
Mpataries ΜΠΑΤΑΡΙΕΣ ΕΙΔΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ
 
Tecnologia g gymnasioy orologia new
Tecnologia g gymnasioy   orologia newTecnologia g gymnasioy   orologia new
Tecnologia g gymnasioy orologia new
 
Nikolaidis organ on a chip final
Nikolaidis organ on  a chip finalNikolaidis organ on  a chip final
Nikolaidis organ on a chip final
 
Diagonisma basikh ilektologia mixanologoi
Diagonisma basikh ilektologia mixanologoiDiagonisma basikh ilektologia mixanologoi
Diagonisma basikh ilektologia mixanologoi
 
Apolitiries basiki ilektrologia mixanologoi
Apolitiries basiki ilektrologia mixanologoiApolitiries basiki ilektrologia mixanologoi
Apolitiries basiki ilektrologia mixanologoi
 
Plc
PlcPlc
Plc
 
Texnologia a gymnasiou ,τεχνολογία πρώτης γυμνασίου παρουσίαση του μαθήματος
Texnologia a gymnasiou ,τεχνολογία  πρώτης  γυμνασίου παρουσίαση του μαθήματος Texnologia a gymnasiou ,τεχνολογία  πρώτης  γυμνασίου παρουσίαση του μαθήματος
Texnologia a gymnasiou ,τεχνολογία πρώτης γυμνασίου παρουσίαση του μαθήματος
 
Using ohm meter,ΧΡΗΣΗ ΩΜΟΜΕΤΡΟΥ ,ΗΛΕΚΤΡΙΚΑ ΚΥΚΛΩΜΑΤΑ ,
Using  ohm meter,ΧΡΗΣΗ ΩΜΟΜΕΤΡΟΥ ,ΗΛΕΚΤΡΙΚΑ ΚΥΚΛΩΜΑΤΑ  , Using  ohm meter,ΧΡΗΣΗ ΩΜΟΜΕΤΡΟΥ ,ΗΛΕΚΤΡΙΚΑ ΚΥΚΛΩΜΑΤΑ  ,
Using ohm meter,ΧΡΗΣΗ ΩΜΟΜΕΤΡΟΥ ,ΗΛΕΚΤΡΙΚΑ ΚΥΚΛΩΜΑΤΑ ,
 
Worksheet current flow fuse voltage sources
Worksheet current flow fuse     voltage sourcesWorksheet current flow fuse     voltage sources
Worksheet current flow fuse voltage sources
 

Semadic audio modeling nikolaidis dimitrios εργασια .up dated

  • 1. Σημασιολογική επεξεργασία ακουστικού σήματος Semadic audio modeling Νικολαίδης Δημητριος 2019/241 Εργασία στο μάθημα: Τεχνολογίες Ήχου και Εικόνας. Υπεύθυνος Καθηγητής :Dr Κωστάκης Ρήγας Διεθνές Πανεπιστήμιο Ελλάδος. Τμήμα Μηχανικών Πληροφορικής και Ηλεκτρονικών Συστημάτων Θεσσαλονίκη, Οκτώβριος 2021
  • 2. Σελίδα 2 από 39 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ Περίληψη ...........................................................................................................................................................4 Abstract ..............................................................................................................................................................5 1 Εισαγωγή....................................................................................................................................................6 1.1 Αναγκαιότητα της σημασιολογικής ανάλυσης ..................................................................................6 1.2 Έρευνες σχετικά με την σημασιολογική ανάλυση ηχου . .................................................................6 2.1 Γενική περιγραφη της διαδικασίας επεξεργασιας...........................................................................7 2.2 Short term processing. ......................................................................................................................7 2.3 Επεξεργασια μεσου μεγεθους ( Mid-term processing)...................................................................7 2.4 Κλασεις ηχου.....................................................................................................................................8 3. Χαρακτηριστικά ήχου (Audio features ).......................................................................................................9 Βασικές γνώσεις από την επεξεργασία σήματος..........................................................................................9 3.1 Χαρακτηριστικά ήχου στο πεδίο του χρόνου....................................................................................9 3.1.1 Συχνότητα , Πλάτος ( Ένταση ). .................................................................................................9 3.1.2 Ενέργεια ....................................................................................................................................9 3.1.3 Zero crossing rate - Ρυθμός διαπεράσεων από το μηδεν......................................................10 3.1.4 Εντροπία της ενέργειας ( Εntropy Energy ) ............................................................................12 3.2 Χαρακτηριστικά ήχου στο πεδίο της συχνότητας...........................................................................13 3.2.1. Κέντρο βάρους φάσματος και εύρος φασματος ( Spectral Centroid and Spread ). .............13 3.2.4 Φασματική απόσβεση ( Spectral Roll off ) . .........................................................................16 3.2.5 ΜFCCs . Mel Frequency Cepstral Coefficient [8]......................................................................17 3.2.6 Διανυσμα χρώματος ( chroma vector ) [10],...........................................................................19 Εξαγωγή πληροφορίας ακουστικού σήματος σε πραγματολογικό επίπεδο (Annotation ) ..........................21 4. MIR Εργαλειοθήκη του MATLAB για επεξεργασία ακουστικού σήματος .................................................21 4.1 Γενική περιγραφή της εργαλειοθήκης MIR ...................................................................................21 4.3 Παράδειγμα ανάλυσης τονικότητας [14] ........................................................................................22 4.4 Παράδειγμα ανάλυσης ρυθμικότητας [14]......................................................................................23 4.5 Κατακερματοποιση δεδομένων . ( Data Segmentation ) [14] ........................................................24 4.6 Ανάλυση δεδομένων . [14]...............................................................................................................24 Παραδείγματα εφαρμογών ............................................................................................................................25 5 Χρήση της μηχανικής μάθησης για την συναισθηματική ανάλυση μουσικής . .....................................25 5.1 Συντομη παρουσιαση της μηχανικης μαθησης..............................................................................25 5.2 Εισαγωγή – προεπισκόπηση της εφαρμογής ..................................................................................25
  • 3. Σελίδα 3 από 39 5.3 Θεωριες πανω στις οποιες βασιστηκαν το μοντελο της συναισθηματικης αναλυσης . ..........26 5.4 Machine Learning Approaches [18] .................................................................................................27 Σταδια επεξεργασιας συναισθηματικης αναλυσης ηχου με την χρηση της μηχανικης μαθησης.............28 5.4.1 Συνολα δεδομενων Audio Dataset.............................................................................................28 5.4.2 Εξαγωγή χαρακτηριστικών για την κατηγοριοπιηση με κριτήριο την διέγερση ( Arousal features extraction)....................................................................................................................................................28 5.4.3 Categorized arousal using K-means clustering High / Low..........................................................28 5.4.4 Κατηγοριοποιηση σθενους με την χρηση του social tag last.fm Valence mapping...................29 5.4.5 Labeling based on Emotion model . ...................................................................................................29 5.4.6 Ταξινομητες προγνωσης ( Classifier Prediction ). ........................................................................30 5.4.7 Κατάταξη των χαρακτηριστικών με βάση τον αλγόριθμο ταξινόμησης Random Forrest.....30 6. Συναισθηματική ανάλυση μουσικής με κριτήριο το φασματόγραμμα Chroma ..................................31 6.1 Προεπισκόπηση μελέτης.................................................................................................................31 6.2 Convolutional Neural Networks (CNNs) Συνελεκτικά Νευρωνικά Δίκτυα .....................................31 6.3 H μεθοδολογία της έρευνάς. Σταδια επεξεργασιας .......................................................................32 6.3.1 Εξαγωγή του φασματογράμματος Chromagram . ..................................................................32 6.3.2 Eπαυξηση δεδομένων ( Data augmentation)...........................................................................32 6.3.3 Επεξεργασία για την εξαγωγή των βαθιών χαρακτηριστικών του ήχου ............................33 6.3.3 Εις βάθους εξαγωγή χαρακτηριστικών ..................................................................................34 6.3.4 Ταξινόμηση ηχητικων αρχειων με την βοηθεια των ταξινομητων SVM και SoftMax .........34 6.3.5 Επεξεργασία , Επισήμανση δεδομένων - Πειραματικά αποτελέσματα [26]........................34 6.4 Εκτίμηση της απόδοσης των νευρωνικων δικτυών για την συναισθηματική ανάλυση ηχου.....36 7 Συμπεράσματα -- Αξιολόγηση ................................................................................................................36 Βιβλιογραφία – Αναφορές...............................................................................................................................37
  • 4. Σελίδα 4 από 39 ΠΕΡΙΛΗΨΗ Αντικείμενο της παρούσης εργασίας είναι η ανάλυση ηχου τόσο σε πραγματολογικό επίπεδο όσο και σε σημασιολογικό .Αρχικα γίνεται μια μικρή αναφορά σε βασική θεωρία επεξεργασιας σήματος η οποία αποτελεί το υπόβαθρο για τον υπολογισμό των χαρακτηριστικών. Η εργαλειοθήκη Matlab ΜIRToolBox παρέχει εύχρηστα και δοκιμασμένα εργαλεία για την εξαγωγή μουσικής πληροφορίας μέσα από καθαρά μετρήσιμες φυσικές ποσότητες όπως η ενέργεια η συχνότητα. Ο μετασχηματισμός φυσικών αντικειμενικών μετρήσεων σε μουσικά χαρακτηριστικά πολλές φορές υποκειμενικά όπως η χροιά ο τόνος κτλ. γίνεται με την βοήθεια ετοίμων συναρτήσεων και βιβλιοθηκών. Δεδομένου της ικανότητα της μουσικής να προκαλεί και να μεταφέρει συναισθήματα , δίνει στην συναισθηματική ανάλυση μια δυναμική και ένα καινοτόμο επιστημονικό πεδίο με πολλά όμως σκοτεινά σημεία. Οι μελέτες στις οποίες θα γίνει αναφορά στην παρούσα χρησιμοποιούν προηγμένες μεθόδους της τεχνητής νοημοσύνης για ταξινόμηση των τραγουδιών. Η πρώτη ερευνά χρησιμοποίει μεθόδους της μηχανικής μάθησης για την κατηγοριοπιηση των ενώ η δευτερη βασίζεται στα Συνελεκτικά Νευρωνικά δίκτυα. Στην δευτερη περίπτωση η κατηγοριοπιηση βασίζεται αποκλειστικά ένα οπτικό κριτήριο το φασματόγραμμα Chroma . Για τη κατανόηση της εργασίας αυτών κρίθηκε αναγκαίο να γίνει συντομη αναφορά στα Συνελεκτικά Νευρωνικά δίκτυα και στις μεθόδους της μηχανική μάθησης όπου απαιτείτε Λέξεις Κλειδιά : Music emotion recognition ,· Music features, Matlab ΜIRToolBox, Deep learning , Deep features , Chroma Spectrograms, Semantic Audio ,· Emotion models, feature extraction., neural networks
  • 5. Σελίδα 5 από 39 ABSTRACT This paper aims to make a small presentation on .sound analysis. This analysis will and semantic level. First, a small reference is made to basic signal processing theory which is the basis for the calculation of characteristics. The Matlab MIRToolBox toolbox provides easy-to-use and proven tools for extracting music information through measurable physical quantities such as energy and frequency. The transformation of physical objective measurements into musical characteristics is often under personal perception, such as the tone, tone, etc., with the help of ready-made functions and libraries. The ability of music to trigger emotions makes the emotional analysis of sound a new scientific field with many grey regions. Use advanced methods of artificial intelligence to classify songs and music. The first research uses machine learning methods to classify them while the second is based on. Convolution Neural Networks In the second case the is based only on a visual criterion as the Chroma spectrogram. To understand whole the prosses . it was necessary to make a brief reference to the Collective Neural Networks and the methods of machine learning. Key words : Music emotion recognition ,· Music features, Matlab ΜIRToolBox, Deep learnig , Deep features Chroma Spectrograms, Semantic Audio ,· Emotion models, feature extraction , neural networks
  • 6. Σελίδα 6 από 39 1 ΕΙΣΑΓΩΓΉ 1.1 Εισαγωγή στο αντικείμενο της εργασίας Αντικείμενο της παρούσης εργασίας είναι η επεξεργασία ηχητικού σήματος τόσο σε πραγματολογικό επίπεδο (annotation) όσο και σε σημασιολογικό επίπεδο (semantic ). Αρχικά στο κεφάλαιο 2 , θα παρουσιαστούν τα χαρακτηριστικά σήματος τα οποία εξάγονται σε επίπεδο annotation. Τα μεγέθη αυτά χρησιμοποιούνται κατόπιν την επεξεργασία σε επίπεδο semantic. Τέτοια χαρακτηριστικά είναι παραδείγματος χάρη η ενέργεια και το διανυσμα χρώματος. Στην συνέχεια θα αναφερθούμε στην εργαλειοθήκη MIR toolbox του Matlab και θα γίνει παρουσίαση της διαδικασίας επεξεργασίας των δεδομένων. Το συγκεκριμένο παράδειγμα που θα παραθέσουμε έχει σαν στόχο την ανάδειξη των σχέσεων των παραπάνω παραμέτρων σήματος με τα μουσικά του χαρακτηριστικά όπως ο ρυθμός , η τονικότητα ή η χροιά. Στην συνέχεια στο κεφάλαιο 4 θα γίνει αρχικά μια γενική παρουσίαση επεξεργασία του ακουστικού σήματος σε σημασιολογικό επίπεδο με την χρήση της μηχανικής μάθησης με την βοήθεια και πάλι της εργαλειοθήκης MIR toolbox του Matlab [1]. Κατόπιν θα γίνει αναφορά σε δυο συγκεκριμένες εφαρμογές. Οι εφαρμογές αυτές έχουν να κάνουν με ένα πεδίο σημασιολογικής προσέγγισης με πολλές εφαρμογές και προκλήσεις αφορά την. Συναισθηματική ανάλυση της μουσικής ( Music emotion recognition). Με απλά λόγια η μηχανή ο υπολογιστής να μπορεί να καθορίσει «ακούγοντας » ένα μουσικό τραγούδι ή ήχο τα συναισθήματα που παράγονται ή διεγείρονται από αυτό. Το αντικείμενο της εργασίας ασχολείται με ένα πολύ μικρό μέρος ενός μεγάλου πεδίου της επιστήμης των υπολογιστών αυτό των συστημάτων της τεχνητής νοημοσύνης Artificial Intelligence System. 1.1 Αναγκαιότητα της σημασιολογικής ανάλυσης Ο όρος semantic προκύπτει από την ελληνική λέξη “σημασία” και μπορεί να αποδοθεί στην λέξη η έννοια «το περιεχόμενο που μεταβιβάζει μια λέξη ή μια ομάδα λέξεων στη διαδικασία της επικοινωνίας¨». Κρίθηκε αναγκαίο στην πορεία του χρόνου σε εφαρμογές του συγχρόνου ανθρώπου όπως η αναγνώριση φωνής , η μετάφραση κείμενων κ.α. ο υπολογιστής να μπορεί να βγάζει νόημα «σημασία » από αυτά που ακούει ή διαβάζει .Για παράδειγμα όταν διαβάζει μέσα σε ένα κείμενο ¨ «Ο Γιώργος είναι μαύρος» να μπορεί να αποφανθεί εάν ο Γιώργος είναι λερωμένος ή είναι έγχρωμος ή φοράει απλά μαύρα ρούχα. Όταν ακούει έναν ήχο να μπορεί να αποφανθεί εάν αυτός ο ήχος είναι ομιλία , είναι θόρυβος η απλά ένας πετεινός που λαλεί .Για το κάνει αυτό υπολογιστής θα έπρεπε να αποκτήσει τρόπο τινά χαρακτηριστικά και ιδιότητες νοημοσύνης. Τέτοιες εφαρμογές αρχικά ήταν : οι μηχανές αναζήτησης στο web , η ρομποτική και φυσικά στρατιωτικές εφαρμογές όπως συστήματα ασφάλειας και καταδείξεως στόχου. O σημασιολογικός ιστός ( Semantic Web ) [2] παρέχει ένα πολύ ευρύ και δυναμικό πεδίο για την διαχείριση και μοίρασμα των επισημασμένων δεδομένων. Η αποθήκευση των μουσικών μεταδιδόμενων στο semantic web δίνει μια ευκαιρία για την δημιουργία ενός παγκοσμίου και ενοποιημένου προτύπου για την κατηγοριοπιηση αυτών. Τα τελευταία χρονιά έχουν ήδη αναπτυχθεί μουσική πράκτορες όπως το Music Οntology και το Audio Features Οntology. Χρησιμοποιώντας τους πράκτορές αυτούς ( Agents ) θα είναι πολύ εύκολο για έναν αδαή Αμερικάνο DJ στην Αλαμπάμα να παίξει μια ‘παραγγελιά’ : ένα παλιό λυπητερό βαρύ ζεϊμπέκικο. Ας δώσουμε ακόμα ένα διαφορετικό σενάρια τρία λεπτά πριν την πτώση του αεροπλάνου καταγράφηκε ένας εκκωφαντικός ήχο από το μαύρο κουτί του Boeing 737 .Μπορούμε μέσω της επεξεργασιας να αποφανθούμε εάν ο ήχος προερχόταν από σπάσιμο του φτερού από μηχανική βλάβη ή από έκρηξη λόγω τρομοκρατικής ενέργειας 1.2 Έρευνες σχετικά με την σημασιολογική ανάλυση ηχου . Οι Kim et al. [3] διεξήγαγε εκτενή έρευνα για την συναισθηματική ανάλυση του ηχου ( Music Emotion Recognition , MER ) Παρουσίασαν μια επισκόπηση των μεθόδων που βασίζονται σε δυο κατηγορίες πληροφορίας .Η πρώτη κατηγορία αφορά τις πληροφορίες κειμένου όπως συνθέτης , Social tags, τίτλος τραγουδιού. Η δευτερη κατηγορία αφορά τα μουσικά χαρακτηριστικά όπως ( τόνος , ρυθμός ,στοίχοι ) καθώς και τους συνδυασμούς των δυο παραπάνω. Παρόμοια μελέτη έγινε και από τους Barthet et al [4] ο οποιος επικεντρώθηκε στην αναθεώρηση των προηγούμενων μελετών χρησιμοποιώντας την ιδια μεθοδο κατηγοριοποίησης. Ωστόσο, καμία από τις δυο μελέτες δεν εξέτασαν πραγματικά τα δεδομένα και τα αποτελέσματα ταξινόμησης . Εάν δηλαδή όντως ένα τραγούδι που έχει επισημανθεί ως λυπητερό προκαλεί λύπη στον ακροατή. Επίσης δεν ερευνήσαν την συσχέτιση των χαρακτηριστικών με την ακρίβεια των μεθόδων της MER που εφαρμοστήκαν. Αν και είναι πολύ σημαντικό η επιλογή της κατάλληλη μεθόδου μηχανικής μάθησης για την επεξεργασία. Ποιο σημαντικός παράγοντας είναι η επιλογή των κατάλληλων μουσικών χαρακτηριστικών ( κριτηρίων ) τα οποία θα χρησιμοποιήσει το μοντέλο για την ταξινόμηση και εκπαίδευση του .
  • 7. Σελίδα 7 από 39 2 ΣΤΑΔΙΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΗΧΟΥ ( SHORT TERM – MID-TERM PROCESSING ). 2.1 Γενική περιγραφη της διαδικασίας επεξεργασιας. Ένα αρχείο ηχου , ένα τραγούδι είναι ένα μεγάλο αρχείο δεδομένων. Τυπικό μέγεθος ενός τραγουδιού 3 λεπτών είναι 5 MB. To σύνολο των 5 MB είναι δύσκολο να αναλυθεί εξολοκλήρου. Είναι αναγκαίο η επεξεργασία να γινείτε σε μικρότερο αριθμό δεδομένων .Ένας άλλος λόγος που είναι αναγκαία η διαίρεση είναι ότι ορισμένα χαρακτηριστικά εξάγονται κάνοντας σύγκριση των τιμών της εξαγόμενης μέτρησης μεταξύ μετρήσεων της ίδιας τιμής γειτονικών χρονικών διαστημάτων του τραγουδιού . Για τον λόγο αυτό διαιρούμε το αρχείο .Η διαίρεση αυτή γίνεται και σε αρχεία μικρού ( Short term) μεγέθους και σε αρχεία μεσαίου μεγέθους (Mid-term [5]). Η επεξεργασία γίνεται και στα δυο επίπεδα δηλαδή και στο Short term και στο Mid term. Tα αποτελέσματα από τις δυο επεξεργασιας συγκρίνονται ώστε να εξαχθούν τα επιθυμητά αποτέλεσμα. Σκοπός της εργασίας δεν είναι να παρουσιάσει όλα τα χαρακτηριστικά του ηχου που μπορούν να εξαχθούν αλλά να παρουσιάσει ορισμένα βασικά που χρησιμοποιούνται για την πραγματολογική και σημασιολογική ανάλυσή κάνοντας χρηση πάντα των βιβλιοθηκών του Matlab . 2.2 Short term processing. Κατά την μεθοδο αυτή το μουσικό αρχείο χωριζεται σε μικρά κομματια που πολλές φορές είναι και αλληλοκαλυπτομενα . Το μέγεθος αυτών των κομματιών ποικίλει ανάλογα την εφαρμογή και το ζητούμενο χαρακτηριστικό. Κάνοντας χρηση της παρακάτω συνάρτησης στο ΜatLab μπορώ να εξάγω μέχρι και 23 διαφορετικα μουσικά χαρακτηριστικά από ένα αρχείο ηχου. Εικονα 2.1 : Διαδικασία εξαγωγής μεσοπρόθεσμων στατιστικών στοιχείων ήχου. [6] H παραπάνω συνάρτηση έχει σαν ορίσματα : • Signals : το υπό εξεργασία σημα ηχου. • fs: η συχνότητα δειγματοληψίας. • win :To κομμάτι από το αρχικό αρχείο που θέλουμε να κόψουμε και να επεξεργαστούμε ( σε δευτερόλεπτα ). • Step :Ανά ποσά δευτερόλεπτα θέλουμε να γίνει αυτή η διαίρεση ( υπάρχει η δυνατότητα αληλοκαλυψης over lap όπως αναφέρθηκε παραπάνω ). 2.3 Επεξεργασια μεσου μεγεθους ( Mid-term processing). Σύμφωνα με αυτόν τον τύπο επεξεργασίας το ηχητικό σήμα πρώτα χωρίζεται σε Mid-term τμήματα και στη συνέχεια, για κάθε τμήμα, πραγματοποιείται Short term processing . Στο Εικονα 2.1 διακρίνεται η διαδικασία
  • 8. Σελίδα 8 από 39 εξαγωγής μεσοπρόθεσμων στατιστικών στοιχείων του ήχου. Αριστερά διακρίνεται το mid term τμήμα το οποίο με την σειρά του χωριζεται σε πέντε short term μέρη. Δεξιά εχω τα εξαγόμενα αποτελέσματα υστέρα από στατιστική ανάλυσή και υπολογισμούς. Συνήθως τα mid term κομματια είναι τάξης μεγέθους 1 έως 10 δευτερόλεπτα ανάλογα με την εφαρμογή. Κατά τη διάρκεια της ενδιάμεσης επεξεργασίας, υποθέτουμε ότι τα μεσοπρόθεσμα τμήματα παρουσιάζουν ομοιογένεια ως προς τον τύπο ήχου θεωρούμε δηλαδή ότι ανήκουν σε ένα και μόνο τραγούδι .Μόνο με αυτή την προϋπόθεση μπορούμε να προχωρήσουμε στην εξαγωγή ασφαλών και ακριβή μετρήσεων. Υπάρχουν περιπτώσεις που η διαδικασια είναι ανάποδη. Παράδειγμα τέτοιων περιπτώσεων είναι όταν θέλουμε να προσδιορίσουμε το είδος ενός τραγουδιού. Σε αυτές τις περιπτώσεις πρώτα έχουμε την επεξεργασία σε Short term επίπεδο και κατόπιν την στατιστική ανάλυσή όλων των Short term μετρήσεων. 2.4 Κλασεις ηχου. Στην ενότητα αυτή θα παρουσιάσουμε των διαχωρισμό των ήχων σε κλασεις. θα γίνει αναφορά σε αυτήν την ταξινόμηση παρακάτω. Οι κλασεις αυτές του ηχου συναντιούνται κατά την ηχητική εξεργασία κινηματογραφικών ταινιών. Στην Εικονα 2.2 φαίνεται αυτή η ταξινόμηση. Εικονα 2.2: Κλασεις ηχου. [5]
  • 9. Σελίδα 9 από 39 3. ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΗΧΟΥ (AUDIO FEATURES ). Βασικές γνώσεις από την επεξεργασία σήματος Πριν προχωρησουμε στην παρουσιαση των μουσικών χαρακτηριστικών ( Audio Features ) του ηχου θα κανουμε μια συντομη αλλά αναγκαία αναφορά στα σταδια επεξεργασιας του ηχου καθώς και σε μετρήσεις που έχουν σχέση με αυτά τα χαρακτηριστικά . Είναι προφανές ότι για την κατανόηση της εργασίας ειδικά σε αυτό το κεφάλαιο ο αναγνώστης θα πρέπει να έχει βασικές γνώσεις επεξεργασίας σήματος .Επιπρόσθετα θα πρέπει να έχει κατανοήσει πλήρως την διαφορά μεταξύ του πεδίου χρόνου και του πεδίου συχνότητας. Θα προσπαθήσουμε να μην σταθούμε τόσο στις μαθηματικές εξισώσεις και να δώσουμε την φυσική σημασία και ερμηνεία αυτών των τιμών . Τα μαθηματικά είναι μια υπέροχη διαγαλαξιακή γλώσσα αρκεί να την μιλάς. Τα χαρακτηριστικά ήχου που θα παρουσιάσουμε μπορούν να εξαχθούν με την βοήθεια του περιβάλλοντος αριθμητικής υπολογιστικής MATLAB το οποίο θα παρουσιάσουμε αμέσως μετα. Ας πάρουμε το κουβάρι από την αρχή. Ο ήχος είναι η αίσθηση που προκαλείται λόγω της διέγερσης των αισθητηρίων οργάνων της ακοής από μεταβολές πίεσης υλικών σωμάτων όπως ο ατμοσφαιρικός αέρας. Αυτές οι μεταβολές διαδίδονται με τη μορφή ηχητικών κυμάτων. Πολλές φορές στην πράξη, ο όρος χρησιμοποιείται ως ταυτόσημος με την έννοια των ηχητικών κυμάτων. Για παράδειγμα, συνηθίζεται η έκφραση διάδοση του ήχου αντί του ορθότερου διάδοση των ηχητικών κυμάτων. Με την βοήθεια ενός ηλεκτρομηχανικού μετατροπέα ή ποιο καλά μικρόφωνο τα ηχητικά κύματα , πυκνώματα και αραιώματα , μετατρέπονται σε ηλεκτρικά και έτσι βλέπω στον παλμογράφο μου ένα ηλεκτρικό σήμα συνήθως την τάση του σήματος .Το σημα αυτό είναι μονοδιάστατο αφού έχει μόνο μια τιμή σε συνάρτηση με το χρόνο την ανεξάρτητη μεταβλητή . Επιπροσθέτως το παραπάνω σημα αναφέρεται στην βιβλιογραφία ως σήμα συνεχούς χρόνου και συνεχής τιμής καθώς επίσης και ως αναλογικό αφού μεταβάλλεται συνεχώς. Είναι σήμα στοχαστικό επειδή δεν είναι εκ των προτέρων γνωστές οι τιμές που λαμβάνει, αλλά περιγράφονται στατιστικά ( πιθανότικα ). Χαρακτηρίζεται επίσης και σαν σήμα απεριοδικό για την ακρίβεια ημιπεριοδικο Quasiperiodic [7]. 3.1 Χαρακτηριστικά ήχου στο πεδίο του χρόνου. 3.1.1 Συχνότητα , Πλάτος ( Ένταση ). Εικονα 3.1: Ημιτονικο σήμα πλάτους Vp και περιόδου Τ Στην Εικονα 3.1 διακρίνεται η μορφή ενός Ημιτονικο σήματος το οποία βέβαια δεν είναι αντιπροσωπευτικό ενός μουσικό σήματος. Παρολαταυτα πολύ βασικό ( βλέπε ανάλυση Fourier ).To πλάτος μετριέται από την μέση μέχρι την κορυφή και συμβολίζεται με Vp (Peak) και μετριέται σε Volt . H συχνότητα είναι το αντίστροφο της περιόδου μια μετριέται σε Hz .H περίοδος μετριέται σε sec. Η ένταση είναι το πόσο σιγανά ή δυνατά ακούγεται κάποιος ήχος και 3.1.2 Ενέργεια .
  • 10. Σελίδα 10 από 39 Η ενέργεια ενός ηχητικού σήματος μετριέται σε Joule και δίνεται απο την παρακάτω μαθηματική εξίσωση Ενώ αντίστοιχα η ισχύς δίνεται από τον τύπο H ισχύς είναι η κανονικοποιημενη τιμή της ενέργειας στην παρούσα εργασία. Καταχρηστικός χρησιμοποιείται ο όρος ενέργεια αλλά για λογούς απλότητας τον κρατάμε. Μελετώντας την ενέργεια σε επίπεδο short term σε ηχητικά σήματα παρατηρούμε στατιστικά ότι στην περίπτωση που αυτά αφορούν ανθρώπινό λόγο η τιμή της ενέργειας έχει μεγάλες διακυμάνσεις ( Fluctuations ). Άλλο μια σημαντική πληροφορία την οποία μπορούμε να εξάγουμε από την στατιστική ανάλυση των τιμών της ενέργειας και παρατηρώντας με λογική την Εικονα 3.2. Η Εικονα 3.2 δίνει to ιστόγραμμα της τυπικής απόκλισης της ενέργειας Εικονα 3.2 : Συσχέτιση της τυπικής απόκλισης της ενέργειας σε σήμα ήχου ( δεξιά) και σε ανθρώπινη ομιλία (αριστερά ) • Στον άξονας χ διατάσσονται οι τιμές της τυπικής απόκλισης δια του μέσου όρου των τιμών : 𝜎2 𝜇 • Στον άξονας y είναι η συχνότητα εμφάνισης του όρου 𝜎2 𝜇 Στην εικόνα 2 βλέπουμε δυο ιστογράμματά ( καμπύλες ) το ένα δεξιά το ποιο αναφέρετε σε ανθρώπινή ομιλία και ένα αριστερά σε μουσική. Παρατηρούμε ότι στην περίπτωση της μουσικής η συχνότητα εμφάνισης του μέγιστου είναι σχεδόν διπλάσια σε σχέση με αυτό της ανθρώπινης ομιλίας . Συμπεραίνουμε δηλαδή ότι στον ανθρώπινο λόγο η τιμη της ενεργείας έχει πολύ μεγαλύτερη διασπορά από ότι στην μουσική. Διασπορά στην στατιστική είναι ένα μέγεθος που δείχνει την κατανομή ενός μεγέθους , στην περίπτωση μας η ενέργεια , γύρω από τη μέση τιμή του. 3.1.3 Zero crossing rate - Ρυθμός διαπεράσεων από το μηδεν. O καθαρός αυτός αριθμός ZCR δηλώνει πόσες φορές στον χρόνο το σήμα διαπερνά την τιμή μηδέν δηλαδή πόσες φορές η τιμη του σήματος γίνεται από θετική αρνητική ή το αντίστροφο. Στα ελληνικά ο όρος μπορεί αποδοθεί έως διαπεραση από το μηδέν αλλά εμείς θα κρατήσουμε το αγγλικό ακρωνύμιο Z.C.R για λόγους ευκολίας .Το ίδιο θα
  • 11. Σελίδα 11 από 39 τηρήσουμε και με αντίστοιχους αγγλικούς όρους . O αριθμός αυτός ορίζεται σύμφωνα με τον παρακάτω μαθηματική ισότητα Oπου: • sign είναι η συνάρτηση πρόσημού. • WL είναι ο αριθμός των διακεκριμένων δειγμάτων. • Χi τα διακριτά σήματα μετα την δειγματοληψία. Εικόνα 3.3 : Συσχέτιση της τιμής του ZCR ( Zero Crossing Rate ) σε σήμα ανθρώπινης ομιλίας. Η τιμή του ZCR υποδηλώνει την παρουσία θορύβου σε ένα σήμα. Εάν η τιμή είναι μικρή τότε στατιστικά έχουμε σήμα χωρίς θόρυβο. Στην Εικόνα 3.3 έχουμε το διάγραμμα ενός σήματος ομιλίας σε αντιστοιχία με τις τιμές του ZCR . Όπως φαίνεται και στην εικόνα 3 στα σημεία παύσης όπου έχω μεγαλύτερο σηματοθορυβικο συντελεστή Signal/Noise οι αντίστοιχες τιμές του ZCR είναι αυξημένες σε σχέση με αυτές που καταγράφονται στην περιοχή oπου έχω ομιλία ( λέξεις - φωνήματα ). Στην Εικόνα 3.4 έχουμε μια άλλη συσχέτιση δυο σημάτων ενός μουσικής και ενός ανθρώπινης ομιλίας. Εικόνα 3.4 : Ιστόγραμμα της τυπικής απόκλισης της τιμής ZCR ( Zero Crossing Rate ) σε σήμα ανθρώπινης ομιλίας και σε μουσικό σήμα . [6]
  • 12. Σελίδα 12 από 39 Οπού: • στον άξονα y έχουμε την τιμή της τυπικής απόκλισης της τιμής του ZCR. • Άξονα x την συχνότητα εμφάνισης της τιμής της τυπικής απόκλισης. Παρατηρούμε ότι στην περίπτωση της μουσικής ( αριστερή κυματομορφη ) τιμή του ZCR δεν παρουσιάζει μεγάλες μεταβολές και είναι σχετικά μεγάλη σε σχέση με αυτό της ομιλίας που έχει μεγαλύτερο spread και μικρότερες τιμές 3.1.4 Εντροπία της ενέργειας ( Εntropy Energy ). Η εντροπία είναι ένα μέγεθος χωρίς μονάδες .Όταν αναφερόμαστε σε εντροπία αναφερόμαστε σε εντροπία ενέργειας Η φυσική σημασία του μεγέθους αυτού στην παρούσα εργασία είναι στο εάν υπάρχουν απότομες αλλαγές στην ενέργεια που μεταφέρει το σήμα. Γενικά η φυσική σημασία της εντροπίας μπορεί να θεωρηθεί ότι είναι η έκφραση του μέτρου της αταξίας ενός συστήματος . Εικόνα 3.5 : Πάνω διάγραμμα ακουστικό σήμα στον χρόνο που αντιστοιχεί σε 3 πυροβολισμούς , Κάτω διάγραμμα μεταβολές της εντροπίας του αντίστοιχα. [6] Ας δούμε όμως τι άλλα συμπεράσματα μπορούμε να εξάγουμε από την τιμή αυτή. Στην Εικόνα 3.5 στο πάνω διάγραμμα βλέπουμε ένα ακουστικό σήμα στον χρόνο που αντιστοιχεί σε 3 πυροβολισμούς και στο κάτω διάγραμμα τις μεταβολές της εντροπίας της ενέργειας του αντίστοιχα. Οι τρεις βυθίσεις της τιμής της εντροπίας αντιστοιχούν στους τρεις πυροβολισμούς. Ένα άλλο παράδειγμα δίνεται στην Εικόνα 3.6 οπού δίνεται ένα ιστόγραμμα από τα ελάχιστα της εντροπίας 3 διαφορετικών ειδών μουσικής κλασσική , τζαζ και ηλεκτρονικής. Παρατηρούμε ότι στην περίπτωση της κλασσικής μουσικής παρουσιάζονται πολύ συχνά ελάχιστα ( 0.25) ενώ αντίστοιχα στην ηλεκτρονική μουσική όχι . Αυτό μπορεί να εξηγηθεί εξαρχής μια και η κλασσική είναι ποιο απαλή ποιο soft και δεν έχει μεγάλες διακυμάνσεις σε σχέση με την ηλεκτρονική η οποία παρουσιάζει μεγάλες αυξομειώσεις ( Μπαμ- μπουμ).
  • 13. Σελίδα 13 από 39 Εικόνα 3.6 : Ιστόγραμμα από τα ελάχιστα της εντροπίας τριών διαφορετικών ειδών μουσικής κλασσική , τζαζ και ηλεκτρονικής. [6] 3.2 Χαρακτηριστικά ήχου στο πεδίο της συχνότητας. Στην προηγουμενη ενότητα αναφερθήκαμε στα χαρακτηρίστηκα του ηχου στο πεδίο του χρόνου. Στην παρούσα ενότητα θα μεταπηδήσουμε στο πεδίο της συχνότητας. Πριν προχωρησουμε όμως θα αποσαφηνίσουμε την διαφορά για τους μη μύστες της επεξεργασιας σήματος . Κάθε συνεχή σήμα μπορεί να αναπαρασταθεί – αναλυθεί ως άθροισα απλών τριγωνομετρικών συναρτήσεων συγκεκριμένης συχνότητας ( ημίτονά) η οποία είναι γνωστή ως σειρά «ανάπτυγμα» Fourier. Με απλά λογία κάθε αναλογικό σήμα είναι ένα μπουκέτο από φάσμα συχνοτήτων. Όταν αναφερόμαστε στο πεδίο της συχνότητας αναφερόμαστε σε χαρακτηριστικά που έχουν να κάνουν με το φασματικό περιεχόμενο του σήματος. .Η Εικόνα 3.7 δείχνει παραστατικά αυτή την σχέση μεταξύ των δυο πεδίων χρόνου και συχνότητας Εικόνα 3.7: Μετασχηματισμός Fourierr. 3.2.1. Κέντρο βάρους φάσματος και εύρος φασματος ( Spectral Centroid and Spread ). Το Spectral Centroid και το Spread είναι δυο βασικές και μέτρησης που μας δίνουν πληροφορίες σε επίπεδο annotation για το ηχητικό σήμα.
  • 14. Σελίδα 14 από 39 Το Spectral Centroid δίνεται από την μαθηματική σχέση : Ενώ αντίστοιχα το φασματικό εύρος δίνετε από την παρακάτω μαθηματική σχέση: Ο τιμη Spectral Centroid μας δίνει πληροφορίες για το που βρίσκεται ο κύριος όγκος της πληροφορίας ενός σήματος ως προς την συχνότητα Εάν δηλαδή η τιμη είναι μικρή τότε σημαίνει ότι το σημα περιέχει κυρίως χαμηλές συχνότητες .Εχει παρατηρηθεί ότι μεγάλες τιμές αυτής της μέτρησης αναφέρονται σε ήχους με μεγαλύτερη λαμπρότητα ( brightness ). H λαμπρότητα του ηχου έχει σχέση με την κατανομή του συχνοτικου περιεχομένου του. Εικόνα 3.8 : Ιστόγραμμα της τιμής Spectral Centroid σε τρία διαφορετικά είδη ηχητικών σημάτων [6]. Στην Εικόνα 3.8 έχουμε ιστογράμματα της τυπικής απόκλισης τριών διαφορετικών ειδών σημάτων ηχου όπως κατηγοριοποιήθηκαν στην ενότητα 2.4. Το others 1 αναφέρεται σε σήματα περιβάλλοντος όπως η βροχή , η ησυχία , ο άνεμος. Το «others 2» αναφέρεται σε σήματα περιβάλλοντος όπως το κλείσιμο μιας πόρτας ο κεραυνός , το σπάσιμο ενός τζαμιού. Το «others 3» αναφέρεται σε συνεχή σήματα περιβάλλοντος όπως ο ήχος μιας μηχανής , το ποδοβολητό ενός αλόγου. Όπως δείχνει το διάγραμμά στην τρίτη περίπτωση στον ήχο μιας μηχανής έχουμε μεγαλύτερη τιμη της παραμέτρου Spectral Centroid και ο ήχος είναι ποιο «λαμπρός ». Ενώ αντίθετα στην περίπτωση ήχων χαμηλής έντασης όπως της βροχής έχουμε μικρότερες τιμές. Από την άλλη πλευρά η παράμετρος αυτή όπως αναφέραμε και προηγούμενος δείχνει πως κατανέμεται η ενέργεια στο πεδίο της συχνότητας. Όταν η τιμη της Spectral Centroid είναι μικρή αυτό σημαίνει ότι το σήμα είναι συγκεντρωμένο «μαζεμένο » γύρω από μια τιμη.
  • 15. Σελίδα 15 από 39 Εικόνα 3.9 : Iστόγραμματα της μέγιστης τιμής του φασματικού εύρους ( Spectral Spread ) σε τρία διαφορετικά είδη μουσικής [6]. Στην Εικόνα 3.9 βλέπουμε το Spread της φασματικής κατανομής σε τρία διαφορετικά είδη μουσικής κλασσική , jazz και ηλεκτρονική. Όπως φαίνεται και από το διάγραμμα η ηλεκτρονική μουσική έχει μεγαλύτερο Spread. 3.2.2 Εντροπία Φάσματος .( Spectral Entropy . H εντροπία φάσματος υπολογίζεται με τον ίδιο τρόπο που υπολογίζεται και η εντροπία ενεργείας H εντροπία χρησιμοποιείται για τον εντοπισμό των περιόδων παύσης και των ενεργών περιόδων ομιλίας στον ανθρώπινο λόγο. Η ιδιότητα αυτή είναι ένα καλό εργαλείο στην αναγνώρισης φωνής. Ο εντοπισμός των ενεργών περιοχών σε ένα σήμα ομιλίας είναι ένα βασικό και σημαντικό στάδιο επεξεργασιας στην αναγνώριση φωνής ( speech recognition ).Η εντροπία δίνεται από τον παρακάτω μαθηματικό τύπο Στην Εικόνα 3.10 έχουμε ιστογράμματα από την τυπική απόκλιση της φασματικής εντροπίας για τρία διαφορετικά είδη ακουστικού σήματος : Ομιλίας , Μουσικής και ηχου περιβάλλοντος. Όσο μικρότερη είναι αυτή η τιμη τόσο υπάρχουν μέσα στο ηχητικό σήμα περίοδοι παύσης . Εικόνα 3.10 : Iστόγραμματα από την τυπική απόκλιση της φασματικής εντροπίας για τρία διαφορετικά είδη ακουστικού σήματος [6]. Διαπιστώνουμε και πειραματικά αυτό που περιμέναμε από την κοινή παρατήρηση ότι δηλαδή η ανθρώπινη ομιλία έχει μεγαλύτερες αυξομειώσεις της ενέργειας από ότι στις άλλες δυο περιπτώσεις.
  • 16. Σελίδα 16 από 39 3.2.3 Φασματική Ροή ( Specral flux ). H παράμετρος αυτή μας δείχνει τις μεταβολές στην φασματική κατανομή της ενέργειας , μεταξύ δύων διαδοχικών γειτονικών χρονικών περιόδων του σήματος .Η φασματική ροή εκφράζεται από τον παρακάτω μαθηματικό τύπο Εικόνα 3.11 : Ιστογράμματα της μέσης τιμής της Φασματικής ροής για δυο διαφορετικά είδη ακουστικού σήματος μουσικής και ομιλίας [6]. H τιμη της spectral flux χρησιμοποιείται για να ορίσει τον ρυθμό ( τέμπο ) σε ένα ακουστικό σημα .Στη Εικόνα 3.11 φαίνονται δυο Ιστογράμματα της μέσης τιμής της Φασματικής ροής για δυο διαφορετικά είδη σήματος μουσικής και ομιλίας .Όπως μπορούμε να παρατηρήσουμε στην περίπτωση της μουσικής , όπου έχουμε ρυθμό , η τιμη είναι σαφώς υψηλότερη ενώ στην ομιλία η οποία είναι ημιπεριοδικο φαινόμενο η τιμη είναι μικρότερη .Από την άλλη μεριά επειδή έχουμε περισσότερα είδη εναλλαγών στον ανθρώπινο λόγο η φασματική ροή λαμβάνει περισσότερες τιμές. 3.2.4 Φασματική απόσβεση ( Spectral Roll off ). Μονάδες μέτρησης του Spectral Roll είναι τα Hz .Σε αναλογία με την συχνότητας αποκοπής στα φίλτρα διέλευσης η παράμετρος αυτή δηλώνει την συχνότητα κάτω από την οποία συγκεντρώνεται όλη η ενέργεια του σήματος. Η συχνότητα spectral Roll off μας δίνει πληροφορίες για το σχήμα της φασματικής κατανομής του σήματος. Χρησιμοποιείται για τον διαχωρισμό των σημάτων ομιλίας και μη . Χρησιμοποιείται επίσης για τον διαχωρισμό τραγουδιών μεταξύ τους .Ο γενικός κανόνας είναι ότι όσο μεγαλύτερη είναι η τιμη αυτή τόσο μεγαλύτερο είναι το συχνοτικο περιεχόμενο του ακουστικού σήματος. Το Spectral Roll off εκφράζεται από τον παρακάτω μαθηματικό τύπο Όπου • sk είναι η τιμη του φάσματος στο ραβδογραμμα k. • b1 and b2 είναι τα δυο άκρα με βάση τα οποία υπολογίζεται η συχνότητα Roll off.
  • 17. Σελίδα 17 από 39 • κ είναι το ποσοστό της συνολικής ενέργειας που περιέχεται μεταξύ των b1 και i.. Εικόνα 3.12 : H συχνότητα spectral Roll off για τέσσερα διαφορετικά είδη μουσικής [6]. Στην Εικόνα 3.12 βλέπουμε ένα παράδειγμα συσχέτισης της συχνότητας spectral Roll off σε τέσσερα διαδοχικά διαφορετικά είδη μουσικής. Τα πρώτα 5 δευτερόλεπτα αντιστοιχούν σε μουσική κλασσικής μουσικής, τα επόμενα 10 σε δυο διαφορετικά είδη ηλεκτρονικής μουσικής , ενώ τα τελευταία πέντε δευτερόλεπτα σε μουσική jazz. Είναι εύκολο να παρατηρήσει κάνεις ότι στην περίπτωση της ηλεκτρονικής μουσικής έχουμε μεγαλύτερη συχνότατα Roll off αφού όπως έχουμε επισημάνει και σε προηγουμένη παράγραφό η ηλεκτρονική μουσική έχει μεγάλο φάσμα συχνότητάς 3.2.5 ΜFCCs . Mel Frequency Cepstral Coefficient [8]. O συντελεστής ΜFCC είναι πολύ χρήσιμο και αξιόπιστο εργαλείο. Χρησιμοποιείται ευρέως στο πεδίο της μηχανικής μάθησης για στην αναγνώριση φωνής. Πριν αναφερθούμε στα Mel Spectrograms θα πρέπει να καταλάβουμε τι είναι τα Mel Scale και γιατί είναι τόσο χρήσιμα στην επεξεργασία σήματος . H Mel scale είναι μια λογαριθμική έκφραση της συχνότητας του υπό εξέταση σήματος . Αυτός ο μετασχηματισμός κρίθηκε αναγκαίος διότι η πράξη έδειξε ότι ο άνθρωπος αν και είναι εύκολο να διακρίνει την διαφορά μεταξύ ενός ήχου συχνότητας 100 Hz από έναν ήχο 200 Hz του είναι δύσκολο να ξεχωρίσει έναν ήχο 1100 Hz από έναν ήχο 1200 Hz. To ανθρώπινο αυτί έχει δηλαδή την ιδιομορφία όσο ποιο ψηλές είναι οι συχνότητες τόσο ποιο δύσκολο είναι να τις ξεχωρίσει .Το παραπάνω γεγονός κάνει τα Mel Social δυνατό εργαλείο σε διαδικασίες αναγνώρισης και διαχωρισμού κάνοντας χρήση της τεχνητής νοημοσύνης αφού κάτ. ουσία μιμείται την αντίληψη του ανθρώπου ως αναφορά τις συχνότητες . Ο μετασχηματισμός των Hz σε κλίμακα Μel δίνεται από την παρακάτω σχέση Εικόνα 3.13 :Διάγραμμα Μel vs Hz [9]. Όπως παρατηρούμε στην Εικόνα 3.13 στο διάγραμμά οι μικρότερες συχνότητες απέχουν μεταξύ τους περισσότερο από ότι οι μεγάλες επειδή ενώ οι τιμές Mel values αυξάνονται γραμμικά τα Hz αυξάνονται εκθετικά
  • 18. Σελίδα 18 από 39 λογαριθμική σχέση γαρ. Mε την βοήθεια το melSpectrogram μπορούμε να οπτικοποιησουμε ηχητικά σήματα. Παράδειγμα οπτικοποιησης δίνεται στις παρακάτω δυο εικόνες Εικόνα 3.14 και Εικόνα 3.15 Εικόνα 3.14 : Οπτικοποιησης ηχου με την χρήση του Mel Scale [8]. Κλασσικά στον άξονα x έχω τον χρόνο και στον άξονα y την συχνότητα Προσοχή ο άξονας του y δεν είναι γραμμικός αλλά λογαριθμικός δηλαδή σε Mel. Για κάθε τιμη της συχνότητας έχουμε διαφορετικό χρώμα το οποίο αντιστοιχεί σε διαφορετική ισχύ Κατ’ ουσία δηλαδή το διάγραμμα είναι τρισδιάστατο. Κίτρινο χρώμα αντιστοιχεί σε - 30 db. ισχύ (power ). Ας κανουμε εδώ μια μικρή παρένθεση και να αναφερθούμε στο ταλαιπωρημένο db. To ντεσιμπέλ (decibel, συντομογραφία dB) είναι μονάδα η οποία ακολουθεί λογαριθμική κλίμακα και στην οποία εκφράζεται η διάφορα ο λόγος στάθμης μίας φυσικής ποσότητας σε σχέση με μια άλλη . Άλλες φορές παρουσιάζεται ως καθαρός αριθμός (λόγος σύγκρισης ) και άλλες φορές με μονάδες ισχύος ή ενέργειας. Στην περίπτωση μας εικόνα 12 δεν είναι λόγος σύγκρισης αλλά ισχύς Sound power level (SWL).H ισχύς του ηχητικού βήματος σημειώνεται ως LW και δίνεται από την μαθηματική σχέση Όπου : • P είναι η ισχύς του σήματος που εξετάζουμε ( sound power) . • P0 η ισχύς αναφοράς η οποία αντιστοιχεί σε 1 pW Στην εικόνα 13 βλέπουμε τρεις διαφορετικούς ήχους .Στην πρώτη περίπτωση από αριστερά παριστάνεται ο ήχος μιας κιθάρας , στην μέση ένα λάκτισμα και στην δεξιά μιας ντραμς. Η οπτικοποιησης και η όλη επεξεργασία έγινε με την βοήθεια της βιβλιοθήκης Python LIbrosa [10] Εικόνα 3.15: Οπτικοποιηση τριών διαφορετικών ήχων μια κιθάρας , μιας κλωτσιάς και μιας ντραμς με την χρήση του Mel Scale [8].
  • 19. Σελίδα 19 από 39 3.2.6 Διανυσμα χρώματος ( chroma vector ) [11]. Για να μπορέσουμε να παρουσιάσουμε το Διανυσμα χρώματος (Chroma vector ) και την εφαρμογή του το χρωμογραφημα ( Chromagram ) είναι απαρατήρητο να κάνουμε αναφορά σε στοιχεία μουσικολογίας. Απαραίτητα θα πρέπει να αποσαφηνίσουμε τι είναι pitch και τι οκτάβα .Στην Εργασία θα κρατήσουμε τον όρο pitch ως έχει θα μπορούσαμε να τον αποδώσουμε με τον όρο Τόνος ή τονικότητα αλλά προτιμήσαμε τον αγγλικό όρο προς αποφυγή παρεξηγήσεων. Με τον όρο Pitch μπορούμε να αποφανθούμε εάν ένας ήχος είναι μπάσος ή πρίμος. Θα μπορούσε κάποιος να συσχετίσει το pitch με την συχνότητα του ήχου μεγάλη ή μικρή αλλά αυτή η συσχέτιση δεν είναι ακριβής . Η συχνότητα του ήχου είναι ένα καθαρά μετρήσιμο φυσικό μέγεθος ενώ αντίθετα ο όρος Pitch είναι εν μέρη υποκειμενικός όπως και οι μουσικές νότες με τις οποίες έχουν μια αναλογία .Τα pitches κατηγοριοποιούνται σε δώδεκα κλασεις ( Τα pitch δεν είναι οι νότες ). Σύμφωνα με τη δυτική μουσική θεωρία, υπάρχουν επτά νότες και ακούν στα ονόματα Ντο, Ρε, Μι, Φα, Σολ, Λα και Σι, ενώ οι αντίστοιχες αγγλικές ονομασίες είναι C, D, E, F, G, A και B. Αυτό δεν θα πρέπει να μας κάνει να τις συγχέουμε με τα Pitch διότι οι νότες είναι επτά ΝΤΟ-ΡΕ-ΜΙ-ΦΑ-ΣΟΛ-ΛΑ-ΣΙ και όχι δώδεκα . Στη μουσική με τον όρο “οκτάβα” χαρακτηρίζουμε μια νότα που έχει ακριβώς τη διπλάσια ή τη μισή συχνότητα από έναν δοσμένο τόνο. Αυτό δημιουργεί την υποκειμενική αίσθηση της απόλυτης ταύτισης των φθόγγων ( νότες ) με τη διαφορά, ότι αυτοί με την υψηλότερη συχνότητα γίνονται αντιληπτοί ως οξύτεροι, ενώ με τη χαμηλότερη ως βαρύτεροι. Κατά τα αντιστοιχία με τις νότες οι κλασεις των δώδεκα pitch (Chroma value ) επαναλαμβάνονται ανά οκτάβα .Οι δώδεκα αυτές κλασεις των Pitches αντιστοιχούν στο C, C♯, D, D♯, E , F, F♯, G, G♯, A, A♯, B . Κάθε οκτάβα έχει τα Pitches , υπάρχει ένα Pitch C στην πρώτη οκτάβα και ένα άλλο Pitch C στην επόμενη οκτάβα τα δυο αυτά Pitch έχουν διαφορετική συχνότητα παρόλα αυτά ακούγονται σαν ίδια .Όλες τα Pitch C από όλες τις οκτάβες τις ονομάζουμε κλάση C. Η κλάση C , A ,D κοκ αποτελεί το Chroma value .Chroma Vector σε ένα ήχο είναι το άθροισμα ας πούμε καταχρηστικώς διανυσματικό των Chroma values του ακουστικού σήματος το οποίο όπως έχουμε αναφέρει είναι ένα μπουκέτο από συχνότητες διαφορετικού πλάτους οι οποίες όταν φτάνουν στο ανθρώπινο αυτί δημιουργούν την αίσθηση του ήχου .Το αυτί όμως δεν είναι ούτε παλμογράφος ούτε Spectrum analyzer αντιλαμβάνεται με τον δικό του τρόπο αυτό τον ήχο .Στην Εικόνα 3.16 βλέπουμε το Chromagram από το τραγούδι Rich Girl’ by Hall & Oates [12] Εικόνα 3.16 : Chromagram από το μουσικό κομμάτι Rich Girl’ by Hall & Oates [8]. Κλασσικά στον άξονα x o χρόνος , ενώ στον άξονα y οι κλασεις Picth Α , Β , G ,F ,D .To κίτρινο σημαίνει ότι στην συγκεκριμένη χρονική στιγμή έχουμε αυξημένη συνιστώσα της αντίστοιχης κλάσης και το σκούρο χρώμα το αντίθετο Η λογική είναι ιδιά με το spectrogram που αναπτύξαμε στην προηγουμένη παράγραφο. Παράδειγμα στο παραπάνω μουσικό τραγούδι την χρονική στιγμή 0.16 sec έχουμε παρουσία της C κλάσης. Όπως παρατηρούν όσοι έχουν κάποια μουσική παιδεία ( εγώ δεν έχω , λίγο τρίγωνο στα κάλαντα ) το Εικόνα 3.17 : Chromagram του D μινόρε.
  • 20. Σελίδα 20 από 39 συγκεκριμένο μουσικό κομμάτι πατάει στο κλειδί του F ματζόρε , για αυτό και η πλειονότητα των κλάσεων με ισχυρή παρουσία βρίσκονται στις κλάσεις F, G, A, Bb, C, and D. Στην Εικόνα 3.17 βλέπουμε την αναπαράσταση του D μινόρε σε χρωμογραφημα. Όπως παρατηρούμε ο ήχος είναι απαλλαγμένος από θόρυβο .Ξεκάθαρα μπορούμε να διακρίνουμε ότι οι ισχυρές κλασεις (κίτρινο χρώμα ) είναι οι C , D, F και Α το οποίο είναι και το αναμενόμενο από το μουσικό κλειδί F ματζόρε.
  • 21. Σελίδα 21 από 39 ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ ΑΚΟΥΣΤΙΚΟΥ ΣΗΜΑΤΟΣ ΣΕ ΠΡΑΓΜΑΤΟΛΟΓΙΚΟ ΕΠΙΠΕΔΟ (ANNOTATION ) 4. MIR Εργαλειοθήκη του MATLAB για επεξεργασία ακουστικού σήματος . 4.1 Γενική περιγραφή της εργαλειοθήκης MIR. Η εργαλειοθήκη ΜIRToolBox [13]είναι μια βιβλιοθήκη συναρτήσεων του MATLAB η οποία σχεδιάστηκε ώστε να εξάγει πληροφορίες μουσικού περιεχομένου από ηχητικά σήματα .Η εξαγωγή αυτών των χαρακτηριστικών γίνεται μέσω στατιστική ανάλυσης των δειγμάτων .Τέτοιες πληροφορίες είναι το ηχόχρωμα (timbre) η τονικότητα (tonality,) ο ρυθμός (rhythm) ή το μοτίβο (Form). Το ΜIRToolBox περιέχει επίσης επιπρόσθετα συναρτήσεις κατασκευασμένες για στατιστική ανάλυση τμηματοποίησης (segmentation) και ομαδοποίησης ( clustering ) δεδομένων. Τα δεδομένα και οι μέθοδοι είναι φτιαγμένα με αντικειμενοστραφή προσανατολισμό .και αρχιτεκτονική .Είναι λίγα τα λογισμικά τα οποία κάνουν παρόμοια δουλειά .Στον αντίποδα του ΜIRToolBox είναι το Marsyas (Music Analysis, Retrieval and Synthesis for Audio Signals) το οποίο είναι και ανοικτού κώδικα επιπροσθέτως [14]. Στην Εικόνα 4.1 παραθέτονται σε σχηματικό διάγραμμα τα χαρακτηριστικά και οι πληροφορίες που μπορούν να εξαχθούν με το ΜIRToolBox και δεν είναι οι μόνες Εικόνα 4.1 : Πληροφορίες που μπορούν να εξαχθούν μέσω του ΜIRToolBox [15]. Η επεξεργασία ξεκινά από αριστερά και καταλήγει δεξιά .Πάνω είναι οι απλές διαδικασίες επεξεργασιας ενώ τέρμα κάτω οι ποιο συνθέτες και λεπτομερείς. Βασικό εργαλείο του ΜIRToolBox για την εξαγωγή πληροφοριών στο πεδίο της συχνότητας είναι η FFT .H Fast Fourier transform η οποία είναι ένας αλγόριθμος που υπολογίζει γρήγορά τον διακριτό μετασχηματισμό Fourier. Διακριτός διότι το αναλογικό σήμα έχει υποστεί δειγματοληψία. Ορισμένες μουσικές πληροφορίες που μπορούμε να εξορύξουμε με την βοήθεια της FFT είναι : ➢ Ανάλυσης ηχοχρώματος. Η Χροιά του ηχου το ηχόχρωμα το οποίο προσδιορίζεται πιθανοκρατικα μέσω των τιμών του spectral Centroid , το Roll-off και του brightness. ➢ Ανάλυσης τονικότητας . Η εκτίμηση του pitch γίνεται με την βοήθεια της αυτοσυσχετισης της φασματικής καμπύλης. ➢ Ανάλυσης ρυθμικότητας. Παραγωγιζοντας στον χρόνο την καμπύλη του φασματογραφήματος υπολογίζουμε την τιμη της spectral flux η οποία μας με την σειρά της μας δίνει πληροφορίες για τον ρυθμό (περίοδο ). Παρακάτω θα αναλύσουμε εκτενώς τα τρία παραδείγματα που αναφέραμε προηγουμένως 4.2 Παράδειγμα ανάλυσης ηχοχρώματος [15].
  • 22. Σελίδα 22 από 39 Ένας απλός και εύχρηστος τρόπος να προσδιορίσουμε την χροιά βασίζεται στον υπολογισμό των συντελεστών MFCCs Mel-frequency cepstral coefficients (MFCCs). Στην Εικόνα 4.2 βλεπουμε την διαδικασια και τα σταδια επεξεργασιας. Αρχικα .το σημα ηχου χωριζεται σε κομματια (Frames ). Χρησιμοποιώντας την συνάρτηση mirspectrum κάνω ανάλυση στο πεδίο της συχνότητας του σήματος παίρνω το φάσμα και κατόπιν το μετατρέπω σε Mel-scale. Σκοπός της όλης διαδικασίας είναι να υπολογίσω τους 40 συντελεστές MFCC . Οι συντελέστε αυτοί αντιστοιχούν σε 40 περιοχές συχνοτήτων. Αυτό γίνεται Θετοντας 40 ζωνοπερατα φίλτρα στο υπό επεξεργασία σημα εχω τους αντίστοιχους 40 συντελεστές. Συνήθως δεν χρησιμοποιούνται όλοι οι συντελεστές για την εξαγωγή συμπερασμάτων. Η χροιά είναι η ιδιαιτερότητα του κάθε ήχου και μας δίνει την δυνατότητα να τον ξεχωρίζουμε από τους άλλους. Ενώ δεν ξέρουμε γερμανικά ή κινέζικα παραταυτα μπορούμε να διακρίνουμε έναν ομιλητή Γερμανό ή κινέζο .Εάν ακούσουμε δύο ήχους ίδιας έντασης ακόμα και ίδιας νότας από μια κιθάρα και από ένα πιάνο καταλαβαίνουμε εύκολα από ποιο όργανο προέρχεται ο καθένας και ο λόγος είναι ότι το πιάνο και η κιθάρα έχουν διαφορετικό ηχόχρωμα (Timbre). Η όλη διαδικασια μπορεί να εκτελεστεί σε μια μόνο γραμμή εντολών καλώντας την mimic function Έχοντας σαν όρισμα το αρχείο ηχου . Εικόνα 4.2 :Διαδικασια και τα σταδια επεξεργασιας MFCCs [15]. 4.3 Παράδειγμα ανάλυσης τονικότητας [15]. Για την ανάλυση και τον προσδιορισμό της τονικότητας χρησιμοποιείται το Chromagram το οποίο παρουσιάσαμε και σε προηγουμενη ενότητα .Το εξαγόμενο διάγραμμα Chromagram δείχνει την κατανομή της ενέργειας σε σχέση με τις δώδεκα κλασεις των pitches .Ο C. Krumhansl at al [16] παρουσίασαν μια μέθοδο για τον υπολογισμό της τονικότητας ενός μουσικού κομματιού .Η μέθοδος υπολογίζει την ετεροσυσχετση της κατανομής των κλάσεων του υπό εξέταση δείγματος με δείγματα κάθε δυνατής τονικότητας .Η μέθοδος βασίζεται σε στατιστικά δεδομένα διαφόρων ειδών μουσικής ως προς την τονικότητα. Όσο μεγαλύτερη είναι η τιμη της ετεροσυσχετιση τόσο η τονικότητα του υπό εξέταση κομματιού είναι όμοια με την τονικότητας του αντίστοιχου δείγματος από την βάση δεδομένων . Η Εικόνα 4.3 δείχνει τα σταδια και την διαδικασια υπολογισμού της τονικότητας. Στο τελικό στάδιο τέρμα δεξιά έχουμε τους συντελεστές βάρους Key strength για κάθε κλάση Εικόνα 4.3 :Διαδικασια και τα σταδια επεξεργασιας για την ανάλυση της τονικότητας [15].
  • 23. Σελίδα 23 από 39 Μια ποιο ακριβή προσέγγιση της τονικότητας γίνεται με την βοήθεια του self-organizing map (SOM) .Το SOM ανήκει στις τεχνικές μη καθοδηγουμένης εκμάθησης μηχανικής μάθησης ( Machine learnig ) η τεχνική της μη καθοδηγούμενης εκμάθησης έχει σαν στόχο την διαμόρφωση ομάδων δεδομένων ,στην περίπτωση μας η τονικότητα των μουσικών κομματιών με την βοήθεια κάποιων κριτήριων ομοιότητας [17]. Δεν απαιτείται η χρησιμοποίηση προηγούμενων δεδομένων εκπαίδευσης αλλά η ομαδοποίηση γίνεται απευθείας από τα δεδομένα εισόδου Η εκτίμηση της τονικότητας γίνεται μετατρέποντας το αποκτηθεν Chromagram σε χάρτη SOM. Στην Εικόνα 4.4 βλεπουμε τον χάρτη SOM των δυο πρώτων δευτερολέπτων της σονάτας Mozart σε A ματζόρε. Οι περιοχές με φωτεινές αποχρώσεις αντιστοιχούν σε κλασεις με ισχυρή παρουσία. Εικόνα 4.4 : Χάρτης SOM ( self-organizing map ) ως προς την τονικότητα [15]. 4.4 Παράδειγμα ανάλυσης ρυθμικότητας [15]. Ένας συνηθισμένος τρόπος εκτίμησης του ρυθμού περιγράφεται στην Εικόνα 4.5 και βασίζεται στην ακουστική μοντελοποίηση. Αρχικα το ηχητικό σημα χωριζεται σε ακουστικά κανάλια χρησιμοποιώντας κλασσικά μια συστοιχία ζωνοπερατων φίλτρων. Τα φίλτρα αυτά μπορεί να είναι μέχρι είκοσι. Η ρυθμικότητα γενικά συσχετίζεται με τις αυξομειώσεις της ενεργείας. Η κυματομορφη envelope των αυξομειώσεων ανορθώνεται για να έχουμε μια ποιο λεπτομερή περιγραφη των αυξομειώσεων για κάθε περιοχή Εικόνα 4.5 : Διαδικασια και τα σταδια επεξεργασιας για την ανάλυση της ρυθμικότητας ( Tempo) [15]. Η περιοδικότητα υπολογίζεται με την βοήθεια της αυτοσυσχετισης .Στην περίπτωση που το Tempo , ρυθμός μεταβάλλεται κατά την διάρκεια του τραγουδιού είναι αναγκαίο ο υπολογισμός να γίνεται χωρίζοντας το τραγούδι σε μικρά κομματια ( Short term – processing ). Για την εκτίμηση της περιοδικότητας το periodogram φιλτράρεται στοχευμενα με αποτερω σκοπό να βρω την πιθανή ρυθμικότητα . Η πιθανή ρυθμικότητα θα «βγάζει» , θα εμφανίζει υψηλά peaks τα οποία αντιστοιχούν στο Tempo ( beat per minutes). Όλη αυτή η διαδικασια που περιγράψαμε παραπάνω μπορεί να εκτελεστεί σε μια μόνο γραμμή εντολών καλώντας απευθείας την συνάρτηση ( κλάση ) midtempo με όρισμα a το υπό εξέταση σημα , και frame η χρονική περίοδος στην οποία θα επεξεργαστεί αφού πρώτα κοπεί το υπό εξέταση αρχείο
  • 24. Σελίδα 24 από 39 mirtempo(a,’Frame’) 4.5 Κατακερματοποιση δεδομένων . ( Data Segmentation ) [15]. H κατακερματοποιση δεδομένων είναι η διαδικασια κατά την οποία τα δεδομένα χωρίζονται ανά ομάδες .Στην περίπτωση μας δεδομένα είναι οι διακριτές τιμές του δειγματοληπτημενου ακουστικού σήματος. Τα κριτήριά ομαδοποίησης μπορεί να είναι πολλά και ορίζονται ανάλογα την εφαρμογή. Ο διαχωρισμός γίνεται με σκοπό την αποδοτικότερη και γρηγορότερη ανάλυση των δεδομένων .Ο πόλεμος του Big Data τώρα αρχίζει. Στην παράγραφο αυτή θα παρουσιάσουμε την διαδικασια ομαδοποίησης με κριτήριο την ρυθμικότητα. Στην Εικόνα 4.6 φαίνεται διαδικασια και τα σταδια Κατακερματοποιησης - ομαδοποίησης με κριτήριο της ρυθμικότητα. Με την Βοήθεια του MIR Toolbox μπορούμε αυτόματα να ομαδοποιήσουμε ηχητικά σήματα τα οποία παρουσιάζουν ομοιογένεια .Ο κατακερματισμός αυτός γίνεται συγκεκριμένα με κριτήριο της χρονικές μεταβολές στην ένταση σε συνδυασμό με αλλά χαρακτηριστικά όπως το ηχόχρωμα ( timbre ). Εικόνα 4.6 :Διαδικασια και σταδια κατακερματοποιησης με κριτήριο την ρυθμικότητα [15]. Αρχικά το κομμάτι χωριζεται σε frames . Για κάθε κομμάτι υπολογίζονται οι συντελεστές MFCC .Στο επόμενο στάδιο κατασκευάζεται o πίνακας εγγύτητάς similarity matrix για το σύνολο των frames . Κάνοντας χρήση της μαθηματικής συνέλιξης βρίσκουμε την Novelty. Στον όρο Novelty μπορούμε να αποδώσουμε την έννοια της μικροδιαφοράς , της διαφορετικότητας. Προσδιορίζοντας τις μικροδιαφορές λοιπόν δημιουργούμε ένα τελικό πίνακα εγγύτητάς απαλλαγμένο από θόρυβο ( Πίνακας τέρμα δεξιά ) Η παραπάνω διαδικασια αυτόματα επισημάνει τις χρονικές στιγμές οπού έχουμε σημαντικές διάφορες σε μουσική η ήχο και έτσι κατασκευάζει τις συστάδες δεδομένων 4.6 Ανάλυση δεδομένων . [15] To MIRToolbox περιέχει διαφορά εργαλεία για την ανάλυση δεδομένων .Τέτοια εργαλεία είναι ο Peak extractor ανιχνευτής κορυφών και συναρτήσεις η οποίες υπολογίζουν ιστογράμματα ,εντροπία ενέργειας διαπεραση του μηδενός , ανιχνεύουν ασυνέχειες . Επιπρόσθετα περιέχει εργαλεία στατιστικά ανάλυσης τα οποία δίνουν παραμέτρους όπως η διασπορά , η κλίση ( Spectral Skewness ) η επιπεδοτητα ( Spectral Flatness ) σε διάφορες τύπου απεικονίσεις όπως ιστογράμματα , διαγράμματα κορυφών , φασματογράμματα συχνοτήτων .Oι συναρτήσεις mirpeaks προσφέρουν επιπλέον δυνατότητες στην ανάλυση δεδομένων. Αυτό γίνεται καθορίζοντας ένα κατώφλι επιλογής .Εφαρμόζοντας κατόπιν μοντέλα καθοδηγουμένης εκμάθησης , χρησιμοποιώντας τεχνικές όπως αυτής της K-Nearest Neighbours or Gaussian Mixture Model μπορούμε να κατηγοριοποιήσουμε ηχητικά αρχεία πχ μουσική σε ομάδες όπως κλασσική μουσική , ποπ , ποντιακή κ.α.
  • 25. Σελίδα 25 από 39 ΠΑΡΑΔΕΙΓΜΑΤΑ ΕΦΑΡΜΟΓΩΝ . 5 ΧΡΗΣΗ ΤΗΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΓΙΑ ΤΗΝ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΑΝΑΛΥΣΗ ΜΟΥΣΙΚΗΣ . 5.1 Συντομη παρουσιαση της μηχανικης μαθησης. Κρίθηκε απόλυτα αναγκαίο να κανουμε μια μικρή παρουσιαση της μηχανικής μάθησης η οποία θα χρησιμοποιηθεί για την συναισθηματική ανάλυση διότι είναι ένας καινούργιος κλάδος της επιστήμης των υπολογιστών και έχει καινούργιους δυσνόητους όρους. Θα προσπαθήσουμε να συνδέσουμε την θεωρία της μηχανικής μάθησης με το αντικείμενο της παρούσης εργασίας με όσο γίνεται ποιο απλά λόγια. Machine Learnig Μηχανική μάθηση είναι πεδίο της επιστήμης των υπολογιστών που αναπτύχθηκε από τη μελέτη της αναγνώρισης προτύπων. Ο υπολογιστής δηλαδή καλείτε να αναγνώριση πρότυπα ( μοτίβα ) στην περίπτωση μας π.χ ένα χορευτικό κομμάτι από μια μπαλάντα. Η μηχανική μάθηση βασίζεται στην κατασκευή αλγορίθμων που μπορούν να μαθαίνουν από τα δεδομένα και να κατόπιν να κάνουν προβλέψεις σχετικά με αυτά . Με απλά λόγια Κατά αντιστοιχία με τον άνθρωπο ο οποιος μαθαίνει στο διάβα του βίου του , ωριμάζει ,«εκπαιδεύεται» και μπορεί με ακρίβεια και αξιοπιστία να διακρίνει και να ξεχωρίζει . Οι αλγόριθμοι της μηχανικής μάθησης μπορούν να εκπαιδεύονται από τα δεδομένα εισόδου. Θα πρέπει δηλαδή να εκπαιδεύσουμε το πρόγραμμα μας ( software ) πριν το βάλουμε να δουλέψει δηλαδή να ξεχωρίσει π.χ εάν ένα τραγούδι είναι χορευτικό ή μπαλάντα. Η εκπαίδευση υλοποιείται όχι με τον πατροπαράδοτο τρόπο γράφοντας ξεχωριστό custom κώδικα αλλά «αυτόματα». Βάζουμε λοιπόν τον υπολογιστή να ακούσει 5 ζεϊμπέκικα και του λεμέ αυτό είναι ζεϊμπέκικο .Κατόπιν βάζουμε τον υπολογιστή να ακούσει 5 τσιφτετέλια και του λεμέ αυτό είναι τσιφτετέλι .Η μηχανή κατόπιν μπορεί και κάνει τον απαιτούμενο διαχωρισμό. Μια κατηγορία μεθόδου μηχανικής μάθησης είναι το supervised Machine learnig ( Επιβλεπόμενη μάθηση) όπου τα δεδομένα που εισάγονται είναι ήδη προσημασμενα [17]. O ταξινομητης support vector Machine (SVM) που θα αναφερθούμε παρακάτω είναι ένα παράδειγμα supervised Machine learnig. Αντίθετα στο Unsupervised Machine learnigng ( μη-επιβλεπόμενη μάθηση) τα εισαγόμενα δεδομένα δεν είναι προσημασμενα .Ο ίδιος ο αλγόριθμος βρίσκει τα κρυμμένα μοτίβα και ομαδοποιεί τα δεδομένα Οι αλγόριθμοι αυτοί δηλαδή δεν χρειάζονται την ανθρώπινη παρέμβαση .Έχουν την ικανότητα να βρίσκουν μόνοι τους τις ομοιότητες ή τις διαφορές . Η μη- επιβλεπόμενη μάθηση αποτελεί κατηγορία της μηχανικής μάθησης, στόχος της οποίας είναι η ανακάλυψη της πιθανής δομής που μπορεί να κρύβεται ακόμα και πίσω από μη χαρακτηρισμένα δεδομένα. Διότι άλλα τα μάτια του λαγοί αλλά της κουκουβάγιας Η έρευνα που θα παρουσιάσουμε βασίζεται στην δευτερη μεθοδο 5.2 Εισαγωγή – προεπισκόπηση της εφαρμογής. Η αναγνώριση συναισθημάτων μουσικής music emotion recognition (MER ) σχετίζεται με διάφορες τάξεις κλάδων όπως η μουσικολογία, η ψυχολογία και η φυσιολογία. Με τη συνεχιζόμενη πρόοδο στον τομέα της ανάκτησης δεδομένων ηχου (βλέπε Matlab ) υπάρχει ένας ενθουσιασμός για τη διερεύνηση και την κατανόηση του πολυδιάστατου περιεχομένου της μουσικής. Η ικανότητα της μουσικής να επηρεάζει τα συναισθήματά του ανθρώπου ,έστρεψε την προσοχή της επιστημονικής κοινότητας στο πεδίο της συναισθηματικής ανάλυσης .Όμως ,λόγω του τεράστιου όγκου της μουσικής και της ποικιλίας του μουσικού περιεχομένου ( παραδοσιακά, ροκ κ.ο.κ ) ,η διαδικασια εξευρενεσης και προσδιορισμού του συναισθήματος συναντά δυσκολίες και αναπάντητα ακόμα ερωτηματικά. Πολλοί ερευνητές στην προσπάθεια συναισθηματικής ανάλυσης χρησιμοποιούν τα μεταδιδόμενα ( metadata ) του τραγουδιού όπως τίτλος , τραγουδιστής , χρονολογία καθώς επίσης εξαγόμενα χαρακτηριστικά του όπως φωτεινότητα, ο ρυθμός κ.ο.κ .Χαρακτηριστικά δηλαδή σε επίπεδο annotation όπως τα παρουσιάσαμε στο κεφάλαιο 3 της παρούσης εργασίας. Το έργο της εν γένη επιστημονικής κοινότης μέχρι πρότινος ήταν στην διερεύνηση του τρόπου που η μουσική επηρεάζει τα συναισθήματα δεν υπάρχουν μελέτες για την ποσοτικοποίηση και την κατηγοριοποίηση των ανθρώπινων συναισθημάτων στη μουσική. Μια από τις ποιο ενδιαφέρουσες προσεγγίσεις προσδιορισμού των συναισθημάτων στην μουσική είναι το μοντέλο συναισθημάτων του Russell [18]. Εμείς θα ασχοληθούμε με το απλό δισδιάστατο μοντέλο το οποίο προσφέρει ένα απλό και αποτελεσματικό εργαλείο ταξινόμησης. Στην Εικόνα 5.1 δίνεται το μοντέλο. Στο άξονα x είναι η τιμη σθένος ( Valence ) ενώ στον άξονα y είναι η ερωτική διάθεση , διέγερση ( arousal )
  • 26. Σελίδα 26 από 39 Εικόνα 5.1 : Δισδιάστατο μοντέλο συναισθημάτων του Russell [19]. Ένα παράδειγμα εφαρμογής της αναγνώρισης συναισθημάτων μουσικής είναι τα προηγμένα συστήματα συστάσεων μουσικής ( βλέπε spotify ) με στόχο την δημιουργία προσωπικής μουσικής βιβλιοθήκης σύμφωνα με το γούστο του χρήστη. Άλλες παρόμοιες εφαρμογές συναντιούνται στην μουσικοθεραπεία για την αντιμετώπιση συναισθηματικών διαταραχών σε ανθρώπους και όχι μόνο . Η εφαρμογή spotify προτείνει λίστες μουσικής για διάφορες ανθρώπινες δραστηριότητας όπως διάβασμα , γράψιμο , τρέξιμο , Cross fit. Σε πρόσφατες έρευνες, έχει αποδειχθεί ότι η επιλογή κατάλληλης μουσικής μπορεί να βελτιώσει την ψυχολογική κατάσταση του ακροατή ή αντίστοιχα να βελτιώσει την επίδοση του σε αερόβιές ή αναερόβιες δραστηριότητας. Στόχος αυτής της εργασίας είναι να παρουσιάσει την αυτοματοποιημένη διαδικασία αναγνώρισης μουσικών συναισθημάτων για διάφορα είδη μουσικής. Το αυτοματοποιημένο αυτό σύστημα μπορεί επίσης να θεωρηθεί ως η σκουληκοτρυπα δυο διαφορετικών επιστημονικών πεδίων της Μηχανικής Μάθησης ( Machine Learnig ) με την ανθρώπινη ψυχολογία ( Human psychology) . Η υλοποίηση του συστήματος ( μοντέλου ) βασίστηκε στην επεξεργασία οκτώ διακριτών χαρακτηριστικών του ήχου. Τα Χαρακτηριστικά αυτά είναι ο τόνος , ο ρυθμός , οι συντελεστές MFCC , η τονικότητας , το mode , η φωτεινότητας, η συχνότητα Roll-off και η ενέργεια. Χαρτογραφήθηκαν επίσης οι τέσσερις βασικές κατηγορίες διάθεσης [18] Στην εικόνα 22 φαίνεται ποιο παραστατικά το δισδιάστατο μοντέλο συναισθημάτων του Russell που αναφέραμε προηγουμένως Υπάρχουν και πιο λεπτομερή ελικοειδή τρισδιάστατα μοντέλα απεικόνισης του συναισθήματος αλλά δεν είναι αντικείμενο της παρούσης εργασίας γιατί θα πλατειάσουμε. Η κατηγοριοποίηση των μουσικών κλιπ έγινε με βάση τη θεωρία των Gabrielsson και Lindström [20]. Για την εκπαίδευση του μοντέλου έγινε χρηση του Social tag last.fm. Στη συνέχεια πραγματοποιήθηκε αυτόματη ομαδοποίηση με την χρηση του μαθηματικού αλγόριθμου K- means. Ο αλγόριθμος k-means [21] έχει χρησιμοποιηθεί κατά κόρον στην εξόρυξη πληροφορίας και στην δημιουργία συστάδων . Τέλος, συγκρίθηκαν τα αποτελέσματα από διάφορους αλγόριθμους μηχανικής μάθησης, όπως ANN, linear discriminant, ensemble Learner και SVM για την αξιολόγηση της μεθόδου. 5.3 Θεωριες πανω στις οποιες βασιστηκαν το μοντελο της συναισθηματικης αναλυσης . Το 2009 ο Han at al [22]και λίγο αργότερα το 2016 ο Han at al [23] στην ερευνητική τους εργασία διαπίστωσαν πως κοινά χαρακτηριστικά του ήχου, όπως το ύψος ,η χροιά ,το τέμπο ,ο ρυθμός , η ενέργεια, δίνουν σημαντικές πληροφορίες στον προσδιορισμό συναισθημάτων. Το 2014, ο Saurabh H. Deshmukh [10]
  • 27. Σελίδα 27 από 39 Εικόνα 5.2 : Δισδιάστατο μοντέλο συναισθημάτων του Russell. χρησιμοποίησε το Brightness ως νέο εργαλείο συναισθηματικής ανάλυσης . Η εργασία των Gabrielsson και Lindström [20] απέδειξε την ύπαρξη ενός ένα μοτίβου σύνδεσης της μουσικής με το συναίσθημα. Σύμφωνα με το μοτίβο αυτό η διέγερση ( Arousal ) έχει συνάφεια με παραμέτρους όπως ο ρυθμός ( γρήγορος ή αργός ), την φωτεινότητα ( υψηλή ΄ή χαμηλή ), τον τόνο (υψηλός ή χαμηλός ) και το ηχόχρωμα (απαλό ή φωτεινό). Αντίστοιχα το σθένος ( Valence ) έχει συνάφεια με το mode (ελάσσον ή μείζον) και την αρμονία ( σύμφωνη ή συγκρουσιακή ). Ωστόσο, το πιο σημαντικό είναι ότι οι Hevner [24]και Rigg [25] έδειξαν ότι η έννοια του συναισθήματος δεν εξαρτάται σχεδόν από έναν μόνο χαρακτηριστικό που αναφέραμε αλλά σε συνδυασμό τους. Για παράδειγμα, οι δυνατές συγχορδίες και οι συγχορδίες με υψηλό τόνο σχετίζονται με πιο θετικό σθένος από τις απαλές συγχορδίες και τις χαμηλόφωνες συγχορδίες, ανεξάρτητα από τον τρόπο λειτουργίας. 5.4 Machine Learning Approaches [19] Με βάση λοιπόν τις μελέτες της ψυχολογίας που αναφέρθηκαν παραπάνω οι μηχανικοί της πληροφορικής και οι ειδήμονες της μηχανικής μάθησης πιάσανε δουλειά. Το σύστημα αναγνώρισης μπορεί να χωριστεί στα ακόλουθα στάδια όπως φαίνεται και στο Σχήμα 5.3 και βασίζεται στην μεθοδο UnSupervised learnig . Σχήμα 5.3 : Σταδια επεξεργασιας για την συναισθηματική ανάλυση ηχητικού σήματος [19].