ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ
ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ
ΜΕΤΑΓΡΑΦΗ ΠΟΛΥΦΩΝΙΚΗΣ ΜΕΛΩΔΙΑΣ ΜΕ ΧΡΗΣΗ
ΦΑΣΜΑΤΙΚΩΝ ΠΡΟΤΥΠΩΝ
ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ
ΣΑΧΟΣ ΚΩΝΣΤΑΝΤΙΝΟΣ – ΑΡΣΕΝΙΟΣ
ΑΕΜ 5468
Επιβλέπων : ΜΗΤΙΑΝΟΥΔΗΣ ΝΙΚΟΛΑΟΣ
ΞΑΝΘΗ, ΝΟΕΜΒΡΙΟΣ 2015
1
ΠΕΡΙΛΗΨΗ
Σε αυτή τη διπλωματική εργασία αναλύεται και υλοποιείται η διαδικασία της μεταγραφής
μουσικών σημάτων, η μετατροπή δηλαδή της ηχητικής πληροφορίας σε μουσική
σημειογραφία όπως για παράδειγμα παρτιτούρα ή συμβολικό αρχείο σε ηλεκτρονική
μορφή(αρχείο ΜIDI). Η προαναφερθείσα μετατροπή εξετάζεται τόσο σε μονοφωνικά αρχεία
ήχου όσο και σε πολυφωνικά.
Στο πρώτο μέρος της εργασίας γίνεται αναφορά μερικών εννοιών σχετικά με τον κλάδο της
Μουσικής αλλά και τον τομέα της Ψηφιακής Επεξεργασίας Σήματος ώστε να καταστεί
ευκολότερη η κατανόηση του περιεχομένου που ακολουθεί. Στη συνέχεια, σε πρώτη φάση
ασχολούμαστε με το κομμάτι της μονοφωνικής μεταγραφής, όπου προτείνονται δύο
εναλλακτικοί τρόποι αντιμετώπισης του προβλήματος βασισμένοι στην αυτοσυσχέτιση
(auto-correlation) για τον εντοπισμό της κυρίαρχης συχνότητας και κατ’ επέκταση την
εκτίμηση της εκάστοτε νότας. Η δεύτερη φάση αφορά την πολυφωνική μεταγραφή ενός
ηχητικού σήματος όπου με γνώμονα τη μέθοδο της παραγοντοποίησης μη-αρνητικών
πινάκων (NMF) αναπτύσσονται διάφορες τεχνικές με σκοπό την πιστή αποτύπωση του στο
αρχείο MIDI. Κλείνοντας, πραγματοποιούνται μετρήσεις σχετικά με την ακρίβεια της
μεταγραφής και των δύο περιπτώσεων και εξάγονται αντίστοιχα συμπεράσματα.
Λέξεις Κλειδιά: Μεταγραφή, μουσική, επεξεργασία, σήμα, νότα, ανίχνευση, ύψος,
αυτοσυσχέτιση, μετασχηματισμός, φασματογράφημα, μονοφωνία, πολυφωνία,
παρτιτούρα, παραγοντοποίηση
2
ABSTRACT
In this thesis we analyze and implement the transcription of music signals, the conversion, in
other words, of the audio information to music notation e.g. music score or noted file in
electronic format (midi file). The aforesaid conversion is examined both in monophonic and
in polyphonic audio files.
In the first part of this project, we mention some introductory concepts related to Music and
to Digital Signal Processing, so that the following content can be conceived more easily. Next,
we deal with monophonic transcription, where we suggest two alternative ways of addressing
the problem based on auto-correlation for e pitch detection and later on for the estimation of
each note. Consequently, we address the problem of polyphonic transcription of an audio
signal. where based on the method of Non-Negative Matrix Factorization (NMF), we develop
several techniques aiming at extracting its precise representation in a midi file. Finally,
objective evaluation of the proposed methodologies is being performed in terms of the
accuracy of the transcription for both the monophonic and polyphonic case.
Key words: Transcription, music, processing, signal, note, detection, pitch, auto-correlation,
transform, spectrogram, monophony, music score, piano roll, Non-negative Matrix
Factorisation
3
Ευχαριστίες
Σε αυτό το σημείο θα ήθελα πω ένα μεγάλο ευχαριστώ στον επιβλέποντα της διπλωματικής
εργασίας και καθηγητή μου, κ. Μητιανούδη Νικόλαο πρώτα για την εμπιστοσύνη που μου
έδειξε αναθέτοντας μου τη συγκεκριμένη διπλωματική εργασία και κατ’ επέκταση για την
υποστήριξη και καθοδήγηση του κατά τη διάρκεια εκπόνησης της.
Επίσης ευχαριστώ θερμά την οικογένεια μου για την πολυδιάστατη στήριξη που μου
παρείχαν σε όλα τα χρόνια των σπουδών μου.
Τέλος ευχαριστώ την Ε. για την αμέριστη κατανόηση και ανιδιοτελή βοήθεια της και τους
κοντινούς μου ανθρώπους που διαμόρφωσαν τα φοιτητικά μου χρόνια.
4
ΠΕΡΙΕΧΟΜΕΝΑ
ΠΕΡΙΛΗΨΗ…………………………………………………………………………………………………….............1
Λέξεις-κλειδιά…………………………………………………………………………………………………………..1
ABSTRACT…………………………………………………………………………………………………………………2
Key words………………………………………………………………………………………………………………….2
Ευχαριστίες ………………………………………………………………………………………………………………3
ΠΕΡΙΕΧΟΜΕΝΑ………………………………………………………………………………………………………….4
ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ………………………………………………………………………………………………..6
ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ………………………………………………………………………………………………..9
1.ΕΙΣΑΓΩΓΗ……………………………………………………………………………………………………………..10
1.1 Παρουσίαση θέματος και Στόχοι……………………………………………………………………….10
1.2 Δομή της Διπλωματικής…………………………………………………………………………………….13
2.ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ……………………………………………………………………………………….14
2.1 Θεωρία της Μουσικής………………………………………………………………………………………14
2.2 Ψηφιακή Επεξεργασία Σήματος………………………………………………………………………..16
2.2.1 Δειγματοληψία – Θεώρημα Νyquist – Κβαντισμός………………………………………..17
2.2.2 Φάσμα και Μετασχηματισμός Fourier……………………………………………………………19
2.3 Μουσική και Ψηφιακή Επεξεργασία ήχου…………………………………………………………21
2.3.1 Βασικά Χαρακτηριστικά Ψηφιακού ήχου……………………………………………………….22
2.4 Μεταγραφή Μουσικής……………………………………………………………………………………..25
3. ΜΟΝΟΦΩΝΙΚΗ ΜΕΤΑΓΡΑΦΗ ΜΟΥΣΙΚΗΣ…………………………………………………………….31
3.1 Χαρακτηριστικά της Μονοφωνίας…………………………………………………………………….31
3.2 H Τεχνοτροπία της Μονοφωνικής Μεταγραφής……………………………………………….34
3.2.1 Κατάτμηση ηχητικού σήματος……………………………………………………………………….36
3.2.2 Συνάρτηση Παραθύρου…………………………………………………………………………………37
3.2.3 Ανίχνευση ύψους της νότας (pitch detection)…………………………………………………38
3.2.4 Εκτίμηση της αρχής μιας νότας (onset detection)…………………………………………..45
5
4. ΠΟΛΥΦΩΝΙΚΗ ΜΕΤΑΓΡΑΦΗ ΜΟΥΣΙΚΗΣ………………………………………………………………56
4.1 Το πρόβλημα της πολυφωνίας………………………………………………………………………….56
4.2 Μέθοδος παραγοντοποίησης μη αρνητικών πινάκων – (Νοn-Negative Matrix
Factorization – NMF)………………………………………………………………………………………………57
4.2.1 Λίγα λόγια για τον NMF………………………………………………………………………………….57
4.2.2 Ορισμός του ΝΜF………………………………………………………………………………………….57
4.2.3 Προεκτάσεις του NMF……………………………………………………………………………………60
4.3 Η διαδικασία της πολυφωνικής μεταγραφής……………………………………………………62
4.3.1 O NMF στην πολυφωνική μεταγραφή……………………………………………………………63
4.3.2 Constant Q…………………………………………………………………………………………………….68
4.3.3 Εκτίμηση Ύψους (pitch detection)………………………………………………………………….71
4.3.4 Εκτίμηση της αρχής της νότας (onset detection)…………………………………………….72
4.4 W Training………………………………………………………………………………………………………..73
5. ΠΕΙΡΑΜΑΤΙΚΟ ΜΕΡΟΣ…………………………………………………………………………………………78
5.1 Υλοποίηση της μονοφωνικής μεταγραφής………………………………………………………..78
5.1.1 Κατάτμηση του ηχητικού σήματος…………………………………………………………………78
5.1.2 Pitch Detection με τη μέθοδο της αυτοσυσχέτισης (Auto-correlation)……………79
5.1.3 Onset Detection…………………………………………………………………………………………….82
5.1.4 Εκτίμηση των silenced frames………………………………………………………………………..85
5.1.5 Κατασκευή του midi αρχείου…………………………………………………………………………85
5.1.6 Μέτρηση ακρίβειας για τη μονοφωνία………………………………………………………….87
5.2 Υλοποίηση της πολυφωνικής μεταγραφής………………………………………………………..91
5.2.1 Εφαρμογή του μετασχηματισμού Constant Q………………………………………………..91
5.2.2 Εφαρμογή του NMF……………………………………………………………………………………….93
5.2.3 Μέτρηση ακρίβειας για την πολυφωνία……………………………………………………….97
6. ΣΥΜΠΕΡΑΣΜΑΤΑ………………………………………………………………………………………………101
6.1 Σύνοψη………………………………………………………………………………………………….101
6.2 Μελλοντικές επεκτάσεις…………………………………………………………………………………103
ΒΙΒΛΙΟΓΡΑΦΙΑ………………………………………………………………………………………………………105
6
ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ
Εικόνα 1.1: Κυματομορφή ηχητικού σήματος (πάνω) και η συμβολική του μορφή-piano roll
(κάτω) [1]
Εικόνα 1.2 : Φασματογράφημα δύο μεμονωμένων διαδοχικών νοτών (αριστερά) και μιας
συγχορδίας (δεξιά) [2][3]
Εικόνα 1.3: Πολυφωνική μεταγραφή μουσικού κομματιού [4]
Εικόνα 2.1 : Το μουσικό πεντάγραμμο και οι θέσεις των νοτών σε αυτό [7]
Εικόνα 2.2: Η φυσική κλίμακα Ντο [8]
Εικόνα 2.3 : Η οκτάβα και τα σημεία αλλοιώσεως στο πιάνο [10]
Εικόνα 2.4 : Μετατροπή αναλογικού σήματος σε ψηφιακό [11]
Εικόνα 2.5 : Αναπαράσταση δειγματοληψίας σήματος. Το συνεχές σήμα αναπαρίσταται από
την πράσινη γραμμή ενώ τα διακριτά δείγματα (αποτέλεσμα δειγματοληψίας) με το μπλε
χρώμα [13]
Εικόνα 2.6: Αναπαράσταση κβαντισμού(4-bit / 16 στάθμες) ενός αναλογικού σήματος
(κόκκινη γραμμή) [14]
Εικόνα 2.7 : Η κυματομορφή (αριστερά) και το φασματογράφημα (δεξιά) ενός “καθαρού”
ημιτόνου, μιας νότας βιολιού και μιας νότας πιάνου, “μαρτυρούν” τη διαφορετική χροιά του
καθενός [20]
Εικόνα 2.8 : Το συχνοτικό εύρος της ανθρώπινης φωνής και διάφορων οργάνων
Εικόνα 2.9 : Δομή ενός τυπικού MIDI μηνύματος [26]
Εικόνα 2.10 : Βits και bytes του MIDI κώδικα [26]
Εικόνα 2.11 : Τρόποι διαχείρισης της μουσικής μέσω μουσικών λογισμικών
Εικόνα 3.1 : Παρτιτούρα μονοφωνικής μελωδίας
Εικόνα 3.2 : Η κυματομορφή μίας νότας μπάσου (χαμηλό pitch) και ενός τόνου σφυρίχτρας
(υψηλό pitch) [27]
Εικόνα 3.3 : Η κυματομορφή νότας (αριστερά) και τα επιμέρους χαρακτηριστικά της (δεξιά)
[29]
Εικόνα 3.4 : H κυματομορφή ενός ηχητικού σήματος (μπλε) και τα εκτιμημένα onsets (μωβ)
[31]
Εικόνα 3.5 : Τα στάδια επεξεργασίας της μονοφωνικής μεταγραφής
Εικόνα 3.6 : Κατάτμηση του σήματος με επικάλυψη (overlap) 50%
Εικόνα 3.7 : Το παράθυρο Hanning (αριστερά) και η απόκριση συχνότητάς του (δεξιά) [43]
Εικόνα 3.8 : Επίδραση του τετράγωνου παραθύρου (πάνω) και του παραθύρου Hanning
(κάτω)
7
Εικόνα 3.9 : Η θεμελιώδης συχνότητα της νότας Μι στη 3η οκτάβα (Ε3) και οι αρμονικές τις
[52]
Εικόνα 3.10 : Η μέθοδος της γραμμικής πρόβλεψης (LPC) [53]
Εικόνα 3.11 : Το ηχητικό σήμα και οι διελεύσεις της κυματομορφής από το μηδέν (zero
crossings)
Εικόνα 3.12 : Το ηχητικό σήμα στην αρχική του μορφή (αριστερά) και μετά την εφαρμογή της
συνάρτησης της αυτοσυσχέτισης (δεξιά)
Εικόνα 3.13: Κυματομορφή ηχητικού αποσπάσματος από κιθάρα. Τα πραγματικά onsets
είναι σημειωμένα με διακεκομμένες κάθετες γραμμές.
Εικόνα 3.14 : Τα στάδια της συνάρτησης εκτίμησης των onsets [30]
Εικόνα 3.15 : Φωνητικό σήμα (πάνω) και η ενέργεια του (κάτω)
Εικόνα 3.16 : Το ηχητικό σήμα (α) και οι τρείς συναρτήσεις ανίχνευσης onset. Φασική
Προσέγγιση (b), Ενεργειακή Προσέγγιση (c), Συνδυασμός Ενεργειακής και Φασικής
Προσέγγισης (d) [60]
Εικόνα 3.17 : Δυναμικό κατώφλι median (διακεκομμένη γραμμή) εφαρμοσμένο στη
συνδυαστική συνάρτηση (Ενέργειας και Φάσης) εκτίμησης onset [60]
Εικόνα 3.18 : Silenced frame ενός ηχητικού αποσπάσματος
Εικόνα 4.1 : Παρτιτούρα και ταμπλατούρα πολυφωνικής μελωδίας
Εικόνα 4.2 : Τα στάδια της πολυφωνικής μεταγραφής
Εικόνα 4.3 : Διάγραμμα συχνότητας – χρόνου μιας απλής ηχητικής σκηνής [70]
Εικόνα 4.4 : Η αποσύνθεση του πίνακα της σκηνής της εικόνας 4.3 σε γινόμενο των πινάκων
H (αριστερά) και W (δεξιά) [70]
Εικόνα 4.5 : Η μονοφωνική μελωδία “Mary had a little Lamb” [75]
Εικόνα 4.6 : Το φασματογράφημα (V) της μελωδίας της εικόνας 4.5 και η αποσύνθεση του
μέσω του NMF στους πίνακες W και Η [75]
Εικόνα 4.7 : Φασματογράφημα νοτών C4(261.1 Hz) και G4(392 Hz) στη κιθάρα [76]
Εικόνα 4.8 : Τα διανύσματα βάσης του πίνακα W [76]
Εικόνα 4.9 : Οι πληροφορίες ενεργοποίησης των νοτών C4 και G4 στον πίνακα H [76]
Εικόνα 4.10 : Φασματογράφημα του Μετασχηματισμού Fourier (πάνω) και του
μετασχηματισμού Constant Q (κάτω) στην πολυφωνική εισαγωγή του μουσικού κομματιού
“Smoke on the Water”
Εικόνα 4.11 : Οι στήλες του πίνακα W περιέχουν ιδανικά τις θεμελιώδεις συχνότητες της
μουσικής σύνθεσης [70]
Εικόνα 4.12 : Οι γραμμές του πίνακα H σηματοδοτούν τα χρονικά διαστήματα που τα ηχητικα
γεγονότα είναι ενεργά. [70]
8
Εικόνα 4.13 : Αρχιτεκτονική Συστήματος πολυφωνικής μεταγραφής με τη μέθοδο Sparse ΝΜF
και “εκπαίδευση” του πίνακα W.
Εικόνα 5.1 : Κατάτμηση του ηχητικού σήματος σε επιμέρους τμήματα (frames)
Εικόνα 5.2 : Στιγμιότυπο ενός frame
Εικόνα 5.3 : Εφαρμογή της συνάρτηση της αυτοσυσχέτισης στο frame
Εικόνα 5.4 : Απαλοιφή του αριστερού συμμετρικού τμήματος της αυτοσυσχέτισης
Εικόνα 5.5 : To frame της εικόνας 5.4 χωρίς τις αρνητικές συνιστώσες και η ανίχνευση του
pitch (πράσινος κύκλος)
Εικόνα 5.6 : Η παράγωγος της ενέργειας του σήματος (μπλε) και το δυναμικό κατώφλι median
(κόκκινη γραμμή)
Εικόνα 5.7 : Η συνάρτηση ανίχνευσης onset Spectral Flux (μπλε) και το δυναμικό κατώφλι
median (κόκκινη γραμμή)
Εικόνα 5.8 : Τα αποτελέσματα των συναρτήσεων ανίχνευσης onset μετά το pick picking.
Ενεργειακή προσέγγιση (πάνω) και Spectral Flux (κάτω) .
Εικόνα 5.9 : Η ενέργεια του σήματος (μπλε), το δυναμικό κατώφλι median (μωβ γραμμή) και
τα εκτιμώμενα silenced frames
Εικόνα 5.10 : O τελικός πίνακας σύμφωνα με τον οποίο κατασκευάζεται το midi
Εικόνα 5.11 : Αναπαράσταση ευθυγραμισμένων πινάκων μετα την εφαρμογή της συνάρτηση
αυτοσυσχέτισης xcorr()
Εικόνα 5.12: Σύνολο μεταβλητών για τον προσδιορισμό των μετρητών recall και precision
[86]
Εικόνα 5.13 : O πίνακας V σε λογαριθμική συχνότητα της συνάρτησης logfsgram()
Εικόνα 5.14 : O πίνακας ΜΧ σε λογαριθμική συχνότητα της συνάρτησης logfsgram()
Εικόνα 5.15 : O “εκπαιδευμένος” πίνακας W που αποτελεί τη βάση 49 νοτών 6 αρμονικών
τους (χειροκίνητη υλοποίηση)
Εικόνα 5.16 : O “εκπαιδευμένος” πίνακας W που αποτελεί τη βάση 45 νοτών 6 αρμονικών
τους (ηχογραφημένες νότες κιθάρας)
Εικόνα 5.17 : O πίνακας Η μετά τη σύγκλιση του μέσω του Sparse NMF & Temporal Continuity
Εικόνα 5.18 : Ο Πίνακας Η μετά από (α) την επαναληπτική διαδικασία του NMF , (β) την
εφαρμογή του δυναμικού κατωφλίου median κατά στήλη και (γ) την εφαρμογή του
κατωφλίου βάσει το μέγιστο (max) του πίνακα
Εικόνα 5.19 : Ο πίνακας Η μετά την εξαγωγή των τοπικών μεγίστων (αριστερά) και μετά την
αντικατάσταση των μη-μηδενικών στοιχείων με την τιμή ένα (1) (δεξιά)
Εικόνα 5.20 : Επιβεβαίωση ευθυγράμμισης δύο δυσδιάστατων πινάκων μέσω της
συνάρτησης αυτοσυσχέτισης xcorr2()
9
ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ
Πίνακας 2.1 : Οι θεμελιώδεις συχνότητες των νοτών σε όλες τις οκτάβες [21]
Πίνακας 5.1 : Μετρήσεις ακρίβειας δειγμάτων με μέθοδο ανίχνευσης onset την προσέγγιση
Spectral Flux
Πίνακας 5.2 : Μετρήσεις ακρίβειας δειγμάτων με μέθοδο ανίχνευσης onset την Ενεργειακή
προσέγγιση
Πίνακας 5.3 : Μετρήσεις ακρίβειας δειγμάτων για τις διάφορες εφαρμογές ΝΜF και ελάχιστη
διάρκεια νότας 0.05 sec
10
1. Εισαγωγή
Σε αυτή την ενότητα παρουσιάζεται ο στόχος της εργασίας καθώς επίσης η δομή και οι
θεματικές ενότητες από τις οποίες αποτελείται, ώστε να αποκτήσει ο αναγνώστης μια εικόνα
του περιεχομένου που ακολουθεί.
1.1 Παρουσίαση θέματος και Στόχοι
Η μουσική κατείχε ανέκαθεν σπουδαία θέση στη ζωή του ανθρώπου και με το πέρασμα των
δεκαετιών η μελέτη της εξετάστηκε από διάφορους τομείς που εκτείνονται από τη φιλοσοφία
έως την επεξεργασία σημάτων. Η προτυποποίηση των δεδομένων μουσικής οδήγησε στην
δημιουργία ενός νέου τομέα έρευνας, αυτού της ανάκτησης μουσικών πληροφοριών και
ειδικότερα, της ανάπτυξης μεθόδων για την οργάνωση και ανάλυση του ταχέως
επεκτεινόμενου μουσικού σύμπαντος.
Μια τέτοια μέθοδος μελετάται στην παρούσα διπλωματική εργασία και πιο συγκεκριμένα, η
αυτόματη μεταγραφή ενός μονοφωνικού αρχικά και ενός πολυφωνικού, στη συνέχεια,
μουσικού σήματος.
Η ικανότητα να παράγουμε την ακριβή μεταγραφή μιας μουσικής ακολουθίας έχει
πολυάριθμες πρακτικές εφαρμογές στο χώρο της ψηφιακής επεξεργασίας σήματος αλλά και
στη μουσικολογία. Για παράδειγμα, ένα μετεγγραμμένο μουσικό απόσπασμα μπορεί να
χρησιμοποιηθεί για να προσδιοριστούν πολλαπλές εμφανίσεις του μέσα σε μια ηχητική βάση
δεδομένων.
Στόχος της αυτόματης μεταγραφής μουσικής είναι η εξαγωγή από ένα ηχητικό σήμα, μιας
αναπαράστασης ικανής να διαβαστεί και να ερμηνευτεί από τον άνθρωπο (π.χ παρτιτούρα).
Για να είναι δυνατόν να εξαχθεί μια τέτοια αναπαράσταση είναι απαραίτητο να εκτιμηθούν
τα ύψη (pitch), η αρχή (onset), η διάρκεια των νοτών και η τονικότητα του σήματος προς
επεξεργασία. Θα μπορούσαμε να πούμε ότι η μεταγραφή της μουσικής περιλαμβάνει δύο
στάδια: α) τη μετατροπή του ηχητικού σήματος σε απεικόνιση piano roll (βλ. εικόνα 1.1)
έχοντας προσδιορίσει τα παραπάνω χαρακτηριστικά των μουσικών νοτών και β) τη
μεταφορά του piano roll σε μουσική απεικόνιση, όπως το πεντάγραμμο.
11
Εικόνα 1.1: Κυματομορφή ηχητικού σήματος (πάνω) και η συμβολική του μορφή-piano roll (κάτω) [1]
Η διαδικασία της μεταγραφής, για κάποιον που δεν κατέχει γνώσεις και εμπειρία στο χώρο
της μουσικής, μπορεί να είναι δύσκολη έως και αδύνατη. Ακόμη και για έναν επαγγελματία
μουσικό, η μεταγραφή μιας πολυφωνικής μελωδίας μπορεί μεν να έχει σχετικά ακριβή
αποτελέσματα, είναι δε μία χρονοβόρα και επίπονη διαδικασία. Για ένα αυτοματοποιημένο
σύστημα που δεν “κατέχει” μουσικές γνώσεις, η διαδικασία της αναγνώρισης πολλαπλών
ταυτόχρονων συμβάντων έχει αποδειχθεί ιδιαίτερα απαιτητική εξαιτίας της πλοκής
(υπέρθεσης) των νοτών με τις διάφορες αρμονικές που απλώνονται στο σήμα. Ενώ το
φασματογράφημα μιας νότας έπειτα από το μετασχηματισμό Fourier αποτελείται από την
θεμελιώδη συχνότητα fo και τις αρμονικές της, το αντίστοιχο διάγραμμα μίας πολύπλοκης
σύνθεσης μπορεί να περιέχει πολλές νότες που επικαλύπτονται στο χρόνο. Στην εικόνα 1.2
παρουσιάζονται δύο τέτοια φασματογραφήματα, όπου στη περίπτωση της συγχορδίας είναι
σαφώς πιο δύσκολο να διαχωρίσουμε τις θεμελιώδεις συχνότητες από τις αρμονικές.
Εικόνα 1.2 : Φασματογράφημα δύο μεμονωμένων διαδοχικών νοτών (αριστερά) και μιας συγχορδίας (δεξιά)
[2][3]
12
Σκοπός αυτής της εργασίας είναι ο σχεδιασμός αυτής της διαδικασίας, καθώς επίσης και η
εξαγωγή συμπερασμάτων από την πειραματική παρατήρηση, για μελλοντικές βελτιώσεις. Η
αυτόματη μεταγραφή μουσικής από την πλευρά της μονοφωνίας θεωρείται ένα πρόβλημα
που έχει λυθεί όπως θα γίνει αντιληπτό στη συνέχεια, καθώς τα αποτελέσματα στις
μετρήσεις ακρίβειας είναι πολύ ικανοποιητικά. Από την άλλη πλευρά, στο κομμάτι της
πολυφωνίας, η μεταγραφή ενός ηχητικού σήματος δεν βρίσκεται στο ίδιο στάδιο, μιας και το
θεμελιώδες πρόβλημα της αυτόματης μεταγραφής είναι η αναγνώριση ταυτόχρονων
μουσικών τόνων (multi-pitch detection).
Εικόνα 1.3: Πολυφωνική μεταγραφή μουσικού κομματιού [4]
Η υλοποίηση του αλγόριθμου και για τα δύο είδη μεταγραφής πραγματοποιήθηκε σε
ΜΑΤLΑB (Matrix Laboratory), δηλαδή σε μια γλώσσα υψηλού επιπέδου και ένα περιβάλλον
που αποτελεί το πλέον ιδανικό εργαλείο για ζητήματα ψηφιακής επεξεργασίας σήματος. Από
το παραπάνω λογισμικό περιλαμβάνονται οπτικά αποτελέσματα σε διαφορά εδάφια της
εργασίας με στόχο την σαφέστερη αντίληψη του θέματος που εξετάζεται. Στο παράρτημα της
εργασίας, θα βρείτε το λογισμικό που αναπτύχθηκε σε περιβάλλον MATLAB.
13
1.2 Δομή της Διπλωματικής
Κεφάλαιο 2: Σε αυτή την ενότητα γίνεται μια αναφορά στα βασικά στοιχεία της θεωρίας της
Μουσικής και ορίζονται μερικές έννοιες απαραίτητες για τη συνέχεια. Έπειτα, περιγράφεται
ο κλάδος της Ψηφιακής Επεξεργασίας Σήματος και γίνεται η σύνδεση με την διαδικασία της
μεταγραφής, ενώ στο τέλος του κεφαλαίου απαριθμούνται διάφορες πρακτικές εφαρμογές
της μουσικής μεταγραφής.
Κεφάλαιο 3: Το κεφάλαιο αυτό είναι αφιερωμένο στη μονοφωνική μεταγραφή και στις
μεθόδους που εφαρμόζονται. Ιδιαίτερη έμφαση δίνεται στην ανίχνευση των οnsets και στις
πιθανές αστοχίες που μπορεί να εμφανίσουν οι τεχνικές.
Κεφάλαιο 4: Εδώ μελετάται η πολυφωνική μεταγραφή ενός ηχητικού σήματος αφού γίνει
πρώτα μια σύντομη εισαγωγή στην παραγοντοποίηση μη-αρνητικών πινάκων. Βασιζόμενοι
σε αυτή τη μέθοδο εξετάζουμε εναλλακτικές τεχνικές με στόχο την βελτίωση του
αποτελέσματος.
Κεφάλαιο 5: Περιλαμβάνει τις υλοποιήσεις τόσο της μονοφωνικής όσο και της πολυφωνικής
μεταγραφής αναλύοντας τα στάδια επεξεργασίας που υπόκειται κάθε φορά το σήμα. Επίσης
πραγματοποιούνται μετρήσεις ακρίβειας για συγκεκριμένα μουσικά δείγματα συγκρίνοντας
έτσι την αποδοτικότητα των μεθόδων που αναπτύχθηκαν.
Κεφάλαιο 6: Στην τελευταία αυτή ενότητα εξάγονται συμπεράσματα σύμφωνα με τα
αποτελέσματα και προτείνονται μελλοντικές κατευθύνσεις προς μελέτη. Κλείνοντας, στο
παράρτημα περιλαμβάνεται ο κώδικας που αφορά και τα δύο είδη μεταγραφών.
14
2. Θεωρητικό υπόβαθρο
2.1 Θεωρία της Μουσικής
Tί είναι η μουσική;
Ως μουσική ορίζεται η τέχνη που βασίζεται στην οργάνωση ήχων με σκοπό τη σύνθεση,
εκτέλεση και ακρόαση/λήψη ενός μουσικού έργου. Με τον όρο εννοείται επίσης και το
σύνολο ήχων από το οποίο απαρτίζεται ένα μουσικό κομμάτι. [5]
Θεμελιώδη στοιχεία της μουσικής
Tα βασικά στοιχεία τα οποία χαρακτηρίζουν τη μουσική είναι η μελωδία, ο ρυθμός, η
αρμονία, η ρυθμική αγωγή και η δυναμική. [6]
Η μελωδία είναι μία διαδοχή φθόγγων με διαφορετικό ύψος και διαφορετική συνήθως αξία
που εκφράζουν ένα μουσικό νόημα.
Ρυθμός είναι η προσπάθεια οργάνωσης του χρόνου σε μια μουσική σύνθεση, ενώ η ρυθμική
αγωγή ή αλλιώς tempo είναι η ταχύτητα εκτέλεσης ενός μουσικού κομματιού.
Με τον όρο αρμονία αναφερόμαστε στο φαινόμενο που προσδίδει βάθος στην κίνηση της
μελωδίας και περιγράφει σε κάθετο επίπεδο ταυτόχρονα μουσικά συμβάντα.
Τέλος, η δυναμική καθορίζει το πόσο ηχηρά ή απαλά εκτελείται μία ή περισσότερες νότες.
Πεντάγραμμο και Νότες
Σαν πρώτο ξεκίνημα, θα πρέπει να αναφερθούμε σε μερικούς ορισμούς. Υπάρχουν πολλών
ειδών μουσικά σύμβολα στην παγκόσμια μουσική σημειογραφία, που ποικίλουν ανάλογα με
το είδος της μουσικής ή τη γεωγραφική περιοχή (π.χ. αραβική, βυζαντινή παρασημαντική,
αρχαία αγκιστροειδής κ.λ.π.). Διεθνώς όμως, σαν πρότυπο, έχει επικρατήσει η Ευρωπαϊκή
σημειογραφία που μας ενδιαφέρει εδώ άμεσα.
Η πλατφόρμα της Ευρωπαϊκής μουσικής σημειογραφίας ονομάζεται πεντάγραμμο και
αποτελείται από πέντε (5) παράλληλες, οριζόντιες, ευθείες γραμμές, που ισαπέχουν και
αποτελούν τη βάση όπου τοποθετούνται τα μουσικά σύμβολα.
15
Οι ήχοι που αντιστοιχούν σε συχνότητες του ακουστικού αλλά και ωφέλιμου, για τη μουσική,
φάσματος (frequency range) ονομάζονται νότες ή φθογγόσημα και τοποθετούνται στις 5
γραμμές ή στα 4 διαστήματα του πεντάγραμμου, ακόμα και στις βοηθητικές γραμμές πάνω
ή κάτω από αυτό.
Εικόνα 2.1 : Το μουσικό πεντάγραμμο και οι θέσεις των νοτών σε αυτό [7]
Για την ονοματολογία των νοτών, στην Ελλάδα, χρησιμοποιείται το Ιταλικό σύστημα, ενώ στις
υπόλοιπες Ευρωπαϊκές χώρες το Σαξονικό και Γερμανικό. Έτσι, οι νότες για το Ιταλικό
σύστημα είναι: Ντο, ρε, μι, φα, σολ, λα, σι. Για το Σαξονικό σύστημα, οι αντίστοιχες νότες
συμβολίζονται: C, D, E, F, G, A, B. [8]
H διαδοχική σειρά των φθογγόσημων από τον χαμηλότερο ήχο στον υψηλότερο καλείται
σκάλα ή κλίμακα.
Εικόνα 2.2: Η φυσική κλίμακα Ντο [8]
Η ηχητική απόσταση ανάμεσα στον πρώτο και τον τελευταίο ήχο/νότα μιας
οκτάφθογγης κλίμακας ονομάζεται Οκτάβα. Δεδομένου ότι κάθε σκάλα παίρνει το όνομά της
από την πρώτη (και τελευταία) νότα, στη φυσική σκάλα του Ντο διακρίνουμε τις αποστάσεις,
που καλούνται διαστήματα, μεταξύ 1ης-2ης, 2ης-3ης, 4ης-5ης, 5ης-6ης, 6ης-7ης και τα
ονομάζουμε τόνους, ενώ τα διαστήματα μεταξύ 3ης-4ης και 7ης-8ης ονομάζουμε ημιτόνια.
Έτσι για παράδειγμα, οι νότες ντο-ρε σχηματίζουν μια διατονική απόσταση δευτέρας, ενώ οι
νότες σι-ντο σχηματίζουν μια ημιτονιακή ή χρωματική απόσταση δευτέρας. [9]
16
Σημεία αλλοιώσεως ονομάζονται τα σημεία που χρησιμοποιούμε για να οξύνουμε ή να
βαρύνουμε ένα μουσικό φθόγγο. Τα κυριότερα από αυτά είναι τρία:
Η δίεση (#) η οποία υψώνει μια νότα κατά ένα ημιτόνιο
Η ύφεση (b) η οποία χαμηλώνει μια νότα κατά ένα ημιτόνιο
Η αναίρεση η οποία καταργεί μια προηγούμενη αλλοίωση ( # ή b)
Εικόνα 2.3 : Η οκτάβα και τα σημεία αλλοιώσεως στο πιάνο [10]
2.2 Ψηφιακή Επεξεργασία Σήματος
Η ψηφιακή επεξεργασία σήματος (Digital signal processing ή DSP) ασχολείται με την
αναπαράσταση σημάτων διακριτού χρόνου ως ακολουθιών αριθμών ή συμβόλων, καθώς και
με την επεξεργασία των σημάτων αυτών. Κάποιες εφαρμογές της ψηφιακής επεξεργασίας
σήματος είναι: η επεξεργασία ήχου, η αναγνώριση φωνής, η επεξεργασία σημάτων από
σόναρ, ραντάρ και συστοιχίες αισθητήρων, η εκτίμηση φάσματος, η στατιστική επεξεργασία
σήματος, η ψηφιακή επεξεργασία εικόνας, η επεξεργασία σήματος στις τηλεπικοινωνίες, ο
έλεγχος συστημάτων, η επεξεργασία βιοϊατρικών σημάτων και η επεξεργασία σεισμικών
δεδομένων.
17
Εικόνα 2.4 : Μετατροπή αναλογικού σήματος σε ψηφιακό [11]
Ο σκοπός της ψηφιακής επεξεργασίας σήματος συνήθως είναι η μέτρηση, το φιλτράρισμα ή
η συμπίεση συνεχόμενων αναλογικών φυσικών σημάτων. Το πρώτο βήμα συνήθως είναι η
μετατροπή του σήματος από αναλογικό σε ψηφιακό, μέσω δειγματοληψίας και κβαντισμού
του σήματος με τη βοήθεια ενός μετατροπέα αναλογικού σήματος σε ψηφιακό (ADC), ο
οποίος μετασχηματίζει το αναλογικό σήμα σε μια ακολουθία από αριθμούς. Η
ανακατασκευή του σήματος σε αναλογικό ακολουθεί την αντίστροφη διαδικασία.[12]
2.2.1 Δειγματοληψία – Θεώρημα Νyquist – Κβαντισμός
Δειγματοληψία είναι η καταγραφή της τιμής του σήματος ανά τακτά χρονικά
διαστήματα Τs. Ως Τs ορίζεται η περίοδος δειγματοληψίας. Το διακριτό σήμα που προκύπτει
μετά τη δειγματοληψία είναι της μορφής:
S[n] = S(nTs) , n ακέραιος (2.1)
Η συχνότητα δειγματοληψίας ή ρυθμός δειγματοληψίας μετριέται στην μονάδα μέτρησης
Hertz (Hz) και μας δείχνει πόσα δείγματα έχουν ληφθεί από τον δειγματολήπτη σε διάρκεια
ενός δευτερολέπτου. Η συχνότητα δειγματοληψίας συνδέεται με την περίοδο με τη βοήθεια
της ακόλουθης σχέσης: Fs =1/Ts
Θεώρημα Nyquist
Ένα αναλογικό σήμα xa(t) με περιορισμένο φάσμα εύρους (<Fo) μπορεί να ανακατασκευαστεί
ακριβώς από τα δείγματά του x(n)=xa(nTs) εάν η συχνότητα δειγματοληψίας Fs είναι διπλάσια
του εύρους Fo. (Fs>2Fo)
Σε κάθε άλλη περίπτωση υπάρχει αλλοίωση του φάσματος (aliasing) και το αρχικό αναλογικό
σήμα δεν μπορεί να ανακατασκευασθεί μετά τη δειγματοληψία. Στην εικόνα 2.5
απεικονίζεται η δειγματοληψία ενός αναλογικού σήματος.
18
Εικόνα 2.5 : Αναπαράσταση δειγματοληψίας σήματος. Το συνεχές σήμα αναπαρίσταται από την πράσινη
γραμμή ενώ τα διακριτά δείγματα (αποτέλεσμα δειγματοληψίας) με το μπλε χρώμα [13]
Κβαντισμός είναι η διαδικασία κατά την οποία οι διαδοχικές τιμές της στάθμης (πλάτους)
του σήματος διακριτού χρόνου Sd(nTs) που προκύπτει κατά την δειγματοληψία
μετατρέπονται σε διακριτές (ψηφιακές) τιμές. Πραγματοποιείται δηλαδή μια απεικόνιση της
μορφής S(nTs) = Q[Sd(nTs)], όπου Q[Sd(nTs)] είναι η κβαντισμένη τιμή στάθμης του σήματος.
Το τελικό σήμα είναι πλέον διακριτό τόσο ως προς το χρόνο, όσο και ως προς το πλάτος και
καλείται ψηφιακό S(nTs). Η παρακάτω εικόνα αναπαριστά τον κβαντισμό ενός ημιτονικού
σήματος.
Εικόνα 2.6: Αναπαράσταση κβαντισμού(4-bit / 16 στάθμες) ενός αναλογικού σήματος (κόκκινη γραμμή) [14]
19
2.2.2 Φάσμα και Μετασχηματισμός Fourier
Ως φάσμα ορίζεται το σύνολο των συχνοτήτων όλων των ημιτονικών σημάτων με
συγκεκριμένα πλάτη και φάσεις που πρέπει να προστεθούν ώστε να δώσουν το αρχικό σήμα.
Ο λόγος που ορίστηκε η έννοια του φάσματος είναι για γίνει ευκολότερος ο τρόπος
υπολογισμού κι απεικόνισης της συμπεριφοράς ενός συστήματος. Σκοπός ήταν να μπορεί να
αναλυθεί οποιοδήποτε σήμα σε ένα σύνολο από ημιτονικά σήματα, ένα συνεχές σήμα το
οποίο μπορεί να διατηρεί τη μορφή του σε παραγωγίσεις και ολοκληρώσεις Η ανάλυση του
σήματος κατά αυτόν τον τρόπο ονομάζεται ανάλυση Fourier.
Η ανάλυση Fourier αποτελείται από ένα σύνολο μαθηματικών τεχνικών, με τις οποίες
αναλύουμε ένα σήμα σε άθροισμα ημιτόνων και συνημιτόνων. Με την εφαρμογή της
μπορούμε να μελετήσουμε ποιες συχνότητες εμφανίζονται στο σήμα, και κατά πόσο
επηρεάζεται το σήμα από κάθε φασματική συνιστώσα. Ο μαθηματικός μετασχηματισμός για
τον υπολογισμό της ανάλυσης Φουριέ, ονομάζεται μετασχηματισμός Fourier (Fourier
Transform), και δίνεται από τη σχέση:
𝑿(𝝎) = ∫ 𝒙(𝒕)𝒆−𝒋𝝎𝒕
∞
−∞
𝒅𝒕 (𝟐. 𝟐)
ενώ ο αντίστροφος μετασχηματισμός είναι:
𝒙(𝒕) = ∫ 𝑿(𝝎)𝒆−𝒋𝝎𝒕
∞
−∞
𝒅𝝎 (𝟐. 𝟑)
όπου x(t) η συνάρτηση του σήματος στο χρόνο και X(ω) η αντίστοιχη συνάρτηση στη
συχνότητα [14]. Μετά την εφαρμογή του, το σήμα μετατρέπεται από το πεδίο του χρόνου,
στο πεδίο της συχνότητας . Ο μετασχηματισμός αυτός μπορεί να εφαρμοστεί μόνο σε
αναλογικά σήματα, ενώ για τα διακρικά σήματα χρειαζόμαστε μια παραλλαγή του, τον
Διακριτό Μετασχηματισμό Fourier (Discrete Fourier Transform - DFT).
STFT (Short Time Fourier Transform)
Ο μετασχηματισμός Fourier δεν εφαρμόζεται στην περίπτωση που η συχνότητα του σήματος
είναι συνάρτηση του χρόνου, καθώς η πληροφορία που μας δίνει είναι για την ύπαρξη μιας
20
συγκεκριμένης συχνότητας, κι όχι για τις χρονικές στιγμές στις οποίες εμφανίζεται. Αυτό
μπορεί να γίνει εφικτό τμηματοποιώντας χρονικά το σήμα με τη χρήση μικρών διαδοχικών ή
επικαλυπτόμενων παραθύρων, στα οποία θεωρούμε ότι το συχνοτικό περιεχόμενο του
σήματος παραμένει σταθερό. Σε καθένα από τα μικρά χρονικά τμήματα, μπορεί να θεωρηθεί
ότι το σήμα είναι στάσιμο, και στη συνέχεια να εφαρμοστεί ο Μετασχηματισμός Fourier σε
αυτό. Η τεχνική αυτή ονομάζεται Μετασχηματισμός Fourier Βραχέος Χρόνου (STFT) και
περιγράφεται από τον παρακάτω τύπο:
𝑺𝑻𝑭𝑻 {𝒙(𝒕)} = ∫ 𝒙(𝒖)𝒘(𝒖 − 𝒕)𝒆−𝒋𝝎𝒖
∞
−∞
𝒅𝒖 (𝟐. 𝟒)
όπου w(t) είναι μια συνάρτηση παραθύρου. Πιθανές επιλογές είναι το παράθυρο Hamming,
Hanning, Blackman κτλ, που το καθένα από αυτά έχει διαφορετικές ιδιότητες όσον αφορά
την εξομάλυνση λανθασμένων αρμονικών υψηλών συχνοτήτων που προκαλεί η απότομη
αποκοπή ενός τμήματος από το αρχικό σήμα.
Το πλάτος του STFT, το οποίο ονομάζεται και φασματόγραμμα (spectrogram)
του σήματος , ισούται με:
𝑺(𝒕, 𝝎) = | ∫ 𝒙(𝒖)𝒘(𝒖 − 𝒕)𝒆−𝒋𝝎𝒖
∞
−∞
𝒅𝒖| 𝟐
(𝟐. 𝟓)
και εκφράζει την πυκνότητα ενέργειας του φάσματος ενός τμήματος του σήματος x(u), στο
οποίο έχει εφαρμοστεί το παράθυρο w(t) []. Η χρονική ακρίβεια βελτιώνεται με την
ελαχιστοποίηση του μήκος του παραθύρου εις βάρος της συχνοτικής ακρίβειας, και το
αντίστροφο. Εάν το παράθυρο έχει άπειρο μήκος, τότε το φασματογράφημα που προκύπτει
έχει τέλεια συχνοτική, αλλά μηδενική χρονική ακρίβεια.
Εάν το παράθυρο έχει μικρό μήκος, τότε το φασματογράφημα θα έχει τέλεια χρονική
ακρίβεια, αλλά ελάχιστη συχνοτική ακρίβεια.
21
2.3 Μουσική και Ψηφιακή Επεξεργασία ήχου
Η μουσική αποτελεί ένα αναπόσπαστο κομμάτι της ζωής του ανθρώπου. Ήχοι και μουσική
είναι ενσωματωμένα σχεδόν σε κάθε πτυχή της ζωής, από την επικοινωνία και την
καλλιτεχνική έκφραση, μέχρι την κοινωνική και πολιτιστική ταυτότητα ενός λαού. Η μουσική
όχι μόνο διαμορφώνει την καθημερινότητα, αλλά πολλές φορές της δίνει μία νέα μορφή με
αποτέλεσμα την εξέλιξη και πιθανόν την ποιοτική βελτίωση της [16].
Ήδη από την αρχαιότητα και κατά τη διάρκεια των αιώνων μπορούμε να παρατηρήσουμε την
άρρηκτη σύνδεση της μουσικής με τα μαθηματικά και την τεχνολογία.
Ενδεικτικά, πρώτος ο Πυθαγόρας, μελετώντας το αρχαίο όργανο μονόχορδο, πέτυχε το
χωρισμό και καθορισμό των μουσικών διαστημάτων εφευρίσκοντας έτσι την Πυθαγόρεια
κλίμακα. Ο Mozart έγραψε καινοτόμες για την εποχή του συνθέσεις με το προσφάτως
σχεδιασμένο πιάνο, ενώ οι Beatles άλλαξαν τελείως το πρόσωπο της δημοφιλούς μουσικής
πρωτοπορώντας με την μοντέρνα τεχνική ηχογράφησης [17].
Σήμερα, εξαιτίας της ραγδαίας εξέλιξης της τεχνολογίας και σε συνδυασμό με την
απεριόριστη υπολογιστική ισχύ και συνδεσιμότητα, έχουν αναπτυχθεί διάφοροι
επιστημονικοί κλάδοι που βασίζονται στην ψηφιακή επεξεργασία του ήχου και κατ’
επέκταση διεισδύουν στο χώρο της μουσικής. Ένας τέτοιος κλάδος είναι και η Ανάκτηση
Μουσικής Πληροφορίας (Music Information Retrieval – MIR).
Ο παραπάνω κλάδος αποτελεί ένα μικρό αλλά αναπτυσσόμενο πεδίο της επιστήμης, που
ασχολείται με την εξαγωγή πληροφοριών από ένα μουσικό απόσπασμα ή ακόμη και από μια
μεγάλη βάση ηχητικών δεδομένων [18]. Μερικές εφαρμογές του ΜΙR είναι:
o Συστήματα συστάσεων (Recommendation systems)
o Διαχωρισμός μουσικού κομματιού και ηχητικών πηγών (Track separation and
instrument recognition)
o Αυτόματη Κατηγοριοποίηση (Automatic categorization)
o Αναγνώριση γένους μουσικής (Music genre recognition)
o Αυτόματη μεταγραφή μουσικής (Automatic music transcription)
22
2.3.1 Βασικά Χαρακτηριστικά Ψηφιακού ήχου
Η αυτόματη μεταγραφή μουσικής που αποτελεί το κεντρικό θέμα της εργασίας έχει ως
αντικείμενο επεξεργασίας τον ψηφιακό ήχου. Γι’ αυτό το λόγο είναι απαραίτητο να
προσδιοριστούν τα θεμελιώδη χαρακτηριστικά του .
Α) Ύψος (pitch) : Η θέση μιας συχνότητας στο ακουστικό/ηχητικό φάσμα
Το τονικό ύψος καθορίζει αυτό που ονομάζουμε "ψηλό" ή "βαθύ" ήχο. Το ύψος ενός ήχου
που αντιλαμβανόμαστε είναι η απόκριση του αυτιού μας στη συχνότητα. Συχνά όμως για
πρακτικούς λογούς συχνά ταυτίζουμε το ύψος με τη συχνότητα (Hz). Το ύψος συνδέεται
άμεσα µε την συχνότητα ενός ήχου, αλλά όχι γραμμικά. Αυτό σημαίνει ότι μπορεί η
συχνότητα ενός ήχου να αυξάνεται, αλλά το ύψος του ήχου, δηλαδή η συχνότητα που
αντιλαμβάνονται τα αυτιά μας, να µην αυξάνεται εξίσου [19].
Β) Ένταση (loudness): To πόσο «δυνατό» χαρακτηρίζουμε έναν ήχο
Η ένταση ενός ήχου, εξαρτάται από το πλάτος του, δηλαδή από τις μεταβολές που έχει η
πίεση μέσα σε ένα ηχητικό κύμα. Είναι ένα καθαρά αντικειμενικό μέγεθος, το οποίο μπορεί
να μετρηθεί µε κατάλληλα μηχανήματα, όπως είναι ο παλμογράφος ή το ηχόμετρο. Η ένταση
µετριέται σε dB ή αλλιώς decibel και πήρε την ονομασία της χάρις στον Alexander Graham
Bell. Θεωρούμε ως ήχο αναφοράς 0 dB, ένα ήχο που βρίσκεται στο κατώφλι της ακοής. Αν
έχουμε έναν ήχο 10 dB, τότε αυτός θα είναι 10 φορές μεγαλύτερος από τον ήχο αναφοράς,
αν έχουμε έναν ήχο 20 dB, τότε αυτός θα είναι 100 φορές μεγαλύτερος από τον ήχο
αναφοράς κ.ο.κ.
Γ) Χροιά (timbre): Το «χρώμα» ενός ήχου
Η χροιά ενός ήχου, είναι ένα υποκειμενικό χαρακτηριστικό, που συσχετίζεται µε τον τρόπο
που αντιλαμβανόμαστε τους σύνθετους ήχους. Είναι το βασικό εργαλείο για να μπορούμε να
ξεχωρίζουμε τους ήχους μεταξύ τους, το ένα όργανο από το άλλο, και καθορίζεται από το
πλήθος και την σχετική ένταση που έχουν οι αρμονικές συχνότητες μεταξύ τους. Στην εικόνα
2.7 μπορούμε να διακρίνουμε την διαφορετική χροιά των ηχητικών πηγών τόσο από την
κυματομορφή τους όσο και από το αντίστοιχο φασματογράφημα τους. Το αντικειμενικό
χαρακτηριστικό µε το οποίο θα μπορούσαμε να αντιστοιχίσουμε την χροιά, είναι το φάσμα.
Δ) Διάρκεια (duration): Η χρονική διάρκεια για την οποία ένας ήχος είναι αντιληπτός.
23
Εικόνα 2.7 : Η κυματομορφή (αριστερά) και το φασματογράφημα (δεξιά) ενός “καθαρού” ημιτόνου, μιας
νότας βιολιού και μιας νότας πιάνου, “μαρτυρούν” τη διαφορετική χροιά του καθενός [20]
Ε] Θεμελιώδης συχνότητα
Η εκτίμηση της θεμελιώδους συχνότητας f0 (fundamental frequency estimation) γνωστή και
ως εξαγωγή του ύψους (pitch extraction) είναι το κύριο και πρώτο στάδιο που εκτελείται
κατά τη διάρκεια της αναγνώρισης μουσικής. Σύμφωνα µε τη μουσική θεωρία, όπως
αναφέραμε και σε προηγούμενη ενότητα, το φάσμα των διαφορετικών συχνοτήτων
χωρίζεται σε οκτάβες. Η οκτάβα ορίζεται ως η απόσταση ανάδεσα σε διπλάσιες συχνότητες.
Η οκτάβα χωρίζεται στη συνέχεια σε 12 ημιτόνια τα οποία έχουν μεταξύ τους σταθερό λόγο
απόστασης ίσο µε 21/12
. Οι συχνότητες των ημιτονίων παίρνουν συγκεκριμένες
προκαθορισμένες τιμές, οι οποίες δίνονται στον πίνακα. Σε αυτόν φαίνεται ότι οι συχνότητες
που επιτρέπεται να έχει μια νότα είναι λογαριθμικά κατανεμημένες. Ως κεντρική νότα
αναφέρεται συνήθως η A4 (Λα) στα 440Hz.
Συγκεκριμένα αν f0 είναι η συχνότητα νότας αναφοράς, τότε η συχνότητα νότας που απέχει n
ημιτόνια από αυτήν είναι:
f1 = f0 x an , με α=21/12 (2.6)
24
Πίνακας 2.1 : Οι θεμελιώδεις συχνότητες των νοτών σε όλες τις οκτάβες [21]
Κατά τη διάρκεια της μεταγραφής ενός ηχητικού σήματος είναι σημαντικό να γνωρίζουμε το
είδος της ηχητικής πηγής ώστε να μπορούμε όσο είναι δυνατόν να εστιάσουμε σε
συγκεκριμένη περιοχή συχνοτήτων. Κάθε όργανο εξαιτίας της φύσης του και της κατασκευής
του έχει διαφορετικό εύρος συχνοτήτων που μπορεί να αναπαράγει. Το ίδιο ισχύει και για τη
φωνή του ανθρώπου, η οποία έχει συνήθως ένα εύρος 2 -3 οκτάβες ενώ σε εξαιρετικά
σπάνιες περιπτώσεις μπορεί να φτάσει τις 4.
Εικόνα 2.8 : Το συχνοτικό εύρος της ανθρώπινης φωνής και διάφορων οργάνων
25
2.4 Μεταγραφή Μουσικής
Ιστορική Αναδρομή
Η ιστορία της μεταγραφής πολυφωνικής μουσικής ξεκινάει από τον Moorer [22] στις αρχές
τις δεκαετίας του ΄70 και ακολουθούν Piszczalski (1979) και Maher (1989) τη δεκαετία του
΄80. Τα συστήματα που αναπτύχθηκαν περιορίζονταν στην αναγνώριση το πολύ δύο
ταυτόχρονων ήχων με περιορισμένο εύρος συχνοτήτων. Από τη δεκαετία του ΄90 και μετά το
ενδιαφέρον για την μεταγραφή μουσικής έγινε εντονότερο και δημοσιεύτηκαν αρκετές
εργασίες. Σημαντική επιτυχία στην μεταγραφή πολυφωνικής μουσικής έχουν κάποιες
δημοσιεύσεις των Goto, Ryynanen και Klapuri. Παρόλα αυτά, ακόμα και τα πιο σύγχρονα
συστήματα που υλοποιήθηκαν, δεν μπορούν να ξεπεράσουν τις ικανότητες ενός
εκπαιδευμένου μουσικού [24].
Κατά τη διάρκεια των ερευνών έχουν εφαρμοστεί διάφορες μέθοδοι ανάλυσης του ηχητικού
σήματος, άλλες στο πεδίο του χρόνου και άλλες στο πεδίο των συχνοτήτων. Η πιο βασική
μέθοδος είναι η γνωστή ως Short-Time Fourier Transform (STFT), δηλαδή ο μετασχηματισμός
Fourier διαδοχικών τμημάτων του σήματος, τα οποία απομονώνονται από το υπόλοιπο σήμα
µε τη βοήθεια μιας συνάρτησης παραθύρου. Επίσης διαδεδομένος είναι και ο
μετασχηματισμός Constant-Q, ο οποίος χρησιμοποιεί μεταβλητό μήκος παραθύρου για να
επιτύχει σταθερό λόγο συχνότητας προς ακρίβεια ανάλυσης, όπως το ανθρώπινο αυτί. Άλλες
μέθοδοι που υπάρχουν είναι η μοντελοποίηση µε χρήση προσαρμοζόμενων φίλτρων, η
αυτοσυσχέτιση (autocorrelation) του σήματος, ο αλγόριθμος MUSIC (MUltiple SIgnal
Classification), η μέθοδος του Prony, η ανάλυση κυµατιδίων (wavelets), η ανάλυση cepstrum
και άλλες.
Εφαρμογές
Η αυτόματη μεταγραφή ενός ηχητικού σήματος μπορεί να βρεθεί σε πολυάριθμες
εφαρμογές κυρίως στο χώρο της μουσικής, αλλά και στην ανάλυση μουσικών δεδομένων.
Ενδεικτικά μερικές από αυτές είναι:
26
• Αναζήτηση μουσικής πληροφορίας βάσει π.χ. τη μελωδία του κομματιού.
• Μουσική ανάλυση. Τα εργαλεία μεταγραφής διευκολύνουν την ανάλυση των μουσικών
αυτοσχεδιασμών και τη διαχείριση των μουσικών αρχείων.
• Μουσικό ρεμίξ (music remixing). Δίνει τη δυνατότητα να αλλάξει και να αντικαταστήσει
κανείς τα όργανα εφαρμόζοντας εφέ σε ορισμένα τμήματα, ή ακόμη και να αφαιρέσει,
επιλεκτικά, ορισμένα από αυτά.
• Διαδραστικά μουσικά συστήματα(interactice music systems), που παράγουν μια μουσική
συνοδεία π.χ. στο μέρος του σόλο ενός καλλιτέχνη, είτε off-line είτε σε πραγματικό χρόνο.
• Εξοπλισμός με μουσική συσχέτιση (music-related equipment), όπως συγχρονισμός των εφέ
φωτισμού με το αντίστοιχο μουσικό σήμα.
• Δομημένη κωδικοποίηση ήχου. Μια MIDI αναπαράσταση είναι εξαιρετικά μικρού
μεγέθους, ενώ ταυτόχρονα διατηρεί σε σημαντικό βαθμό την ταυτότητα και τα
χαρακτηριστικά του μουσικού κομματιού. Στη δομημένη κωδικοποίηση ήχου, οι παράμετροι
της ηχητικής πηγής πρέπει επίσης να κωδικοποιούνται, αλλά το εύρος ζώνης παραμένει
περίπου στα 2-3 kbit/s [24]
To πρότυπο MIDI
Το τελευταίο στάδιο της μεταγραφής της μουσικής, μετά την αναγνώριση δηλαδή των νοτών
του μουσικού σήματος που επεξεργαζόμαστε, είναι η κατασκευή ενός αρχείου midi
παρέχοντας έτσι ένα ακουστικό αποτέλεσμα. Σε τι αντιστοιχεί όμως το πρότυπο midi ;
Το πρότυπο MIDI (Musical Instruments Digital Interface) αφορά την επικοινωνία μεταξύ
μουσικών οργάνων/µέσων µε τη χρήση ενός ειδικού ψηφιακού κώδικα. Σύμφωνα µε το
πρότυπο MIDI, η ψηφιακή επικοινωνία γίνεται µε τη μετάδοση εντολών, από κάποιο όργανο-
πομπό σε κάποιο όργανο-δέκτη, οι οποίες καθορίζουν ένα σύνολο παραμέτρων που
σχετίζονται µε την παραγωγή ήχου, την οργάνωση των μουσικών γεγονότων και τον
συγχρονισμό των οργάνων [25].
27
Το πρότυπο MIDI αποτελείται από δύο αλληλένδετα μέρη:
α) Το πρωτόκολλο επικοινωνίας (Software): Πρόκειται για τη γλώσσα της MIDI επικοινωνίας
(MIDI Language) και περιλαμβάνει το σύνολο των εντολών που αφορούν τη διάρθρωση μιας
μουσικής εκτέλεσης.
β) Το υλικό μέρος (Hardware): Αυτό αφορά τις ηλεκτρονικές συσκευές (πομπός – δέκτης) που
επικοινωνούν και καθορίζει τα τεχνικά τους χαρακτηριστικά, τις εισόδους/εξόδους
επικοινωνίας και τα μέσα διασύνδεσης.
Το πρωτόκολλο επικοινωνίας είναι αυτό που μας ενδιαφέρει περισσότερο στην παρούσα
εργασία και γι’ αυτό το λόγο θα παραλείψουμε την ανάλυση του hardware.
MIDI MODES (ΚΑΤΑΣΤΑΣΕΙΣ ΛΕΙΤΟΥΡΓΙΑΣ)
Σε κάθε MIDI συσκευή μπορεί να υπάρχουν τέσσερις καταστάσεις λειτουργίας οι οποίες
καθορίζουν τον τρόπο που η συσκευή ανταποκρίνεται στην εισερχόμενη πληροφορία,
ανάλογα µε την πολυφωνία και πολυχρωµατικότητα που διαθέτει:
Omni on: Ο δέκτης ανταποκρίνεται στην πληροφορία που δέχεται ανεξάρτητα από το κανάλι
στο οποίο δέχεται την πληροφορία.
Omni off: Ο δέκτης ανταποκρίνεται µόνο στην πληροφορία που δέχεται σε κάποιο
προκαθορισμένο κανάλι.
Poly on: Ο δέκτης ανταποκρίνεται στην πληροφορία πολυφωνικά (ανάλογα µε την
πολυφωνία που διαθέτει).
Mono on: Ο δέκτης ανταποκρίνεται στην πληροφορία μονοφωνικά (µία νότα κάθε φορά).
Οι πιθανοί συνδυασμοί των παραπάνω καταστάσεων λειτουργίας µας δίνουν τα 4 MIDI
Modes που καθορίζουν τον τρόπο αντίδρασης του οργάνου/µέσου στην πληροφορία που
λαμβάνει [26]:
Mode 1: Omni On/Poly
Mode 2: Omni On/Mono
Mode 3: Omni Off/Poly
Mode 4: Omni Off/Mono
28
Η ΔΟΜΗ ΕΝΟΣ MIDI ΜΗΝΥΜΑΤΟΣ
Το κάθε MIDI μήνυμα αποτελείται από 1 έως 3 ψηφιολέξεις (bytes) οι οποίες
αποτελούνται από 8 bits η καθεμία. Η πρώτη ψηφιολέξη που μεταδίδεται ονομάζεται
Status Byte και ειδοποιεί για το είδος μηνύματος και τον αριθμό καναλιού στο οποίο
το μήνυμα θα μεταδοθεί. Οι δύο επόμενες ψηφιολέξεις ονομάζονται Data bytes και
µέσω του συνδυασμού των δυαδικών ψηφίων καθορίζουν τιμές (0-127) οι οποίες
μπορεί να αφορούν το ποσοστό μεταβολής του ήχου, το τονικό ύψος της νότας, την
θέση ενός MIDI Programme στη μνήμη ενός οργάνου κτλ. ανάλογα πάντα µε το είδος
της εντολής που καθορίζεται από το status byte. Για παράδειγμα, εάν πιέσουμε το
μεσαίο ντο στο κλαβιέ ενός MIDI Keyboard, το status byte του μηνύματος που θα
σταλεί θα ειδοποιήσει ότι ενεργοποιήθηκε µία νότα (μήνυμα ‘note on’), και στη
συνέχεια το πρώτο data byte θα ειδοποιήσει για το ‘ποιά νότα’ µε τιμές 0-127 (π.χ.
60 = μεσαίο ντο), ενώ το δεύτερο data byte θα ειδοποιήσει για την ένταση της νότας,
πάλι µε τιμές 0-127 (π.χ. 60=μέτρια ένταση).
Εικόνα 2.9 :Δομή ενός τυπικού MIDI μηνύματος [26]
Σε κάθε Status Byte το πρώτο bit είναι το 1. Αντίθετα το κάθε Data Byte ξεκινά από 0. Αυτό
έχει καθοριστεί από τους προγραμματιστές της MIDI γλώσσας για να είναι ευδιάκριτη η
ταυτότητα του κάθε byte (αν δηλαδή πρόκειται για status byte ή data byte) πράγμα που
διευκολύνει την επικοινωνία. Έτσι, ένα όργανο/μέσο που δέχεται ένα byte το οποίο ξεκινά
από 1 ‘καταλαβαίνει’ ότι πρόκειται για ένα νέο μήνυμα το οποίο ‘περιγράφεται’ µε τις τιμές
των data bytes που ακολουθούν. Εάν το όργανο/μέσο δεχθεί ένα byte που ξεκινά από 0 τότε
συνεχίζει να ανταποκρίνεται στο είδος μηνύματος που καθορίστηκε από το προηγούμενο
29
status byte. To παραπάνω όμως σημαίνει ότι εφόσον το 1ο bit του κάθε byte χρησιμοποιείται
για τον προσδιορισμό της ταυτότητάς του, τότε µας μένουν άλλα 7 bits τα οποία
συνδυάζονται για τον καθορισμό των τιμών, και έτσι οι πιθανές τιμές που μπορεί να
αποδοθούν από ένα byte ενός MIDI μηνύματος είναι τελικά 128 (27 =128), δηλαδή από το 0
έως το 127.
Για παράδειγμα, η μεταβολή της έντασης ενός ήχου μπορεί να οριστεί µέσω της MIDI
επικοινωνίας σε µία κλίμακα µε τιμές από το 0 (=μηδενική ένταση) έως το 127 (μέγιστη
ένταση), ενώ κατά τον ίδιο τρόπο ένα άλλο byte μπορεί µέσω αυτής της κλίμακας να
προσδιορίζει 128 διαφορετικές νότες που μπορούν να παιχθούν από ένα κλαβιέ (0= ντο -2,
127= σολ 8).
Εικόνα 2.10 : Βits και bytes του MIDI κώδικα [26]
Χρησιμότητα
Γενικά ο μουσικός που θα γνωρίσει τις συγκινήσεις που προσφέρει το MIDI είναι πολύ
δύσκολο να φανταστεί τον κόσμο χωρίς αυτό. Οι δυνατότητες που ανοίγονται είναι τεράστιες
σε κάθε τομέα της μουσικής: διδασκαλία, σύνθεση, μάθηση, διασκέδαση. Οι δημιουργοί
λογισμικού έχουν αναπτύξει κάθε δυνατή πλευρά της μουσικής μέσω ειδικών
προγραμμάτων και για κάθε επίπεδο αγοραστικής δύναμης.
Οι κυριότερες κατηγορίες λογισμικού που θα μπορούσε κάποιος να βρει σήμερα είναι:
30
 Προγράμματα μουσικής
σημειογραφίας (Notation
Software)
 Προγράμματα μουσικής
εγγραφής (Sequencer)
 Προγράμματα μουσικής
εκπαίδευσης
 Προγράμματα επεξεργασίας-
ταξινόμησης ήχων
 Προγράμματα αναγνώρισης
μουσικών χαρακτήρων
Εικόνα 2.11 : Τρόποι διαχείρισης της μουσικής μέσω μουσικών λογισμικών
31
3. Μονοφωνική μεταγραφή μουσικής
3.1 Χαρακτηριστικά της Μονοφωνίας
Τι είναι μονοφωνία;
Ως μονοφωνία ή μονοφωνική μουσική, χαρακτηρίζεται κάθε μουσικό είδος το οποίο
βασίζεται σε μία και μόνη μελωδική γραμμή, που ακόμα κι αν παίζεται ή τραγουδιέται από
πλέον του ενός εκτελεστή, αναπαράγεται από όλους ταυτόχρονα και πανομοιότυπα. Αυτό
σημαίνει ότι σε οποιαδήποτε χρονική στιγμή ενός ηχητικού αποσπάσματος αναπαράγεται
ένας και μόνο τόνος, με αποτέλεσμα το απόσπασμα να αποτελείται από μία μόνο μελωδία.
Ένα σόλο ενός τρομπετίστα ή ενός βιολιστή είναι χαρακτηριστικά παραδείγματα
μονοφωνίας.
Εικόνα 3.1 : Παρτιτούρα μονοφωνικής μελωδίας
Αυτή ακριβώς η ιδιότητα της μονοφωνικής μουσικής είναι που την κάνει πιο ευκολά
μεταγράψιμη. Σε αντίθεση με αυτή, στην πολυφωνία, το σύστημα που είναι υπεύθυνο για τη
μεταγραφή μίας πολυφωνικής μελωδίας πρέπει να είναι σχεδιασμένο έτσι ώστε να μπορεί
να διακρίνει και να ανιχνεύει παραπάνω από έναν τόνο μια δεδομένη χρονική στιγμή. Αυτό
όμως δε σημαίνει ότι η μεταγραφή μιας μονοφωνικής μελωδίας είναι μια εύκολη διαδικασία,
καθώς έχουν αναπτυχθεί συγκεκριμένες τεχνικές για την επίτευξη ενός ικανοποιητικού
αποτελέσματος.
Κατά τη διάρκεια της μονοφωνικής μεταγραφής πρέπει να προσδιοριστούν τρεις παράμετροι
που χαρακτηρίζουν τις νότες σε μια μουσική μελωδία. Αυτές είναι:
32
 Ύψος (Pitch)
 Αρχή (Onset )
 Διάρκεια (Duration)
Ύψος
Όπως αναφέραμε και στην παράγραφο 3.2, αναλύοντας τα χαρακτηριστικά του ψηφιακού
ήχου, ο όρος ύψος αναφέρεται στο πόσο ψηλός ή χαμηλός είναι ένας τόνος. Στην προκειμένη
περίπτωση το ύψος είναι η συχνότητα της νότας που εξετάζουμε και η αντιστοιχία οξύτητας
του ήχου και της κλίμακας της συχνότητας είναι ανάλογη. Δηλαδή ένας υψηλός ήχος
αντιστοιχεί σε μια υψηλή συχνότητα, ενώ ένας χαμηλός ήχος σε μια χαμηλή συχνότητα (βλ.
εικόνα 3.2)
Μονάδα μέτρησης είναι το Χερτς (Hz), όπου 1Hz=1 κύκλος/δευτερόλεπτο
Εικόνα 3.2 Η κυματομορφή μίας νότας μπάσου (χαμηλό pitch) και ενός τόνου σφυρίχτρας (υψηλό pitch) [27]
Aρχή (onset) νότας
Στην παρακάτω εικόνα αριστερά φαίνεται η κυματομορφή μιας μεμονωμένης νότας και
δεξιά τα μέρη από τα οποία αποτελείται. Θα αναλύσουμε τα μέρη αυτά στη συνέχεια καθώς
είναι ιδιαίτερα σημαντικά ώστε να προσδιοριστεί η αρχή της νότας την κατάλληλη χρονική
στιγμή.
33
Εικόνα 3.3 : Η κυματομορφή νότας (αριστερά) και τα επιμέρους χαρακτηριστικά της (δεξιά) [29]
o Attack: αντιστοιχεί στο τμήμα που το πλάτος της νότας αυξάνεται.
o Decay: είναι το τμήμα στο οποίο η νότα είναι ηχηρή με αποτέλεσμα να καθορίζει τη
διάρκεια αλλά και το τέλος της. [28]
Αναλόγως το όργανο αλλά και την στίξη της νότας που σημειώνεται σε μια
παρτιτούρα (staccato, marcato, tenuto κ.λ.π.) τα δύο παραπάνω τμήματα
επηρεάζονται αναλόγως.
o Transient: είναι το τμήμα της νότας το οποίο δεν είναι εύκολα αντιληπτό από το
ανθρώπινο αυτί. Πρακτικά με τον όρο transient αναφερόμαστε στο τμήμα της νότας
όπου παρατηρείται μια γρήγορη μεταβολή. Στην περίπτωση των ακουστικών
οργάνων, το transient αντιστοιχεί στο χρονικό διάστημα κατά το οποίο εφαρμόζεται
η διέγερση και στη συνέχεια μειώνεται αφήνοντας μια αργή εξασθένιση στις
συχνότητες συντονισμού του οργάνου[30].
o Onset: όπως φαίνεται και στην παραπάνω εικόνα το onset συμπίπτει με το σημείο
όπου ξεκινάει το χρονικό διάστημα του transient.
transient
34
Διάρκεια
Ορίζεται ως το χρονικό διάστημα από το onset μέχρι το offset της νότας, όπου με τον όρο
offset αναφερόμαστε στο σημείο που η νότα σταματά να είναι ενεργή.
Εικόνα 3.4 : H κυματομορφή ενός ηχητικού σήματος (μπλε) και τα εκτιμημένα onsets (μωβ) [31]
Η αποσαφήνιση των παραπάνω είναι ιδιαίτερα σημαντική, καθώς πολλοί από τους
αλγόριθμους ανίχνευσης της αρχής των νοτών (onset detection) βασίζονται σε αυτά τα
χαρακτηριστικά. Τέτοιοι αλγόριθμοι είναι ιδιαίτερα χρήσιμοι σε αναλύσεις και τεχνικές
κατηγοριοποίησης μουσικών σημάτων. Ο πλέον συνηθής τρόπος ανίχνευσης των onsets είναι
η μελέτη του transient τμήματος μιας νότας, από όπου μπορούν να εξαχθούν διάφορα
συμπεράσματα. Μερικά παραδείγματα που μπορούν να οδηγήσουν στην ανίχνευση ενός
onset είναι ένα ξέσπασμα στην ενέργεια του σήματος, μία αλλαγή στο φάσμα του σήματος
ή σε κάποιες στατιστικές ιδιότητες του.
3.2 H Τεχνοτροπία της Μονοφωνικής Μεταγραφής
Σε αυτή την υποενότητα θα περιγράψουμε τα επιμέρους στάδια από τα οποία αποτελείται
ένα σύστημα μονοφωνικής μεταγραφής. Όπως μπορεί κανείς να δει στο παρακάτω
διάγραμμα, σαν είσοδο του συστήματος έχουμε ένα αρχείο τύπου κυματομορφής
35
(waveform). Σε αυτή τη μορφή το σήμα μας εμπεριέχει όλες τις δυνατές πληροφορίες που
μπορούμε να εξάγουμε καθώς δεν έχει υποστεί καμία μορφή συμπίεσης. Έπειτα το σήμα μας
χωρίζεται σε πολλά επιμέρους τμήματα (frames) για την καλύτερη εποπτεία και επεξεργασία
του, ενώ στη συνέχεια τα τμήματα αυτά πολλαπλασιάζονται με μία συνάρτηση “παραθύρου”
τύπου Hanning ώστε να είναι δυνατή η ανακατασκευή του σήματος, διαδικασία που θα
αναλύσουμε στη συνέχεια. Τα κύρια μέρη, στα οποία εστιάζουμε περισσότερο, είναι οι
συναρτήσεις ανίχνευσης της αρχής της νότας (onset detection function) και ανίχνευσης του
ύψους της (pitch detection function). Έπειτα προσδιορίζονται τα τμήματα σιγής (silenced
frames) του ηχητικού μας αρχείου και περνώντας στο τελευταίο στάδιο, συνδυάζοντας τα
παραπάνω, πραγματοποιείται η κατασκευή του αρχείου midi.
Εικόνα 3.5 : Τα στάδια επεξεργασίας της μονοφωνικής μεταγραφής
Signal
segmentation
Hanning
Window
Onset
Detection
Pitch
Detection
Energy
Estimation
Combine and
extract
silenced
midi file
track.mid
Input signal
track.wav
36
3.2.1 Κατάτμηση ηχητικού σήματος
Η χρονική κατάτμηση ενός ακουστικού κύματος σε μικρότερα στοιχεία είναι θεμελιώδες
βήμα για τη μετατροπή των ήχων σε σημασιολογικά αντικείμενα. Τα τελευταία χρόνια έχει
αφιερωθεί σημαντική έρευνα σε αυτό το αντικείμενο και έχουν αναπτυχθεί διάφοροι
αλγόριθμοι για τον αυτόματο διαχωρισμό μουσικών σημάτων στα όρια των αντικειμένων του
ήχου: αρχή (onset) και τέλος (offset) νότας [32][33]. Συστήματα ικανά να εντοπίζουν τα onset
τη στιγμή που συμβαίνουν, προσδίδουν νέες προοπτικές στην αλληλεπίδραση μεταξύ
ακουστικών και εικονικών μουσικών οργάνων [34].
Η εξαγωγή της χρονικής πληροφορίας των onset είναι χρήσιμη στις εφαρμογές επεξεργασίας
ήχου για την ακριβή μοντελοποίηση της έναρξης ενός ηχητικού φαινομένου (attack) [35].
Επίσης, βοηθά τα συστήματα μεταγραφής στον εντοπισμό της αρχής των νοτών [36][33], και
μπορεί να χρησιμοποιηθεί σε προγράμματα επεξεργασίας ήχων (sound editors) για το
διαχωρισμό ηχητικών αρχείων στα λογικά τους μέρη [38]. Οι μέθοδοι ανίχνευσης των onset
έχουν χρησιμοποιηθεί στην ταξινόμηση μουσικής, στο χαρακτηρισμό ρυθμικών μοτίβων [39],
καθώς και σε συστήματα αναγνώρισης ρυθμού (tempo) για να εντοπίσουν τη θέση των
ρυθμικών παλμών (beats) σε ένα μουσικό κομμάτι [40].
Κατά την τμηματοποίηση ενός σήματος στα επιμέρους frames, είναι σύνηθες να εφαρμόζεται
μία επικάλυψη (οverlap) των εξαγόμενων τμημάτων, ώστε να αποφευχθεί οποιαδήποτε
ασυνέχεια στην ανακατασκευή του σήματος. Όπως και στην εικόνα που ακολουθεί, η τιμή
της επικάλυψης συνηθίζεται να είναι 50%.
Εικόνα 3.6 : Κατάτμηση του σήματος με επικάλυψη (overlap) 50%
37
3.2.2 Συνάρτηση Παραθύρου
Η συνάρτηση παραθύρου είναι μια μαθηματική συνάρτηση που εφαρμόζεται στην
επεξεργασία ενός ψηφιακού σήματος για να αποφευχθούν ασυνέχειες στις δύο άκρες ενός
επιλεγμένου διαστήματος[42].
Ένα τέτοιο παράθυρο είναι και το παράθυρο Hanning (Hanning Window). Kύρια λειτουργία
του είναι να τονίσει τις συνιστώσες που βρίσκονται στο κέντρο του δείγματος που
εφαρμόζεται το παράθυρο, ενώ παράλληλα περιορίζει συμμετρικά τις τιμές στα άκρα του.
Με αυτόν τον τρόπο επιτυγχάνεται ο περιορισμός του φαινομένου της φασματικής διαρροής
(spectral leakage)
Εικόνα 3.7 : Το παράθυρο Hanning (αριστερά) και η απόκριση συχνότητάς του (δεξιά) [43]
Το παράθυρο Hanning ορίζεται ως εξής [43]:
𝒘(𝒏) = 𝟎. 𝟓 (𝟏 − 𝐜𝐨𝐬 (
𝟐𝝅𝒏
𝑵 − 𝟏
)) (𝟑. 𝟏)
N: μέγεθος παραθύρου
n: 0,1,..,N
Στη δική μας περίπτωση πολλαπλασιάζουμε κάθε frame με το παράθυρο Hanning. Αυτό έχει
ως αποτέλεσμα την ενίσχυση της θεμελιώδους συχνότητας και τον περιορισμό των
38
αρμονικών, πράγμα που διευκολύνει την επόμενη διαδικασία της ανίχνευσης του ύψους της
νότας.
Στην εικόνα 3.8 φαίνεται στο πεδίο της συχνότητας η επίδραση που έχει η εφαρμογή ενός
τετράγωνου παραθύρου και ενός παραθύρου Hanning στο σήμα. Είναι προφανές ότι στη
δεύτερη περίπτωση έχει εξαλειφθεί η όποια φασματική διαρροή υπήρχε προηγουμένως και
είναι πιο εμφανείς η τονική και οι βασικές αρμονικές της νότας.
Εικόνα 3.8 : Επίδραση του τετράγωνου παραθύρου (πάνω) και του παραθύρου Hanning (κάτω)
3.2.3 Ανίχνευση ύψους της νότας (pitch detection)
H μονοφωνική ανίχνευση του ύψους μια νότας αποτελεί τη μέθοδο αναγνώρισης της πρώτης
συχνότητας που εμπεριέχεται σε ένα ηχητικό σήμα όταν μόνο μια νότα αναπαράγεται κάθε
χρονική στιγμή. Ο στόχος ενός συστήματος ανίχνευσης τονικού ύψους (pitch detection
system) είναι να αναγνωρίσει τους ήχους που διαμορφώνουν την αίσθηση της τονικότητας
και να εκτιμήσει τη συχνότητα που αντιστοιχεί στο αντιλαμβανόμενο τονικό ύψος.
39
Παρατηρήθηκε λοιπόν από τους επιστήμονες πως, αν υπολογιστεί η θεμελιώδης συχνότητα
ενός αρμονικού σήματος και έπειτα το αποτέλεσμα οπτικοποιηθεί, για το μεγαλύτερο μέρος
της διάρκειας των νοτών το pitch παραμένει σταθερό. Αυτό το φαινόμενο, που είναι τόσο
προφανές, αξίζει να σχολιασθεί περαιτέρω. Με στόχο να ορισθούν κάποια κριτήρια
ομαδοποίησης και κανόνων για τους ήχους, θα πρέπει να δοθεί έμφαση στην ομοιότητα της
ανθρώπινης αντίληψης ανάμεσα στην εικόνα και τον ήχο. Σημαντικά στοιχεία μπορούν να
ληφθούν παρατηρώντας την κυματομορφή ενός pitch. Η συγκεκριμένη μέθοδος δεν
χρησιμοποιεί έναν συμβατικό ανιχνευτή οnset αλλά εφαρμόζει μια μέθοδο υπολογισμού του
onset με βάση την θεμελιώδη συχνότητα, που είναι πιο ισχυρή όταν αντιμετωπίζονται
προβλήματα με μικρές αλλαγές στις νότες (glissando, legato) [44].
Πολλά από τα μοντέλα αναγνώρισης τονικού ύψους προέρχονται από τεχνικές επεξεργασίας
λόγου [45]. Υπάρχει ένας μεγάλος αριθμός μεθόδων για την εκτίμηση της τονικότητας
σημάτων ομιλίας [46] και μουσικής [47], τα οποία κατά κύριο λόγο λειτουργούν εκτιμώντας
τη θεμελιώδη συχνότητα κάθε μουσικού συμβάντος (νότας). Η θεμελιώδης συχνότητα f0 ενός
περιοδικού σήματος είναι η αντίστροφος της περιόδου του. Η περίοδος μπορεί να οριστεί ως
“το μικρότερο μέλος ενός συνόλου άπειρων χρονικών μετατοπίσεων που αφήνουν το σήμα
αμετάβλητο” [48]. Στη μουσική, ωστόσο, το σήμα δεν είναι απόλυτα περιοδικό και ο ορισμός
αυτός εφαρμόζεται σε ένα συγκεκριμένο χρονικό τμήμα γύρω από το τρέχον σημείο της
ανάλυσης.
Στις περισσότερες περιπτώσεις, η θεμελιώδης συχνότητα μίας νότας αντιστοιχεί στην
αντιλαμβανόμενη τονικότητα, χωρίς αυτό όμως να αποτελεί ανεξαίρετο κανόνα [49], καθώς
το αντιλαμβανόμενο τονικό ύψος των μουσικών οργάνων εξαρτάται και από τις αρμονικές
συχνότητες που παράγουν [50]. Τα μουσικά όργανα έχουν διαφορετικές αρμονικές δομές και
το πλάτος των αρμονικών τους μεταβάλλεται με το χρόνο, προσδίδοντας στο κάθε όργανο
ξεχωριστή χροιά.
40
Εικόνα 3.9 : Η θεμελιώδης συχνότητα της νότας Μι στη 3η οκτάβα (Ε3) και οι αρμονικές τις [52]
Οι διάφοροι διαθέσιμοι αλγόριθμοι για την εκτίμηση της θεμελιώδους συχνότητας
κατηγοριοποιούνται γενικά σε δύο κατηγορίες: α) στις μεθόδους που εκτιμούν την
περιοδικότητα της κυματομορφής του σήματος (μέθοδοι στο πεδίο του χρόνου - time
domain methods) και β) στις μεθόδους που αναζητούν αρμονικά μοτίβα στο φάσμα (μέθοδοι
στο πεδίο της συχνότητας - frequency or spectral domain methods). Oι φασματικές
προσεγγίσεις τείνουν να έχουν καλά αποτελέσματα στο ψηλότερο μέρος του φάσματος και
υστερούν στο χαμηλό, ενώ αντίθετα οι χρονικές παρουσιάζουν περισσότερα λάθη στις
υψηλές συχνότητες, κυρίως όσο πλησιάζουν στη μισή τιμή της συχνότητας δειγματοληψίας
(ρυθμός Nyquist). Μερικά συστήματα χρησιμοποιούν συνδυαστικά μεθόδους βασισμένες
στο πεδίο του χρόνου και της συχνότητας, στοχεύοντας να εκμεταλλευτούν τα δυνατά σημεία
της καθεμίας ώστε να έχουν καλύτερα αποτελέσματα στο συνολικό εύρος του φάσματος του
ήχου [51].
41
Στο πεδίο της συχνότητας διακρίνονται γενικά δύο τύποι μεθόδων για την αναγνώριση του
τονικού ύψους:
α) οι μέθοδοι φασματικής θέσης (spectral position methods), οι οποίες βασίζονται στον
εντοπισμό της θεμελιώδους συχνότητας επιλέγοντας φασματικές συνιστώσες ανάλογα με τη
θέση τους στο φάσμα.
β) οι μέθοδοι φασματικών διαστημάτων (spectral interval methods), οι οποίες βασίζονται
στον υπολογισμό των διαστημάτων μεταξύ των αρμονικών συχνοτήτων [47].
Μια μέθοδος φασματικής θέσης ευρέως χρησιμοποιούμενη κυρίως σε συστήματα ανάλυσης
φωνητικών σημάτων, είναι αυτή της γραμμική πρόβλεψης (Linear Predictive Coding (LPC) )
που βλέπουμε στην εικόνα 3.10.
Εικόνα 3.10 : Η μέθοδος της γραμμικής πρόβλεψης (LPC) [53]
42
Αναγνώριση τονικού ύψους στο πεδίο του χρόνου
Zero - Crossing
Μία μέθοδος για τον εντοπισμό της θεμελιώδους συχνότητας στο πεδίο του χρόνου
συνίσταται στην παρατήρηση μοτίβων περιοδικότητας του σήματος μέσω της κυματομορφής
του. Ένας από τους πιο γρήγορους τρόπους για να υπολογιστεί η τονικότητα είναι να
μετρηθούν οι διελεύσεις από το μηδέν (zero-crossings) σε ένα συγκεκριμένο χρονικό
διάστημα, κάτι το οποίο απαιτεί εξονυχιστική έρευνα σε κάθε παράθυρο επεξεργασίας για
να εντοπιστούν οι αλλαγές των προσήμων.
Εικόνα 3.11 : Το ηχητικό σήμα και οι διελεύσεις της κυματομορφής από το μηδέν (zero crossings)
Αυτή η μέθοδος είναι επιτυχής όταν το σήμα αποτελείται από απλούς ημιτονοειδείς τόνους,
αλλά αποτυγχάνει όταν στοχεύει σε πιο πολύπλοκους τύπους σημάτων. Για παράδειγμα, ο
αριθμός των διελεύσεων από το μηδέν ενός αρμονικού ήχου συχνά δεν έχει σχέση με το
μήκος κύματος του, καθώς το πρόσημο της κυματομορφής μπορεί να αλλάξει πάνω από μία
φορά σε μία περίοδο. Επιπλέον, η παρουσία θορύβου στο σήμα μπορεί να δυσκολέψει
ακόμη περισσότερο τη σωστή καταμέτρηση των διελεύσεων από το μηδέν, είτε αυξάνοντας
είτε μειώνοντας τον αριθμό των αλλαγών πρόσημου εντός του παραθύρου επεξεργασίας.
43
Υπάρχει μια παραλλαγή αυτής τη μεθόδου, στην οποία μετριούνται οι κορυφές ενός
ορισμένου χρονικού διαστήματος, αλλά και σε αυτήν αντιμετωπίζονται παρόμοιες
δυσκολίες. Σε γενικές γραμμές, η επιλογή ενός αξιόπιστου σημείου αναφοράς ώστε να
υπολογιστεί η περίοδος είναι δύσκολη. [54].
Αυτοσυσχέτιση (autocorrelation)
Oι μέθοδοι ανίχνευσης του ύψους εστιάζουν στην εξαγωγή πληροφοριών που σχετίζονται με
την περιοδικότητα του σήματος εισόδου. Εδώ, θα εξετάσουμε τον αλγόριθμο της
αυτοσυσχέτισης εκτενέστερα από τους υπόλοιπους, μιας και θα γίνει ανάλυση της
υλοποίησης του σε επόμενο εδάφιο της εργασίας. Ο αλγόριθμος αυτός έχει την ιδιότητα ότι
δεν είναι ευαίσθητος στη φάση του σήματος, ενώ παράλληλα παρουσιάζει ομαλές τιμές κατά
τη διάρκεια του στάσιμου τμήματος της νότας. Το στάσιμο τμήμα μιας νότας βρίσκεται
αμέσως μετά το attack, όπου όλες οι αρμονικές σταθεροποιούνται και σημειώνονται καθαρά
στο φάσμα.
Η μέθοδος της αυτοσυσχέτισης συγκρίνει, σε επίπεδο δειγμάτων, τις ομοιότητες τμημάτων
του σήματος με τμήματα του ίδιου σήματος που έχουν μετατεθεί χρονικά [48]. Η συνάρτηση
αυτοσυσχέτισης (ACF -Autocorrelation Function) ενός διακριτού σήματος x(k) με μήκος
ακολουθίας Ν ορίζεται ως εξής:
𝒓 𝒙𝒙(𝒏) =
𝟏
𝑵
∑ 𝒙(𝒌) 𝒙(
𝑵−𝒏−𝟏
𝒌=𝟎
𝒌 + 𝒏) (𝟑. 𝟐)
Το n είναι το lag ή καθυστέρηση και x(n) είναι ένα σήμα στο πεδίο του χρόνου. Το n παίρνει
τιμές από –N+1 έως N-1. Αυτή η συνάρτηση είναι ιδιαίτερα χρήσιμη στο να αναγνωρίζονται
‘’κρυμμένες’’ περιοδικότητες σε ένα σήμα, για παράδειγμα, όταν η θεμελιώδης συχνότητα
είναι χαμηλής ενέργειας. Τα τοπικά μέγιστα ή κορυφές (peaks) της συνάρτησης
αυτοσυσχέτισης αντιπροσωπεύουν τα lags, όπου η περιοδικότητα είναι ισχυρότερη. Η
αυτοσυσχέτιση με μηδενικό lag, δηλαδή η rxx(0), μας δίνει την ενέργεια του σήματος. Η
συνάρτηση αυτοσυσχέτισης δείχνει τοπικά μέγιστα για οποιαδήποτε περιοδικότητα που
είναι παρούσα στο σήμα, γι’ αυτό είναι σημαντικό να απαλειφθούν τα μέγιστα που
αντιστοιχούν στις πολλαπλές περιοδικότητες. Αν το σήμα που παρέχει μια νότα έχει υψηλή
αυτοσυσχέτιση για μια τιμή lag, έστω Κ, θα έχει μέγιστο για τιμές nxK επίσης, όπου n είναι
44
θετικός ακέραιος. Ως συνέπεια, το πρώτο μέγιστο στην συνάρτηση της αυτοσυσχέτισης, μετά
την μηδενική τιμή lag, θεωρείται ως το αντίστροφο της θεμελιώδους συχνότητας, ενώ τα
υπόλοιπα τοπικά μέγιστα απορρίπτονται.
Εικόνα 3.12 : Το ηχητικό σήμα στην αρχική του μορφή (αριστερά) και μετά την εφαρμογή της συνάρτησης της
αυτοσυσχέτισης (δεξιά)
Γιατί όμως να χρησιμοποιηθεί η αυτοσυσχέτιση για την εκτίμηση του pitch;
Η απάντηση είναι απλή: η αυτοσυσχέτιση είναι απλή, γρήγορη και αξιόπιστη. Η rxx(n)
αντιπροσωπεύει μια πολύ απλή σχέση ανάμεσα στην κυματομορφή του χρόνου και τις
περιοδικότητες του σήματος εκφρασμένες από τους συντελεστές τις αυτοσυσχέτισης. Ο
υπολογισμός της αυτοσυσχέτισης εκτελείται μέσω του FFT (Fast Fourier Transform ελλ.
Γρήγορος Μετασχηματισμός Fourier), που έχει υπολογιστική πολυπλοκότητα Νlog2(N), όπου
Ν είναι το μήκος του ‘’παραθύρου’’ του σήματος. Η διαδικασία του υπολογισμού επομένως
είναι πολύ γρήγορη [44].
Για να μειωθεί το υπολογιστικό κόστος η μέθοδος της αυτοσυσχέτισης μπορεί να μεταφερθεί
στο πεδίο της συχνότητας ως εξής:
𝒓 𝒙𝒙(𝒏) =
𝟏
𝑵
∑|𝑿(𝒌)| 𝟐
𝐜𝐨𝐬 (
𝟐𝝅𝒏𝒌
𝑵
)
𝑵−𝟏
𝒌=𝟎
(𝟑. 𝟑)
Εκφραζόμενη με αυτόν τον τρόπο η συνάρτηση αυτοσυσχέτισης αποτελεί πλέον μία
φασματική προσέγγιση, η οποία επιλέγει την θεμελιώδη συχνότητα σταθμίζοντας τα
φασματικά στοιχεία σύμφωνα με τη θέση τους. Σε γενικές γραμμές, οι μέθοδοι
45
αυτοσυσχέτισης δείχνουν να είναι αρκετά ανθεκτικές στο θόρυβο αλλά παρουσιάζουν
μειονεκτήματα στην αντιμετώπιση των φασματικών ιδιαιτεροτήτων, τόσο των σημάτων
μουσικής όσο και των σημάτων λόγου. Επιπρόσθετα το 1990, η Brown[55] δημοσίευσε μια
μελέτη όπου η θεμελιώδης συχνότητα των οργάνων υπολογιζόταν από την αυτοσυσχέτιση:
συμπέρανε πως αυτή η μέθοδος είναι ένας καλός ανιχνευτής συχνότητας για μουσικούς
ήχους.
3.2.4 Εκτίμηση της αρχής μιας νότας (onset detection)
Σε αυτό το σημείο αξίζει να πούμε ότι η διαδικασία της ανίχνευσης των onset παίζει πολύ
σημαντικό ρόλο στη τμηματοποίηση και στην ανάλυση ενός ακουστικού σήματος. Μπορεί
ακόμη να διευκολύνει σε μεγάλο βαθμό την επεξεργασία ηχητικών ηχογραφήσεων μιας και
τα περισσοτέρα λογισμικά επεξεργασίας ήχου έχουν ενσωματωμένη την λειτουργία αυτή. Η
πληροφορία έναρξης ενός ηχητικού συμβάντος μπορεί επίσης να χρησιμοποιηθεί για το
συγχρονισμό ηχητικών σημάτων και βίντεο (audio/video synchronization) ή ακόμη και σε
συστήματα ακουστικής επίβλεψης (acoustic supervision systems). [56]
To δεύτερο κομμάτι της μονοφωνικής μεταγραφής, εξίσου σημαντικό με την ανίχνευση του
ύψους της νότας, είναι αυτό της εκτίμησης της στιγμής όπου η νότα ενεργοποιείται στο
ηχητικό μας σήμα. Ο όρος onset αναφέρεται στο σημείο έναρξης της νότας, εκεί δηλαδή
όπου το πλάτος της κλιμακώνεται σταδιακά από το μηδέν μέχρι το πρώτο μέγιστο. Όπως
αναφέραμε και στην αρχή της ενότητας, σχετίζεται με την αρχή του χρονικού διαστήματος
transient. H αντίληψη ενός onset μπορεί να συσχετιστεί με μια αξιοσημείωτη αλλαγή στην
ένταση, το ύψος ή και στη χροιά μιας νότας. [32]
Ένα θεμελιώδες πρόβλημα στο σχεδιασμό των συστημάτων ανίχνευσης των onset είναι η
διάκριση των γνήσιων onset από τις σταδιακές αλλαγές και τους συντονισμούς που είναι
πιθανόν να υπάρχουν στο σήμα. Αυτός είναι και ο λόγος για τον οποίο είναι δύσκολο να
βρεθεί μια εύρωστη μέθοδος ανίχνευσης των onset.
Τα τελευταία χρόνια έχει διεξαχθεί μια πληθώρα ερευνών γύρω από την εκτίμηση των
onsets. Παρόλαυτα, μόνο μερικά συστήματα επικεντρώθηκαν στην επίλυση του
46
προβλήματος, εκτιμώντας τα onset ένα προς ένα [40]. Αντ’ αυτού τα περισσότερα συστήματα
στοχεύουν στην πληροφορία υψηλοτέρου επιπέδου (higher-level information), όπως είναι
για παράδειγμα η αντίληψη του παλμού (beat) ενός μουσικού σήματος. Σε αυτές τις
περιπτώσεις, οποιαδήποτε μεμονωμένα σφάλματα μπορούν να αντιμετωπιστούν μέσω
μεθόδων αυτοσυσχέτισης και κανονικοποίησης. [40][5][6]
Εικόνα 3.13 Κυματομορφή ηχητικού αποσπάσματος από κιθάρα. Τα πραγματικά onsets είναι σημειωμένα
με διακεκομμένες κάθετες γραμμές.
Σχεδόν όλοι οι αλγόριθμοι ανίχνευσης των onsets μπορούν να χωρισθούν σε 2 ξεχωριστά
στάδια. Το πρώτο από αυτά, το οποίο συχνά καλείται και συνάρτηση ανίχνευσης (detection
function), μετατρέπει το σήμα από δείγματα στο πεδίο του χρόνου σε μια συνάρτηση όπου
είναι πιο αποτελεσματική η εύρεση των περιστασιακών onsets. Το δεύτερο μέρος ενός
οποιουδήποτε αλγορίθμου για εύρεση του onset καλείται συχνά στάδιο επιλογής τοπικών
κορυφών (peak picking stage), και περιλαμβάνει την εύρεση των σημείων εκείνων, στην
συνάρτηση ανίχνευσης, που αντιστοιχούν στα περιστασιακά onset.
Μία πολύ αποδοτική συνάρτηση ανίχνευσης θα έχει τυπικά πολύ αιχμηρές κορυφές στα
σημεία των onsets, και διάφορα “αναληθή” μέγιστα σε άλλα σημεία. Όσο πιο κοντά είναι ένα
αποτέλεσμα σε αυτή την περίπτωση, τόσο πιο καλή θα είναι η διαδικασία peak picking στο
δεύτερο στάδιο. Η διαδικασία peak picking κρίνεται από την αποτελεσματικότητα της στο να
επιλέγει μόνο εκείνα τα τοπικά μέγιστα που αντιστοιχούν σε σημεία ενάρξεως των νοτών.
Έτσι, το να επιλεγούν όλα τα μέγιστα της συνάρτησης ανίχνευσης αντιστοιχεί μόνο στην
ιδεατή περίπτωση μιας αλάνθαστης εκτίμησης μόνο των onsets που αντιστοιχούν σε νότες.
Η επιλογή ενός κατωφλίου στην detection function με σκοπό να αγνοηθούν όλα τα
ψευδεπίγραφα μέγιστα είναι ένα σύνηθες πρόβλημα στο στάδιο επιλογής κορυφών [60].
47
Εικόνα 3.14 : Τα στάδια της συνάρτησης εκτίμησης των onsets [30]
‘Ενα πρώτο βήμα για την ανάκτηση διακριτών χρόνων onset είναι η αξιολόγηση του
ποσοστού μεταβολής του σήματος. Για ένα δεδομένο χρονικό διάστημα υπολογίζεται ένα
μέτρο βασισμένο στα χαρακτηριστικά του σήματος και με τη συγκέντρωση συνεχών
παρατηρήσεων σχηματίζεται η συνάρτηση εντοπισμού των onset [30]. Ο στόχος των
συναρτήσεων αυτών είναι να παράσχουν μία μεσαίου επιπέδου εκπροσώπηση του σήματος,
χρησιμοποιώντας μικρότερη δειγματοληψία από το αρχικό ηχητικό. Αυτό έχει ως συνέπεια,
το αποτέλεσμά τους να παρουσιάζει απότομες κορυφές τη στιγμή που εντοπίζεται ένα onset
και να μην παρουσιάζει κορυφές κατά τη διάρκεια της εκτέλεσης μιας συνεχούς νότας ή από
το θόρυβο περιβάλλοντος. Σε δεύτερο στάδιο γίνεται η επιλογή των κορυφών από τις οποίες
θα ανακτηθεί ο ακριβής χρόνος εμφάνισης των σχετικών onset. Γενικά, υπάρχουν τρεις
μέθοδοι για την κατασκευή αυτών των συναρτήσεων εντοπισμού:
• Αναγνώριση στο πεδίο του χρόνου κατευθείαν πάνω στην κυματομορφή.
• Αναγνώριση στο πεδίο της συχνότητας χρησιμοποιώντας διάφορες ζώνες
συχνοτήτων ή ένα phase vocoder.
• Αναγνώριση χρησιμοποιώντας τεχνικές μηχανικής μάθησης (machine learning
techniques) για διάφορα χαρακτηριστικά του σήματος.
48
Στη συνέχεια θα αναφέρουμε μερικές από τις μεθόδους ανίχνευσης των onsets τόσο στο
πεδίο του χρόνου όσο και στο πεδίο της συχνότητας.
Ενεργειακή Προσέγγιση (Energy-Based)
Mία νότα σε ένα ηχητικό σήμα έχει ως αποτέλεσμα την αύξηση της ενέργειας του σήματος.
Ιδιαίτερα στην περίπτωση των κρουστικών ήχων, όπως αυτή των τυμπάνων, η αύξηση της
ενέργειας είναι πολύ απότομη. Γι’ αυτό το λόγο, η ενέργεια έχει αποδειχθεί ένα πολύ χρήσιμο
και αποδοτικό μέτρο ώστε να ανιχνεύονται κρουστικές διακυμάνσεις και άρα συγκεκριμένα
είδη οnsets. Η ενέργεια ενός σήματος ορίζεται ως το άθροισμα των τετραγώνων των μέτρων
της ενέργειας του κάθε frame και περιγράφεται από την παρακάτω σχέση:
𝛦(𝑚) = ∑ |𝑥(𝑛)|2
𝑚ℎ
𝑛=(𝑚−1)ℎ
(3.4)
Όπου h είναι το μέγεθος του frame, m ο αριθμός των frames και n η μεταβλητή ολοκλήρωσης.
Παίρνοντας στη συνέχεια την πρώτη παράγωγο της ενέργειας E(m) προκύπτει η συνάρτηση
ανίχνευσης από την οποία είναι δυνατόν να επιλεχθούν τα τοπικά μέγιστα που αντιστοιχούν
σε onsets. Αυτή η ιδέα μπορεί να επεκταθεί στον υπολογισμό των frames στο πεδίο της
συχνότητας κάνοντας χρήση του γρήγορου μετασχηματισμού Fourier (FFT)[30]. Όπως
αναφέραμε και στην υποενότητα 2.2.2, έχοντας ένα σήμα s(mh) στο πεδίο το χρόνου ο STFT
υπολογίζεται ως εξής.
𝑺 𝒌(𝒎) = ∑ 𝒔(𝒏)𝒘(𝒎𝒉 − 𝒏)𝒆−
𝒋𝟐𝝅𝒏𝒌
𝑵
∞
𝒏=−∞
(𝟑. 𝟓)
όπου k=0,1, … , N-1 είναι ο δείκτης του bin με συχνοτικό περιεχόμενο και w(n) είναι το
πεπερασμένου μήκους κυλιόμενο ‘’παράθυρο’’. Επίσης, οι διαφορές στα πλάτη, που
αποτελεί πρακτικά μια προσέγγιση της παραγώγου, δίνονται από το τύπο:
𝛿𝑆 = ∑|𝑆 𝑘(𝑚)| − | 𝑆 𝑘(𝑚 − 1)|
𝑁
𝑘=1
(3.6)
49
Εικόνα 3.15 : Φωνητικό σήμα (πάνω) και η ενέργεια του (κάτω)
H συγκεκριμένη συνάρτηση ανίχνευσης αποτελεί μια εύκολα υλοποιήσιμη μέθοδο για να
εκτιμηθούν τα onsets σε ένα σήμα και παρόλη την απλότητα της παρέχει ικανοποιητικά
αποτελέσματα σε ότι αφορά τους κρουστικούς ήχους.
Φασική προσέγγιση (Phase deviation)
Μια εναλλακτική προσέγγιση παρουσίασε οι Bello et al με τη δημιουργία μιας συνάρτησης
που μετρά τη χρονική αστάθεια της φάσης. Έτσι, τα τονικά onset αναγνωρίζονται
εντοπίζοντας σημαντικές διακυμάνσεις της φάσης [30]. Η φάση ενός σήματος σε στάσιμη
κατάσταση αναμένεται να γυρίζει σταθερά γύρω από τον τριγωνομετρικό κύκλο. Η φασική
καθυστέρηση και η γωνιακή ταχύτητά του, λοιπόν, μπορούν να θεωρηθούν στάσιμες και η
επιτάχυνσή του μηδενική, οπότε για να εντοπιστούν αλλαγές σε ένα μη στάσιμο σήμα αρκεί
να παρατηρήσουμε τη φασική επιτάχυνση. Η συνάρτηση αυτή κατασκευάστηκε από τον
ποσοτικό προσδιορισμό της απόκλισης της φάσης.
𝜑 𝜅̂[𝑛] = 𝑝𝑟𝑖𝑛𝑐𝑎𝑟𝑔 (
𝜃2
𝜑 𝜅[𝑛]
𝜃𝑛2 ) (3.7)
όπου princarg (Principal Argument Function) είναι μια συνάρτηση που δίνει το ακτινικό μέτρο
του ορίσματος ενός μιγαδικού αριθμού στο εύρος [-π,π].
50
Έτσι προκύπτει η συνάρτηση:
𝐷 𝜑[𝑛] = ∑| 𝜑 𝜅
̂[ 𝑛]|
𝑁
𝑘=0
(3.8)
Επομένως, έχοντας κατατμήσει το υπό επεξεργασία σήμα σε frames, λαμβάνοντας την φάση
αυτών και βρίσκοντας την πρωταρχική διαφορά της φάσης του εκάστοτε frame σε σχέση με
τα 2 προηγούμενα του είναι δυνατό να ανιχνευτούν onsets. Όπου παρατηρείται μη μηδενική
διαφορά φάσης θα υπάρχει και πιθανότατα μια νέα νότα [30]
Ένα μειονέκτημα αυτής της προσέγγισης είναι ότι σημαντικές αλλαγές της φάσης μπορεί να
συμβούν χωρίς να σχετίζονται με κάποια μουσική αλλαγή. Για παράδειγμα, τα θορυβώδη
σημεία του σήματος παρουσιάζουν συνήθως ασταθή φάση. Παρόλο που αυτό δεν μπορεί να
επηρεάσει τονικά γεγονότα με έντονο αρμονικό περιεχόμενο, σε κρουστικούς ήχους και όταν
το σήμα είναι θορυβώδες, μπορούν να παρουσιαστούν μεγάλες αποκλίσεις.
Συνδυασμός Ενεργειακής και Φασικής Προσέγγισης
Οι Bello, Duxbury, Davies, και Sandler [60] πρότειναν μια μέθοδο που συνδυάζει τις
ενεργειακές και φασικές προσεγγίσεις. Αυτή η μέθοδος κάνει χρήση της παρόμοιας
συμπεριφοράς των κατανομών από τις διαφορές φάσεως και των φασματικών διαφορών
των πλατών. Μετρήσεις του κάθε αναπτύγματος ανά frame για την κάθε κατανομή
εξήχθησαν από τον τύπο:
𝜂(𝑛) = 𝑚𝑒𝑎𝑛( 𝑓𝑛(|𝑥|)) (3.9)
όπου f(x) είναι η συνάρτηση πυκνότητας πιθανότητας του συνόλου των υπό επεξεργασία
δεδομένων. Έπειτα οι μετρήσεις αυτές πολλαπλασιάστηκαν, δίνοντας έμφαση στα φασικά
χαρακτηριστικά αυτών των πιο σχετικών με την ανάλυση συντελεστών. Η μέθοδος αυτή
αντιστάθμισε τις αστάθειες των επιμέρους προσεγγίσεων και παρήγαγε πιο ‘’αιχμηρά’’ peaks
για τα ανιχνευμένα onsets. Τα αποτελέσματα που παρατηρήθηκαν τελικά αποδείχτηκαν
ικανοποιητικότερα τόσο από την ενεργειακή όσο και από τη φασική προσέγγιση . H
συνάρτηση της συνδυαστικής προσέγγισης φαίνεται στην εικόνα 3.16 σε σύγκριση με τις δύο
προηγούμενες.
51
Εικόνα 3.16 : Το ηχητικό σήμα (α) και οι τρείς συναρτήσεις ανίχνευσης onset. Φασική Προσέγγιση (b),
Ενεργειακή Προσέγγιση (c), Συνδυασμός Ενεργειακής και Φασικής Προσέγγισης (d) [60]
Περιεχόμενο υψηλής συχνότητας (High Frequency Content, HFC)
Ο Masri πρότεινε τον εντοπισμό ενεργειακών εξάρσεων στο πεδίο της συχνότητας
χρησιμοποιώντας ευρείες ζώνες συχνοτήτων [61], δίνοντας έτσι έμφαση στις αλλαγές των
συστατικών του φάσματος με υψηλό συχνοτικό περιεχόμενο:
𝐷 𝐻[𝑛] = ∑ 𝑘|𝑋 𝑘[𝑛]𝑒 𝑗𝜑 𝑘[𝑛]
|
2
𝑁
𝑘=1
(3.10)
52
όπου Xk[n] είναι το φασματικό εύρος του σήματος και Φk[n] η φάση του, σε χρόνο n. Αυτή η
μέθοδος, επειδή δίνει έμφαση στις συχνοτικές αλλαγές στο υψηλό μέρος του φάσματος και
ιδιαίτερα στις εξάρσεις ευρυζωνικού θορύβου, έχει καλά αποτελέσματα στην αναγνώριση
κρουστικών onset. Ωστόσο, είναι λιγότερο επιτυχής στη αναγνώριση onset, όταν η πηγή του
ήχου δεν προκαλεί ευρείες εξάρσεις ενέργειας, όπως συμβαίνει στα έγχορδα με δοξάρι, στα
πνευστά σαν το φλάουτο κ.ο.κ.
Φασματική διαφορά (Spectral Flux)
Αλλαγές στο αρμονικό περιεχόμενο και στη θεμελιώδη συχνότητα που προκαλούνται ομαλά,
σα να ολισθαίνουν από τη μία στην άλλη, δεν εντοπίζονται επιτυχώς από τις μεθόδους Energy
και HFC. Μία από τις μεθόδους που μετράνε τις αλλαγές στο αρμονικό περιεχόμενο είναι
γνωστή ως Φασματική Διαφορά (Spectral Difference ή Spectral Flux ) [62]. Αυτή η μέθοδος
υπολογίζει το μέγεθος της διαφοράς του φασματικού περιεχομένου δύο διαδοχικών
δειγμάτων που προκύπτουν από μετασχηματισμό Fourier μικρής διάρκειας (Short Time
Fourier Transform). Παρακάτω φαίνεται η συγκεκριμένη συνάρτηση
𝐷𝑠[𝑛] = ∑||𝑋 𝑘[𝑛]|2
− |𝑋 𝑘[𝑛 − 1]|2|
𝑁
𝑘=0
(3.11)
Όπως και η συνάρτηση βασισμένη στην ενέργεια του σήματος έτσι κι αυτή είναι αρκετά
αποτελεσματική στην ανίχνευση onsets κρουστικών τόνων [63]. Από την άλλη πλευρά,
επιχειρεί να προσδιορίσει το ποσοστό της μεταβολής από το ένα δείγμα στο άλλο, σε
αντίθεση με τις συναρτήσεις Energy και HFC, όπου οι παρατηρήσεις γίνονται μεμονωμένα σε
κάθε δείγμα ξεχωριστά.
53
Kullback-Liebler distance
Μπορούν να παρθούν εναλλακτικά μέτρα για να υπολογιστεί η απόσταση μεταξύ δύο
συνεχόμενων δειγμάτων. Στοχεύοντας στον τονισμό των ενεργειακών αυξήσεων και
αγνοώντας τις μειώσεις, μπορεί να χρησιμοποιηθεί η απόσταση Kullback-Liebler:
𝐷 𝑘𝑙[𝑛] = ∑|𝑋 𝑘[𝑛]| log
|𝑋 𝑘[𝑛]|
|𝑋 𝑘[𝑛 − 1]|
𝑁
𝑘=0
(3.12)
Αυτή η συνάρτηση αναδεικνύει τις θετικές αλλαγές του πλάτους στο σήμα, παρουσιάζοντας
μεγάλες κορυφές καθώς από την σιωπή περνάμε σε κάποιο ηχητικό γεγονός. Μια παραλλαγή
αυτής της προσέγγισης παρουσιάζεται από τους Hainsworth και Macleod [64], αφαιρώντας
το|𝑋 𝑘[𝑛]| και εντείνοντας έτσι τις διακυμάνσεις του πλάτους:
𝐷 𝑚𝑘𝑙[𝑛] = ∑ log
|𝑋 𝑘[𝑛]|
|𝑋 𝑘[𝑛 − 1]|
𝑁
𝑘=0
(3.13)
Ο Paul Brossier στοχεύοντας να αποτρέψει τη συνάρτηση από το να παίρνει αρνητικές τιμές,
κάτι το οποίο θα αύξανε την πολυπλοκότητα της επιλογής των κορυφών στο επόμενο στάδιο
επεξεργασίας, διαμόρφωσε περαιτέρω την παραπάνω συνάρτηση ως εξής:
𝐷′ 𝑘𝑙[𝑛] = ∑ log (1 +
|𝑋 𝑘[𝑛]|
|𝑋 𝑘[𝑛 − 1]+∈|
)
𝑁
𝑘=0
(3.14)
όπου ∈ είναι μια σταθερά με τιμή ∈=10−6
, σχεδιασμένη για να αποφεύγονται μεγάλες
διακυμάνσεις όταν το σήμα έχει πολύ χαμηλά επίπεδα ενέργειας, αποτρέποντας έτσι την
παρουσία μεγάλων κορυφών τις χρονικές στιγμές που υπάρχουν offset [65].
Peak Peaking
Για να εντοπιστούν τα onset πρέπει να εντοπιστούν οι κορυφές της συνάρτησης ανίχνευσης
που αντιστοιχούν σε πραγματικούς χρόνους onset, και να απορριφθούν οι υπόλοιπες
κορυφές που οδηγούν σε ψευδή onset.
Ανάλογα με το περιεχόμενο του σήματος και κυρίως την ένταση, μπορούν να παρατηρηθούν
σημαντικές διακυμάνσεις στο πλάτος των συναρτήσεων ανίχνευσης. Η επιλογή του
κατωφλίου για τις συναρτήσεις ανίχνευσης μπορεί να θεωρηθεί προβληματική για
πολυάριθμους λόγους. Αρχικά, οι συναρτήσεις ανίχνευσης τείνουν να είναι “θορυβώδεις”,
εκτός αν έχουν περαστεί από ένα χαμηλοπερατό φίλτρο, κάτι που οδηγεί σε μικρότερες
54
διακυμάνσεις στο σήμα και κατ΄ επέκταση στην αδυναμία του συστήματος να εντοπίσει εν
δυνάμει onset. Επιπρόσθετα, σε ένα μικρό κομμάτι του σήματος μπορούν να υπάρχουν
πολλοί διαφορετικοί τύποι onset. Γι’ αυτούς τους λόγους, η επιλογή κατωφλίου για την
εκάστοτε συνάρτηση ανίχνευσης συνήθως γίνεται χειροκίνητα σε πολλές εφαρμογές. Σε
εφαρμογές όμως πραγματικού χρόνου (real-time applications) κάτι τέτοιο θα ήταν μη
πρακτικό.
‘Ενας τρόπος ώστε να αντιμετωπιστούν αυτές οι έντονες μεταβολές στο σήμα μας είναι η
δυναμική κατωφλίωση (dynamic thresholding). Με βάση κάθε παρατήρηση στη συνάρτηση
ανίχνευσης, υπολογίζεται ένα κατώφλι βασιζόμενο σε ένα μικρό αριθμό μελλοντικών και
παρελθοντικών παρατηρήσεων, το οποίο συγκρίνεται με το πλάτος της τρέχουσας
παρατήρησης.
Μία μέθοδος κατασκευής δυναμικού κατωφλίου είναι η Frame Histogramming [64], όπου το
πιο κατάλληλο όριο της συνάρτησης ανίχνευσης καθορίζεται από τη μελέτη του πλήθους των
παρατηρήσεων γύρω από την τρέχουσα χρονική στιγμή.
Οι Duxbury et al [30] επέλεξαν έναν απλό αλγόριθμο peak picking, χρησιμοποιώντας ένα
weighted/βεβαρημένο κυμαινόμενο μέσο όρο, για να καθοριστούν οι ακριβείς θέσεις των
onsets από την συνάρτηση ανίχνευσης. Ο αλγόριθμος αυτός βασίζεται στην αρχή ότι
υπολογίζοντας το μέσο όρο(median) ενός σήματος από ένα κυλιόμενο ‘’παράθυρο’’
ανάλυσης, όλες οι κορυφές που υπερβαίνουν αυτόν επιλέγονται ως onsets.
Κάθε τιμή του δυναμικού κατωφλίου δ, για μια κυλιόμενη ανάλυση H μήκους δίνεται από
τον τύπο:
𝛿𝑡(𝑚) = 𝐶𝑡 𝑚𝑒𝑑𝑖𝑎𝑛 𝛾2 (𝑘 𝑚), 𝑘 𝑚 𝜖 [𝑚 −
𝐻
2
, 𝑚 +
𝐻
2
] (3.15)
όπου Ct είναι ένας κλιμακωτός παράγοντας [30].
55
Εικόνα 3.17 : Δυναμικό κατώφλι median (διακεκομμένη γραμμή) εφαρμοσμένο στη συνδυαστική συνάρτηση
(Ενέργειας και Φάσης) εκτίμησης onset [60]
Εκτίμηση των silenced frames
Το τελευταίο στάδιο της μονοφωνικής μεταγραφής είναι αυτό της ανίχνευσης των χρονικών
διαστημάτων που επικρατεί σιγή στο σήμα. Για να είναι δυνατή η κατασκευή του αρχείου
midi αφού ανιχνευθεί το onset μιας νότας πρέπει στη συνέχεια να εκτιμήσουμε το διάστημα
στο οποίο εκείνη είναι ενεργή. Αυτό είναι εφικτό με τον προσδιορισμό του offset της νότας.
Αυτά ακριβώς τα διαστήματα, από το offset της νότας μέχρι το onset της επόμενης,
ονομάζουμε silenced frames. Η διαδικασία εκτίμησης των silenced frames είναι σχετικά απλή
και γρήγορη. Συγκρίνοντας, λοιπόν, την ενέργεια του κάθε frame με την τιμή του κατωφλίου
που έχει προσαρμοστεί δυναμικά στην ενέργεια του σήματος, είμαστε σε θέση να
αποφασίσουμε ποια από αυτά τα frames παρουσιάζουν ιδιαίτερα χαμηλή στάθμη ενέργειας
και άρα αντιστοιχούν σε στιγμές σιγής στο σήμα μας.
Έχοντας προσδιορίσει τα οnsets και τα ύψη των νοτών του μουσικού σήματος μέσα από τις
αντίστοιχες συναρτήσεις αλλά και τα silenced frames με την παραπάνω διαδικασία, είμαστε
σε θέση να συνθέσουμε το αρχείο midi το οποίο θα αξιολογήσουμε στη συνέχεια.
Εικόνα 3.18 : Silenced frame ενός ηχητικού αποσπάσματος
silenced frame
56
4. Πολυφωνική μεταγραφή μουσικής
4.1 Το πρόβλημα της πολυφωνίας
Tι ονομάζουμε πολυφωνία;
Ως πολυφωνία ή πολυφωνική μουσική, χαρακτηρίζεται κάθε μουσικό είδος το οποίο
βασίζεται σε πολλές μελωδικές γραμμές, οι οποίες συμπλέκονται κατάλληλα σχηματίζοντας
μία πολυγραμμική υφή[66]. Σε αντίθεση με τη μονοφωνία, κάθε χρονική στιγμή είναι
δυνατόν να συνυπάρχουν δύο ή περισσότερες νότες χωρίς να έχουν κάποια αρμονική σχέση
και μπορούν να επικαλύπτονται χρονικά με τυχαίο τρόπο. Αυτό το ταυτόχρονο άκουσμα δύο
ή περισσότερων μουσικών φθόγγων ονομάζεται συνήχηση. Χαρακτηριστικό παράδειγμα
πολυφωνίας είναι οι συγχορδίες της κιθάρας.
Εικόνα 4.1 Παρτιτούρα και ταμπλατούρα πολυφωνικής μελωδίας
Όπως έχουμε επισημάνει και στην αρχή της διπλωματική εργασίας, η πολυφωνική
μεταγραφή μουσικής αποτελεί ένα τρομερά δύσκολο πρόβλημα του κλάδου της ανάκτησης
μουσικής πληροφορίας. Αυτό σημαίνει ότι οι υπάρχοντες αλγόριθμοι μπορούν να
μεταγράψουν πολυφωνικά μουσικά κομμάτια με μια σχετική επιτυχία αναγνώρισης των
νοτών, η οποία ποικίλλει από το βαθμό πολυφωνίας και την πολυπλοκότητα του κομματιού.
Τα τελευταία χρόνια με σκοπό την επίτευξη του παραπάνω εγχειρήματος έχουν αναπτυχθεί
διάφορες μέθοδοι. Δύο από αυτές είναι η χρήση των νευρωνικών δικτύων και η
παραγοντοποίηση μη-αρνητικών πινάκων, με τη δεύτερη να εξάγει μέχρι τώρα τα πιο
57
ικανοποιητικά αποτελέσματα. Αυτό έχει ως αποτέλεσμα την διεξαγωγή μιας βαθύτερης
μελέτης προς αυτή την κατεύθυνση και την πρόταση εναλλακτικών αλγόριθμων. Η
παραγοντοποίηση μη-αρνητικών πινάκων είναι η μέθοδος με την οποία θα ασχοληθούμε στη
συγκεκριμένη διπλωματική εργασία γι’ αυτό και την αναλύουμε παρακάτω.
4.2 Μέθοδος παραγοντοποίησης μη αρνητικών πινάκων – (Νοn-
Negative Matrix Factorization – NMF)
4.2.1 Λίγα λόγια για τον NMF
H παραγοντοποίηση μη-αρνητικών πινάκων, ή αλλιώς NMF (Νοn-Negative Matrix
Factorization), εισήχθη για πρώτη φορά σαν ιδέα από τον Paatero το 1997 ως
παραγοντοποίηση θετικών Πινάκων. Αργότερα, οι Lee και Seung το 1999 πρότειναν κάποιους
πολύ αποδοτικούς αλγόριθμους σε ότι αφορά το υπολογιστικό μέρος της μεθόδου NMF. Από
την πρώτη στιγμή που εισήχθη σαν έννοια, ο NMF εφαρμόστηκε επιτυχώς σε ποικίλα
προβλήματα παρόλη την αμυδρή υποστήριξη που είχε [67].
H παραγοντοποίηση μη-αρνητικών πινάκων είναι μία πολύ ισχυρή τεχνική ανάλυσης, καθώς
επιτρέπει την αναπαράσταση δισδιάστατων μη-αρνητικών δεδομένων ως γραμμικό
συνδυασμό των στοιχείων μιας βάσης. Ο NMF έχει χρησιμοποιηθεί ευρέως στην επεξεργασία
ηχητικών σημάτων. Πιο συγκεκριμένα, έχει εφαρμοστεί σε ζητήματα διαχωρισμού ηχητικών
πηγών [68], στη μεταγραφή τυμπάνων (drum transcription) [69] καθώς και σε ζητήματα
μεταγραφής πολυφωνικής μουσικής. Κύρια ιδιότητα του αποτελεί ο διαχωρισμός των νοτών
σε ένα πολυφωνικό ηχητικό σήμα και η μεταγραφή του σε συμβολική μορφή, όπως είναι το
MIDI [70][71].
Παρακάτω, θα ορίσουμε τον NMF, ενώ θα αναφέρουμε και διάφορες εναλλακτικές
υλοποιήσεις του.
4.2.2 Ορισμός του ΝΜF
Η αρχική φόρμουλα του NMF ορίζεται ως εξής: Έχοντας ένα μη-αρνητικό πίνακα V,
διαστάσεων m×n, έχουμε σαν σκοπό να τον προσεγγίσουμε ως γινόμενο δύο μη-αρνητικών
πινάκων W και H, διαστάσεων m×r και r×n αντίστοιχα, όπου r ≤ m, έτσι ώστε να
ελαχιστοποιήσουμε το σφάλμα ανακατασκευής του V από το γινόμενο W∙Η.
58
Ο πολλαπλασιασμός πινάκων γίνεται με τον γραμμικό συνδυασμό των διανυσμάτων που
σχηματίζουν οι στήλες του W επί τους συντελεστές που παρέχουν τα περιεχόμενα των κελιών
του Η. Έτσι, κάθε στήλη του V μπορεί να υπολογιστεί ως εξής :
𝒗𝒊 = ∑ 𝑯𝒋𝒊 ⋅ 𝒘𝒋
𝑵
𝒋=𝟏
(4.1)
Ν: ο αριθμός των στηλών του W
vj: είναι το i διάνυσμα στήλης του παραγόμενου πίνακα V
Hji : είναι η τιμή του κελιού στην j γραμμή και i στήλη του πίνακα H
wj : είναι η j στήλη του πίνακα W [72]
Σημειώνεται πως η παραγοντοποίηση δεν είναι μοναδική. Ένας πίνακας και ο αντίστροφός
του μπορούν να χρησιμοποιηθούν για να μεταβάλουν τους δύο πίνακες παραγοντοποίησης.
Για παράδειγμα, έστω η σχέση: WH = WBB-1
H όπου, Β ένας τυχαίος μη-αρνητικός πίνακας
διαστάσεων (RxR), και B-1
ο αντίστροφος αυτού με διαστάσεις (RxR).Αν οι νέοι πίνακες 𝑊̃ =
𝑊 ⋅ 𝐵 και 𝐻̃ = 𝐵−1
⋅ 𝐻 είναι μη-αρνητικοί. τότε σχηματίζουν μια άλλη λύση της ζητούμενης
παραγοντοποίησης.
Η επιτυχία της ανακατασκευής του πίνακα V μπορεί να μετρηθεί μέσα από διάφορες
συναρτήσεις κόστους. Η συναρτήσεις κόστους που προτείνουν οι Lee και Seung είναι οι
ακόλουθες:
α)
𝐷 = ‖𝑉 ⨂ ln (
𝑉
𝑊 ∙ 𝐻
) − 𝑉 + 𝑊 ∙ 𝐻‖
𝐹
(4.2)
Όπου II∙II είναι η Frobenius νόρμα και ⨂ το γινόμενο Hadamard (πολλαπλασιασμός κατά
στοιχείο). Η πράξη της διαίρεσης που αναφέρεται παραπάνω είναι επίσης κατά στοιχείο. Η
εξίσωση αυτή είναι συγγενική της απόκλισης Kullback-Leibler. H δεύτερη συνάρτηση
βασίζεται στην Ευκλείδεια απόσταση και ορίζεται ως εξής:
β)
𝐶 = ‖𝑉 − 𝑊 ∙ 𝐻‖ 𝐹 (4.3)
59
Οι Lee και Seung το 2000 πρότειναν έναν αποτελεσματικό επαναληπτικό αλγόριθμο για
βελτιστοποιήσουν τη συνάρτηση αυτή χωρίς τη χρήση περιορισμών για να επιβάλλουν τη μη-
αρνητικότητα στους πίνακες. Oι επαναληπτικοί κανόνες ενημέρωσης για κάθε περίπτωση
των παραπάνω συναρτήσεων κόστους είναι:
o Kullback-Leibler
𝛨 = 𝛨⨂
𝑊 𝛵
⋅
𝑉
𝑊 ⋅ 𝐻
𝑊 𝛵 ⋅ 1
(4.4) , 𝑊 = 𝑊⨂
𝑉
𝑊 ⋅ 𝐻 ⋅ 𝐻 𝛵
1 ⋅ 𝐻 𝛵
(4.5)
o Ευκλείδεια απόσταση
𝛨 = 𝛨⨂
𝑊 𝛵
⋅
𝑉
𝑊 ⋅ 𝐻
𝑊 𝛵 ⋅ 𝑊 ∙ 𝐻
(4.6) , 𝑊 = 𝑊⨂
𝑉
𝑊 ⋅ 𝐻 ⋅ 𝐻 𝛵
𝑊 ∙ 𝐻 ⋅ 𝐻 𝛵
(4.7)
όπου 1 είναι ένα μοναδιαίος m×n πίνακας και οι διαιρέσεις είναι και εδώ κατά στοιχείο. Η
μεταβλητή r επιλέγεται ώστε να ικανοποιεί το κριτήριο (n+m) r < nm, με αποτέλεσμα οι
Πίνακες W και H να είναι μικρότεροι από τον V [67].
Βλέπουμε λοιπόν ότι η μέθοδος NMF βασίζεται σε επαναληπτικές ανανεώσεις των πινάκων
W και Η για να συγκλίνει. Σε κάθε επανάληψη του αλγόριθμου η νέα τιμή του W ή του Η
υπολογίζεται βάσει της επιτυχίας της προσέγγισης στην προηγούμενη επανάληψη.
Αποδεικνύεται ότι η ποιότητα της προσέγγισης ανανεώνεται μονοτονικά με την εφαρμογή
των πολλαπλασιαστικών κανόνων ενημέρωσης. Οι πίνακες W και H μπορούν να
αρχικοποιηθούν με τυχαίες μη-αρνητικές τιμές και με την εφαρμογή των κανόνων
ενημέρωσης, σύμφωνα με τους Lee και Seung, ο NMF συγκλίνει σε τοπικό ελάχιστο.
Ένας εναλλακτικός τρόπος να εξετάσουμε την παραπάνω παραγοντοποίηση είναι ως
αποσύνθεση μιας βάσης χαμηλότερης τάξης, έτσι ώστε V = W∙H και ακολούθως Η=Α∙Χ, όπου
𝐴 = 𝑊+
διαστάσεων r×m . Το σύμβολο +
εκφράζει τον αντίστροφο πίνακα Moore-Penrose,
γνωστό κι ως ψευδοαντίστροφο πίνακα. H τελευταία αυτή εξίσωση μας επιτρέπει να
συσχετίσουμε την διαδικασία αυτή με μεθόδους ανάλυσης όπως είναι οι ICA (Independent
Component Analysis) και PCA (Principal Component Analysis). Στη πραγματικότητα,
χρησιμοποιώντας την συνάρτηση κόστους (4.3) έχει αποδειχθεί ότι το αποτέλεσμα του NMF
είναι πάντα μια κυκλική εναλλαγή του ισοδύναμου αποτελέσματος της PCA (H PCA στη
πραγματικότητα ελαχιστοποιεί την ίδια συνάρτηση κόστους αλλά με ορθογωνικό
60
περιορισμό). Με βάση αυτό το γεγονός, αναφέρεται ότι ο ΝMF πραγματοποιεί μια μη-
αρνητική ανάλυση ICA [70].
Σε πιο κοινούς όρους, αυτό που κάνει ο NMF είναι να συνοψίζει το “προφίλ” των γραμμών
του V στις γραμμές του H και αντίστοιχα το “προφίλ” των στηλών του V στις στήλες του W. Η
παράμετρος r που ορίζει την τάξη της προσέγγισης αποτελεί τη δύναμη αυτής της σύνοψης.
Αν επιλέξουμε τέτοια τιμή στο r ώστε r=m, τότε τα περιεχόμενα των πινάκων W και H δεν μας
παρέχουν κάποια ιδιαίτερη πληροφορία. Όσο όμως ελαττώνουμε την τιμή του r τα στοιχεία
του W και H αρχίζουν να παίρνουν τιμές που συνοπτικά περιγράφουν τα κύρια στοιχεία του
πίνακα V. Το ζήτημα είναι να θέσουμε τέτοια τιμή στην παράμετρο r ώστε να εξάγουμε τα
κυριότερα συστατικά της δομής του V [70].
4.2.3 Προεκτάσεις του NMF
Sparse NMF
Μια επέκταση του NMF αποτελεί ο αραιός NMF (Sparse NMF) . Η λειτουργία του SNMF
βασίζεται στην αδυναμία της μεθόδου NMF να θέσει περιορισμούς πυκνότητας των
δεδομένων στους πίνακες. Με αποτέλεσμα να μην είναι σε θέση να πραγματοποιήσει
αποτελεσματική παραγοντοποίηση σε έναν πίνακα V που έχει τοπικά αραιά χαρακτηριστικά
στα δεδομένα του. Με την εισαγωγή του συντελεστή αραιότητας αναιρούμε αυτό το
πρόβλημα. Επίσης, έτσι αναιρούμε και την αμοιβαιότητα που μπορεί να υπάρξει ανάμεσα
στους πίνακες W και Η.
Ένας απλός τρόπος να εισάγουμε το περιορισμό της αραιότητας στον πίνακα H είναι να
αντικαταστήσουμε την συνάρτηση κόστους με τον εξής τύπο:
𝑮(𝑽 ∥ 𝑾, 𝑯) = ‖𝑽 − 𝑾 ∙ 𝑯‖ 𝑭 + 𝝀 ∑ 𝑯𝒊𝒋
𝒊𝒋
(𝟒. 𝟖)
Στην παραπάνω εξίσωση ο δεύτερος όρος είναι αυτός που επιβάλλει την αραιότητα στον
πίνακα Η. Η τιμή της παραμέτρου λ καθορίζει την ισορροπία μεταξύ της αραιότητας και της
ακριβούς ανακατασκευής του πίνακα V.Όσο μικρότερη τιμή έχει η παράμετρος λ τόσο πιο
ακριβής είναι και η προσέγγιση του γινομένου W∙H. Αυτή η συνάρτηση κόστους
ελαχιστοποιείται με τους εξής κανόνες ενημέρωσης:
61
𝑊 = 𝑊 − 𝜇(𝑊 𝛵
⋅ 𝐻 − 𝑉)𝐻 𝛵
(4.9)
𝐻 = 𝐻. ⨂(𝑊 𝛵
⋅ 𝑉)./(𝑊 𝛵
⋅ 𝑊 ⋅ 𝐻 + 𝜆) (4.10)
Όπου . ⨂ και ./ αντιστοιχούν σε πολλαπλασιασμό και διαίρεση κατά στοιχείο, μ είναι ένας
μικρός πραγματικό αριθμός και λ ένας θετικός αριθμός.
NMF Deconvolution
Ακόμη μια παραλλαγή του αλγορίθμου NMF είναι η αποσυνελικτική παραγοντοποίηση
NMFD (Non-Negative Matrix Factor Deconvolution), που προτάθηκε από τον Smaragdis [67].
Ο κλασικός NMF είναι μία καλή μέθοδος για την επεξεργασία ηχητικών σημάτων αλλά έχει
μια αδυναμία στο να συνυπολογίζει συγγενικές θέσεις στο φάσμα του σήματος,
αποκλείοντας έτσι προσωρινές πληροφορίες. Στον απλό NMF ο πολλαπλασιασμός των
πινάκων V και Η γίνεται στιγμιαία, ενώ στην αποσυνελικτική παραγοντοποίηση πινάκων ο
πολλαπλασιασμός των V και H είναι μια συνελικτική μίξη που δίνεται από τον τύπο:
𝑉 = ∑ 𝑊𝜏 ⋅ 𝐻 𝜏⃗
𝑇−1
𝜏=0
(4.11)
όπου το 𝐻 𝜏⃗
σημαίνει μετατόπιση των στηλών του H τ θέσεις δεξιά.
Θέτοντας ως 𝛬 = ∑ 𝑊𝜏 ⋅ 𝐻 𝜏⃗𝛵−1
𝜏=0 προκύπτει η ακόλουθη συνάρτηση κόστους:
𝐷 = ‖𝑉 ⨂ ln (
𝑉
𝜦
) − 𝑉 + 𝜦‖
𝐹
(4.12)
Αντίστοιχα προκύπτουν και οι επαναληπτικοί κανόνες ενημέρωσης:
𝛨 = 𝛨⨂
𝑊𝜏
𝛵
⋅ [
𝑉
𝛬]
𝜏⃗
𝑊𝜏
𝛵 ⋅ 1
(4.13) , 𝑊𝜏 = 𝑊𝜏⨂
𝑉
𝛬 ⋅ 𝐻 𝜏⃗ 𝛵
1 ⋅ 𝐻 𝜏⃗ 𝛵 (4.14)
62
Sparse NMF 2-D Deconvolution
Ένα συνδυασμός των μεθόδων NMF που αναλύθηκαν προηγουμένως είναι ο SNMF2D(
Sparse Nonnegative Matrix Factor 2-D Deconvolution) που προτάθηκε από τους Morten και
Morup [73]. Το μοντέλο NMF2D επεκτείνει το NMF σε 2-διαστάσεων συνέλιξη των W και Η
που δίνεται από τον τύπο :
𝑉 = ∑ 𝑊𝜏
↓𝜑
⋅ 𝛨 𝜑
𝜏⃗
𝜏,𝜑
(4.15)
όπου το 𝑊𝜏
↓𝜑
σημαίνει μετατόπιση των γραμμών του W κατά φ θέσεις κάτω. Ο συντελεστής
αραιότητας εφαρμόζεται στον πίνακα Η των μελωδιών έτσι ώστε η δομή της υπογραφής να
ωθείται προς τον πίνακα W των υπογραφών. Εφαρμόζεται σε κάθε επανάληψη για να
ελαχιστοποιεί τον κανόνα του πίνακα Η [74].
𝛨 𝜑 = 𝛨 𝜑⨂
∑ 𝑊𝜏
↓𝜑Τ
⋅ [
𝑉
𝛬]
𝜏⃖⃗
𝜏
∑ 𝑊𝜏
↓𝜑Τ
⋅ 1𝜏
(4.16) , 𝑊𝜏 = 𝑊𝜏⨂
∑ [
𝑉
𝛬]
↑𝜑
⋅ 𝛨 𝜑
𝜏⃗ 𝛵
𝜑
∑ 1 ⋅ 𝛨 𝜑
𝜏⃗ 𝛵
𝜑
(4.17)
Αναφέρουμε ξανά ότι οι πίνακες W και H αρχικοποιούνται με τυχαίες μη-αρνητικές τιμές σε
όλες τις εναλλακτικές μεθόδους του ΝΜF.
4.3 Η διαδικασία της πολυφωνικής μεταγραφής
Όπως και στη μονοφωνική μεταγραφή, έτσι και στην πολυφωνική, το σήμα μας πρέπει να
περάσει από μια αλληλουχία σταδίων επεξεργασίας ώστε να εξάγουμε το τελικό μας
αποτέλεσμα, που στην προκειμένη περίπτωση είναι ένα πολυφωνικό midi. Παρακάτω
απεικονίζεται το σύστημα μεταγραφής ενός πολυφωνικού σήματος.
63
Εικόνα 4.2 : Τα στάδια της πολυφωνικής μεταγραφής
4.3.1 O NMF στην πολυφωνική μεταγραφή
Για να γίνει κατανοητή η εφαρμογή της μεθόδου NMF στη πολυφωνική μεταγραφή ενός
ηχητικού σήματος ακολουθεί ένα απλό παράδειγμα.
Signal
segmentation
STFT / Constant
Q
NMF
Pitch Detection
Onset Detection
•Thresholding
Midi
Construction
Input signal
track.wav
midi file track.mid
64
Έστω ότι το πολυφωνικό μας σήμα προς μεταγραφή αποτελείται από δύο θεμελιώδεις
συχνότητες. Στην παρακάτω εικόνα βλέπουμε το φασματογράφημα V του σήματος, από
όπου μπορούμε να αντλήσουμε πληροφορίες σχετικά με τα χρονικά διαστήματα που κάθε
συχνότητα είναι ενεργή.
Εικόνα 4.3 Διάγραμμα συχνότητας – χρόνου μιας απλής ηχητικής σκηνής [70]
Σκοπός μας σε αυτό το σημείο είναι να εφαρμόσουμε τον NMF στο μη-αρνητικό πίνακα V
m×n. Αυτό σημαίνει ότι πρέπει να σχηματίσουμε τους πίνακες W m×r και Η r×n έτσι ώστε το
γινόμενο τους να προσεγγίζει όσο γίνεται τον πίνακα V. Ορίζοντας r=2 γιατί έχουμε δύο
συχνότητες στο σήμα μας και εφαρμόζοντας τον επαναληπτικό αλγόριθμο για τα W και Η
περιμένουμε το γραφικό αποτέλεσμα της παρακάτω εικόνας.
Εικόνα 4.4 : Η αποσύνθεση του πίνακα της σκηνής της εικόνας 4.3 σε γινόμενο των πινάκων
H (αριστερά) και W (δεξιά) [70]
65
Έτσι παρατηρούμε τα εξής: Οι δύο γραμμές του H περιέχουν δύο χρονοσειρές που
αντικατοπτρίζουν την οριζόντια δομή του V. Με το ίδιο σκεπτικό οι στήλες του πίνακα W
αντικατοπτρίζουν την κάθετη δομή του V. Η κάθε στήλη δηλαδή του W δίνει την συχνότητα
της κάθε νότας και η αντίστοιχη γραμμή του Η τις χρονικές διάρκειες που αυτή είναι ενεργή.
Συνεπώς ο γραμμικός συνδυασμός της n-οστής γραμμής του H με τη n-οστή στήλη του W
παράγουν ένα φασματογράφημα ισοδύναμο με αυτό του V.
Φυσικά, το παράδειγμα δεν αποτελεί μία δύσκολη περίπτωση για τον ΝΜF αλγόριθμο,
καθώς το σήμα μας δεν αποτελούταν ούτε από αρμονικές συνιστώσες, που συνεπάγονται
παραπάνω πληροφορία, ούτε από μεγάλο αριθμό ηχητικών γεγονότων.
Ας περάσουμε να δούμε την εφαρμογή του NMF σε μία μονοφωνική μουσική μελωδία.
Παρακάτω απεικονίζεται στο πεντάγραμμο η ακολουθία των νοτών του γνωστού παιδικού
τραγουδιού Mary had a little Lamb.
Εικόνα 4.5 : Η μονοφωνική μελωδία “Mary had a little Lamb” [75]
Όπως είναι προφανές η μελωδία μας αποτελείται από 3 νότες (Ε, D, C), συνεπώς η τάξη
παραγοντοποίησης μας είναι r=3. Ακολουθώντας την ίδια διαδικασία, περιμένουμε ο NMF
να έχει το αποτέλεσμα της ακόλουθης εικόνας.
Εικόνα 4.6 Το φασματογράφημα (V) της μελωδίας της εικόνας 4.5 και
η αποσύνθεση του μέσω του NMF στους πίνακες W και Η [75]
Ε D C D E E E
66
Παρόλο που το σήμα μας έχει όλα τα χαρακτηριστικά ενός πραγματικού μουσικού
αποσπάσματος (αρμονικές, θόρυβο κλπ. ) δεν αποτελεί ιδιαίτερη πρόκληση για τον ΝΜF
εξαιτίας της μονοφωνικής του φύσης.
Το παρακάτω σήμα αποτελείται από δύο νότες (C4, G4) ηχογραφημένες σε ηλεκτρική
κιθάρα με τον τρόπο που φαίνεται στο παρακάτω φασματογράφημα.
Εικόνα 4.7 : Φασματογράφημα νοτών C4(261.1 Hz) και G4(392 Hz) στη κιθάρα [76]
Όπως γίνεται αντιληπτό από το φασματογράφημα το τρίτο μέρος του σήματος αντιστοιχεί
στην ταυτόχρονη αναπαραγωγή των νοτών C4 και G4. Η πρόκληση εδώ για τον NMF είναι η
αναγνώριση και των δύο ηχητικών γεγονότων στο συγκεκριμένο χρονικό διάστημα. Σ’ αυτή
την περίπτωση έχουμε r=3 .Τα διανύσματα βάσης (basis vectors) που συμπεριλαμβάνονται
στον πίνακα W φαίνονται στην εικόνα 4.8, ενώ στην εικόνα 4.9 φαίνεται ο πίνακας Η, που
περιέχει τα απαιτούμενα βάρη έτσι ώστε να προσεγγίσει κατάλληλα τις αντίστοιχες στήλες
του πίνακα V με γραμμικό συνδυασμό των στηλών του W.
67
Εικόνα 4.8 : Τα διανύσματα βάσης του πίνακα W [76]
Εικόνα 4.9 : Οι πληροφορίες ενεργοποίησης των νοτών C4 και G4 στον πίνακα H [76]
Βλέπουμε και σε αυτή την περίπτωση ότι ο NMF διαχωρίζει χωρίς ιδιαίτερα προβλήματα τα
ηχητικά γεγονότα κάνοντας τη μεταγραφή του συγκεκριμένου πολυφωνικού σήματος να
φαίνεται εύκολη διαδικασία. Σε ένα πολυφωνικό μουσικό κομμάτι, όπου είναι πιθανό να
συμμετέχουν περισσότερα από ένα μουσικά όργανα, το συχνοτικό εύρος θα είναι πολύ
μεγαλύτερο. Αυτό συνεπάγεται την ενδεχόμενη ύπαρξη πολύ χαμηλών και πολύ υψηλών
συχνοτήτων στο ίδιο σήμα. Μια αδυναμία που παρουσιάζει η εφαρμογή του FFT σε ένα
τέτοιο σήμα είναι η χαμηλή ανάλυση των χαμηλών συχνοτήτων, κάνοντας την ανίχνευση
τους από τον NMF μη αποτελεσματική. Τη λύση σε αυτό το πρόβλημα έρχεται να δώσει ο
μετασχηματισμός Constant Q.
68
4.3.2 Constant Q
Ο μετασχηματισμός Constant Q έχει πολλά κοινά χαρακτηριστικά με το μετασχηματισμό
Fourier. Ας δούμε όμως σε τι διαφέρουν για να κατανοήσουμε την υπεροχή του Constant Q
σε περιπτώσεις επεξεργασίας ηχητικών σημάτων.
Ο Διακριτός Μετασχηματισμός Fourier είναι στην ουσία μια σειρά από ζωνοδιαβατά φίλτρα
με σταθερό εύρος και κεντρικές συχνότητες ομοιόμορφα διατεταγμένες στο εύρος
συχνοτήτων που αναλύει. Η ανάλυση της συνάρτηση παραθύρου W στο μετασχηματισμό
STFT είναι η ίδια για όλες τις τιμές των συχνοτήτων. Για παράδειγμα, στην περίπτωση ενός
σήματος της μπότας των ντραμς (bass drum ) και του κρας (crash cymbal) το πλάτος του bin
είναι το ίδιο. Επιπρόσθετα, οι συχνότητες στο STFT έχουν ισότιμες αποστάσεις καθώς ο
δείκτης στην εξίσωση μετασχηματισμού αυξάνεται γραμμικά [77].
Όπως ακριβώς και ο μετασχηματισμός Fourier, έτσι και ο μετασχηματισμός Constant Q είναι
μια σειρά φίλτρων με τη διαφορά ότι οι αποστάσεις των κεντρικών συχνοτήτων είναι
λογαριθμικά κατανεμημένες.
𝑓𝑘 = 𝑓𝑜 ⋅ 2
𝑘
𝑏 , 𝑘 = 0,1, . . 𝑁 (4.18)
Όπου το b αντιστοιχεί στο αριθμό των φίλτρων ανά οκτάβα [80].
Κάθε λογαριθμικό φίλτρο k του Constant Q έχει φασματικό εύρος πολλαπλάσιο του πλάτους
του προηγούμενου φίλτρου. Δηλαδή:
𝛿𝑓𝑘 = 2
1
𝑏 𝛿𝑓𝑘−1 (4.19)
Η σχέση που προκύπτει για τον μετασχηματισμό Constant Q προκύπτει σύμφωνα με το
παρακάτω συλλογισμό.
O STFT (Μετασχηματισμός βραχέως χρόνου) ενός σήματος περιγράφεται από τη σχέση:
𝛸[𝑘] = ∑ 𝑊[𝑛] 𝑥[𝑛]
𝑁−1
𝑛=0
𝑒−
𝑗2𝜋𝑘𝑛
𝑁 (4.20)
69
για μια δοθείσα αλληλουχία δεδομένων, με συχνότητα δειγματοληψίας fs= 1/T, όπου T είναι
η περίοδος δειγματοληψίας των δεδομένων και Ν το πλήθος των δειγμάτων, για κάθε
συχνοτικό bin μπορούν να ορισθούν τα ακόλουθα :
 Πλάτος φίλτρου, 𝛿𝑓𝑘
 Παράγοντας ποιότητας Q , 𝑄 =
𝑓 𝑘
𝛿𝑓 𝑘
 Μήκος παραθύρου για το k bin, 𝑁[𝑘] =
𝑓 𝑘
𝛿𝑓 𝑘
= (
𝑓𝑠
𝑓 𝑘
) 𝑄
𝑓𝑠
𝑓 𝑘
είναι ο αριθμός των δειγμάτων ανά κύκλο στην συχνότητα 𝑓𝑘
 Οποιαδήποτε συνάρτηση παραθύρου θα είναι συνάρτηση μήκους παραθύρου και
ομοίως συνάρτηση του αριθμού παραθύρου. Για παράδειγμα, το αντίστοιχο
παράθυρο Hamming θα έχει την μορφή:
𝑊[𝑘, 𝑛] = 𝑎 − (1 − 𝑎) cos (
2𝜋𝑛
𝑁[𝑘]
) , με α=25/46 και 0≤n≤Ν[k-1]
 Η ψηφιακή συχνότητα
2𝜋𝑘
𝑁
παίρνει τη μορφή
2𝜋𝑄
𝑁[𝑘]
Κατά συνέπεια ο μετασχηματισμός Constant Q περιγράφεται από τη σχέση :
𝛸[𝑘] =
1
𝛮[𝑘]
∑ 𝑊[𝑘, 𝑛] 𝑥[𝑛]
𝑁[𝑘]−1
𝑛=0
𝑒
−
𝑗2𝜋𝑄𝑛
𝑁[𝑘] (4.21)
O μετασχηματισμός Constant Q προσπαθεί να κρατήσει σταθερό το Q για όλα τα bins της
συχνότητας. Αυτό έχει ως συνέπεια να αυξάνεται ο αριθμός των δειγμάτων με τις κεντρικές
συχνότητες fk. Συνεπώς, αυξάνεται η ανάλυση στο πεδίο του χρόνου για υψηλότερες
συχνότητες [78].
Δεδομένου ότι γίνεται λογαρίθμιση συχνότητας, αυτό έχει ως αποτέλεσμα να απαιτούνται
λιγότερα bins συχνότητας για να καλυφθεί ένα συγκεκριμένο εύρος ικανοποιητικά και αυτό
αποδεικνύεται χρήσιμο όταν οι συχνότητες κατανέμονται σε αρκετές οκτάβες. Καθώς το
εύρος της ανθρώπινης ακοής καλύπτει προσεγγιστικά δέκα οκτάβες (20 Hz έως 20 kHz), αυτή
η μείωση στα δεδομένα εξόδου είναι σημαντική [79].
70
Επιπρόσθετα, οι αρμονικές των μουσικών νοτών σχηματίζουν ένα μοτίβο χαρακτηριστικό της
χροιάς του οργάνου σε αυτό τον μετασχηματισμό. Θεωρώντας τις ίδιες σχετικές δυνάμεις για
κάθε αρμονική, καθώς η θεμελιώδης συχνότητα μεταβάλλεται, οι σχετικές θέσεις αυτών των
αρμονικών παραμένουν σταθερές. Αυτό καθιστά την αναγνώριση των οργάνων πολύ εύκολη.
Συγκριτικά με τον μετασχηματισμό Fourier, η εφαρμογή του μετασχηματισμού Constant Q
είναι πιο δυσνόητη. Αυτό οφείλεται στον μεταβαλλόμενο αριθμό των δειγμάτων που
χρησιμοποιούνται στον υπολογισμό του κάθε συχνοτικού bin, ο οποίος επηρεάζει επίσης και
το μήκος οποιασδήποτε συνάρτησης παραθύρου χρησιμοποιηθεί.
Στην εικόνα 4.10 μπορεί κανείς ξεκάθαρα πλέον να διακρίνει τις διαφορές των
φασματογραφημάτων ενός μουσικού αποσπάσματος, σύμφωνα με αυτά που αναλύσαμε
παραπάνω:
Εικόνα 4.10 : Φασματογράφημα του Μετασχηματισμού Fourier (πάνω) και του μετασχηματισμού
Constant Q (κάτω) στην πολυφωνική εισαγωγή του μουσικού κομματιού “Smoke on the Water”
71
4.3.3 Εκτίμηση Ύψους (pitch detection)
Είδαμε πιο πάνω ότι ο πίνακας W συμπεριλαμβάνει τα διανύσματα βάσης (basis vectors),
στα οποία στην περίπτωση μας συγκαταλέγονται θεμελιώδεις συχνότητες μαζί με τις
αρμονικές τους που αντιστοιχούν σε πιθανές νότες του ηχητικού σήματος.
Εικόνα 4.11 : Οι στήλες του πίνακα W περιέχουν ιδανικά τις θεμελιώδεις
συχνότητες της μουσικής σύνθεσης [70]
Η εκτίμηση του pitch όπως μπορούμε να διαπιστώσουμε από την παραπάνω εικόνα είναι η
εύρεση του πρώτου σημαντικού μέγιστου σε κάθε στήλη του πίνακα W.
Κατά την εφαρμογή του αλγόριθμου NMF είναι πολύ σημαντικό να κάνουμε μια όσο το
δυνατό καλύτερη προσέγγιση της τάξης παραγοντοποίησης r , καθώς η τιμή που θα πάρει θα
καθορίσει και την ακρίβεια εκτίμησης των αναμενόμενων pitch. Στην ιδανική περίπτωση το r
θα θέλαμε να είναι όσες και οι νότες στο πολυφωνικό μας κομμάτι. Κάτι τέτοιο όμως δεν
είναι εφικτό για ευνόητους λόγους, οπότε το καθορίζουμε εμπειρικά. Ο θόρυβος στο σήμα
είναι ένα από τα στοιχεία που μπορεί να χαμηλώσει την ποιότητα της μεταγραφής καθώς
είναι πιθανό να παρεμβάλλεται σθεναρά ανάμεσα στις θεμελιώδεις συχνότητες του σήματος
κάνοντας τη διαδικασία ανίχνευσης του pitch ακόμη πιο δύσκολη.
72
4.3.4 Εκτίμηση της αρχής της νότας (onset detection)
Στην περίπτωση της πολυφωνικής μεταγραφής ενός ηχητικού σήματος η ανίχνευση των
onsets δεν είναι μια εύκολη διαδικασία. Στον πίνακα Η, που προκύπτει από τη μέθοδο NMF
και συγκεκριμένα στις γραμμές του πίνακα, “καταγράφονται” τα χρονικά διαστήματα τα
οποία αντιστοιχούν στα ηχητικά γεγονότα του σήματος. Εκτός αυτών, όμως, καταγράφονται
και ανεπιθύμητα εσωτερικά σήματα που οφείλονται είτε στην ποιότητα ηχογράφησης του
σήματος, είτε στη κατασκευή του μουσικού οργάνου κλπ. Τέτοια ανεπιθύμητα σήματα είναι
οι σποραδικές διακυμάνσεις μικρής ενέργειας κατά μήκος της τρίτης σειράς του πίνακα Η
που φαίνεται στην παρακάτω εικόνα.
Εικόνα 4.12 : Οι γραμμές του πίνακα H σηματοδοτούν τα χρονικά διαστήματα
που τα ηχητικα γεγονότα είναι ενεργά. [70]
Συνεπώς η εκτίμηση των onsets και κατ’ επέκταση των offsets σχετίζεται με τα χρονικά
διαστήματα που παρατηρούνται διακυμάνσεις υψηλής ενέργειας.
Για να εξαλειφθούν κατά ένα ποσοστό οποιεσδήποτε ανεπιθύμητες συνιστώσες η εφαρμογή
ενός φίλτρου median σε κάθε γραμμή του πίνακα H αποτελεί μια αποδοτική τεχνική. Αυτό
73
όμως το μέτρο δεν είναι αρκετό ώστε να μπορούν να εκτιμηθούν με ακρίβεια τα onsets και
offsets του ηχητικού σήματος. Μετά την εφαρμογή του median φίλτρου, ορίζοντας ένα
κατώφλι (threshold) σύμφωνα με τη μέγιστη τιμή του πλάτους που εμφανίζεται στο σήμα,
μπορούμε να εκτιμήσουμε πιο αποδοτικά τα onsets και offsets στο σήμα [81]. Πιο
συγκεκριμένα, στο διάστημα που κλιμακώνονται οι τιμές σε μία σειρά του πίνακα Η, η στιγμή
που μια τιμή υπερβεί την τιμή του κατωφλίου ανιχνεύεται ως onset. Αντίστοιχα καθώς η
ενέργεια της νότας “σβήνει”, η στιγμή που θα περάσει κάτω από τη τιμή του κατωφλίου
ανιχνεύεται ως offset.
Έχοντας ολοκληρώσει και το παραπάνω στάδιο, είμαστε σε θέση να κατασκευάσουμε το
πολυφωνικό αρχείο midi και να αξιολογήσουμε την ποιότητα της μεταγραφής που
πραγματοποιήθηκε.
4.4 W Training
Όπως επισημάναμε στις υποενότητες 4.2.2 και 4.2.3 η διαδικασία της μεθόδου
παραγανοτοποίησης μη-αρνητικών πινάκων μπορεί να λάβει διάφορες προεκτάσεις και να
περιγραφεί από διαφορετικούς επαναληπτικούς κανόνες που έχουν όμως έναν κοινό στόχο.
Αυτός δεν είναι άλλος από την προσέγγιση της αρχικής σχέσης: 𝑉 ≈ 𝑊 ⋅ 𝐻. Σε όλες τις
μορφές του NMF που έχουν αναπτυχθεί, η διαδικασία της κατασκευής αυτής της
προσέγγισης ξεκινάει με την αρχικοποίηση των πινάκων W και H με τυχαίους μη-αρνητικούς
αριθμούς. Όπως είναι προφανές μέσα από τις επαναληπτικές διαδικασίες και οι δύο πίνακες
συγκλίνουν στις τιμές όπου ο γραμμικός συνδυασμός τους θα προσεγγίζει το πίνακα V.
Μια εναλλακτική τεχνική που θα μπορούσαμε να εφαρμόσουμε είναι κρατώντας τον πίνακα
W σταθερό να εφαρμόσουμε την επαναληπτική μέθοδο μόνο στον πίνακα H. Κάνοντας κάτι
τέτοιο έχουμε “εκπαιδεύσει” τον πίνακα W ώστε να αποτελείται από τα συστατικά τα οποία
αναμένουμε να εμφανίζονται στον αρχικό πίνακα V. Tο μόνο που μένει είναι να
προσαρμοστεί ο πίνακας Η καθορίζοντας τα βάρη στα συστατικά αυτά για να παράγουμε το
επιθυμητό αποτέλεσμα.
Ο καθορισμός των διανυσμάτων βάσης του πίνακα W μπορεί να εφαρμοστεί για την
αναγνώριση συγκεκριμένων προτύπων (patterns) αλλά και στην περίπτωση μας για την
αναγνώριση των νοτών ενός μουσικού κομματιού. Πιο συγκεκριμένα, στην περίπτωση της
πολυφωνικής μεταγραφής ενός ηχητικού σήματος ο W θα περιέχει το dataset των νοτών που
74
εμφανίζονται στο σήμα. Αυτό μπορεί να γίνει με διάφορους τρόπους. Ενδεικτικά θα
αναφέρουμε εκείνους που θα υλοποιηθούν στην παρούσα εργασία.
Ο πρώτος τρόπος αφορά την χειροκίνητη κατασκευή του πίνακα W. Με τον όρο χειροκίνητη
κατασκευή αναφερόμαστε στην κατάλληλη τοποθέτηση των θεμελιωδών συχνοτήτων και
των αρμονικών τους σε κάθε στήλη του W, γεμίζοντας τα υπόλοιπα στοιχεία του πίνακα με
την τιμή μηδέν (0). Για παράδειγμα, αν επιλέξουμε την τάξη παραγοντοποίησης r=49 ο
πίνακας θα αποτελείται από 49 θεμελιώδεις συχνότητες και τις αρμονικές τους.
Ο δεύτερος τρόπος έχει την ίδια λογική με τη διαφορά ότι ο πίνακας W κατασκευάζεται μέσω
μιας ρουτίνας που διαβάζει και αποθηκεύει τις νότες που έχουν ηχογραφηθεί από ένα
μουσικό όργανο, λαμβάνοντας και καταχωρώντας έτσι και την πληροφορία της χροιάς του
αντίστοιχου οργάνου.
Παρακάτω απεικονίζεται η αρχιτεκτονική ενός συστήματος Sparse NMF με την εκμάθηση του
πίνακα W.
Εικόνα 4.13 Αρχιτεκτονική Συστήματος πολυφωνικής μεταγραφής με τη μέθοδο Sparse ΝΜF
και “εκπαίδευση” του πίνακα W.
Σύμφωνα με την παραπάνω τοπολογία αναπτύχθηκαν τρείς εκδοχές του NMF, μία εκ των
οποίων αναφέρθηκε και σε προηγούμενη ενότητα. Παρακάτω περιγράφονται περιληπτικώς
75
και δίνεται σε κάθε περίπτωση η αναδρομική σχέση σύμφωνα με την οποία συγκλίνει ο
πίνακας Η
 Sparse NMF
Η συγκεκριμένη προέκταση του NMF αναλύθηκε στην υποενότητα 4.2.3, συνεπώς εδώ
αναφέρεται μία προσέγγιση έχοντας τον πίνακα-βάση W σταθερό. Εκμεταλλευόμενοι, με
αυτή τη μέθοδο , την τοπική αραιότητα (sparseness) των δεδομένων του αρχικού πίνακα V
σχηματίζουμε τον H με την επαναληπτική διαδικασία που περιγράφεται στο παρακάτω
πλαίσιο[83] :
 NMF με απόκλιση β (β-Divergence)
H συγκεκριμένη εκδοχή του NMF εισάγει την παράμετρο της απόκλισης μέσω του συντελεστή
β. Ως απόκλιση δύο σημείων x, y ορίζουμε[84] :
𝑑 𝛽(𝑥|𝑦) =
1
𝛽(𝛽 − 1)
(𝑥 𝛽
+ (𝛽 − 1)𝑦 𝛽
− 𝛽𝑥𝑦 𝛽−1
) (4.22)
Έτσι για β=1 και β=2 παίρνουμε αντίστοιχα την απόκλιση Kullback-Leibler και την ευρέως
χρησιμοποιούμενη Ευκλείδεια απόσταση.
𝑑 𝛽=1(𝑥|𝑦) = 𝑑 𝐾𝐿(𝑥|𝑦) = 𝑥 log
𝑥
𝑦
+ 𝑦 − 𝑥 (4.23)
𝑑 𝛽=2(𝑥|𝑦) = 𝑑 𝐸(𝑥|𝑦) =
1
2
(𝑥 − 𝑦)2
(4.24)
(α) 𝛨 = 𝜇 𝐻 𝑊 𝛵
(𝑊𝐻 − 𝑉)
(β) S = H + (𝑙 𝑒 − ∑ tanh(𝐻^2 ) )/𝑁
(γ) 𝑚 = 𝑙 𝑒 /𝑁
(δ) 𝑆 = 𝑚 + 𝑎 (𝑠 − 𝑚)
Όπου 𝑎 =
−(𝑠−𝑚) 𝛵 𝑚+ √((𝑠−𝑚) 𝑇 𝑚)2− ∑(𝑠−𝑚)2 (∑ 𝑚2−𝑙2
2)
∑(𝑠−𝑚)2
(ε) θέτουμε τα αρνητικά στοιχεία του S ίσα με μηδέν και H = S
76
H απόκλιση ενός πίνακα μπορεί να σχηματιστεί σαν μία διαχωρίσιμη απόκλιση, αθροίζοντας
δηλαδή κατά στοιχείο τις επιμέρους αποκλίσεις. Συνεπώς στην περίπτωση του NMF και
δεδομένου ότι κρατάμε τον πίνακα-βάση W σταθερό, η συνάρτηση κόστους που θέλουμε να
ελαχιστοποιήσουμε παίρνει την παρακάτω μορφή:
𝐷 𝛽(𝑣|𝑊ℎ) = ∑ 𝑑 𝛽
𝑖
(𝑣|[𝑊ℎ]𝑖) (4.25)
Έτσι ο Η συγκλίνει με την εφαρμογή του παρακάτω επαναληπτικού κανόνα:
𝛨 = 𝛨⨂
𝑊 𝛵
⋅ ((𝑊 ⋅ 𝐻) 𝛽−2
⨂ 𝑉)
𝑊 𝛵 ⋅ (𝑊 ∙ 𝐻) 𝛽−1
(4.26)
 Sparse NMF With Temporal Continuity
Σ’ αυτή τη μέθοδο πέρα από το κριτήριο της αραιότητας (sparseness) των δεδομένων
εισάγεται και το κριτήριο της προσωρινής συνοχής (temporal continuity). To κριτήριο αυτό
μπορεί να υπολογιστεί εντοπίζοντας μεγάλες αλλαγές στα πλάτη (gains) μεταξύ δύο
συνεχόμενων frames. Για τον προσδιορισμό του παραπάνω κριτηρίου προτείνεται το
άθροισμα της διαφοράς των τετραγώνων των πλατών[68]. Για να μην επηρεάσει η
αριθμητική κλίμακα των πλατών τη συνάρτηση πραγματοποιείται μια κανονικοποίηση στα
αντίστοιχα πλάτη. Έτσι η συνάρτηση κόστους για την προσωρινή συνοχή μπορεί να γραφτεί
ως εξής[68]:
𝑐𝑡(𝐺) = ∑
1
𝜎𝑗
2
𝐽
𝑗=1
∑(𝑔𝑡,𝑗 − 𝑔𝑡−1,𝑗)
2
𝑇
𝑡=2
(4.27)
Συνεπώς η κλίση της συνάρτησης κόστους c(W,H) είναι το άθροισμα των κλίσεων του
σφάλματος ανακατασκευής, του σφάλματος προσωρινής συνοχής (temporal continuity) των
δεδομένων και του σφάλματος που περιλαμβάνει το χαρακτηριστικό της
αραιότητας(sparseness) και υπολογίζεται από την εξίσωση:
𝛻𝑐(𝑊, 𝐻) = 𝛻𝑐 𝑟(𝑊, 𝐻) + 𝑎𝛻𝑐𝑡(𝐻) + 𝛽𝛻𝑠(𝐻) (4.28)
77
Η παραπάνω εξίσωση μπορεί να γραφεί ως η παρακάτω αφαίρεση:
𝛻𝑐(𝑊, 𝐻) = 𝛻𝑐+(𝑊, 𝐻) − 𝛻𝑐−(𝑊, 𝐻) (4.29)
με
𝛻𝑐+(𝑊, 𝐻) = 𝛻𝑐 𝑟
+(𝑊, 𝐻) + 𝑎𝛻𝑐𝑡
+(𝐻) + 𝛽𝑐 𝑠
+(𝐻) (4.30)
και
𝛻𝑐−(𝑊, 𝐻) = 𝛻𝑐 𝑟
−(𝑊, 𝐻) + 𝑎𝛻𝑐𝑡
−(𝐻) + 𝛽𝑐 𝑠
−(𝐻) (4.31)
Οι παραπάνω όροι υπολογίζονται ως εξής:
o 𝛻𝑐 𝑟
+(𝑊, 𝐻) = 𝑊 𝛵
1 (4.32)
o 𝛻𝑐 𝑟
−(𝑊, 𝐻) = 𝑊 𝛵 𝑉
𝑊𝐻
(4.33)
o [𝛻𝑐𝑡
+(𝐻)] 𝑗,𝑡 =
4𝛵ℎ 𝑖,𝑡
∑ ℎ 𝑗,𝑖
2𝑇
𝑖=1
(4.34)
o [𝛻𝑐𝑡
−(𝐻)] 𝑗,𝑡 = 2𝑇
ℎ 𝑗,𝑡−1+ ℎ 𝑗,𝑡+1
∑ ℎ 𝑗,𝑖
2𝑇
𝑖=1
+
2𝑇 ∑ (ℎ 𝑗,𝑖+ ℎ 𝑗,𝑖−1)
2𝑇
𝑖=2
(∑ ℎ 𝑗,𝑖
2𝑇
𝑖=1 )
2 (4.35)
o [𝛻𝑐 𝑠
+(𝐻)] 𝑗,𝑡 =
1
√
1
𝑇
∑ ℎ 𝑗,𝑖
2𝑇
𝑖=1
(4.36)
o [𝛻𝑐 𝑠
−(𝐻)] 𝑗,𝑡 =
ℎ 𝑗,𝑡√ 𝑇 ∑ ℎ 𝑗,𝑖
𝑇
𝑖=1
(∑ ℎ 𝑗,𝑖
2𝑇
𝑖=1 )
3
2
(4.37)
Σημειώνεται πως όλες οι πράξεις που πραγματοποιούνται παραπάνω είναι κατά στοιχείο.
Έτσι, η αναδρομική σχέση για τον πίνακα Η έχει ως εξής:
𝛨 = 𝛨⨂
𝛻𝑐−(𝑊, 𝐻)
𝛻𝑐+(𝑊, 𝐻)
(4.38)
78
5. Πειραματικό μέρος
5.1 Υλοποίηση της μονοφωνικής μεταγραφής
Στην ενότητα αυτή θα αναλυθεί το προγραμματιστικό μέρος της μονοφωνικής μεταγραφής
ενός ηχητικού σήματος. Τα βήματα που ακολουθήσαμε είναι αυτά που περιγράφτηκαν στο
σύστημα της υποενότητας 3.2. Πιο συγκεκριμένα, για την ανίχνευση του pitch επιλέχτηκε η
μέθοδος της αυτοσυσχέτισης όπως μελετήθηκε και από τον Bello[8] ενώ για την ανίχνευση
των onsets εξετάστηκαν δύο τεχνικές. Η πρώτη αφορά την εκτίμηση των onsets με βάση την
ενέργεια του σήματος (Energy–based), όπως υποδεικνύεται από τους Duxbury et al [60] και
η δεύτερη βασίστηκε στη φασματική διαφορά (Spectral Flux) που ανέπτυξαν οι Benetos και
Stylianou [63].
Υπενθυμίζουμε ότι o κώδικας υλοποιήθηκε στο περιβάλλον MATLAB και σαν ηχητικά σήματα
εισόδου της μεταγραφής επιλέχτηκαν ηχογραφήσεις από κιθάρα και πιάνο ώστε να
μπορούμε να αξιολογήσουμε και να συγκρίνουμε την ποιότητα μεταγραφής και στα δύο
μουσικά όργανα δεδομένου ότι τα ηχητικά σήματα που παράγουν διακρίνονται από τη
διαφορετική χροιά τους. Επίσης δείγματα χρησιμοποιήθηκαν και από μια database που μας
παρείχε το γαλλικό πανεπιστήμιο Télécom ParisTech. Αναφέρεται επίσης ότι η συχνότητα
δειγματοληψίας σε όλα τα ηχητικά αρχεία ήταν fs=16kHz. Τέλος για τη κατασκευή του midi
χρησιμοποιήσαμε μια σειρά συναρτήσεων που αναπτύχθηκαν από τον Ken Schutte [85]
5.1.1 Κατάτμηση του ηχητικού σήματος
Αφού έχουμε εισάγει το ηχητικό μας σήμα μέσω της ενσωματωμένης ρουτίνας audioread του
matlab, περνάμε στο στάδιο της κατάτμησης του μέσω της συνάρτησης frame_wind() που
υλοποιήσαμε. Οι παράμετροι της συνάρτησης κατάτμησης είναι προφανώς το σήμα εισόδου,
το μέγεθος παραθύρου (frame) και η επικάλυψη (overlap). Ορίσαμε τη μεταβλητή frame=256
παρατηρώντας ότι η τιμή αυτή μας παρέχει καλή εποπτεία στο σήμα και η τιμή της
επικάλυψης ορίστηκε στο 50% (overlap=0.5) για την επιτυχημένη ανακατασκευή του
79
σήματος. Αποτέλεσμα αυτής της διαδικασία είναι ένας δισδιάστατος πίνακας που πρακτικά
κάθε του στήλη αποτελεί ένα frame 256 δειγμάτων. Τέλος, στον πίνακα αυτό εφαρμόζεται
και το παράθυρο Hanning σε κάθε ένα από τα επιμέρους τμήματα που χωρίσαμε το σήμα
μας.
Εικόνα 5.1 : Κατάτμηση του ηχητικού σήματος σε επιμέρους τμήματα (frames)
5.1.2 Pitch Detection με τη μέθοδο της αυτοσυσχέτισης (Auto-correlation)
Για να δείξουμε στην πράξη την ψηφιακή επεξεργασία που υπόκειται το σήμα στο στάδιο
αυτό θα απεικονίσουμε το γράφημα ενός τυχαίου frame κατά τη διάρκεια εκτίμησης του
ύψους. Παρακάτω φαίνεται το εν λόγω frame που ανήκει στο χωρισμένο σε τμήματα πλέον
σήμα.
80
Εικόνα 5.2 : Στιγμιότυπο ενός frame
Εφαρμόζοντας τη μέθοδο της αυτοσυσχέτισης στο matlab με τη συνάρτηση xcorr() προκύπτει
το παρακάτω αποτέλεσμα για το παραπάνω frame:
Εικόνα 5.3 : Εφαρμογή της συνάρτηση της αυτοσυσχέτισης στο frame
81
Εδώ παρατηρούμε ένα κεντρικό μέγιστο και μια άρτια συμμετρία σε σχέση με αυτό επειδή η
αυτοσυσχέτιση είναι μια άρτια συνάρτηση. Επίσης, ο αριθμός δειγμάτων (samples) του
frame έχει πλέον διπλασιαστεί. Επομένως, τα δείγματα του πρώτου μισού του frame
μπορούν να απαλειφθούν.
Εικόνα 5.4 : Απαλοιφή του αριστερού συμμετρικού τμήματος της αυτοσυσχέτισης
Όπως φαίνεται στην παραπάνω εικόνα το σήμα μας αποτελείται και από αρνητικές
συνιστώσες. Σε αυτά τα σημεία όμως το σήμα εμφανίζει ελάχιστη περιοδικότητα οπότε
απαλείφονται.
Εικόνα 5.5 : To frame της εικόνας 5.4 χωρίς τις αρνητικές συνιστώσες
και η ανίχνευση του pitch (πράσινος κύκλος)
82
Το σήμα μας πλέον έχει πάρει τη μορφή από την οποία μπορούμε να εκτιμήσουμε το ύψος
της νότας στο συγκεκριμένο frame. Mε τη συνάρτηση locmax (περιέχεται στο παράρτημα)
εντοπίζουμε τα τοπικά μέγιστα στο frame και επιλέγουμε ως θέση του pitch το δεύτερο κατά
σειρά όπως έχει σημειωθεί και στην εικόνα. Η επιλογή του δεύτερου μεγίστου αντιστοιχεί
στο pitch καθώς το πρώτο σχετίζεται με το ξέσπασμα της ενέργειας στο σήμα κατά το παίξιμο
της νότας.
5.1.3 Onset Detection
Για την ανίχνευση των σημείων έναρξης μιας νότας αναπτύχθηκαν δύο προσεγγίσεις, οι
οποίες θα περιγραφούν σε αυτό το εδάφιο και θα συγκριθούν ως προς την αποδοτικότητα
τους.
o Energy-based Onset detection
Για την προσέγγιση αυτής της μεθόδου κατασκευάστηκε η συνάρτηση
Energy_Onset(). Μέσα στη συνάρτηση υπολογίζουμε την ενέργεια σήματος , η οποία
στην πράξη είναι το άθροισμα των τετραγώνων των μέτρων της ενέργειας του κάθε
frame.
𝛦(𝑚) = ∑ |𝑥(𝑛)|2
𝑚ℎ
𝑛=(𝑚−1)ℎ
(5.1)
Στη συνέχεια παραγωγίζοντας την Ενέργεια και απαλείφοντας τις αρνητικές
συνιστώσες παρατηρούμε τα σημεία στο σήμα που έχουν αυξημένη ενέργεια και
αντιπροσωπεύουν πιθανά οnset. Εξαιτίας όμως του θορύβου στο σήμα διαφαίνονται
και κάποιες μικρές διακυμάνσεις που ενδέχεται να ανιχνευτούν ως onset. Έτσι, με τη
δημιουργία ενός δυναμικού κατωφλιού και την εφαρμογή του στον παραπάνω
πίνακα της παραγώγου της ενέργειας περιοριζόμαστε στα peaks που είναι
83
περισσότερο πιθανό να αντιστοιχούν σε onsets. Στην εικόνα φαίνεται η εφαρμογή
του κατωφλιού, το οποίο δημιουργήθηκε με τη βοήθεια της συνάρτηση medfilt1().
Εικόνα 5.6 : Η παράγωγος της ενέργειας του σήματος (μπλε)
και το δυναμικό κατώφλι median (κόκκινη γραμμή)
o Spectral Flux Onset detection
Η υλοποίηση της συνάρτησης SpectralFlux_Onset ανιχνεύει τα onsets με τη μέθοδο
της φασματικής διαφοράς η οποία δίνει έμφαση στις αλλαγές στο αρμονικό
περιεχόμενο του σήματος. Αφού υπολογιστεί ο FFT του σήματος μέσω της παρακάτω
σχέσης, καταχωρούνται με έντονες ακμές τα σημεία που παρατηρείται αντίστοιχα
έντονη αλλαγή στο φάσμα του σήματος.
𝐷𝑠[𝑛] = ∑||𝑋 𝑘[𝑛]|2
− |𝑋 𝑘[𝑛 − 1]|2|
𝑁
𝑘=0
(5.2)
Για τους ίδιους λόγους, που αναφέραμε και στην παραπάνω συνάρτηση ανίχνευσης,
εφαρμόζεται ένα δυναμικό κατώφλι του οποίου η εφαρμογή φαίνεται παρακάτω.
Έπειτα με βάση το μέγιστο του σήματος απαλείφονται όποια ίχνη θορύβου είχαν
απομείνει, ώστε να μείνουν μόνο τα εν δυνάμει onsets.
84
Εικόνα 5.7 : Η συνάρτηση ανίχνευσης onset Spectral Flux (μπλε)
και το δυναμικό κατώφλι median (κόκκινη γραμμή)
Ανεξάρτητα από τη μέθοδο που θα ακολουθήσουμε για την ανίχνευση των onsets το στάδιο
που ακολουθεί είναι αυτό του peak picking. Σχεδιάζοντας κατάλληλα μια συνάρτηση, με
όνομα peak_detector() παίρνουμε τα σημεία που έχουν ανιχνευθεί τα onsets στο σήμα. Στην
εικόνα 5.8 μπορούμε να συγκρίνουμε τα αποτελέσματα των δύο μεθόδων που αναλύθηκαν
παραπάνω.
Εικόνα 5.8 : Τα αποτελέσματα των συναρτήσεων ανίχνευσης onset μετά το pick picking.
Ενεργειακή προσέγγιση (πάνω) και Spectral Flux (κάτω) .
85
5.1.4 Εκτίμηση των silenced frames
Για να προσδιορίσουμε τα frames στα οποία επικρατεί σιγή στο σήμα επιλέγεται η ακόλουθη
λογική. Κάθε φορά που εντοπίζεται ένα οnset, ελέγχουμε την ενέργεια του επόμενου frame
με την τιμή ενός δυναμικού κατωφλίου που έχουμε δημιουργήσει. Αν η ενέργεια είναι πάνω
από το κατώφλι τότε θεωρούμε ότι η νότα είναι ακόμη ενεργή. Στην αντίθετη περίπτωση το
frame καθορίζεται ως silenced και στον πίνακα των νοτών εκχωρείται η τιμή -1.
Εικόνα 5.9 : Η ενέργεια του σήματος (μπλε), το δυναμικό κατώφλι median (μωβ γραμμή)
και τα εκτιμώμενα silenced frames
5.1.5 Κατασκευή του midi αρχείου
Αφού πλέον έχουμε εκτιμήσει τις χρονικές στιγμές που αντιστοιχούν σε onsets στο αρχικό
μας ηχητικό σήμα αλλά και έχοντας προσδιορίσει το index των pitch μέσω της μεθόδου της
αυτοσυσχέτισης μπορούμε να ξεκινήσουμε τη διαδικασία κατασκευής του αρχείου midi. Για
την αντιστοίχιση των συχνοτήτων στην αντίστοιχη τιμή midi χρησιμοποιήθηκε η σχέση: 𝒎 =
𝟏𝟐 𝐥𝐨𝐠 𝟐
(𝒇 𝒏 𝒇 𝟎⁄ ), όπου fn η θεμελιώδης συχνότητα που θέλουμε να αντιστοιχίσουμε και f0=
16.35 ,η συχνότητα που αντιστοιχεί στη νότα C0 (ντό στη μηδενική οκτάβα).
86
Εικόνα 5.10 : O τελικός πίνακας σύμφωνα με τον οποίο κατασκευάζεται το midi
Η υπορουτίνα note_start_end() του Ken Schutte λαμβάνοντας τον πίνακα που περιλαμβάνει
τις midi-νότες της παραπάνω εικόνας καθώς επίσης και τις μεταβλητές frame, overlap και fs,
δημιουργεί τους πίνακες Α, Β και C. Στον πίνακα Α καταχωρούνται οι midi-νότες (note) ενώ οι
στιγμές που γίνονται οι μεταβάσεις(start/onset) στις εκάστοτε νότες αποθηκεύονται στον
πίνακα Β. Στον πίνακα C, όπως αναμένεται, αποθηκεύεται ο δείκτης που δηλώνει την παύση
της ενεργοποιημένης νότας (end/offset). Στις επόμενες δύο συναρτήσεις matrix2midi() και
writemidi() γίνονται oι κατάλληλες ενέργειες, που περιλαμβάνουν και την τοποθέτηση των
παραπάνω στοιχείων στο χρόνο, ώστε να εξάγουμε το αρχείο midi και να εκτιμήσουμε την
ακρίβεια του αποτελέσματος.
87
5.1.6 Μέτρηση ακρίβειας για τη μονοφωνία
Για να ελέγξουμε την αποδοτικότητα της μεταγραφής υλοποιήθηκε ένας αλγόριθμος ο
οποίος εξάγει ένα ποσοστό, το οποίο αντιπροσωπεύει το βαθμό ακρίβειας που πετυχαίνει η
εκάστοτε μέθοδος. Τα μεγέθη που συγκρίνονται είναι ο πίνακας που περιέχει τις midi-νοτες
του μετεγγραμμένου ηχητικού σήματος και ο πίνακας με τις midi νότες, παραγόμενος από το
αντίστοιχο αρχείο midi.
Συγκεκριμένα, ο πρώτος πίνακας που εισάγεται στη ρουτίνας του υπολογισμού της ακρίβειας
αντιστοιχεί στον πίνακα που έχει σχηματιστεί μετά και από την εκτίμηση των silenced frames,
το στάδιο δηλαδή πριν την κατασκευή του αρχείου midi. (Tr_midi). O δεύτερος πίνακας
(Οr_midi), που αποτελεί και το μέτρο σύγκρισης, παράγεται με τη βοήθεια των συναρτήσεων
readmidi(), midiInfo() και getTempoChanges() τις οποίες ανέπτυξε ο Ken Schutte [85].
Αναλυτικότερα, από την συνάρτηση midiInfo() λαμβάνονται οι πληροφορίες που σχετίζονται
με το pitch , την αρχή (οnset) και το τέλος (offset) κάθε νότας του αρχείου midi. Kάνοντας τις
απαραίτητες μετατροπές μεταφέρουμε τα παραπάνω γεγονότα από το χρόνο σε δείκτες του
πίνακα Or_midi ενώ τα σημεία που αντιστοιχούν σε silenced frames αντιπροσωπεύονται στον
πίνακα με την τιμή -1.
Σε αυτό το σημείο οι πίνακες Τr_midi και Οr_midi έχουν πάρει την επιθυμητή μορφή ώστε να
καταστεί η σύγκριση τους δυνατή. Αμφότεροι οι πίνακες είναι μονοδιάστατοι και το
περιεχόμενο τους, το οποίο και συγκρίνεται, δεν είναι κάτι άλλο από τις midi-νότες
διατεταγμένες κατά μήκος των frames. Επειδή είναι πιθανό οι πίνακες να μην έχουν το ίδιο
μέγεθος, ανάλογα την περίπτωση, ο μικρότερος από τους δύο πίνακες συμπληρώνεται με
μηδενικά στοιχεία (zero-padding) ώστε και οι δύο πίνακες να αποτελούνται από τον ίδιο
αριθμό frames.
Επιπρόσθετα, η ευθυγράμμιση των δύο πινάκων είναι απαραίτητη προϋπόθεση για την
μεταξύ τους σύγκριση. Κάτι τέτοιο μπορεί να επιτευχθεί με την εφαρμογή της συνάρτησης
της αυτοσυσχέτισης (xcorr() )στους δύο πίνακες. To αποτέλεσμα της αυτοσυσχέτισης
καταχωρείται σε ένα πίνακα στον οποίο αν το μέγιστο παρατηρείται στο κέντρο του. όπως
φαίνεται και στην εικόνα, τότε οι δύο πίνακες βρίσκονται σε απόλυτη ευθυγράμμιση. Σε
αντίθετη περίπτωση, ο πίνακας που έχει συμπληρωθεί με μηδενικά στοιχεία υπόκειται
ανάλογη ολίσθηση ώστε να μετακινηθεί το μέγιστο στο κέντρο του πίνακα που
προαναφέραμε. Ένα παράδειγμα ευθυγραμμισμένων πινάκων φαίνεται στην εικόνα 5.11
88
Εικόνα 5.11 : Αναπαράσταση ευθυγραμισμένων πινάκων
μετα την εφαρμογή της συνάρτηση αυτοσυσχέτισης xcorr()
Για να εξαχθεί το τελικό ποσοστό ακρίβειας (accuracy) της μεταγραφής πρέπει να
προσδιοριστούν δύο μετρητές. Ο πρώτος είναι το recall ή αλλιώς η ευαισθησία του μεγέθους
που συγκρίνουμε, που είναι στην ουσία το κλάσμα των σχετικών με το μέγεθος σύγκρισης
γεγονότων που ανακτήθηκαν. Ο δεύτερος μετρητής είναι το precision ή αλλιώς η τιμή των
θετικών προβλέψεων που πρακτικά είναι το κλάσμα των ανακτηθέντα γεγονότων τα οποία
είναι σχετικά με το μέγεθος σύγκρισης. Με άλλα λόγια στη περίπτωση μας υψηλό ποσοστό
του recall σημαίνει ότι ο πίνακας Tr_midi περιέχει τα περισσότερα από τα στοιχεία που έχει
ο πίνακας Οr_midi, ενώ υψηλό ποσοστό του precision σημαίνει ότι o πίνακας Τr_midi
περιέχει περισσότερα σχετικά με τον Or_midi στοιχεία παρά άσχετα. Παρακάτω
περιγράφονται οι σχέσεις υπολογισμού των recall και precision ενώ παρατίθεται και ως
επεξήγηση των σχέσεων η εικόνα 5.12.
89
Εικόνα 5.12: Σύνολο μεταβλητών για τον προσδιορισμό των μετρητών recall και precision [86]
𝑟𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑁
, 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑃
Όπου :
▪ TP : true positive
▪ FN : false negative
▪ FP : false positive
Κάνοντας τις συγκρίσεις στοιχείο προς στοιχείο προκύπτουν οι παραπάνω μετρητές και το
τελικό ποσοστό της ακρίβειας (accuracy) υπολογίζεται με βάση τη σχέση :
90
𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
2 × 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
Παρακάτω παρατίθενται οι πίνακες από τις μετρήσεις ακρίβειας που έγιναν για μια σειρά
από δείγματα. Για κάθε δείγμα πραγματοποιήθηκαν δύο μετρήσεις, όσες δηλαδή και οι
μέθοδοι ανίχνευσης onsets που υλοποιήθηκαν.
SPECTRAL FLUX
Sample Precision Recall Accuracy
midisample 1 : 94,21% 100% 97%
midisample 2 : 96,62% 100% 98,28%
midisample 3 : 93,54% 100% 96,66%
midisample 4 : 95,93% 100% 97,93%
midisample 5 : 100% 100% 100%
midisample 6 : 95,67% 100% 97,79%
midisample 7 : 87,11% 100% 93,11%
midisample 8 : 95,83% 100% 97,87%
midisample 9 : 97,52% 100% 98,74%
midisample 10 : 95,01% 100% 97,44%
cleanguit-major : 82,24% 100% 90,25%
c-major scale : 57,70 % 100% 73,18%
c-major triad : 59,16% 100% 74,34%
Πίνακας 5.1 : Μετρήσεις ακρίβειας δειγμάτων με μέθοδο ανίχνευσης onset την προσέγγιση Spectral Flux
ENERGY-BASED
Sample Precision Recall Accuracy
midisample 1 : 94,13% 100% 96,98%
midisample 2 : 96,29% 100% 98,11%
midisample 3 : 93,50% 100% 96,64%
midisample 4 : 95,26% 100% 97,57%
midisample 5 : 100% 100% 100%
midisample 6 : 94,91% 100% 97,39%
midisample 7 : 84,95% 100% 91,86%
midisample 8 : 91,75% 100% 95,70%
midisample 9 : 97,45% 100% 98,70%
midisample 10 : 93,91% 100% 96,86%
cleanguit-major : 80,99% 100% 89,50%
c-major scale : 57,72% 100% 73,20%
c-major triad : 57,67% 100% 73,15%
Πίνακας 5.2 : Μετρήσεις ακρίβειας δειγμάτων με μέθοδο ανίχνευσης onset την Ενεργειακή προσέγγιση
91
5.2 Υλοποίηση της πολυφωνικής μεταγραφής
Το εδάφιο αυτό αφορά την υλοποίηση του αλγορίθμου που πραγματοποιεί τη μεταγραφή
ενός πολυφωνικού ηχητικού σήματος. Όπως επισημάνθηκε και στο τέταρτο κεφάλαιο η
μέθοδος που προσεγγίστηκε προγραμματιστικά είναι αυτή της παραγοντοποίησης μη-
αρνητικών πινάκων (NMF). Επιπρόσθετα προτιμήθηκε ο μετασχηματισμός Constant Q ,που
αναλύθηκε στην υποενότητα 4.3.2., έναντι του κοινού μετασχηματισμού Fourier εξαιτίας των
πλεονεκτημάτων του στα ηχητικά σήματα.
Σε ότι αφορά την μέθοδο NMF υλοποιήθηκαν τέσσερεις διαφορετικές προεκτάσεις του, οι
οποίες στο τέλος συγκρίθηκαν ως προς την ακρίβεια της μεταγραφής. Αναφορικά,
υλοποιήθηκε ο NMF κατά Lee και Seung [87], Sparse NMF [83], ΝΜF beta-Divergence [84] και
Sparse NMF with Temporal Continuity [68]. Aκόμη πραγματοποιήθηκε training του πίνακα
των διανυσμάτων βάσης όπως περιγράφηκε στην υποενότητα 4.4.
Τα μουσικά σήματα που επιλέχτηκαν για μεταγραφή είναι ίδιας φύσεως με αυτά της
μονοφωνικής μεταγραφής με τη διαφορά ότι αποτελούνται από πολυφωνικές μελωδίες
ηχογραφημένες και αυτές με συχνότητα δειγματοληψίας fs=16 KHz.
5.2.1 Εφαρμογή του μετασχηματισμού Constant Q
Το αρχικό στάδιο της εισαγωγής του ηχητικού σήματος στο προγραμματιστικό περιβάλλον
του Matlab γίνεται με τον ίδιο τρόπο με την συνάρτηση audioread() και καθορίζονται και εδώ
οι αρχικές μας μεταβλητές με τις παρακάτω τιμές
o Μέγεθος παραθύρου : frame = 1024
o Επικάλυψη: overlap=0.5
o Ρυθμός δειγματοληψίας fs =16000 (Ηz)
Στη συνέχεια, αφού κανονικοποιηθεί το σήμα, το εισάγουμε στη ρουτίνα logfsgram() που
αναπτύχθηκε από τον Ellis [88], από την οποία εξάγεται o πίνακας V του οποίου το
φασματογράφημα αντιστοιχεί στον μετασχηματισμό Constant Q. Από την ίδια ρουτίνα
παράγεται και o πίνακας MX, ο οποίος περιέχει τα δεδομένα της λογαριθμικής κλίμακας
χαρτογραφημένα στη γραμμική κλίμακα συχνότητας.
92
Εικόνα 5.13 : O πίνακας V σε λογαριθμική συχνότητα της συνάρτησης logfsgram()
Εικόνα 5.14 : O πίνακας ΜΧ σε λογαριθμική συχνότητα της συνάρτησης logfsgram()
93
5.2.2 Εφαρμογή του NMF
Ο πίνακας στον οποίο εφαρμόζεται η μέθοδος NMF είναι ο εξαγόμενος πίνακας V του
φασματογραφήματος που εξηγήσαμε παραπάνω. Υπενθυμίζουμε ότι σκοπός μας είναι να
προσεγγίσουμε τον πίνακα V μέσα από το γινόμενο των μη-αρνητικών πινάκων W και H. Με
άλλα λόγια να ικανοποιήσουμε τη σχέση 𝑉 ≈ 𝑊 ⋅ 𝐻. Ανεξάρτητα της μεθόδου που θα
εφαρμοστεί, προτεραιότητα αποτελεί η αρχικοποίηση των πινάκων W και H με τυχαίους μη-
αρνητικούς αριθμούς.
Μία εναλλακτική που προτάθηκε και στην ενότητα 4.4 είναι αυτή της δημιουργίας εκ των
προτέρων του πίνακα-βάση W, γεγονός που τον “απαλλάσσει” από τους επαναληπτικούς
κανόνες. Έτσι, κρατώντας τον W σταθερό, μέσω της ανάλογης διαδικασίας προσαρμόζεται ο
πίνακας Η, αντιστοιχώντας τις νότες του W με τα σημεία εμφάνισης τους στο σήμα.
Παρακάτω φαίνονται δύο εκδοχές του πίνακα W με r=49 ( δηλαδή περιέχει τα διανύσματα
βάσης που αντιστοιχούν σε 49 νότες). Η πρώτη εκδοχή (εικόνα 5.15) αφορά την χειροκίνητη
κατασκευή του W ενώ η δεύτερη (εικόνα 5.16) αφορά την κατασκευή του W μέσα από τη
συνάρτηση Wbasis() η οποία λαμβάνει μια σειρά από ηχογραφημένες νότες από κιθάρα.
Σημειώνεται πως επιλέχτηκε η συγκεκριμένη τάξη παραγοντοποίησης (r=49), ώστε να έχουμε
μια αποδοτική μεταγραφή. Στην περίπτωση που επιλέγαμε μια μικρότερη τιμή είναι πιθανό
να μην καλύπταμε το εύρος των νοτών που βρίσκονται στο ηχητικό μας σήμα, ενώ αντίθετα
αν επιλέγαμε μια μεγαλύτερη τιμή η πιθανότητα να εμφανιστούν πολλαπλά σφάλματα κατά
τη μεταγραφή αυξάνεται.
94
Εικόνα 5.15 : O “εκπαιδευμένος” πίνακας W που αποτελεί τη βάση
49 νοτών 6 αρμονικών τους (χειροκίνητη υλοποίηση)
Εικόνα 5.16 : O “εκπαιδευμένος” πίνακας W που αποτελεί τη βάση
45 νοτών 6 αρμονικών τους (ηχογραφημένες νότες κιθάρας)
95
Η κύρια διαφορά των εκδοχών NMF που υλοποιήθηκαν έγκειται στον τρόπο που
υπολογίζεται ο πίνακας H στο πλαίσιο της επαναληπτικής διαδικασίας ώστε οι τιμές του να
συγκλίνουν στο επιθυμητό αποτέλεσμα. Σημειώνεται ότι σαν όριο της επαναληπτικής
διαδικασίας τέθηκε το 1500, ενώ η διαδικασία περατώνεται όταν κατά τη διάρκεια της
σύγκλισης το σφάλμα πάρει τιμή μικρότερη του 10-3
.
Στη συνέχεια θα παρουσιαστούν αποτελέσματα από τα στάδια επεξεργασίας μίας εκδοχής
του ΝΜF και συγκεκριμένα του Sparse NMF with Temporal Continuity.
H επαναληπτική διαδικασία του NMF παράγει τον πίνακα H που φαίνεται στην εικόνα 5.17.
Εικόνα 5.17 : O πίνακας Η μετά τη σύγκλιση του μέσω του Sparse NMF & Temporal Continuity
Όπως είναι αντιληπτό, ο Η πρέπει να υποστεί επεξεργασία ώστε να αφαιρεθούν όσο είναι
δυνατό οι περιττές συνιστώσες. Σ’ αυτό το σημείο ο Η θα περάσει από δύο στάδια
κατωφλίωσης όπως φαίνεται και στην εικόνα 5.18. Το πρώτο στάδιο αποτελεί η εφαρμογή
ενός δυναμικού κατωφλίου μέσω της συνάρτησης medfilt1(). Με το κατώφλι αυτό
απαλείφονται συνιστώσες μικρής έντασης και διάρκειας, διακυμάνσεις δηλαδή που δεν
αντιστοιχούν σε τονικά γεγονότα. Στο δεύτερο στάδιο κατωφλίωσης, ορίζουμε ένα κατώφλι
σύμφωνα με τη μέγιστη τιμή που εμφανίζεται στον πίνακα Η. Ο ορισμός της τιμής του
96
συγκεκριμένου κατωφλίου γίνεται εμπειρικά καθώς εξαρτάται από παράγοντες της αρχικής
ηχογράφησης του ηχητικού σήματος.
Εικόνα 5.18. Ο Πίνακας Η μετά από (α) την επαναληπτική διαδικασία του NMF , (β) την εφαρμογή του
δυναμικού κατωφλίου median κατά στήλη και (γ) την εφαρμογή του κατωφλίου βάσει το μέγιστο (max) του
πίνακα
Έτσι έχουμε φέρει τον πίνακα H στη μορφή της εικόνας 5.18(γ). Από τον πίνακα αυτό μέσω
της συνάρτησης locmax() εξάγουμε τα τοπικά ακρότατα κάθε στήλης, μειώνοντας έτσι την
πιθανότητα ύπαρξης συχνοτικών υπολειμμάτων. Στη συνέχεια όποια στοιχεία δεν είναι
μηδενικά αντικαθίστανται με 1, επιβάλλοντας έτσι σε όλα τα ηχητικά γεγονότα να έχουν το
ίδιο πλάτος. Οι ενέργειες αυτές είναι εμφανείς και στην παρακάτω εικόνα:
97
Εικόνα 5.19 : Ο πίνακας Η μετά την εξαγωγή των τοπικών μεγίστων (αριστερά) και μετά την αντικατάσταση
των μη-μηδενικών στοιχείων με την τιμή ένα (1) (δεξιά)
Η διάρκεια (duration) μια νότας καθορίζεται από τα frames στα οποία είναι ενεργή. Επίσης,
αν μια νότα είναι ενεργή για λιγότερα από τρία frames απορρίπτεται και δεν περιλαμβάνεται
σαν ηχητικό συμβάν στο τελικό αρχείο midi. Ο πίνακας Η έχει πάρει πλέον την τελική του
μορφή από τον οποίο μπορούμε να αντλήσουμε πληροφορίες για τα οnsets, offsets και
durations των νοτών. Οι πληροφορίες αυτές θα εκχωρηθούν στους αντίστοιχους πίνακες A,
B, C όπως αναλύσαμε και στη διαδικασία της μονοφωνίας. Τέλος και πάλι μέσω των ρουτινών
midinew() και writemidi() που ανέπτυξε ο Ken Schutte [42] κατασκευάζουμε το πολυφωνικό
αρχείο midi.
5.2.3 Μέτρηση ακρίβειας για την πολυφωνία
Όπως ακριβώς για την μονοφωνία έτσι και για την πολυφωνία αναπτύχθηκε ο αντίστοιχος
αλγόριθμος ώστε να εξεταστεί η αποδοτικότητα του αλγορίθμου. Στην περίπτωση της
πολυφωνίας, αντικείμενα σύγκρισης αποτελούν ο πίνακας Η_tr που είναι το τελικό προϊόν
της πολυφωνικής μεταγραφής, μετά δηλαδή από την εκτέλεση του εκάστοτε NMF και την
μετέπειτα προσαρμογή του πίνακα μέσω των κατωφλίων και ο πίνακας Η_or o οποίος είναι
ο αντίστοιχος πίνακας εξαγόμενος από τo αρχείο midi, που αποτελεί και μέτρο σύγκρισης,
98
ξανά μέσω των συναρτήσεων readmidi(), midiInfo() και getTempoChanges() του Ken Schutte
[42] Η μέτρηση της ακρίβειας της πολυφωνικής μεταγραφής γίνεται μέσω της συνάρτηση
accuracy_poly(), η οποία σαν παραμέτρους εισόδου δέχεται τους πίνακες που μόλις
αναφέραμε. (Η_tr, H_or). Ο πίνακας Η_or προκύπτει με τον ίδιο τρόπο όπως και ο αντίστοιχος
πίνακας ( Οr_midi) στη μονοφωνία.
Επίσης, γίνονται οι αντίστοιχες ενέργειες ώστε να είναι εφικτή η σύγκριση των δύο πινάκων.
Αυτό περιλαμβάνει την προσαρμογή τους ώστε να έχουν ίδιο μέγεθος αλλά και να είναι
ευθυγραμμισμένοι (aligned). H ευθυγράμμιση πραγματοποιείται και εδώ με την εφαρομγή
της συνάρτησης αυτοσυσχέτισης στους δύο πίνακες. Η εν λόγω συνάρτηση στην περίπτωση
μας είναι η xcorr2() καθώς οι πίνακες είναι δύο διαστάσεων. Η ευθυγράμμιση των δύο
πινάκων εξασφαλίζεται όταν στον δισδιάστατο πίνακα που έχει εκχωρηθεί το αποτέλεσμα
της αυτοσυσχέτισης εντοπίζεται το μέγιστο ακριβώς στη μέση του πίνακα όπως δείχνει και η
εικόνα 5.20.
Εικόνα 5.20 : Επιβεβαίωση ευθυγράμμισης δύο δυσδιάστατων πινάκων μέσω της συνάρτησης
αυτοσυσχέτισης xcorr2()
99
Στους ακόλουθους πίνακες καταγράφονται οι μετρήσεις ακρίβειας που
πραγαματοποιήθηκαν για μία σειρά δειγμάτων. Σημειώνεται πως οι σχέσεις που
χρησιμποιήθηκαν για τον υπολογισμό των ποσοστών είναι οι ίδιες με αυτές της μονοφωνίας
(recall, precision, accuracy).
SAMPLE NMF NMF
Β-DIVERGENCE
NMF
SPARSE
NMF
SPARSENESS & TEMP.CONT
SMOKE_POLY 85,9% 90,7% 45,2% 87,7%
EYE_TIGER_POLY 75,3% 66,1% 32,6% 66,7%
SUNSHINE_POLY 78,5% 80,4% 38,4% 81,7%
IRON_POLY 65,3% 68,5% 32,8% 69,2%
TNT_POLY 60,4% 63,2% 31,7% 69,1%
BLACK_POLY 54,4% 62,6% 34,0% 64,0%
SAGRERAS 3.11 52,4% 54,7% 29,4% 60,4%
ODE_TO_JOY 58,7% 61,2% 31,5% 64,3%
AVERAGE 66,36% 68% 34% 70,39%
Πίνακας 5.3 : Μετρήσεις ακρίβειας δειγμάτων για τις διάφορες εφαρμογές ΝΜF
και ελάχιστη διάρκεια νότας 0.05 sec
Aπο τις παραπάνω μετρήσεις, συγκριτικά με την αρχικό NMF, παρατηρούμε αισθητή
βελτίωση στην απόδοση της μεταγραφής με τη μέθοδο ΝΜF β-divergence ενώ τα
αποτελέσματα βελτιώνονται ακόμη περισσότερο με την εκδοχη NMF που κάνει χρήση των
κριτηρίων Sparseness και Temporal Continuity. Αντίθετα ο Sparse NMF παρήγαγε αρκετά
χαμηλά ποσοστά ακρίβειας γεγονός που το αποδίδουμε στην αδυναμία του να ανιχνέυει τις
χαμηλές συχνότητες αλλά και στο μη αποτελεσματικό έλεγχο της αραιότητας των δεδομένων
του πίνακα H.
100
6. Συμπεράσματα
6.1 Σύνοψη
Αντικείμενο μελέτης της παρούσας διπλωματικής εργασίας ήταν, όπως είδαμε, η αυτόματη
μεταγραφή μουσικής. Αναλύοντας αρχικά την περίπτωση της μονοφωνικής μεταγραφής, που
θεωρείται πια ένα λυμένο πρόβλημα, περάσαμε και στην ανάπτυξη μεθόδων για την
μεταγραφή μιας πολυφωνικής μελωδίας όπου και διαπιστώσαμε και τη δυσκολία του
εγχειρήματος. Κοινά προβλήματα και των δύο ειδών μεταγραφής αποτελούν α) η
αναγνώριση του τονικού ύψους (pitch-recognition) β) ανίχνευση αρχή και τέλους της νότας
(οnset,offset-detection) και γ) ο περιορισμός του θορύβου για την αποφυγή αναγνώρισης
ψευδών νοτών. Φυσικά, η αντιμετώπιση των παραπάνω προβλημάτων δεν είναι κοινή για
την μονοφωνική και την πολυφωνική μεταγραφή καθώς σε κάθε περίπτωση εφαρμόζονται
διαφορετικές τεχνικές.
Αναλυτικότερα στο κεφάλαιο 3, που αφορά τη μονοφωνική μεταγραφή, αναλύσαμε και
προτείναμε διάφορες μεθόδους για την αναγνώριση του pitch. Μία μέθοδος, στο πεδίο του
χρόνου, είναι αυτή της αυτοσυσχέτισης (auto-correlation) η οποία και υλοποιήθηκε. Όπως
διαπιστώσαμε και στο πειραματικό μέρος η συνάρτηση της αυτοσυσχέτισης αποδείχτηκε μια
ιδιαίτερα αξιόπιστη και αποδοτική μέθοδος για την αναγνώριση του τονικού ύψους. Αυτό
οφείλεται κυρίως στην ικανότητα της συνάρτησης να συγκρίνει τις ομοιότητες τμημάτων του
σήματος με τμήματα του ίδιου σήματος που έχουν μετατεθεί χρονικά.
Επιπρόσθετα, στο ίδιο κεφάλαιο, αναφέραμε αρκετές τεχνικές ανίχνευσης των onsets σε μια
μονοφωνική μελωδία, η κάθε μία από τις οποίες προσεγγίζει τη λύση του προβλήματος από
διαφορετική σκοπιά. Οι συναρτήσεις εκτίμησης των οnsets που επιλέχτηκαν να υλοποιηθούν
ήταν αυτή που βασίζεται στην ενέργεια του σήματος (Energy-based) και εκείνη που
“παρατηρεί” τις φασματικές διαφορές μεταξύ διαδοχικών frame (Spectral Flux). Από το
τελικό προϊόν της μεταγραφής που είναι το μονοφωνικό αρχείο midi αλλά και τις μετρήσεις
ακρίβειας διαπιστώσαμε ότι η δεύτερη μέθοδος είναι ελαφρώς αποδοτικότερη στο να
ανιχνεύει με ακρίβεια τα onsets του ηχητικού σήματος που επιθυμούμε να μεταγράψουμε.
Σε αυτό το σημείο πρέπει να αναφέρουμε ότι αμφότερες μέθοδοι περιλαμβάνουν τον
καθορισμό ενός κατωφλίου για την εκτίμηση των πιθανών onsets, η τιμή του οποίου δεν
101
είναι η καλύτερη δυνατή για όλα τα δείγματα. Αυτό δικαιολογείται από το γεγονός ότι κάθε
ηχητικό σήμα έχει συνιστώσες οι οποίες επιβάλλουν αυτή την διαφοροποίηση της τιμής του.
Τέτοιες συνιστώσες μπορεί να είναι η ηχητική πηγή του σήματος, η ποιότητα ηχογράφησης
του, τα επίπεδα θορύβου στο σήμα κ.α. Έτσι ανάλογα τα δείγματα που έχουμε προς
μεταγραφή προσαρμόζουμε κατάλληλα και την τιμή του κατωφλίου ή επιλέγουμε μια κοινή
τιμή που επιφέρει ακριβή αποτελέσματα για τη πλειονότητα των δειγμάτων.
Στην πολυφωνική μεταγραφή, η οποία αναλύθηκε στο κεφάλαιο 4, ήρθαμε αντιμέτωποι με
το τρέχον πρόβλημα της αναγνώρισης ταυτόχρονων μουσικών τόνων (multi-pitch detection),
πρόβλημα για το οποίο δεν έχει βρεθεί βέλτιστος τρόπος αντιμετώπισης μέχρι και σήμερα.
Μία κατεύθυνση επίλυσης αποτελεί η μέθοδος της παραγοντοποίησης μη-αρνητικών
πινάκων (Non-negative Matrix Factorization, NMF). Σε αυτή τη μέθοδο η αναγνώριση των
μουσικών τόνων βασίζεται σε μια επαναληπτική διαδικασία μέσα στην οποία συγκλίνουν οι
τιμές δύο πινάκων, ο γραμμικός συνδυασμός των οποίων παράγει στην ιδανική περίπτωση
το ηχητικό μας σήμα. Βασιζόμενοι στη μέθοδο NMF τονίσαμε τον τρόπο χρήσης της στη
πολυφωνική μεταγραφή ενώ αναφέραμε και διάφορες προεκτάσεις της που έχουν
αναπτυχθεί κατά καιρούς. Προκειμένου να βελτιωθεί το αποτέλεσμα της ΝMF μεθόδου
προτάθηκε σαν λύση, στην ενότητα 4.4, η a priori κατασκευή του πίνακα-βάση (W), ο οποίος
πρακτικά περιλαμβάνει το συχνοτικό εύρος των νοτών που ενδέχεται να περιέχονται στο
ηχητικό σήμα. Αυτό έχει ως αποτέλεσμα να διατηρείται σταθερός ο πίνακας-βάση (W) καθ’
όλη την επαναληπτική διαδικασία και να προσαρμόζονται οι τιμές του πίνακα Η, με βάση τα
χρονικά διαστήματα εμφάνισης των νοτών. Στο πειραματικό μέρος υλοποιήσαμε τέσσερις (4)
εκδοχές του NMF με σταθερό πίνακα-βάση και αξιολογήθηκε η ποιότητα τους με βάση το
παραγόμενο αρχείο midi αλλά και τις μετρήσεις ακρίβειας που παραθέσαμε στους
αντίστοιχους πίνακες της υποενότητας 5.2.3.
Πιο συγκεκριμένα εκτός από την βασική μέθοδο ΝΜF κατά Lee και Seung [87] αναπτύχθηκε
η μέθοδος α) Sparse NMF [83], β) NMF με απόκλιση-β [84] , και γ) ο NMF με τα κριτήρια
Sparseness και Temporal Continuity [68]. H μέθοδος α) και γ) έχουν ως στόχο να
εκμεταλλευτούν την αραιότητα των ηχητικών γεγονότων του σήματος. Ο καθορισμός της
τιμής του συντελεστή αραιότητας γίνετε εμπειρικά εξαιτίας ιδιαίτερων χαρακτηριστικών του
σήματος, όπως για παράδειγμα το tempo. Αντίστοιχα ,στη μέθοδο β) γίνεται και η επιλογή
της παραμέτρου β μεταξύ των τιμών μηδέν (0) και ένα (1), κάτι το οποίο βασίζεται στην
απόκλιση των τιμών του πίνακα, που αντιστοιχεί στο αρχικό σήμα.
102
Επίσης, η επιλογή του μετασχηματισμού Constant Q έναντι του μετασχηματισμού Fourier
διευκόλυνε την επεξεργασία του πολυφωνικού σήματος καθώς έχοντας ανάγει τις
συχνότητες σε λογαριθμική κλίμακα πετύχαμε μεγαλύτερη ευκρίνεια ιδιαίτερα στις χαμηλές
συχνότητες και κατ’ επέκταση μεγαλύτερη ακρίβεια στην αναγνώριση των τόνων. Ο ορισμός
των κατωφλίων για την εκτίμηση των οnsets και offsets αποδείχτηκε μια επίπονη διαδικασία
για του λόγους που αναφέραμε και στη μονοφωνική μεταγραφή συν το γεγονός ότι η
προσέγγιση του πίνακα H ποικίλει εξαιτίας της επαναληπτικής φύσης του ΝΜF. Λαμβάνοντας
υπόψη τα παραπάνω αλλά και τις μετρήσεις ακρίβειας είναι αντιληπτό ότι η πολυφωνική
μεταγραφή της μουσικής επιδέχεται πολλά στάδια βελτίωσης για να μπορέσει να θεωρηθεί
ένα λυμένο πρόβλημα.
6.2 Μελλοντικές επεκτάσεις
Αναφερόμενοι στα κατώφλια (thresholds) και σε άλλους παραμέτρους που εισάγονται
εμπειρικά, μια μελλοντική επέκταση της αυτόματης μεταγραφής αφορά μια πιο αυτόνομη
εφαρμογή που οι όποιες παράμετροι θα ορίζονται αυτόματα με βάση τα χαρακτηριστικά του
σήματος, αποδεσμεύοντας έτσι το χρήστη της εφαρμογής. Κάτι τέτοιο θα μπορούσε να είναι
εφικτό με την a-priori γνώση του είδους των ηχητικών πηγών του σήματος, λαμβάνοντας έτσι
πληροφορίες για το συχνοτικό εύρος του σήματος αλλά και για το ιδιαίτερο γνώρισμα της
χροιάς.
Επίσης, ανοικτό θέμα παραμένει η αξιοποίηση της μουσικολογικής πληροφορίας για τη
βελτίωση της τελικής μεταγραφής. Για παράδειγμα, ένα σύστημα το οποίο μπορεί να
προσδιορίσει την βασική μουσική κλίμακα ή ακόμη και τις συγχορδίες θα έχει ως
αποτέλεσμα μια πιο αποδοτική ανίχνευση των pitches.
Ακόμη, στη σύγχρονη μουσική έχουν προστεθεί πολλά στοιχεία το οποία καθιστούν ακόμη
πιο δύσκολο το έργο της αυτόματης μεταγραφής. Χαρακτηριστικά παραδείγματα είναι η
εισαγωγή ψηφιακών εφέ που παραμορφώνουν τη κυματορφή του σήματος ή ακόμη και ο
εξαιρετικά γρήγορος ρυθμός που μπορεί να αποτελέσει τροχοπέδη στην αποδοτική εκτίμηση
όλων των ηχητικών γεγονότων. Η πρόκληση, λοιπόν, έγκειται στο σχεδιασμό ενός
συστήματος που να ανταποκρίνεται σε αυτές τις σύγχρονες απαιτήσεις.
Ένας ακόμη μελλοντικός στόχος είναι η δημιουργία συστημάτων τα οποία να μπορούν να
λειτουργήσουν σε πραγματικό χρόνο, καθώς τα τρέχοντα συστήματα απαιτούν μεγάλους
χρόνους εκτέλεσης. Στα ίδια συστήματα η offline λειτουργία μπορεί να εξυπηρετήσει
103
πολλούς σκοπούς όπως την επεξεργασία ηχητικών αρχείων ή τη μεταφορά τους σε
παρτιτούρα για ανάγκες διδασκαλίας.
104
Βιβλιογραφία
[1] Bello J.P., Monti G., Sandler M. “Techniques for automatic music transcription”.
Department of Electronic Engineering, King’s College London, UK.
[2] https://en.wikipedia.org/wiki/Musical_acoustics
[3] http://philippseifried.com/blog/2011/12/27/dynamic-audio-in-as3-part-5-interpolation-
and-pitching/
[4] http://www-etud.iro.umontreal.ca/~boulanni/
[5] https://el.wikipedia.org/wiki/Μουσική
[6] https://en.wikipedia.org/wiki/Music_theory
[7] http://www.musictheory.gr/θεωρία/πεντάγραμμο-κλειδιά
[8]http://www.musicheaven.gr/html/modules.php?name=News&file=article&id=810
[9] http://users.otenet.gr/~djv14/jim/jimtheory.htm
[10] https://el.wikipedia.org/wiki/Κλίμακα_(μουσική)
[11] http://www.dspguide.com/ch3/4.htm
[12] Hayes H. Μ. “Schaum’s outlines,Digital Signal Processing”.
[13] https://en.wikipedia.org/wiki/Sampling_(signal_processing)
[14] http://www.newworldencyclopedia.org/entry/Digital_audio
105
[15] https://en.wikipedia.org/wiki/Fourier_transform
[16] https://www.coursera.org/course/digitalsounddesign
[17]http://www.huffingtonpost.com/the-m-machine/technology-and-music_b_2769411.
html
[18] https://en.wikipedia.org/wiki/Music_information_retrieval
[19] http://hyperphysics.phy-astr.gsu.edu/hbase/sound/pitch.html
[20] http://acoustics.org/pressroom/httpdocs/158th/shahin.htm
[21] http://www.seventhstring.com/resources/notefrequencies.html
[22] Moorer J.A. “On the transcription of musical sound by computer”, 1977.
[23] Piszczalski M., Galler B. “Computer Analysis and Transcription of Performed Music: a
Project Approach, Computers and the Humanities”, 1979.
[24] Klapuri A. “Signal Processing Methods for the Automatic Transcription of Music”. PhD
Thesis, Tampere University of Technology, March 2004.
[25] Huber D. M. “The midi manual”[second edition].
[26] Λουφόπουλος A. “ Ψηφιακή Τεχνολογία και Μουσική 1 / Midi – Θεωρία” , Τ.Ε.Ι. ΙΟΝΙΩΝ
ΝΗΣΩΝ -ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΗΧΟΥ & ΜΟΥΣΙΚΩΝ ΟΡΓΑΝΩΝ
[27] http://docstore.mik.ua/orelly/web2/audio/ch02_01.htm
[28] http://www.musicarrangers.com/star-theory/t08.htm
[29] http://dsp.stackexchange.com/questions/948/smoothing-signal-detecting-bumps-in-a-
data-stream
106
[30] Bello J. P., Daudet L., Abdallah S., Duxbury C., Davies M., and Sandler M. B. “A Tutorial on
Onset Detection in Music Signals”, IEEE Transactions On Speech and Audio Processing, Vol. 13,
No. 5, September 2005.
[31] http://web.media.mit.edu/~tristan/phd/dissertation/chapter3.html
[32] Moelants D., Rampazzo C. “A Computer System for the Automatic Detection of Perceptual
Onsets in a Musical Signal”. In Camurri, Antonio (Ed.). “KANSEI, The Technology of Emotion”,
pp. 140–146. Genova, 1997.
[33] Klapuri A. “Sound onset detection by applying psychoacoustic knowledge”. In
“Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
(ICASSP), volume 6”, pp. 3089–3092, 1999.
[34] Puckette M. S., Apel T., and Zicarelli D. D. “Real-time analysis tools for PD and MSP”. In
Arbor A. “Proceedings of the International Computer Music Conference (ICMC)”, University of
Michigan, USA, 1998.
[35] Jaillet F., Rodet X. “Improved modelling of attack transients in music analysis synthesis”.
In “Proceedings of the International Computer Music Conference (ICMC)”, pp 30– 33. Havana,
Cuba, 2001.
[36] Bello J.-P. “Towards the Automated Analysis of Simple Polyphonic Music”, PhD thesis.
Centre for Digital Music, Queen Mary University of London, London, UK, 2003.
[37] Klapuri A. “Signal Processing Methods for the Automatic Transcription of Music”, PhD
thesis. Tampere University of Technology, Tampere, Finland, 2004.
[38] Smith L. S. “Using an onset-based representation for sound segmentation”. In
“Proceedings of the International Conference on Neural networks and their Applications
(NEURAP)”, pp 274– 281. Marseilles, France, March 1996.
[39] Dixon S., Gouyon F., Widmer G. “ Towards characterization of music via rhythmic
patterns”. In “Proceedings of the International Symposium on Music Information Retrieval
(ISMIR)”, pp 509–516. Barcelona, Spain, October 2004.
[40] Scheirer E. D. “Tempo and beat analysis of acoustic musical signals”. Journal of the
Acoustical Society of America, pp 588–601. 1998.
107
[41] Mητιανούδης N. “Τεχνολογία Ήχου”. Δημοκρίτειο Πανεπιστήμιο Θράκης, 2015.
[42] https://en.wikipedia.org/wiki/Window_function
[43] https://en.wikipedia.org/wiki/Hann_function
[44] Monti G., Sandler M. , “Monophonic transcription with autocorrelation”. Department of
Electronic Engineering, King’s College London. In “Proceedings of the COST G-6 Conference on
Digital Audio Effects (DAFX-00)”. Verona, Italy, December 2000.
[45] Caprio J. R., Parks T. W., Wise J. D. “Maximum likelihood pitch estimation”. In “IEEE
Transactions on Acoustic, Speech and Signal Processing”, 24 (5): pp 418–423, October 1976.
[46] Amatriain X., Gomez E., Herrera P. , Peterschmitt G. “Content-based
melodic transformations of audio for a music processing application”. In “Proceedings of the
International Conference on Digital Audio Effects (DAFx-03)”, pp 333–338. London, UK, 2003.
[47] Klapuri A. “Qualitative and quantitative aspects in the design of periodicity estimation
algorithms”. In “Proceedings of the European Signal Processing Conference (EUSIPCO)”, 2000.
[48] De Cheveigne A., Kawahara H. “YIN, a fundamental frequency estimator for speech and
music”. In “Journal of the Acoustical Society of America”, 111(4): pp 1917–1930. 2002.
[49] Pressnitzer D., Patterson D., and Krumbholz K. “The lower limit of melodic pitch”. In
“Journal of the Acoustical Society of America”, 109(5): pp 2074–2084. 2001.
[50] Yost W. A. “Pitch strength of iterated rippled noise”. In Journal of the Acoustical Society
of America, 100(5): pp.3329–3335. 1996.
[51] Dyer L. and L.,Richard F. “Experiments with a computational model of the cochlea”. In
“Proceedings of the International Conference on Acoustics, Speech, and Signal Processing”, pp
1975–1978. Tokyo, Japan, 1986.
[52] http://meandering-through-mathematics.blogspot.gr/
[53] http://note.sonots.com/SciSoftware/Pitch.html
108
[54] De Cheveigne A. “Pitch perception models”. In C. J. Plack, Popper A.N., Fay R. R. and
Oxenham A. J., “Pitch: Neural Coding and Perception”. 2004.
[55] Brown. “Musical frequency tracking using the methods of
Conventional and Narrowed Autocorrelation”, J.A.S.A. 1991.
[56] Klapuri A. “Sound onset detection by applying psychoacoustic knowledge”. Signal
Processing Laboratory, Tampere University of Technology, Tampere, Finland.
[57] Schloss A. “On the Automatic Transcription of Percussive Music —From Acoustic Signal
to High-Level Analysis”. PhD Thesis. Stanford University, 1985.
[58] Goto M., Muraoka Y. “Beat Tracking based on Multiple-agent
Architecture - A Real-time Beat Tracking System for Audio Signals”. In “ Proceedings of The
Second International Conference on Multiagent Systems”, pp.103–110. 1996.
[59] Goto M., Muraoka Y. “A Real-time Beat Tracking System for
Audio Signals”. In “Proceedings of the 1995 International Computer Music Conference”,
pp.171–174. September 1995.
[60] Bello J. P., Davies M., Duxbury C. and Sandler M. “Complex domain onset detection for
musical signals”. In Proceedings of the 6th International Conference on Digital Audio Effects
(DAFx-03)”, London, UK, September 2003.
[61] Masri P. “Computer modeling of Sound for Transformation and Synthesis of Musical
Signal”.PhD dissertation, University of Bristol, UK, 1996.
[62] Foote J., Uchihashi S. “The beat spectrum: a new approach to rhythm analysis”. In
“Proceedings of the IEEE International Conference on Multi- media and Expo (ICME 2001)”, pp.
881–884.Tokyo, Japan, August 2001.
[63]E. Benetos and Y. Stylianou, “Auditory spectrum-based pitched instrument onset
detection”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 18, no. 8, pp.
1968-1977, Nov. 2010.
[64] Hainsworth S., Macleod M. “Onset detection in music audio signals”. In “Proceedings of
the International Computer Music Conference (ICMC)”, pp. 163–166. Singapore, 2003.
109
[65] Brossier P. M. “Automatic Annotation of Musical Audio for Interactive Applications”.
Technical Report - Centre for Digital Music Queen Mary University of London, August 2006.
[66] https://el.wikipedia.org/wiki/Πολυφωνία
[67] Smaragdis P. “Non-negative Matrix Factor Deconvolution; Extracation of Multiple Sound
Sources from Monophonic Inputs”. Technical Report TR2004-104, MERL, September 2004.
[68] Virtanen T. “Monaural sound source separation by nonnegative matrix factorization with
temporal continuity and sparseness criteria”. IEEE Transactions on Audio, Speech, and
Language Processing, vol. 15, no. 3, pp. 1066–1074. March 2007.
[69] Paulus J., Virtanen T. “Drum transcription with non-negative spectrogram factorisation”.
In “Proceedings of the 13th European Signal Processing Conference (EUSIPCO)”. Antalya,
Turkey. September 2005.
[70] Brown J., Smaragdis P., “Non-negative matrix factorization for polyphonic music
transcription”. In “IEEE Workshop on Applications of Signal Processing to Audio and Acoustics
(WASPAA’03)”, pp. 177–180. New York, USA. October 2003.
[71] Badeau R., Bertin N., and Richard G. “Blind signal decompositions for automatic
transcription of polyphonic music: NMF and K-SVD on the benchmark”. In “Proceedings of
International Conference on Acoustics, Speech and Signal Processing (ICASSP’07), vol. 1”, pp.
65–68. Honolulu, Hawaii, USA. April 2007.
[72] https://en.wikipedia.org/wiki/Non-negative_matrix_factorization
[73] Mørup M., Schmidt M. N. “Sparse Non-negative Matrix Factor 2-D Deconvolution for
Automatic Transcription of Polyphonic Music”.2006.
[74] Mørup M., Schmidt M. N. “Nonnegative Matrix Factor 2-D Deconvolution for Blind Single
Channel Source Separation”. Independent Component Analysis and Blind Signal Separation,
pp. 700-707, 2006
[75] Bryan N., Sun D. “Source Separation Tutorial Mini-Series II: Introduction to Non-Negative
Matrix Factorization” .Center for Computer Research in Music and Acoustics, Stanford
University, DSP Seminar. April 2013.
110
[76] Virtanen T. “Non-Negative Matrix Factorization and Its Application to Audio”. MLSP 2009,
Tutorial
[77]http://www.edn.com/electronics-blogs/sound-bites/4421452/Audio-pitch-shifting---the-
constant-Q-transform
[78] Brown J. “Calculation of a constant Q spectral transform”, J. Acoust. Soc. Am., 89(1): pp.
425–434. 1991.
[79] https://en.wikipedia.org/wiki/Constant_Q_transform
[80] Blankertz B. “The Constant Q Transform”,
http://doc.ml.tu-berlin.de/bbci/material/publications/Bla_constQ.pdf
[81] Bertin N., Badeau R., Vincent E., Fast bayesian nmf algorithms enforcing harmonicity and
temporal continuity in polyphonic music transcription. WASPAA 2009: pp. 29-32.
[82] Costantini, G., Todisco, M., and Perfetti, R., “NMF based Dictionary Learning for
Automatic Transcription of Polyphonic Piano Music,” WSEAS Transactions on Signal
Processing, Volume 9, Issue 3, pp. 148-157, July 2013.
[83] Cont A. “Realtime Multiple Pitch Observation using Sparse Non-negative Constraints”.
International Conference on Music Information Retrieval, 2006.
[84] Cont A., Dessein A., Lemaitre G. “Real-time polyphonic music transcription with non-
negative matrix factorization and beta-divergence”, 1th International Society for Music
Information Retrieval Conference, 2010.
[85] http://kenschutte.com/midi
[86] https://en.wikipedia.org/wiki/Precision_and_recall
[87] Lee D. D., Seung H. S. “Algorithms for nonnegative matrix factorization”. In Leen T. K.,
Dietterich T. G., and Tresp V. “Advances in Neural Information Processing Systems 13”, pp.
556–562. MIT Press. 2001.
[88] Ellis D. ‘’Spectrograms: Constant-Q (Log-frequency) and conventional (linear)’’, URL:
http://labrosa.ee.columbia.edu/matlab/sgram/
111

Thesis_sachos5468

  • 1.
    ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΓΡΑΦΗ ΠΟΛΥΦΩΝΙΚΗΣ ΜΕΛΩΔΙΑΣ ΜΕ ΧΡΗΣΗ ΦΑΣΜΑΤΙΚΩΝ ΠΡΟΤΥΠΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΑΧΟΣ ΚΩΝΣΤΑΝΤΙΝΟΣ – ΑΡΣΕΝΙΟΣ ΑΕΜ 5468 Επιβλέπων : ΜΗΤΙΑΝΟΥΔΗΣ ΝΙΚΟΛΑΟΣ ΞΑΝΘΗ, ΝΟΕΜΒΡΙΟΣ 2015
  • 3.
    1 ΠΕΡΙΛΗΨΗ Σε αυτή τηδιπλωματική εργασία αναλύεται και υλοποιείται η διαδικασία της μεταγραφής μουσικών σημάτων, η μετατροπή δηλαδή της ηχητικής πληροφορίας σε μουσική σημειογραφία όπως για παράδειγμα παρτιτούρα ή συμβολικό αρχείο σε ηλεκτρονική μορφή(αρχείο ΜIDI). Η προαναφερθείσα μετατροπή εξετάζεται τόσο σε μονοφωνικά αρχεία ήχου όσο και σε πολυφωνικά. Στο πρώτο μέρος της εργασίας γίνεται αναφορά μερικών εννοιών σχετικά με τον κλάδο της Μουσικής αλλά και τον τομέα της Ψηφιακής Επεξεργασίας Σήματος ώστε να καταστεί ευκολότερη η κατανόηση του περιεχομένου που ακολουθεί. Στη συνέχεια, σε πρώτη φάση ασχολούμαστε με το κομμάτι της μονοφωνικής μεταγραφής, όπου προτείνονται δύο εναλλακτικοί τρόποι αντιμετώπισης του προβλήματος βασισμένοι στην αυτοσυσχέτιση (auto-correlation) για τον εντοπισμό της κυρίαρχης συχνότητας και κατ’ επέκταση την εκτίμηση της εκάστοτε νότας. Η δεύτερη φάση αφορά την πολυφωνική μεταγραφή ενός ηχητικού σήματος όπου με γνώμονα τη μέθοδο της παραγοντοποίησης μη-αρνητικών πινάκων (NMF) αναπτύσσονται διάφορες τεχνικές με σκοπό την πιστή αποτύπωση του στο αρχείο MIDI. Κλείνοντας, πραγματοποιούνται μετρήσεις σχετικά με την ακρίβεια της μεταγραφής και των δύο περιπτώσεων και εξάγονται αντίστοιχα συμπεράσματα. Λέξεις Κλειδιά: Μεταγραφή, μουσική, επεξεργασία, σήμα, νότα, ανίχνευση, ύψος, αυτοσυσχέτιση, μετασχηματισμός, φασματογράφημα, μονοφωνία, πολυφωνία, παρτιτούρα, παραγοντοποίηση
  • 4.
    2 ABSTRACT In this thesiswe analyze and implement the transcription of music signals, the conversion, in other words, of the audio information to music notation e.g. music score or noted file in electronic format (midi file). The aforesaid conversion is examined both in monophonic and in polyphonic audio files. In the first part of this project, we mention some introductory concepts related to Music and to Digital Signal Processing, so that the following content can be conceived more easily. Next, we deal with monophonic transcription, where we suggest two alternative ways of addressing the problem based on auto-correlation for e pitch detection and later on for the estimation of each note. Consequently, we address the problem of polyphonic transcription of an audio signal. where based on the method of Non-Negative Matrix Factorization (NMF), we develop several techniques aiming at extracting its precise representation in a midi file. Finally, objective evaluation of the proposed methodologies is being performed in terms of the accuracy of the transcription for both the monophonic and polyphonic case. Key words: Transcription, music, processing, signal, note, detection, pitch, auto-correlation, transform, spectrogram, monophony, music score, piano roll, Non-negative Matrix Factorisation
  • 5.
    3 Ευχαριστίες Σε αυτό τοσημείο θα ήθελα πω ένα μεγάλο ευχαριστώ στον επιβλέποντα της διπλωματικής εργασίας και καθηγητή μου, κ. Μητιανούδη Νικόλαο πρώτα για την εμπιστοσύνη που μου έδειξε αναθέτοντας μου τη συγκεκριμένη διπλωματική εργασία και κατ’ επέκταση για την υποστήριξη και καθοδήγηση του κατά τη διάρκεια εκπόνησης της. Επίσης ευχαριστώ θερμά την οικογένεια μου για την πολυδιάστατη στήριξη που μου παρείχαν σε όλα τα χρόνια των σπουδών μου. Τέλος ευχαριστώ την Ε. για την αμέριστη κατανόηση και ανιδιοτελή βοήθεια της και τους κοντινούς μου ανθρώπους που διαμόρφωσαν τα φοιτητικά μου χρόνια.
  • 6.
    4 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΛΗΨΗ…………………………………………………………………………………………………….............1 Λέξεις-κλειδιά…………………………………………………………………………………………………………..1 ABSTRACT…………………………………………………………………………………………………………………2 Key words………………………………………………………………………………………………………………….2 Ευχαριστίες ………………………………………………………………………………………………………………3 ΠΕΡΙΕΧΟΜΕΝΑ………………………………………………………………………………………………………….4 ΕΥΡΕΤΗΡΙΟΕΙΚΟΝΩΝ………………………………………………………………………………………………..6 ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ………………………………………………………………………………………………..9 1.ΕΙΣΑΓΩΓΗ……………………………………………………………………………………………………………..10 1.1 Παρουσίαση θέματος και Στόχοι……………………………………………………………………….10 1.2 Δομή της Διπλωματικής…………………………………………………………………………………….13 2.ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ……………………………………………………………………………………….14 2.1 Θεωρία της Μουσικής………………………………………………………………………………………14 2.2 Ψηφιακή Επεξεργασία Σήματος………………………………………………………………………..16 2.2.1 Δειγματοληψία – Θεώρημα Νyquist – Κβαντισμός………………………………………..17 2.2.2 Φάσμα και Μετασχηματισμός Fourier……………………………………………………………19 2.3 Μουσική και Ψηφιακή Επεξεργασία ήχου…………………………………………………………21 2.3.1 Βασικά Χαρακτηριστικά Ψηφιακού ήχου……………………………………………………….22 2.4 Μεταγραφή Μουσικής……………………………………………………………………………………..25 3. ΜΟΝΟΦΩΝΙΚΗ ΜΕΤΑΓΡΑΦΗ ΜΟΥΣΙΚΗΣ…………………………………………………………….31 3.1 Χαρακτηριστικά της Μονοφωνίας…………………………………………………………………….31 3.2 H Τεχνοτροπία της Μονοφωνικής Μεταγραφής……………………………………………….34 3.2.1 Κατάτμηση ηχητικού σήματος……………………………………………………………………….36 3.2.2 Συνάρτηση Παραθύρου…………………………………………………………………………………37 3.2.3 Ανίχνευση ύψους της νότας (pitch detection)…………………………………………………38 3.2.4 Εκτίμηση της αρχής μιας νότας (onset detection)…………………………………………..45
  • 7.
    5 4. ΠΟΛΥΦΩΝΙΚΗ ΜΕΤΑΓΡΑΦΗΜΟΥΣΙΚΗΣ………………………………………………………………56 4.1 Το πρόβλημα της πολυφωνίας………………………………………………………………………….56 4.2 Μέθοδος παραγοντοποίησης μη αρνητικών πινάκων – (Νοn-Negative Matrix Factorization – NMF)………………………………………………………………………………………………57 4.2.1 Λίγα λόγια για τον NMF………………………………………………………………………………….57 4.2.2 Ορισμός του ΝΜF………………………………………………………………………………………….57 4.2.3 Προεκτάσεις του NMF……………………………………………………………………………………60 4.3 Η διαδικασία της πολυφωνικής μεταγραφής……………………………………………………62 4.3.1 O NMF στην πολυφωνική μεταγραφή……………………………………………………………63 4.3.2 Constant Q…………………………………………………………………………………………………….68 4.3.3 Εκτίμηση Ύψους (pitch detection)………………………………………………………………….71 4.3.4 Εκτίμηση της αρχής της νότας (onset detection)…………………………………………….72 4.4 W Training………………………………………………………………………………………………………..73 5. ΠΕΙΡΑΜΑΤΙΚΟ ΜΕΡΟΣ…………………………………………………………………………………………78 5.1 Υλοποίηση της μονοφωνικής μεταγραφής………………………………………………………..78 5.1.1 Κατάτμηση του ηχητικού σήματος…………………………………………………………………78 5.1.2 Pitch Detection με τη μέθοδο της αυτοσυσχέτισης (Auto-correlation)……………79 5.1.3 Onset Detection…………………………………………………………………………………………….82 5.1.4 Εκτίμηση των silenced frames………………………………………………………………………..85 5.1.5 Κατασκευή του midi αρχείου…………………………………………………………………………85 5.1.6 Μέτρηση ακρίβειας για τη μονοφωνία………………………………………………………….87 5.2 Υλοποίηση της πολυφωνικής μεταγραφής………………………………………………………..91 5.2.1 Εφαρμογή του μετασχηματισμού Constant Q………………………………………………..91 5.2.2 Εφαρμογή του NMF……………………………………………………………………………………….93 5.2.3 Μέτρηση ακρίβειας για την πολυφωνία……………………………………………………….97 6. ΣΥΜΠΕΡΑΣΜΑΤΑ………………………………………………………………………………………………101 6.1 Σύνοψη………………………………………………………………………………………………….101 6.2 Μελλοντικές επεκτάσεις…………………………………………………………………………………103 ΒΙΒΛΙΟΓΡΑΦΙΑ………………………………………………………………………………………………………105
  • 8.
    6 ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ Εικόνα 1.1:Κυματομορφή ηχητικού σήματος (πάνω) και η συμβολική του μορφή-piano roll (κάτω) [1] Εικόνα 1.2 : Φασματογράφημα δύο μεμονωμένων διαδοχικών νοτών (αριστερά) και μιας συγχορδίας (δεξιά) [2][3] Εικόνα 1.3: Πολυφωνική μεταγραφή μουσικού κομματιού [4] Εικόνα 2.1 : Το μουσικό πεντάγραμμο και οι θέσεις των νοτών σε αυτό [7] Εικόνα 2.2: Η φυσική κλίμακα Ντο [8] Εικόνα 2.3 : Η οκτάβα και τα σημεία αλλοιώσεως στο πιάνο [10] Εικόνα 2.4 : Μετατροπή αναλογικού σήματος σε ψηφιακό [11] Εικόνα 2.5 : Αναπαράσταση δειγματοληψίας σήματος. Το συνεχές σήμα αναπαρίσταται από την πράσινη γραμμή ενώ τα διακριτά δείγματα (αποτέλεσμα δειγματοληψίας) με το μπλε χρώμα [13] Εικόνα 2.6: Αναπαράσταση κβαντισμού(4-bit / 16 στάθμες) ενός αναλογικού σήματος (κόκκινη γραμμή) [14] Εικόνα 2.7 : Η κυματομορφή (αριστερά) και το φασματογράφημα (δεξιά) ενός “καθαρού” ημιτόνου, μιας νότας βιολιού και μιας νότας πιάνου, “μαρτυρούν” τη διαφορετική χροιά του καθενός [20] Εικόνα 2.8 : Το συχνοτικό εύρος της ανθρώπινης φωνής και διάφορων οργάνων Εικόνα 2.9 : Δομή ενός τυπικού MIDI μηνύματος [26] Εικόνα 2.10 : Βits και bytes του MIDI κώδικα [26] Εικόνα 2.11 : Τρόποι διαχείρισης της μουσικής μέσω μουσικών λογισμικών Εικόνα 3.1 : Παρτιτούρα μονοφωνικής μελωδίας Εικόνα 3.2 : Η κυματομορφή μίας νότας μπάσου (χαμηλό pitch) και ενός τόνου σφυρίχτρας (υψηλό pitch) [27] Εικόνα 3.3 : Η κυματομορφή νότας (αριστερά) και τα επιμέρους χαρακτηριστικά της (δεξιά) [29] Εικόνα 3.4 : H κυματομορφή ενός ηχητικού σήματος (μπλε) και τα εκτιμημένα onsets (μωβ) [31] Εικόνα 3.5 : Τα στάδια επεξεργασίας της μονοφωνικής μεταγραφής Εικόνα 3.6 : Κατάτμηση του σήματος με επικάλυψη (overlap) 50% Εικόνα 3.7 : Το παράθυρο Hanning (αριστερά) και η απόκριση συχνότητάς του (δεξιά) [43] Εικόνα 3.8 : Επίδραση του τετράγωνου παραθύρου (πάνω) και του παραθύρου Hanning (κάτω)
  • 9.
    7 Εικόνα 3.9 :Η θεμελιώδης συχνότητα της νότας Μι στη 3η οκτάβα (Ε3) και οι αρμονικές τις [52] Εικόνα 3.10 : Η μέθοδος της γραμμικής πρόβλεψης (LPC) [53] Εικόνα 3.11 : Το ηχητικό σήμα και οι διελεύσεις της κυματομορφής από το μηδέν (zero crossings) Εικόνα 3.12 : Το ηχητικό σήμα στην αρχική του μορφή (αριστερά) και μετά την εφαρμογή της συνάρτησης της αυτοσυσχέτισης (δεξιά) Εικόνα 3.13: Κυματομορφή ηχητικού αποσπάσματος από κιθάρα. Τα πραγματικά onsets είναι σημειωμένα με διακεκομμένες κάθετες γραμμές. Εικόνα 3.14 : Τα στάδια της συνάρτησης εκτίμησης των onsets [30] Εικόνα 3.15 : Φωνητικό σήμα (πάνω) και η ενέργεια του (κάτω) Εικόνα 3.16 : Το ηχητικό σήμα (α) και οι τρείς συναρτήσεις ανίχνευσης onset. Φασική Προσέγγιση (b), Ενεργειακή Προσέγγιση (c), Συνδυασμός Ενεργειακής και Φασικής Προσέγγισης (d) [60] Εικόνα 3.17 : Δυναμικό κατώφλι median (διακεκομμένη γραμμή) εφαρμοσμένο στη συνδυαστική συνάρτηση (Ενέργειας και Φάσης) εκτίμησης onset [60] Εικόνα 3.18 : Silenced frame ενός ηχητικού αποσπάσματος Εικόνα 4.1 : Παρτιτούρα και ταμπλατούρα πολυφωνικής μελωδίας Εικόνα 4.2 : Τα στάδια της πολυφωνικής μεταγραφής Εικόνα 4.3 : Διάγραμμα συχνότητας – χρόνου μιας απλής ηχητικής σκηνής [70] Εικόνα 4.4 : Η αποσύνθεση του πίνακα της σκηνής της εικόνας 4.3 σε γινόμενο των πινάκων H (αριστερά) και W (δεξιά) [70] Εικόνα 4.5 : Η μονοφωνική μελωδία “Mary had a little Lamb” [75] Εικόνα 4.6 : Το φασματογράφημα (V) της μελωδίας της εικόνας 4.5 και η αποσύνθεση του μέσω του NMF στους πίνακες W και Η [75] Εικόνα 4.7 : Φασματογράφημα νοτών C4(261.1 Hz) και G4(392 Hz) στη κιθάρα [76] Εικόνα 4.8 : Τα διανύσματα βάσης του πίνακα W [76] Εικόνα 4.9 : Οι πληροφορίες ενεργοποίησης των νοτών C4 και G4 στον πίνακα H [76] Εικόνα 4.10 : Φασματογράφημα του Μετασχηματισμού Fourier (πάνω) και του μετασχηματισμού Constant Q (κάτω) στην πολυφωνική εισαγωγή του μουσικού κομματιού “Smoke on the Water” Εικόνα 4.11 : Οι στήλες του πίνακα W περιέχουν ιδανικά τις θεμελιώδεις συχνότητες της μουσικής σύνθεσης [70] Εικόνα 4.12 : Οι γραμμές του πίνακα H σηματοδοτούν τα χρονικά διαστήματα που τα ηχητικα γεγονότα είναι ενεργά. [70]
  • 10.
    8 Εικόνα 4.13 :Αρχιτεκτονική Συστήματος πολυφωνικής μεταγραφής με τη μέθοδο Sparse ΝΜF και “εκπαίδευση” του πίνακα W. Εικόνα 5.1 : Κατάτμηση του ηχητικού σήματος σε επιμέρους τμήματα (frames) Εικόνα 5.2 : Στιγμιότυπο ενός frame Εικόνα 5.3 : Εφαρμογή της συνάρτηση της αυτοσυσχέτισης στο frame Εικόνα 5.4 : Απαλοιφή του αριστερού συμμετρικού τμήματος της αυτοσυσχέτισης Εικόνα 5.5 : To frame της εικόνας 5.4 χωρίς τις αρνητικές συνιστώσες και η ανίχνευση του pitch (πράσινος κύκλος) Εικόνα 5.6 : Η παράγωγος της ενέργειας του σήματος (μπλε) και το δυναμικό κατώφλι median (κόκκινη γραμμή) Εικόνα 5.7 : Η συνάρτηση ανίχνευσης onset Spectral Flux (μπλε) και το δυναμικό κατώφλι median (κόκκινη γραμμή) Εικόνα 5.8 : Τα αποτελέσματα των συναρτήσεων ανίχνευσης onset μετά το pick picking. Ενεργειακή προσέγγιση (πάνω) και Spectral Flux (κάτω) . Εικόνα 5.9 : Η ενέργεια του σήματος (μπλε), το δυναμικό κατώφλι median (μωβ γραμμή) και τα εκτιμώμενα silenced frames Εικόνα 5.10 : O τελικός πίνακας σύμφωνα με τον οποίο κατασκευάζεται το midi Εικόνα 5.11 : Αναπαράσταση ευθυγραμισμένων πινάκων μετα την εφαρμογή της συνάρτηση αυτοσυσχέτισης xcorr() Εικόνα 5.12: Σύνολο μεταβλητών για τον προσδιορισμό των μετρητών recall και precision [86] Εικόνα 5.13 : O πίνακας V σε λογαριθμική συχνότητα της συνάρτησης logfsgram() Εικόνα 5.14 : O πίνακας ΜΧ σε λογαριθμική συχνότητα της συνάρτησης logfsgram() Εικόνα 5.15 : O “εκπαιδευμένος” πίνακας W που αποτελεί τη βάση 49 νοτών 6 αρμονικών τους (χειροκίνητη υλοποίηση) Εικόνα 5.16 : O “εκπαιδευμένος” πίνακας W που αποτελεί τη βάση 45 νοτών 6 αρμονικών τους (ηχογραφημένες νότες κιθάρας) Εικόνα 5.17 : O πίνακας Η μετά τη σύγκλιση του μέσω του Sparse NMF & Temporal Continuity Εικόνα 5.18 : Ο Πίνακας Η μετά από (α) την επαναληπτική διαδικασία του NMF , (β) την εφαρμογή του δυναμικού κατωφλίου median κατά στήλη και (γ) την εφαρμογή του κατωφλίου βάσει το μέγιστο (max) του πίνακα Εικόνα 5.19 : Ο πίνακας Η μετά την εξαγωγή των τοπικών μεγίστων (αριστερά) και μετά την αντικατάσταση των μη-μηδενικών στοιχείων με την τιμή ένα (1) (δεξιά) Εικόνα 5.20 : Επιβεβαίωση ευθυγράμμισης δύο δυσδιάστατων πινάκων μέσω της συνάρτησης αυτοσυσχέτισης xcorr2()
  • 11.
    9 ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ Πίνακας 2.1: Οι θεμελιώδεις συχνότητες των νοτών σε όλες τις οκτάβες [21] Πίνακας 5.1 : Μετρήσεις ακρίβειας δειγμάτων με μέθοδο ανίχνευσης onset την προσέγγιση Spectral Flux Πίνακας 5.2 : Μετρήσεις ακρίβειας δειγμάτων με μέθοδο ανίχνευσης onset την Ενεργειακή προσέγγιση Πίνακας 5.3 : Μετρήσεις ακρίβειας δειγμάτων για τις διάφορες εφαρμογές ΝΜF και ελάχιστη διάρκεια νότας 0.05 sec
  • 12.
    10 1. Εισαγωγή Σε αυτήτην ενότητα παρουσιάζεται ο στόχος της εργασίας καθώς επίσης η δομή και οι θεματικές ενότητες από τις οποίες αποτελείται, ώστε να αποκτήσει ο αναγνώστης μια εικόνα του περιεχομένου που ακολουθεί. 1.1 Παρουσίαση θέματος και Στόχοι Η μουσική κατείχε ανέκαθεν σπουδαία θέση στη ζωή του ανθρώπου και με το πέρασμα των δεκαετιών η μελέτη της εξετάστηκε από διάφορους τομείς που εκτείνονται από τη φιλοσοφία έως την επεξεργασία σημάτων. Η προτυποποίηση των δεδομένων μουσικής οδήγησε στην δημιουργία ενός νέου τομέα έρευνας, αυτού της ανάκτησης μουσικών πληροφοριών και ειδικότερα, της ανάπτυξης μεθόδων για την οργάνωση και ανάλυση του ταχέως επεκτεινόμενου μουσικού σύμπαντος. Μια τέτοια μέθοδος μελετάται στην παρούσα διπλωματική εργασία και πιο συγκεκριμένα, η αυτόματη μεταγραφή ενός μονοφωνικού αρχικά και ενός πολυφωνικού, στη συνέχεια, μουσικού σήματος. Η ικανότητα να παράγουμε την ακριβή μεταγραφή μιας μουσικής ακολουθίας έχει πολυάριθμες πρακτικές εφαρμογές στο χώρο της ψηφιακής επεξεργασίας σήματος αλλά και στη μουσικολογία. Για παράδειγμα, ένα μετεγγραμμένο μουσικό απόσπασμα μπορεί να χρησιμοποιηθεί για να προσδιοριστούν πολλαπλές εμφανίσεις του μέσα σε μια ηχητική βάση δεδομένων. Στόχος της αυτόματης μεταγραφής μουσικής είναι η εξαγωγή από ένα ηχητικό σήμα, μιας αναπαράστασης ικανής να διαβαστεί και να ερμηνευτεί από τον άνθρωπο (π.χ παρτιτούρα). Για να είναι δυνατόν να εξαχθεί μια τέτοια αναπαράσταση είναι απαραίτητο να εκτιμηθούν τα ύψη (pitch), η αρχή (onset), η διάρκεια των νοτών και η τονικότητα του σήματος προς επεξεργασία. Θα μπορούσαμε να πούμε ότι η μεταγραφή της μουσικής περιλαμβάνει δύο στάδια: α) τη μετατροπή του ηχητικού σήματος σε απεικόνιση piano roll (βλ. εικόνα 1.1) έχοντας προσδιορίσει τα παραπάνω χαρακτηριστικά των μουσικών νοτών και β) τη μεταφορά του piano roll σε μουσική απεικόνιση, όπως το πεντάγραμμο.
  • 13.
    11 Εικόνα 1.1: Κυματομορφήηχητικού σήματος (πάνω) και η συμβολική του μορφή-piano roll (κάτω) [1] Η διαδικασία της μεταγραφής, για κάποιον που δεν κατέχει γνώσεις και εμπειρία στο χώρο της μουσικής, μπορεί να είναι δύσκολη έως και αδύνατη. Ακόμη και για έναν επαγγελματία μουσικό, η μεταγραφή μιας πολυφωνικής μελωδίας μπορεί μεν να έχει σχετικά ακριβή αποτελέσματα, είναι δε μία χρονοβόρα και επίπονη διαδικασία. Για ένα αυτοματοποιημένο σύστημα που δεν “κατέχει” μουσικές γνώσεις, η διαδικασία της αναγνώρισης πολλαπλών ταυτόχρονων συμβάντων έχει αποδειχθεί ιδιαίτερα απαιτητική εξαιτίας της πλοκής (υπέρθεσης) των νοτών με τις διάφορες αρμονικές που απλώνονται στο σήμα. Ενώ το φασματογράφημα μιας νότας έπειτα από το μετασχηματισμό Fourier αποτελείται από την θεμελιώδη συχνότητα fo και τις αρμονικές της, το αντίστοιχο διάγραμμα μίας πολύπλοκης σύνθεσης μπορεί να περιέχει πολλές νότες που επικαλύπτονται στο χρόνο. Στην εικόνα 1.2 παρουσιάζονται δύο τέτοια φασματογραφήματα, όπου στη περίπτωση της συγχορδίας είναι σαφώς πιο δύσκολο να διαχωρίσουμε τις θεμελιώδεις συχνότητες από τις αρμονικές. Εικόνα 1.2 : Φασματογράφημα δύο μεμονωμένων διαδοχικών νοτών (αριστερά) και μιας συγχορδίας (δεξιά) [2][3]
  • 14.
    12 Σκοπός αυτής τηςεργασίας είναι ο σχεδιασμός αυτής της διαδικασίας, καθώς επίσης και η εξαγωγή συμπερασμάτων από την πειραματική παρατήρηση, για μελλοντικές βελτιώσεις. Η αυτόματη μεταγραφή μουσικής από την πλευρά της μονοφωνίας θεωρείται ένα πρόβλημα που έχει λυθεί όπως θα γίνει αντιληπτό στη συνέχεια, καθώς τα αποτελέσματα στις μετρήσεις ακρίβειας είναι πολύ ικανοποιητικά. Από την άλλη πλευρά, στο κομμάτι της πολυφωνίας, η μεταγραφή ενός ηχητικού σήματος δεν βρίσκεται στο ίδιο στάδιο, μιας και το θεμελιώδες πρόβλημα της αυτόματης μεταγραφής είναι η αναγνώριση ταυτόχρονων μουσικών τόνων (multi-pitch detection). Εικόνα 1.3: Πολυφωνική μεταγραφή μουσικού κομματιού [4] Η υλοποίηση του αλγόριθμου και για τα δύο είδη μεταγραφής πραγματοποιήθηκε σε ΜΑΤLΑB (Matrix Laboratory), δηλαδή σε μια γλώσσα υψηλού επιπέδου και ένα περιβάλλον που αποτελεί το πλέον ιδανικό εργαλείο για ζητήματα ψηφιακής επεξεργασίας σήματος. Από το παραπάνω λογισμικό περιλαμβάνονται οπτικά αποτελέσματα σε διαφορά εδάφια της εργασίας με στόχο την σαφέστερη αντίληψη του θέματος που εξετάζεται. Στο παράρτημα της εργασίας, θα βρείτε το λογισμικό που αναπτύχθηκε σε περιβάλλον MATLAB.
  • 15.
    13 1.2 Δομή τηςΔιπλωματικής Κεφάλαιο 2: Σε αυτή την ενότητα γίνεται μια αναφορά στα βασικά στοιχεία της θεωρίας της Μουσικής και ορίζονται μερικές έννοιες απαραίτητες για τη συνέχεια. Έπειτα, περιγράφεται ο κλάδος της Ψηφιακής Επεξεργασίας Σήματος και γίνεται η σύνδεση με την διαδικασία της μεταγραφής, ενώ στο τέλος του κεφαλαίου απαριθμούνται διάφορες πρακτικές εφαρμογές της μουσικής μεταγραφής. Κεφάλαιο 3: Το κεφάλαιο αυτό είναι αφιερωμένο στη μονοφωνική μεταγραφή και στις μεθόδους που εφαρμόζονται. Ιδιαίτερη έμφαση δίνεται στην ανίχνευση των οnsets και στις πιθανές αστοχίες που μπορεί να εμφανίσουν οι τεχνικές. Κεφάλαιο 4: Εδώ μελετάται η πολυφωνική μεταγραφή ενός ηχητικού σήματος αφού γίνει πρώτα μια σύντομη εισαγωγή στην παραγοντοποίηση μη-αρνητικών πινάκων. Βασιζόμενοι σε αυτή τη μέθοδο εξετάζουμε εναλλακτικές τεχνικές με στόχο την βελτίωση του αποτελέσματος. Κεφάλαιο 5: Περιλαμβάνει τις υλοποιήσεις τόσο της μονοφωνικής όσο και της πολυφωνικής μεταγραφής αναλύοντας τα στάδια επεξεργασίας που υπόκειται κάθε φορά το σήμα. Επίσης πραγματοποιούνται μετρήσεις ακρίβειας για συγκεκριμένα μουσικά δείγματα συγκρίνοντας έτσι την αποδοτικότητα των μεθόδων που αναπτύχθηκαν. Κεφάλαιο 6: Στην τελευταία αυτή ενότητα εξάγονται συμπεράσματα σύμφωνα με τα αποτελέσματα και προτείνονται μελλοντικές κατευθύνσεις προς μελέτη. Κλείνοντας, στο παράρτημα περιλαμβάνεται ο κώδικας που αφορά και τα δύο είδη μεταγραφών.
  • 16.
    14 2. Θεωρητικό υπόβαθρο 2.1Θεωρία της Μουσικής Tί είναι η μουσική; Ως μουσική ορίζεται η τέχνη που βασίζεται στην οργάνωση ήχων με σκοπό τη σύνθεση, εκτέλεση και ακρόαση/λήψη ενός μουσικού έργου. Με τον όρο εννοείται επίσης και το σύνολο ήχων από το οποίο απαρτίζεται ένα μουσικό κομμάτι. [5] Θεμελιώδη στοιχεία της μουσικής Tα βασικά στοιχεία τα οποία χαρακτηρίζουν τη μουσική είναι η μελωδία, ο ρυθμός, η αρμονία, η ρυθμική αγωγή και η δυναμική. [6] Η μελωδία είναι μία διαδοχή φθόγγων με διαφορετικό ύψος και διαφορετική συνήθως αξία που εκφράζουν ένα μουσικό νόημα. Ρυθμός είναι η προσπάθεια οργάνωσης του χρόνου σε μια μουσική σύνθεση, ενώ η ρυθμική αγωγή ή αλλιώς tempo είναι η ταχύτητα εκτέλεσης ενός μουσικού κομματιού. Με τον όρο αρμονία αναφερόμαστε στο φαινόμενο που προσδίδει βάθος στην κίνηση της μελωδίας και περιγράφει σε κάθετο επίπεδο ταυτόχρονα μουσικά συμβάντα. Τέλος, η δυναμική καθορίζει το πόσο ηχηρά ή απαλά εκτελείται μία ή περισσότερες νότες. Πεντάγραμμο και Νότες Σαν πρώτο ξεκίνημα, θα πρέπει να αναφερθούμε σε μερικούς ορισμούς. Υπάρχουν πολλών ειδών μουσικά σύμβολα στην παγκόσμια μουσική σημειογραφία, που ποικίλουν ανάλογα με το είδος της μουσικής ή τη γεωγραφική περιοχή (π.χ. αραβική, βυζαντινή παρασημαντική, αρχαία αγκιστροειδής κ.λ.π.). Διεθνώς όμως, σαν πρότυπο, έχει επικρατήσει η Ευρωπαϊκή σημειογραφία που μας ενδιαφέρει εδώ άμεσα. Η πλατφόρμα της Ευρωπαϊκής μουσικής σημειογραφίας ονομάζεται πεντάγραμμο και αποτελείται από πέντε (5) παράλληλες, οριζόντιες, ευθείες γραμμές, που ισαπέχουν και αποτελούν τη βάση όπου τοποθετούνται τα μουσικά σύμβολα.
  • 17.
    15 Οι ήχοι πουαντιστοιχούν σε συχνότητες του ακουστικού αλλά και ωφέλιμου, για τη μουσική, φάσματος (frequency range) ονομάζονται νότες ή φθογγόσημα και τοποθετούνται στις 5 γραμμές ή στα 4 διαστήματα του πεντάγραμμου, ακόμα και στις βοηθητικές γραμμές πάνω ή κάτω από αυτό. Εικόνα 2.1 : Το μουσικό πεντάγραμμο και οι θέσεις των νοτών σε αυτό [7] Για την ονοματολογία των νοτών, στην Ελλάδα, χρησιμοποιείται το Ιταλικό σύστημα, ενώ στις υπόλοιπες Ευρωπαϊκές χώρες το Σαξονικό και Γερμανικό. Έτσι, οι νότες για το Ιταλικό σύστημα είναι: Ντο, ρε, μι, φα, σολ, λα, σι. Για το Σαξονικό σύστημα, οι αντίστοιχες νότες συμβολίζονται: C, D, E, F, G, A, B. [8] H διαδοχική σειρά των φθογγόσημων από τον χαμηλότερο ήχο στον υψηλότερο καλείται σκάλα ή κλίμακα. Εικόνα 2.2: Η φυσική κλίμακα Ντο [8] Η ηχητική απόσταση ανάμεσα στον πρώτο και τον τελευταίο ήχο/νότα μιας οκτάφθογγης κλίμακας ονομάζεται Οκτάβα. Δεδομένου ότι κάθε σκάλα παίρνει το όνομά της από την πρώτη (και τελευταία) νότα, στη φυσική σκάλα του Ντο διακρίνουμε τις αποστάσεις, που καλούνται διαστήματα, μεταξύ 1ης-2ης, 2ης-3ης, 4ης-5ης, 5ης-6ης, 6ης-7ης και τα ονομάζουμε τόνους, ενώ τα διαστήματα μεταξύ 3ης-4ης και 7ης-8ης ονομάζουμε ημιτόνια. Έτσι για παράδειγμα, οι νότες ντο-ρε σχηματίζουν μια διατονική απόσταση δευτέρας, ενώ οι νότες σι-ντο σχηματίζουν μια ημιτονιακή ή χρωματική απόσταση δευτέρας. [9]
  • 18.
    16 Σημεία αλλοιώσεως ονομάζονταιτα σημεία που χρησιμοποιούμε για να οξύνουμε ή να βαρύνουμε ένα μουσικό φθόγγο. Τα κυριότερα από αυτά είναι τρία: Η δίεση (#) η οποία υψώνει μια νότα κατά ένα ημιτόνιο Η ύφεση (b) η οποία χαμηλώνει μια νότα κατά ένα ημιτόνιο Η αναίρεση η οποία καταργεί μια προηγούμενη αλλοίωση ( # ή b) Εικόνα 2.3 : Η οκτάβα και τα σημεία αλλοιώσεως στο πιάνο [10] 2.2 Ψηφιακή Επεξεργασία Σήματος Η ψηφιακή επεξεργασία σήματος (Digital signal processing ή DSP) ασχολείται με την αναπαράσταση σημάτων διακριτού χρόνου ως ακολουθιών αριθμών ή συμβόλων, καθώς και με την επεξεργασία των σημάτων αυτών. Κάποιες εφαρμογές της ψηφιακής επεξεργασίας σήματος είναι: η επεξεργασία ήχου, η αναγνώριση φωνής, η επεξεργασία σημάτων από σόναρ, ραντάρ και συστοιχίες αισθητήρων, η εκτίμηση φάσματος, η στατιστική επεξεργασία σήματος, η ψηφιακή επεξεργασία εικόνας, η επεξεργασία σήματος στις τηλεπικοινωνίες, ο έλεγχος συστημάτων, η επεξεργασία βιοϊατρικών σημάτων και η επεξεργασία σεισμικών δεδομένων.
  • 19.
    17 Εικόνα 2.4 :Μετατροπή αναλογικού σήματος σε ψηφιακό [11] Ο σκοπός της ψηφιακής επεξεργασίας σήματος συνήθως είναι η μέτρηση, το φιλτράρισμα ή η συμπίεση συνεχόμενων αναλογικών φυσικών σημάτων. Το πρώτο βήμα συνήθως είναι η μετατροπή του σήματος από αναλογικό σε ψηφιακό, μέσω δειγματοληψίας και κβαντισμού του σήματος με τη βοήθεια ενός μετατροπέα αναλογικού σήματος σε ψηφιακό (ADC), ο οποίος μετασχηματίζει το αναλογικό σήμα σε μια ακολουθία από αριθμούς. Η ανακατασκευή του σήματος σε αναλογικό ακολουθεί την αντίστροφη διαδικασία.[12] 2.2.1 Δειγματοληψία – Θεώρημα Νyquist – Κβαντισμός Δειγματοληψία είναι η καταγραφή της τιμής του σήματος ανά τακτά χρονικά διαστήματα Τs. Ως Τs ορίζεται η περίοδος δειγματοληψίας. Το διακριτό σήμα που προκύπτει μετά τη δειγματοληψία είναι της μορφής: S[n] = S(nTs) , n ακέραιος (2.1) Η συχνότητα δειγματοληψίας ή ρυθμός δειγματοληψίας μετριέται στην μονάδα μέτρησης Hertz (Hz) και μας δείχνει πόσα δείγματα έχουν ληφθεί από τον δειγματολήπτη σε διάρκεια ενός δευτερολέπτου. Η συχνότητα δειγματοληψίας συνδέεται με την περίοδο με τη βοήθεια της ακόλουθης σχέσης: Fs =1/Ts Θεώρημα Nyquist Ένα αναλογικό σήμα xa(t) με περιορισμένο φάσμα εύρους (<Fo) μπορεί να ανακατασκευαστεί ακριβώς από τα δείγματά του x(n)=xa(nTs) εάν η συχνότητα δειγματοληψίας Fs είναι διπλάσια του εύρους Fo. (Fs>2Fo) Σε κάθε άλλη περίπτωση υπάρχει αλλοίωση του φάσματος (aliasing) και το αρχικό αναλογικό σήμα δεν μπορεί να ανακατασκευασθεί μετά τη δειγματοληψία. Στην εικόνα 2.5 απεικονίζεται η δειγματοληψία ενός αναλογικού σήματος.
  • 20.
    18 Εικόνα 2.5 :Αναπαράσταση δειγματοληψίας σήματος. Το συνεχές σήμα αναπαρίσταται από την πράσινη γραμμή ενώ τα διακριτά δείγματα (αποτέλεσμα δειγματοληψίας) με το μπλε χρώμα [13] Κβαντισμός είναι η διαδικασία κατά την οποία οι διαδοχικές τιμές της στάθμης (πλάτους) του σήματος διακριτού χρόνου Sd(nTs) που προκύπτει κατά την δειγματοληψία μετατρέπονται σε διακριτές (ψηφιακές) τιμές. Πραγματοποιείται δηλαδή μια απεικόνιση της μορφής S(nTs) = Q[Sd(nTs)], όπου Q[Sd(nTs)] είναι η κβαντισμένη τιμή στάθμης του σήματος. Το τελικό σήμα είναι πλέον διακριτό τόσο ως προς το χρόνο, όσο και ως προς το πλάτος και καλείται ψηφιακό S(nTs). Η παρακάτω εικόνα αναπαριστά τον κβαντισμό ενός ημιτονικού σήματος. Εικόνα 2.6: Αναπαράσταση κβαντισμού(4-bit / 16 στάθμες) ενός αναλογικού σήματος (κόκκινη γραμμή) [14]
  • 21.
    19 2.2.2 Φάσμα καιΜετασχηματισμός Fourier Ως φάσμα ορίζεται το σύνολο των συχνοτήτων όλων των ημιτονικών σημάτων με συγκεκριμένα πλάτη και φάσεις που πρέπει να προστεθούν ώστε να δώσουν το αρχικό σήμα. Ο λόγος που ορίστηκε η έννοια του φάσματος είναι για γίνει ευκολότερος ο τρόπος υπολογισμού κι απεικόνισης της συμπεριφοράς ενός συστήματος. Σκοπός ήταν να μπορεί να αναλυθεί οποιοδήποτε σήμα σε ένα σύνολο από ημιτονικά σήματα, ένα συνεχές σήμα το οποίο μπορεί να διατηρεί τη μορφή του σε παραγωγίσεις και ολοκληρώσεις Η ανάλυση του σήματος κατά αυτόν τον τρόπο ονομάζεται ανάλυση Fourier. Η ανάλυση Fourier αποτελείται από ένα σύνολο μαθηματικών τεχνικών, με τις οποίες αναλύουμε ένα σήμα σε άθροισμα ημιτόνων και συνημιτόνων. Με την εφαρμογή της μπορούμε να μελετήσουμε ποιες συχνότητες εμφανίζονται στο σήμα, και κατά πόσο επηρεάζεται το σήμα από κάθε φασματική συνιστώσα. Ο μαθηματικός μετασχηματισμός για τον υπολογισμό της ανάλυσης Φουριέ, ονομάζεται μετασχηματισμός Fourier (Fourier Transform), και δίνεται από τη σχέση: 𝑿(𝝎) = ∫ 𝒙(𝒕)𝒆−𝒋𝝎𝒕 ∞ −∞ 𝒅𝒕 (𝟐. 𝟐) ενώ ο αντίστροφος μετασχηματισμός είναι: 𝒙(𝒕) = ∫ 𝑿(𝝎)𝒆−𝒋𝝎𝒕 ∞ −∞ 𝒅𝝎 (𝟐. 𝟑) όπου x(t) η συνάρτηση του σήματος στο χρόνο και X(ω) η αντίστοιχη συνάρτηση στη συχνότητα [14]. Μετά την εφαρμογή του, το σήμα μετατρέπεται από το πεδίο του χρόνου, στο πεδίο της συχνότητας . Ο μετασχηματισμός αυτός μπορεί να εφαρμοστεί μόνο σε αναλογικά σήματα, ενώ για τα διακρικά σήματα χρειαζόμαστε μια παραλλαγή του, τον Διακριτό Μετασχηματισμό Fourier (Discrete Fourier Transform - DFT). STFT (Short Time Fourier Transform) Ο μετασχηματισμός Fourier δεν εφαρμόζεται στην περίπτωση που η συχνότητα του σήματος είναι συνάρτηση του χρόνου, καθώς η πληροφορία που μας δίνει είναι για την ύπαρξη μιας
  • 22.
    20 συγκεκριμένης συχνότητας, κιόχι για τις χρονικές στιγμές στις οποίες εμφανίζεται. Αυτό μπορεί να γίνει εφικτό τμηματοποιώντας χρονικά το σήμα με τη χρήση μικρών διαδοχικών ή επικαλυπτόμενων παραθύρων, στα οποία θεωρούμε ότι το συχνοτικό περιεχόμενο του σήματος παραμένει σταθερό. Σε καθένα από τα μικρά χρονικά τμήματα, μπορεί να θεωρηθεί ότι το σήμα είναι στάσιμο, και στη συνέχεια να εφαρμοστεί ο Μετασχηματισμός Fourier σε αυτό. Η τεχνική αυτή ονομάζεται Μετασχηματισμός Fourier Βραχέος Χρόνου (STFT) και περιγράφεται από τον παρακάτω τύπο: 𝑺𝑻𝑭𝑻 {𝒙(𝒕)} = ∫ 𝒙(𝒖)𝒘(𝒖 − 𝒕)𝒆−𝒋𝝎𝒖 ∞ −∞ 𝒅𝒖 (𝟐. 𝟒) όπου w(t) είναι μια συνάρτηση παραθύρου. Πιθανές επιλογές είναι το παράθυρο Hamming, Hanning, Blackman κτλ, που το καθένα από αυτά έχει διαφορετικές ιδιότητες όσον αφορά την εξομάλυνση λανθασμένων αρμονικών υψηλών συχνοτήτων που προκαλεί η απότομη αποκοπή ενός τμήματος από το αρχικό σήμα. Το πλάτος του STFT, το οποίο ονομάζεται και φασματόγραμμα (spectrogram) του σήματος , ισούται με: 𝑺(𝒕, 𝝎) = | ∫ 𝒙(𝒖)𝒘(𝒖 − 𝒕)𝒆−𝒋𝝎𝒖 ∞ −∞ 𝒅𝒖| 𝟐 (𝟐. 𝟓) και εκφράζει την πυκνότητα ενέργειας του φάσματος ενός τμήματος του σήματος x(u), στο οποίο έχει εφαρμοστεί το παράθυρο w(t) []. Η χρονική ακρίβεια βελτιώνεται με την ελαχιστοποίηση του μήκος του παραθύρου εις βάρος της συχνοτικής ακρίβειας, και το αντίστροφο. Εάν το παράθυρο έχει άπειρο μήκος, τότε το φασματογράφημα που προκύπτει έχει τέλεια συχνοτική, αλλά μηδενική χρονική ακρίβεια. Εάν το παράθυρο έχει μικρό μήκος, τότε το φασματογράφημα θα έχει τέλεια χρονική ακρίβεια, αλλά ελάχιστη συχνοτική ακρίβεια.
  • 23.
    21 2.3 Μουσική καιΨηφιακή Επεξεργασία ήχου Η μουσική αποτελεί ένα αναπόσπαστο κομμάτι της ζωής του ανθρώπου. Ήχοι και μουσική είναι ενσωματωμένα σχεδόν σε κάθε πτυχή της ζωής, από την επικοινωνία και την καλλιτεχνική έκφραση, μέχρι την κοινωνική και πολιτιστική ταυτότητα ενός λαού. Η μουσική όχι μόνο διαμορφώνει την καθημερινότητα, αλλά πολλές φορές της δίνει μία νέα μορφή με αποτέλεσμα την εξέλιξη και πιθανόν την ποιοτική βελτίωση της [16]. Ήδη από την αρχαιότητα και κατά τη διάρκεια των αιώνων μπορούμε να παρατηρήσουμε την άρρηκτη σύνδεση της μουσικής με τα μαθηματικά και την τεχνολογία. Ενδεικτικά, πρώτος ο Πυθαγόρας, μελετώντας το αρχαίο όργανο μονόχορδο, πέτυχε το χωρισμό και καθορισμό των μουσικών διαστημάτων εφευρίσκοντας έτσι την Πυθαγόρεια κλίμακα. Ο Mozart έγραψε καινοτόμες για την εποχή του συνθέσεις με το προσφάτως σχεδιασμένο πιάνο, ενώ οι Beatles άλλαξαν τελείως το πρόσωπο της δημοφιλούς μουσικής πρωτοπορώντας με την μοντέρνα τεχνική ηχογράφησης [17]. Σήμερα, εξαιτίας της ραγδαίας εξέλιξης της τεχνολογίας και σε συνδυασμό με την απεριόριστη υπολογιστική ισχύ και συνδεσιμότητα, έχουν αναπτυχθεί διάφοροι επιστημονικοί κλάδοι που βασίζονται στην ψηφιακή επεξεργασία του ήχου και κατ’ επέκταση διεισδύουν στο χώρο της μουσικής. Ένας τέτοιος κλάδος είναι και η Ανάκτηση Μουσικής Πληροφορίας (Music Information Retrieval – MIR). Ο παραπάνω κλάδος αποτελεί ένα μικρό αλλά αναπτυσσόμενο πεδίο της επιστήμης, που ασχολείται με την εξαγωγή πληροφοριών από ένα μουσικό απόσπασμα ή ακόμη και από μια μεγάλη βάση ηχητικών δεδομένων [18]. Μερικές εφαρμογές του ΜΙR είναι: o Συστήματα συστάσεων (Recommendation systems) o Διαχωρισμός μουσικού κομματιού και ηχητικών πηγών (Track separation and instrument recognition) o Αυτόματη Κατηγοριοποίηση (Automatic categorization) o Αναγνώριση γένους μουσικής (Music genre recognition) o Αυτόματη μεταγραφή μουσικής (Automatic music transcription)
  • 24.
    22 2.3.1 Βασικά ΧαρακτηριστικάΨηφιακού ήχου Η αυτόματη μεταγραφή μουσικής που αποτελεί το κεντρικό θέμα της εργασίας έχει ως αντικείμενο επεξεργασίας τον ψηφιακό ήχου. Γι’ αυτό το λόγο είναι απαραίτητο να προσδιοριστούν τα θεμελιώδη χαρακτηριστικά του . Α) Ύψος (pitch) : Η θέση μιας συχνότητας στο ακουστικό/ηχητικό φάσμα Το τονικό ύψος καθορίζει αυτό που ονομάζουμε "ψηλό" ή "βαθύ" ήχο. Το ύψος ενός ήχου που αντιλαμβανόμαστε είναι η απόκριση του αυτιού μας στη συχνότητα. Συχνά όμως για πρακτικούς λογούς συχνά ταυτίζουμε το ύψος με τη συχνότητα (Hz). Το ύψος συνδέεται άμεσα µε την συχνότητα ενός ήχου, αλλά όχι γραμμικά. Αυτό σημαίνει ότι μπορεί η συχνότητα ενός ήχου να αυξάνεται, αλλά το ύψος του ήχου, δηλαδή η συχνότητα που αντιλαμβάνονται τα αυτιά μας, να µην αυξάνεται εξίσου [19]. Β) Ένταση (loudness): To πόσο «δυνατό» χαρακτηρίζουμε έναν ήχο Η ένταση ενός ήχου, εξαρτάται από το πλάτος του, δηλαδή από τις μεταβολές που έχει η πίεση μέσα σε ένα ηχητικό κύμα. Είναι ένα καθαρά αντικειμενικό μέγεθος, το οποίο μπορεί να μετρηθεί µε κατάλληλα μηχανήματα, όπως είναι ο παλμογράφος ή το ηχόμετρο. Η ένταση µετριέται σε dB ή αλλιώς decibel και πήρε την ονομασία της χάρις στον Alexander Graham Bell. Θεωρούμε ως ήχο αναφοράς 0 dB, ένα ήχο που βρίσκεται στο κατώφλι της ακοής. Αν έχουμε έναν ήχο 10 dB, τότε αυτός θα είναι 10 φορές μεγαλύτερος από τον ήχο αναφοράς, αν έχουμε έναν ήχο 20 dB, τότε αυτός θα είναι 100 φορές μεγαλύτερος από τον ήχο αναφοράς κ.ο.κ. Γ) Χροιά (timbre): Το «χρώμα» ενός ήχου Η χροιά ενός ήχου, είναι ένα υποκειμενικό χαρακτηριστικό, που συσχετίζεται µε τον τρόπο που αντιλαμβανόμαστε τους σύνθετους ήχους. Είναι το βασικό εργαλείο για να μπορούμε να ξεχωρίζουμε τους ήχους μεταξύ τους, το ένα όργανο από το άλλο, και καθορίζεται από το πλήθος και την σχετική ένταση που έχουν οι αρμονικές συχνότητες μεταξύ τους. Στην εικόνα 2.7 μπορούμε να διακρίνουμε την διαφορετική χροιά των ηχητικών πηγών τόσο από την κυματομορφή τους όσο και από το αντίστοιχο φασματογράφημα τους. Το αντικειμενικό χαρακτηριστικό µε το οποίο θα μπορούσαμε να αντιστοιχίσουμε την χροιά, είναι το φάσμα. Δ) Διάρκεια (duration): Η χρονική διάρκεια για την οποία ένας ήχος είναι αντιληπτός.
  • 25.
    23 Εικόνα 2.7 :Η κυματομορφή (αριστερά) και το φασματογράφημα (δεξιά) ενός “καθαρού” ημιτόνου, μιας νότας βιολιού και μιας νότας πιάνου, “μαρτυρούν” τη διαφορετική χροιά του καθενός [20] Ε] Θεμελιώδης συχνότητα Η εκτίμηση της θεμελιώδους συχνότητας f0 (fundamental frequency estimation) γνωστή και ως εξαγωγή του ύψους (pitch extraction) είναι το κύριο και πρώτο στάδιο που εκτελείται κατά τη διάρκεια της αναγνώρισης μουσικής. Σύμφωνα µε τη μουσική θεωρία, όπως αναφέραμε και σε προηγούμενη ενότητα, το φάσμα των διαφορετικών συχνοτήτων χωρίζεται σε οκτάβες. Η οκτάβα ορίζεται ως η απόσταση ανάδεσα σε διπλάσιες συχνότητες. Η οκτάβα χωρίζεται στη συνέχεια σε 12 ημιτόνια τα οποία έχουν μεταξύ τους σταθερό λόγο απόστασης ίσο µε 21/12 . Οι συχνότητες των ημιτονίων παίρνουν συγκεκριμένες προκαθορισμένες τιμές, οι οποίες δίνονται στον πίνακα. Σε αυτόν φαίνεται ότι οι συχνότητες που επιτρέπεται να έχει μια νότα είναι λογαριθμικά κατανεμημένες. Ως κεντρική νότα αναφέρεται συνήθως η A4 (Λα) στα 440Hz. Συγκεκριμένα αν f0 είναι η συχνότητα νότας αναφοράς, τότε η συχνότητα νότας που απέχει n ημιτόνια από αυτήν είναι: f1 = f0 x an , με α=21/12 (2.6)
  • 26.
    24 Πίνακας 2.1 :Οι θεμελιώδεις συχνότητες των νοτών σε όλες τις οκτάβες [21] Κατά τη διάρκεια της μεταγραφής ενός ηχητικού σήματος είναι σημαντικό να γνωρίζουμε το είδος της ηχητικής πηγής ώστε να μπορούμε όσο είναι δυνατόν να εστιάσουμε σε συγκεκριμένη περιοχή συχνοτήτων. Κάθε όργανο εξαιτίας της φύσης του και της κατασκευής του έχει διαφορετικό εύρος συχνοτήτων που μπορεί να αναπαράγει. Το ίδιο ισχύει και για τη φωνή του ανθρώπου, η οποία έχει συνήθως ένα εύρος 2 -3 οκτάβες ενώ σε εξαιρετικά σπάνιες περιπτώσεις μπορεί να φτάσει τις 4. Εικόνα 2.8 : Το συχνοτικό εύρος της ανθρώπινης φωνής και διάφορων οργάνων
  • 27.
    25 2.4 Μεταγραφή Μουσικής ΙστορικήΑναδρομή Η ιστορία της μεταγραφής πολυφωνικής μουσικής ξεκινάει από τον Moorer [22] στις αρχές τις δεκαετίας του ΄70 και ακολουθούν Piszczalski (1979) και Maher (1989) τη δεκαετία του ΄80. Τα συστήματα που αναπτύχθηκαν περιορίζονταν στην αναγνώριση το πολύ δύο ταυτόχρονων ήχων με περιορισμένο εύρος συχνοτήτων. Από τη δεκαετία του ΄90 και μετά το ενδιαφέρον για την μεταγραφή μουσικής έγινε εντονότερο και δημοσιεύτηκαν αρκετές εργασίες. Σημαντική επιτυχία στην μεταγραφή πολυφωνικής μουσικής έχουν κάποιες δημοσιεύσεις των Goto, Ryynanen και Klapuri. Παρόλα αυτά, ακόμα και τα πιο σύγχρονα συστήματα που υλοποιήθηκαν, δεν μπορούν να ξεπεράσουν τις ικανότητες ενός εκπαιδευμένου μουσικού [24]. Κατά τη διάρκεια των ερευνών έχουν εφαρμοστεί διάφορες μέθοδοι ανάλυσης του ηχητικού σήματος, άλλες στο πεδίο του χρόνου και άλλες στο πεδίο των συχνοτήτων. Η πιο βασική μέθοδος είναι η γνωστή ως Short-Time Fourier Transform (STFT), δηλαδή ο μετασχηματισμός Fourier διαδοχικών τμημάτων του σήματος, τα οποία απομονώνονται από το υπόλοιπο σήμα µε τη βοήθεια μιας συνάρτησης παραθύρου. Επίσης διαδεδομένος είναι και ο μετασχηματισμός Constant-Q, ο οποίος χρησιμοποιεί μεταβλητό μήκος παραθύρου για να επιτύχει σταθερό λόγο συχνότητας προς ακρίβεια ανάλυσης, όπως το ανθρώπινο αυτί. Άλλες μέθοδοι που υπάρχουν είναι η μοντελοποίηση µε χρήση προσαρμοζόμενων φίλτρων, η αυτοσυσχέτιση (autocorrelation) του σήματος, ο αλγόριθμος MUSIC (MUltiple SIgnal Classification), η μέθοδος του Prony, η ανάλυση κυµατιδίων (wavelets), η ανάλυση cepstrum και άλλες. Εφαρμογές Η αυτόματη μεταγραφή ενός ηχητικού σήματος μπορεί να βρεθεί σε πολυάριθμες εφαρμογές κυρίως στο χώρο της μουσικής, αλλά και στην ανάλυση μουσικών δεδομένων. Ενδεικτικά μερικές από αυτές είναι:
  • 28.
    26 • Αναζήτηση μουσικήςπληροφορίας βάσει π.χ. τη μελωδία του κομματιού. • Μουσική ανάλυση. Τα εργαλεία μεταγραφής διευκολύνουν την ανάλυση των μουσικών αυτοσχεδιασμών και τη διαχείριση των μουσικών αρχείων. • Μουσικό ρεμίξ (music remixing). Δίνει τη δυνατότητα να αλλάξει και να αντικαταστήσει κανείς τα όργανα εφαρμόζοντας εφέ σε ορισμένα τμήματα, ή ακόμη και να αφαιρέσει, επιλεκτικά, ορισμένα από αυτά. • Διαδραστικά μουσικά συστήματα(interactice music systems), που παράγουν μια μουσική συνοδεία π.χ. στο μέρος του σόλο ενός καλλιτέχνη, είτε off-line είτε σε πραγματικό χρόνο. • Εξοπλισμός με μουσική συσχέτιση (music-related equipment), όπως συγχρονισμός των εφέ φωτισμού με το αντίστοιχο μουσικό σήμα. • Δομημένη κωδικοποίηση ήχου. Μια MIDI αναπαράσταση είναι εξαιρετικά μικρού μεγέθους, ενώ ταυτόχρονα διατηρεί σε σημαντικό βαθμό την ταυτότητα και τα χαρακτηριστικά του μουσικού κομματιού. Στη δομημένη κωδικοποίηση ήχου, οι παράμετροι της ηχητικής πηγής πρέπει επίσης να κωδικοποιούνται, αλλά το εύρος ζώνης παραμένει περίπου στα 2-3 kbit/s [24] To πρότυπο MIDI Το τελευταίο στάδιο της μεταγραφής της μουσικής, μετά την αναγνώριση δηλαδή των νοτών του μουσικού σήματος που επεξεργαζόμαστε, είναι η κατασκευή ενός αρχείου midi παρέχοντας έτσι ένα ακουστικό αποτέλεσμα. Σε τι αντιστοιχεί όμως το πρότυπο midi ; Το πρότυπο MIDI (Musical Instruments Digital Interface) αφορά την επικοινωνία μεταξύ μουσικών οργάνων/µέσων µε τη χρήση ενός ειδικού ψηφιακού κώδικα. Σύμφωνα µε το πρότυπο MIDI, η ψηφιακή επικοινωνία γίνεται µε τη μετάδοση εντολών, από κάποιο όργανο- πομπό σε κάποιο όργανο-δέκτη, οι οποίες καθορίζουν ένα σύνολο παραμέτρων που σχετίζονται µε την παραγωγή ήχου, την οργάνωση των μουσικών γεγονότων και τον συγχρονισμό των οργάνων [25].
  • 29.
    27 Το πρότυπο MIDIαποτελείται από δύο αλληλένδετα μέρη: α) Το πρωτόκολλο επικοινωνίας (Software): Πρόκειται για τη γλώσσα της MIDI επικοινωνίας (MIDI Language) και περιλαμβάνει το σύνολο των εντολών που αφορούν τη διάρθρωση μιας μουσικής εκτέλεσης. β) Το υλικό μέρος (Hardware): Αυτό αφορά τις ηλεκτρονικές συσκευές (πομπός – δέκτης) που επικοινωνούν και καθορίζει τα τεχνικά τους χαρακτηριστικά, τις εισόδους/εξόδους επικοινωνίας και τα μέσα διασύνδεσης. Το πρωτόκολλο επικοινωνίας είναι αυτό που μας ενδιαφέρει περισσότερο στην παρούσα εργασία και γι’ αυτό το λόγο θα παραλείψουμε την ανάλυση του hardware. MIDI MODES (ΚΑΤΑΣΤΑΣΕΙΣ ΛΕΙΤΟΥΡΓΙΑΣ) Σε κάθε MIDI συσκευή μπορεί να υπάρχουν τέσσερις καταστάσεις λειτουργίας οι οποίες καθορίζουν τον τρόπο που η συσκευή ανταποκρίνεται στην εισερχόμενη πληροφορία, ανάλογα µε την πολυφωνία και πολυχρωµατικότητα που διαθέτει: Omni on: Ο δέκτης ανταποκρίνεται στην πληροφορία που δέχεται ανεξάρτητα από το κανάλι στο οποίο δέχεται την πληροφορία. Omni off: Ο δέκτης ανταποκρίνεται µόνο στην πληροφορία που δέχεται σε κάποιο προκαθορισμένο κανάλι. Poly on: Ο δέκτης ανταποκρίνεται στην πληροφορία πολυφωνικά (ανάλογα µε την πολυφωνία που διαθέτει). Mono on: Ο δέκτης ανταποκρίνεται στην πληροφορία μονοφωνικά (µία νότα κάθε φορά). Οι πιθανοί συνδυασμοί των παραπάνω καταστάσεων λειτουργίας µας δίνουν τα 4 MIDI Modes που καθορίζουν τον τρόπο αντίδρασης του οργάνου/µέσου στην πληροφορία που λαμβάνει [26]: Mode 1: Omni On/Poly Mode 2: Omni On/Mono Mode 3: Omni Off/Poly Mode 4: Omni Off/Mono
  • 30.
    28 Η ΔΟΜΗ ΕΝΟΣMIDI ΜΗΝΥΜΑΤΟΣ Το κάθε MIDI μήνυμα αποτελείται από 1 έως 3 ψηφιολέξεις (bytes) οι οποίες αποτελούνται από 8 bits η καθεμία. Η πρώτη ψηφιολέξη που μεταδίδεται ονομάζεται Status Byte και ειδοποιεί για το είδος μηνύματος και τον αριθμό καναλιού στο οποίο το μήνυμα θα μεταδοθεί. Οι δύο επόμενες ψηφιολέξεις ονομάζονται Data bytes και µέσω του συνδυασμού των δυαδικών ψηφίων καθορίζουν τιμές (0-127) οι οποίες μπορεί να αφορούν το ποσοστό μεταβολής του ήχου, το τονικό ύψος της νότας, την θέση ενός MIDI Programme στη μνήμη ενός οργάνου κτλ. ανάλογα πάντα µε το είδος της εντολής που καθορίζεται από το status byte. Για παράδειγμα, εάν πιέσουμε το μεσαίο ντο στο κλαβιέ ενός MIDI Keyboard, το status byte του μηνύματος που θα σταλεί θα ειδοποιήσει ότι ενεργοποιήθηκε µία νότα (μήνυμα ‘note on’), και στη συνέχεια το πρώτο data byte θα ειδοποιήσει για το ‘ποιά νότα’ µε τιμές 0-127 (π.χ. 60 = μεσαίο ντο), ενώ το δεύτερο data byte θα ειδοποιήσει για την ένταση της νότας, πάλι µε τιμές 0-127 (π.χ. 60=μέτρια ένταση). Εικόνα 2.9 :Δομή ενός τυπικού MIDI μηνύματος [26] Σε κάθε Status Byte το πρώτο bit είναι το 1. Αντίθετα το κάθε Data Byte ξεκινά από 0. Αυτό έχει καθοριστεί από τους προγραμματιστές της MIDI γλώσσας για να είναι ευδιάκριτη η ταυτότητα του κάθε byte (αν δηλαδή πρόκειται για status byte ή data byte) πράγμα που διευκολύνει την επικοινωνία. Έτσι, ένα όργανο/μέσο που δέχεται ένα byte το οποίο ξεκινά από 1 ‘καταλαβαίνει’ ότι πρόκειται για ένα νέο μήνυμα το οποίο ‘περιγράφεται’ µε τις τιμές των data bytes που ακολουθούν. Εάν το όργανο/μέσο δεχθεί ένα byte που ξεκινά από 0 τότε συνεχίζει να ανταποκρίνεται στο είδος μηνύματος που καθορίστηκε από το προηγούμενο
  • 31.
    29 status byte. Toπαραπάνω όμως σημαίνει ότι εφόσον το 1ο bit του κάθε byte χρησιμοποιείται για τον προσδιορισμό της ταυτότητάς του, τότε µας μένουν άλλα 7 bits τα οποία συνδυάζονται για τον καθορισμό των τιμών, και έτσι οι πιθανές τιμές που μπορεί να αποδοθούν από ένα byte ενός MIDI μηνύματος είναι τελικά 128 (27 =128), δηλαδή από το 0 έως το 127. Για παράδειγμα, η μεταβολή της έντασης ενός ήχου μπορεί να οριστεί µέσω της MIDI επικοινωνίας σε µία κλίμακα µε τιμές από το 0 (=μηδενική ένταση) έως το 127 (μέγιστη ένταση), ενώ κατά τον ίδιο τρόπο ένα άλλο byte μπορεί µέσω αυτής της κλίμακας να προσδιορίζει 128 διαφορετικές νότες που μπορούν να παιχθούν από ένα κλαβιέ (0= ντο -2, 127= σολ 8). Εικόνα 2.10 : Βits και bytes του MIDI κώδικα [26] Χρησιμότητα Γενικά ο μουσικός που θα γνωρίσει τις συγκινήσεις που προσφέρει το MIDI είναι πολύ δύσκολο να φανταστεί τον κόσμο χωρίς αυτό. Οι δυνατότητες που ανοίγονται είναι τεράστιες σε κάθε τομέα της μουσικής: διδασκαλία, σύνθεση, μάθηση, διασκέδαση. Οι δημιουργοί λογισμικού έχουν αναπτύξει κάθε δυνατή πλευρά της μουσικής μέσω ειδικών προγραμμάτων και για κάθε επίπεδο αγοραστικής δύναμης. Οι κυριότερες κατηγορίες λογισμικού που θα μπορούσε κάποιος να βρει σήμερα είναι:
  • 32.
    30  Προγράμματα μουσικής σημειογραφίας(Notation Software)  Προγράμματα μουσικής εγγραφής (Sequencer)  Προγράμματα μουσικής εκπαίδευσης  Προγράμματα επεξεργασίας- ταξινόμησης ήχων  Προγράμματα αναγνώρισης μουσικών χαρακτήρων Εικόνα 2.11 : Τρόποι διαχείρισης της μουσικής μέσω μουσικών λογισμικών
  • 33.
    31 3. Μονοφωνική μεταγραφήμουσικής 3.1 Χαρακτηριστικά της Μονοφωνίας Τι είναι μονοφωνία; Ως μονοφωνία ή μονοφωνική μουσική, χαρακτηρίζεται κάθε μουσικό είδος το οποίο βασίζεται σε μία και μόνη μελωδική γραμμή, που ακόμα κι αν παίζεται ή τραγουδιέται από πλέον του ενός εκτελεστή, αναπαράγεται από όλους ταυτόχρονα και πανομοιότυπα. Αυτό σημαίνει ότι σε οποιαδήποτε χρονική στιγμή ενός ηχητικού αποσπάσματος αναπαράγεται ένας και μόνο τόνος, με αποτέλεσμα το απόσπασμα να αποτελείται από μία μόνο μελωδία. Ένα σόλο ενός τρομπετίστα ή ενός βιολιστή είναι χαρακτηριστικά παραδείγματα μονοφωνίας. Εικόνα 3.1 : Παρτιτούρα μονοφωνικής μελωδίας Αυτή ακριβώς η ιδιότητα της μονοφωνικής μουσικής είναι που την κάνει πιο ευκολά μεταγράψιμη. Σε αντίθεση με αυτή, στην πολυφωνία, το σύστημα που είναι υπεύθυνο για τη μεταγραφή μίας πολυφωνικής μελωδίας πρέπει να είναι σχεδιασμένο έτσι ώστε να μπορεί να διακρίνει και να ανιχνεύει παραπάνω από έναν τόνο μια δεδομένη χρονική στιγμή. Αυτό όμως δε σημαίνει ότι η μεταγραφή μιας μονοφωνικής μελωδίας είναι μια εύκολη διαδικασία, καθώς έχουν αναπτυχθεί συγκεκριμένες τεχνικές για την επίτευξη ενός ικανοποιητικού αποτελέσματος. Κατά τη διάρκεια της μονοφωνικής μεταγραφής πρέπει να προσδιοριστούν τρεις παράμετροι που χαρακτηρίζουν τις νότες σε μια μουσική μελωδία. Αυτές είναι:
  • 34.
    32  Ύψος (Pitch) Αρχή (Onset )  Διάρκεια (Duration) Ύψος Όπως αναφέραμε και στην παράγραφο 3.2, αναλύοντας τα χαρακτηριστικά του ψηφιακού ήχου, ο όρος ύψος αναφέρεται στο πόσο ψηλός ή χαμηλός είναι ένας τόνος. Στην προκειμένη περίπτωση το ύψος είναι η συχνότητα της νότας που εξετάζουμε και η αντιστοιχία οξύτητας του ήχου και της κλίμακας της συχνότητας είναι ανάλογη. Δηλαδή ένας υψηλός ήχος αντιστοιχεί σε μια υψηλή συχνότητα, ενώ ένας χαμηλός ήχος σε μια χαμηλή συχνότητα (βλ. εικόνα 3.2) Μονάδα μέτρησης είναι το Χερτς (Hz), όπου 1Hz=1 κύκλος/δευτερόλεπτο Εικόνα 3.2 Η κυματομορφή μίας νότας μπάσου (χαμηλό pitch) και ενός τόνου σφυρίχτρας (υψηλό pitch) [27] Aρχή (onset) νότας Στην παρακάτω εικόνα αριστερά φαίνεται η κυματομορφή μιας μεμονωμένης νότας και δεξιά τα μέρη από τα οποία αποτελείται. Θα αναλύσουμε τα μέρη αυτά στη συνέχεια καθώς είναι ιδιαίτερα σημαντικά ώστε να προσδιοριστεί η αρχή της νότας την κατάλληλη χρονική στιγμή.
  • 35.
    33 Εικόνα 3.3 :Η κυματομορφή νότας (αριστερά) και τα επιμέρους χαρακτηριστικά της (δεξιά) [29] o Attack: αντιστοιχεί στο τμήμα που το πλάτος της νότας αυξάνεται. o Decay: είναι το τμήμα στο οποίο η νότα είναι ηχηρή με αποτέλεσμα να καθορίζει τη διάρκεια αλλά και το τέλος της. [28] Αναλόγως το όργανο αλλά και την στίξη της νότας που σημειώνεται σε μια παρτιτούρα (staccato, marcato, tenuto κ.λ.π.) τα δύο παραπάνω τμήματα επηρεάζονται αναλόγως. o Transient: είναι το τμήμα της νότας το οποίο δεν είναι εύκολα αντιληπτό από το ανθρώπινο αυτί. Πρακτικά με τον όρο transient αναφερόμαστε στο τμήμα της νότας όπου παρατηρείται μια γρήγορη μεταβολή. Στην περίπτωση των ακουστικών οργάνων, το transient αντιστοιχεί στο χρονικό διάστημα κατά το οποίο εφαρμόζεται η διέγερση και στη συνέχεια μειώνεται αφήνοντας μια αργή εξασθένιση στις συχνότητες συντονισμού του οργάνου[30]. o Onset: όπως φαίνεται και στην παραπάνω εικόνα το onset συμπίπτει με το σημείο όπου ξεκινάει το χρονικό διάστημα του transient. transient
  • 36.
    34 Διάρκεια Ορίζεται ως τοχρονικό διάστημα από το onset μέχρι το offset της νότας, όπου με τον όρο offset αναφερόμαστε στο σημείο που η νότα σταματά να είναι ενεργή. Εικόνα 3.4 : H κυματομορφή ενός ηχητικού σήματος (μπλε) και τα εκτιμημένα onsets (μωβ) [31] Η αποσαφήνιση των παραπάνω είναι ιδιαίτερα σημαντική, καθώς πολλοί από τους αλγόριθμους ανίχνευσης της αρχής των νοτών (onset detection) βασίζονται σε αυτά τα χαρακτηριστικά. Τέτοιοι αλγόριθμοι είναι ιδιαίτερα χρήσιμοι σε αναλύσεις και τεχνικές κατηγοριοποίησης μουσικών σημάτων. Ο πλέον συνηθής τρόπος ανίχνευσης των onsets είναι η μελέτη του transient τμήματος μιας νότας, από όπου μπορούν να εξαχθούν διάφορα συμπεράσματα. Μερικά παραδείγματα που μπορούν να οδηγήσουν στην ανίχνευση ενός onset είναι ένα ξέσπασμα στην ενέργεια του σήματος, μία αλλαγή στο φάσμα του σήματος ή σε κάποιες στατιστικές ιδιότητες του. 3.2 H Τεχνοτροπία της Μονοφωνικής Μεταγραφής Σε αυτή την υποενότητα θα περιγράψουμε τα επιμέρους στάδια από τα οποία αποτελείται ένα σύστημα μονοφωνικής μεταγραφής. Όπως μπορεί κανείς να δει στο παρακάτω διάγραμμα, σαν είσοδο του συστήματος έχουμε ένα αρχείο τύπου κυματομορφής
  • 37.
    35 (waveform). Σε αυτήτη μορφή το σήμα μας εμπεριέχει όλες τις δυνατές πληροφορίες που μπορούμε να εξάγουμε καθώς δεν έχει υποστεί καμία μορφή συμπίεσης. Έπειτα το σήμα μας χωρίζεται σε πολλά επιμέρους τμήματα (frames) για την καλύτερη εποπτεία και επεξεργασία του, ενώ στη συνέχεια τα τμήματα αυτά πολλαπλασιάζονται με μία συνάρτηση “παραθύρου” τύπου Hanning ώστε να είναι δυνατή η ανακατασκευή του σήματος, διαδικασία που θα αναλύσουμε στη συνέχεια. Τα κύρια μέρη, στα οποία εστιάζουμε περισσότερο, είναι οι συναρτήσεις ανίχνευσης της αρχής της νότας (onset detection function) και ανίχνευσης του ύψους της (pitch detection function). Έπειτα προσδιορίζονται τα τμήματα σιγής (silenced frames) του ηχητικού μας αρχείου και περνώντας στο τελευταίο στάδιο, συνδυάζοντας τα παραπάνω, πραγματοποιείται η κατασκευή του αρχείου midi. Εικόνα 3.5 : Τα στάδια επεξεργασίας της μονοφωνικής μεταγραφής Signal segmentation Hanning Window Onset Detection Pitch Detection Energy Estimation Combine and extract silenced midi file track.mid Input signal track.wav
  • 38.
    36 3.2.1 Κατάτμηση ηχητικούσήματος Η χρονική κατάτμηση ενός ακουστικού κύματος σε μικρότερα στοιχεία είναι θεμελιώδες βήμα για τη μετατροπή των ήχων σε σημασιολογικά αντικείμενα. Τα τελευταία χρόνια έχει αφιερωθεί σημαντική έρευνα σε αυτό το αντικείμενο και έχουν αναπτυχθεί διάφοροι αλγόριθμοι για τον αυτόματο διαχωρισμό μουσικών σημάτων στα όρια των αντικειμένων του ήχου: αρχή (onset) και τέλος (offset) νότας [32][33]. Συστήματα ικανά να εντοπίζουν τα onset τη στιγμή που συμβαίνουν, προσδίδουν νέες προοπτικές στην αλληλεπίδραση μεταξύ ακουστικών και εικονικών μουσικών οργάνων [34]. Η εξαγωγή της χρονικής πληροφορίας των onset είναι χρήσιμη στις εφαρμογές επεξεργασίας ήχου για την ακριβή μοντελοποίηση της έναρξης ενός ηχητικού φαινομένου (attack) [35]. Επίσης, βοηθά τα συστήματα μεταγραφής στον εντοπισμό της αρχής των νοτών [36][33], και μπορεί να χρησιμοποιηθεί σε προγράμματα επεξεργασίας ήχων (sound editors) για το διαχωρισμό ηχητικών αρχείων στα λογικά τους μέρη [38]. Οι μέθοδοι ανίχνευσης των onset έχουν χρησιμοποιηθεί στην ταξινόμηση μουσικής, στο χαρακτηρισμό ρυθμικών μοτίβων [39], καθώς και σε συστήματα αναγνώρισης ρυθμού (tempo) για να εντοπίσουν τη θέση των ρυθμικών παλμών (beats) σε ένα μουσικό κομμάτι [40]. Κατά την τμηματοποίηση ενός σήματος στα επιμέρους frames, είναι σύνηθες να εφαρμόζεται μία επικάλυψη (οverlap) των εξαγόμενων τμημάτων, ώστε να αποφευχθεί οποιαδήποτε ασυνέχεια στην ανακατασκευή του σήματος. Όπως και στην εικόνα που ακολουθεί, η τιμή της επικάλυψης συνηθίζεται να είναι 50%. Εικόνα 3.6 : Κατάτμηση του σήματος με επικάλυψη (overlap) 50%
  • 39.
    37 3.2.2 Συνάρτηση Παραθύρου Ησυνάρτηση παραθύρου είναι μια μαθηματική συνάρτηση που εφαρμόζεται στην επεξεργασία ενός ψηφιακού σήματος για να αποφευχθούν ασυνέχειες στις δύο άκρες ενός επιλεγμένου διαστήματος[42]. Ένα τέτοιο παράθυρο είναι και το παράθυρο Hanning (Hanning Window). Kύρια λειτουργία του είναι να τονίσει τις συνιστώσες που βρίσκονται στο κέντρο του δείγματος που εφαρμόζεται το παράθυρο, ενώ παράλληλα περιορίζει συμμετρικά τις τιμές στα άκρα του. Με αυτόν τον τρόπο επιτυγχάνεται ο περιορισμός του φαινομένου της φασματικής διαρροής (spectral leakage) Εικόνα 3.7 : Το παράθυρο Hanning (αριστερά) και η απόκριση συχνότητάς του (δεξιά) [43] Το παράθυρο Hanning ορίζεται ως εξής [43]: 𝒘(𝒏) = 𝟎. 𝟓 (𝟏 − 𝐜𝐨𝐬 ( 𝟐𝝅𝒏 𝑵 − 𝟏 )) (𝟑. 𝟏) N: μέγεθος παραθύρου n: 0,1,..,N Στη δική μας περίπτωση πολλαπλασιάζουμε κάθε frame με το παράθυρο Hanning. Αυτό έχει ως αποτέλεσμα την ενίσχυση της θεμελιώδους συχνότητας και τον περιορισμό των
  • 40.
    38 αρμονικών, πράγμα πουδιευκολύνει την επόμενη διαδικασία της ανίχνευσης του ύψους της νότας. Στην εικόνα 3.8 φαίνεται στο πεδίο της συχνότητας η επίδραση που έχει η εφαρμογή ενός τετράγωνου παραθύρου και ενός παραθύρου Hanning στο σήμα. Είναι προφανές ότι στη δεύτερη περίπτωση έχει εξαλειφθεί η όποια φασματική διαρροή υπήρχε προηγουμένως και είναι πιο εμφανείς η τονική και οι βασικές αρμονικές της νότας. Εικόνα 3.8 : Επίδραση του τετράγωνου παραθύρου (πάνω) και του παραθύρου Hanning (κάτω) 3.2.3 Ανίχνευση ύψους της νότας (pitch detection) H μονοφωνική ανίχνευση του ύψους μια νότας αποτελεί τη μέθοδο αναγνώρισης της πρώτης συχνότητας που εμπεριέχεται σε ένα ηχητικό σήμα όταν μόνο μια νότα αναπαράγεται κάθε χρονική στιγμή. Ο στόχος ενός συστήματος ανίχνευσης τονικού ύψους (pitch detection system) είναι να αναγνωρίσει τους ήχους που διαμορφώνουν την αίσθηση της τονικότητας και να εκτιμήσει τη συχνότητα που αντιστοιχεί στο αντιλαμβανόμενο τονικό ύψος.
  • 41.
    39 Παρατηρήθηκε λοιπόν απότους επιστήμονες πως, αν υπολογιστεί η θεμελιώδης συχνότητα ενός αρμονικού σήματος και έπειτα το αποτέλεσμα οπτικοποιηθεί, για το μεγαλύτερο μέρος της διάρκειας των νοτών το pitch παραμένει σταθερό. Αυτό το φαινόμενο, που είναι τόσο προφανές, αξίζει να σχολιασθεί περαιτέρω. Με στόχο να ορισθούν κάποια κριτήρια ομαδοποίησης και κανόνων για τους ήχους, θα πρέπει να δοθεί έμφαση στην ομοιότητα της ανθρώπινης αντίληψης ανάμεσα στην εικόνα και τον ήχο. Σημαντικά στοιχεία μπορούν να ληφθούν παρατηρώντας την κυματομορφή ενός pitch. Η συγκεκριμένη μέθοδος δεν χρησιμοποιεί έναν συμβατικό ανιχνευτή οnset αλλά εφαρμόζει μια μέθοδο υπολογισμού του onset με βάση την θεμελιώδη συχνότητα, που είναι πιο ισχυρή όταν αντιμετωπίζονται προβλήματα με μικρές αλλαγές στις νότες (glissando, legato) [44]. Πολλά από τα μοντέλα αναγνώρισης τονικού ύψους προέρχονται από τεχνικές επεξεργασίας λόγου [45]. Υπάρχει ένας μεγάλος αριθμός μεθόδων για την εκτίμηση της τονικότητας σημάτων ομιλίας [46] και μουσικής [47], τα οποία κατά κύριο λόγο λειτουργούν εκτιμώντας τη θεμελιώδη συχνότητα κάθε μουσικού συμβάντος (νότας). Η θεμελιώδης συχνότητα f0 ενός περιοδικού σήματος είναι η αντίστροφος της περιόδου του. Η περίοδος μπορεί να οριστεί ως “το μικρότερο μέλος ενός συνόλου άπειρων χρονικών μετατοπίσεων που αφήνουν το σήμα αμετάβλητο” [48]. Στη μουσική, ωστόσο, το σήμα δεν είναι απόλυτα περιοδικό και ο ορισμός αυτός εφαρμόζεται σε ένα συγκεκριμένο χρονικό τμήμα γύρω από το τρέχον σημείο της ανάλυσης. Στις περισσότερες περιπτώσεις, η θεμελιώδης συχνότητα μίας νότας αντιστοιχεί στην αντιλαμβανόμενη τονικότητα, χωρίς αυτό όμως να αποτελεί ανεξαίρετο κανόνα [49], καθώς το αντιλαμβανόμενο τονικό ύψος των μουσικών οργάνων εξαρτάται και από τις αρμονικές συχνότητες που παράγουν [50]. Τα μουσικά όργανα έχουν διαφορετικές αρμονικές δομές και το πλάτος των αρμονικών τους μεταβάλλεται με το χρόνο, προσδίδοντας στο κάθε όργανο ξεχωριστή χροιά.
  • 42.
    40 Εικόνα 3.9 :Η θεμελιώδης συχνότητα της νότας Μι στη 3η οκτάβα (Ε3) και οι αρμονικές τις [52] Οι διάφοροι διαθέσιμοι αλγόριθμοι για την εκτίμηση της θεμελιώδους συχνότητας κατηγοριοποιούνται γενικά σε δύο κατηγορίες: α) στις μεθόδους που εκτιμούν την περιοδικότητα της κυματομορφής του σήματος (μέθοδοι στο πεδίο του χρόνου - time domain methods) και β) στις μεθόδους που αναζητούν αρμονικά μοτίβα στο φάσμα (μέθοδοι στο πεδίο της συχνότητας - frequency or spectral domain methods). Oι φασματικές προσεγγίσεις τείνουν να έχουν καλά αποτελέσματα στο ψηλότερο μέρος του φάσματος και υστερούν στο χαμηλό, ενώ αντίθετα οι χρονικές παρουσιάζουν περισσότερα λάθη στις υψηλές συχνότητες, κυρίως όσο πλησιάζουν στη μισή τιμή της συχνότητας δειγματοληψίας (ρυθμός Nyquist). Μερικά συστήματα χρησιμοποιούν συνδυαστικά μεθόδους βασισμένες στο πεδίο του χρόνου και της συχνότητας, στοχεύοντας να εκμεταλλευτούν τα δυνατά σημεία της καθεμίας ώστε να έχουν καλύτερα αποτελέσματα στο συνολικό εύρος του φάσματος του ήχου [51].
  • 43.
    41 Στο πεδίο τηςσυχνότητας διακρίνονται γενικά δύο τύποι μεθόδων για την αναγνώριση του τονικού ύψους: α) οι μέθοδοι φασματικής θέσης (spectral position methods), οι οποίες βασίζονται στον εντοπισμό της θεμελιώδους συχνότητας επιλέγοντας φασματικές συνιστώσες ανάλογα με τη θέση τους στο φάσμα. β) οι μέθοδοι φασματικών διαστημάτων (spectral interval methods), οι οποίες βασίζονται στον υπολογισμό των διαστημάτων μεταξύ των αρμονικών συχνοτήτων [47]. Μια μέθοδος φασματικής θέσης ευρέως χρησιμοποιούμενη κυρίως σε συστήματα ανάλυσης φωνητικών σημάτων, είναι αυτή της γραμμική πρόβλεψης (Linear Predictive Coding (LPC) ) που βλέπουμε στην εικόνα 3.10. Εικόνα 3.10 : Η μέθοδος της γραμμικής πρόβλεψης (LPC) [53]
  • 44.
    42 Αναγνώριση τονικού ύψουςστο πεδίο του χρόνου Zero - Crossing Μία μέθοδος για τον εντοπισμό της θεμελιώδους συχνότητας στο πεδίο του χρόνου συνίσταται στην παρατήρηση μοτίβων περιοδικότητας του σήματος μέσω της κυματομορφής του. Ένας από τους πιο γρήγορους τρόπους για να υπολογιστεί η τονικότητα είναι να μετρηθούν οι διελεύσεις από το μηδέν (zero-crossings) σε ένα συγκεκριμένο χρονικό διάστημα, κάτι το οποίο απαιτεί εξονυχιστική έρευνα σε κάθε παράθυρο επεξεργασίας για να εντοπιστούν οι αλλαγές των προσήμων. Εικόνα 3.11 : Το ηχητικό σήμα και οι διελεύσεις της κυματομορφής από το μηδέν (zero crossings) Αυτή η μέθοδος είναι επιτυχής όταν το σήμα αποτελείται από απλούς ημιτονοειδείς τόνους, αλλά αποτυγχάνει όταν στοχεύει σε πιο πολύπλοκους τύπους σημάτων. Για παράδειγμα, ο αριθμός των διελεύσεων από το μηδέν ενός αρμονικού ήχου συχνά δεν έχει σχέση με το μήκος κύματος του, καθώς το πρόσημο της κυματομορφής μπορεί να αλλάξει πάνω από μία φορά σε μία περίοδο. Επιπλέον, η παρουσία θορύβου στο σήμα μπορεί να δυσκολέψει ακόμη περισσότερο τη σωστή καταμέτρηση των διελεύσεων από το μηδέν, είτε αυξάνοντας είτε μειώνοντας τον αριθμό των αλλαγών πρόσημου εντός του παραθύρου επεξεργασίας.
  • 45.
    43 Υπάρχει μια παραλλαγήαυτής τη μεθόδου, στην οποία μετριούνται οι κορυφές ενός ορισμένου χρονικού διαστήματος, αλλά και σε αυτήν αντιμετωπίζονται παρόμοιες δυσκολίες. Σε γενικές γραμμές, η επιλογή ενός αξιόπιστου σημείου αναφοράς ώστε να υπολογιστεί η περίοδος είναι δύσκολη. [54]. Αυτοσυσχέτιση (autocorrelation) Oι μέθοδοι ανίχνευσης του ύψους εστιάζουν στην εξαγωγή πληροφοριών που σχετίζονται με την περιοδικότητα του σήματος εισόδου. Εδώ, θα εξετάσουμε τον αλγόριθμο της αυτοσυσχέτισης εκτενέστερα από τους υπόλοιπους, μιας και θα γίνει ανάλυση της υλοποίησης του σε επόμενο εδάφιο της εργασίας. Ο αλγόριθμος αυτός έχει την ιδιότητα ότι δεν είναι ευαίσθητος στη φάση του σήματος, ενώ παράλληλα παρουσιάζει ομαλές τιμές κατά τη διάρκεια του στάσιμου τμήματος της νότας. Το στάσιμο τμήμα μιας νότας βρίσκεται αμέσως μετά το attack, όπου όλες οι αρμονικές σταθεροποιούνται και σημειώνονται καθαρά στο φάσμα. Η μέθοδος της αυτοσυσχέτισης συγκρίνει, σε επίπεδο δειγμάτων, τις ομοιότητες τμημάτων του σήματος με τμήματα του ίδιου σήματος που έχουν μετατεθεί χρονικά [48]. Η συνάρτηση αυτοσυσχέτισης (ACF -Autocorrelation Function) ενός διακριτού σήματος x(k) με μήκος ακολουθίας Ν ορίζεται ως εξής: 𝒓 𝒙𝒙(𝒏) = 𝟏 𝑵 ∑ 𝒙(𝒌) 𝒙( 𝑵−𝒏−𝟏 𝒌=𝟎 𝒌 + 𝒏) (𝟑. 𝟐) Το n είναι το lag ή καθυστέρηση και x(n) είναι ένα σήμα στο πεδίο του χρόνου. Το n παίρνει τιμές από –N+1 έως N-1. Αυτή η συνάρτηση είναι ιδιαίτερα χρήσιμη στο να αναγνωρίζονται ‘’κρυμμένες’’ περιοδικότητες σε ένα σήμα, για παράδειγμα, όταν η θεμελιώδης συχνότητα είναι χαμηλής ενέργειας. Τα τοπικά μέγιστα ή κορυφές (peaks) της συνάρτησης αυτοσυσχέτισης αντιπροσωπεύουν τα lags, όπου η περιοδικότητα είναι ισχυρότερη. Η αυτοσυσχέτιση με μηδενικό lag, δηλαδή η rxx(0), μας δίνει την ενέργεια του σήματος. Η συνάρτηση αυτοσυσχέτισης δείχνει τοπικά μέγιστα για οποιαδήποτε περιοδικότητα που είναι παρούσα στο σήμα, γι’ αυτό είναι σημαντικό να απαλειφθούν τα μέγιστα που αντιστοιχούν στις πολλαπλές περιοδικότητες. Αν το σήμα που παρέχει μια νότα έχει υψηλή αυτοσυσχέτιση για μια τιμή lag, έστω Κ, θα έχει μέγιστο για τιμές nxK επίσης, όπου n είναι
  • 46.
    44 θετικός ακέραιος. Ωςσυνέπεια, το πρώτο μέγιστο στην συνάρτηση της αυτοσυσχέτισης, μετά την μηδενική τιμή lag, θεωρείται ως το αντίστροφο της θεμελιώδους συχνότητας, ενώ τα υπόλοιπα τοπικά μέγιστα απορρίπτονται. Εικόνα 3.12 : Το ηχητικό σήμα στην αρχική του μορφή (αριστερά) και μετά την εφαρμογή της συνάρτησης της αυτοσυσχέτισης (δεξιά) Γιατί όμως να χρησιμοποιηθεί η αυτοσυσχέτιση για την εκτίμηση του pitch; Η απάντηση είναι απλή: η αυτοσυσχέτιση είναι απλή, γρήγορη και αξιόπιστη. Η rxx(n) αντιπροσωπεύει μια πολύ απλή σχέση ανάμεσα στην κυματομορφή του χρόνου και τις περιοδικότητες του σήματος εκφρασμένες από τους συντελεστές τις αυτοσυσχέτισης. Ο υπολογισμός της αυτοσυσχέτισης εκτελείται μέσω του FFT (Fast Fourier Transform ελλ. Γρήγορος Μετασχηματισμός Fourier), που έχει υπολογιστική πολυπλοκότητα Νlog2(N), όπου Ν είναι το μήκος του ‘’παραθύρου’’ του σήματος. Η διαδικασία του υπολογισμού επομένως είναι πολύ γρήγορη [44]. Για να μειωθεί το υπολογιστικό κόστος η μέθοδος της αυτοσυσχέτισης μπορεί να μεταφερθεί στο πεδίο της συχνότητας ως εξής: 𝒓 𝒙𝒙(𝒏) = 𝟏 𝑵 ∑|𝑿(𝒌)| 𝟐 𝐜𝐨𝐬 ( 𝟐𝝅𝒏𝒌 𝑵 ) 𝑵−𝟏 𝒌=𝟎 (𝟑. 𝟑) Εκφραζόμενη με αυτόν τον τρόπο η συνάρτηση αυτοσυσχέτισης αποτελεί πλέον μία φασματική προσέγγιση, η οποία επιλέγει την θεμελιώδη συχνότητα σταθμίζοντας τα φασματικά στοιχεία σύμφωνα με τη θέση τους. Σε γενικές γραμμές, οι μέθοδοι
  • 47.
    45 αυτοσυσχέτισης δείχνουν ναείναι αρκετά ανθεκτικές στο θόρυβο αλλά παρουσιάζουν μειονεκτήματα στην αντιμετώπιση των φασματικών ιδιαιτεροτήτων, τόσο των σημάτων μουσικής όσο και των σημάτων λόγου. Επιπρόσθετα το 1990, η Brown[55] δημοσίευσε μια μελέτη όπου η θεμελιώδης συχνότητα των οργάνων υπολογιζόταν από την αυτοσυσχέτιση: συμπέρανε πως αυτή η μέθοδος είναι ένας καλός ανιχνευτής συχνότητας για μουσικούς ήχους. 3.2.4 Εκτίμηση της αρχής μιας νότας (onset detection) Σε αυτό το σημείο αξίζει να πούμε ότι η διαδικασία της ανίχνευσης των onset παίζει πολύ σημαντικό ρόλο στη τμηματοποίηση και στην ανάλυση ενός ακουστικού σήματος. Μπορεί ακόμη να διευκολύνει σε μεγάλο βαθμό την επεξεργασία ηχητικών ηχογραφήσεων μιας και τα περισσοτέρα λογισμικά επεξεργασίας ήχου έχουν ενσωματωμένη την λειτουργία αυτή. Η πληροφορία έναρξης ενός ηχητικού συμβάντος μπορεί επίσης να χρησιμοποιηθεί για το συγχρονισμό ηχητικών σημάτων και βίντεο (audio/video synchronization) ή ακόμη και σε συστήματα ακουστικής επίβλεψης (acoustic supervision systems). [56] To δεύτερο κομμάτι της μονοφωνικής μεταγραφής, εξίσου σημαντικό με την ανίχνευση του ύψους της νότας, είναι αυτό της εκτίμησης της στιγμής όπου η νότα ενεργοποιείται στο ηχητικό μας σήμα. Ο όρος onset αναφέρεται στο σημείο έναρξης της νότας, εκεί δηλαδή όπου το πλάτος της κλιμακώνεται σταδιακά από το μηδέν μέχρι το πρώτο μέγιστο. Όπως αναφέραμε και στην αρχή της ενότητας, σχετίζεται με την αρχή του χρονικού διαστήματος transient. H αντίληψη ενός onset μπορεί να συσχετιστεί με μια αξιοσημείωτη αλλαγή στην ένταση, το ύψος ή και στη χροιά μιας νότας. [32] Ένα θεμελιώδες πρόβλημα στο σχεδιασμό των συστημάτων ανίχνευσης των onset είναι η διάκριση των γνήσιων onset από τις σταδιακές αλλαγές και τους συντονισμούς που είναι πιθανόν να υπάρχουν στο σήμα. Αυτός είναι και ο λόγος για τον οποίο είναι δύσκολο να βρεθεί μια εύρωστη μέθοδος ανίχνευσης των onset. Τα τελευταία χρόνια έχει διεξαχθεί μια πληθώρα ερευνών γύρω από την εκτίμηση των onsets. Παρόλαυτα, μόνο μερικά συστήματα επικεντρώθηκαν στην επίλυση του
  • 48.
    46 προβλήματος, εκτιμώντας ταonset ένα προς ένα [40]. Αντ’ αυτού τα περισσότερα συστήματα στοχεύουν στην πληροφορία υψηλοτέρου επιπέδου (higher-level information), όπως είναι για παράδειγμα η αντίληψη του παλμού (beat) ενός μουσικού σήματος. Σε αυτές τις περιπτώσεις, οποιαδήποτε μεμονωμένα σφάλματα μπορούν να αντιμετωπιστούν μέσω μεθόδων αυτοσυσχέτισης και κανονικοποίησης. [40][5][6] Εικόνα 3.13 Κυματομορφή ηχητικού αποσπάσματος από κιθάρα. Τα πραγματικά onsets είναι σημειωμένα με διακεκομμένες κάθετες γραμμές. Σχεδόν όλοι οι αλγόριθμοι ανίχνευσης των onsets μπορούν να χωρισθούν σε 2 ξεχωριστά στάδια. Το πρώτο από αυτά, το οποίο συχνά καλείται και συνάρτηση ανίχνευσης (detection function), μετατρέπει το σήμα από δείγματα στο πεδίο του χρόνου σε μια συνάρτηση όπου είναι πιο αποτελεσματική η εύρεση των περιστασιακών onsets. Το δεύτερο μέρος ενός οποιουδήποτε αλγορίθμου για εύρεση του onset καλείται συχνά στάδιο επιλογής τοπικών κορυφών (peak picking stage), και περιλαμβάνει την εύρεση των σημείων εκείνων, στην συνάρτηση ανίχνευσης, που αντιστοιχούν στα περιστασιακά onset. Μία πολύ αποδοτική συνάρτηση ανίχνευσης θα έχει τυπικά πολύ αιχμηρές κορυφές στα σημεία των onsets, και διάφορα “αναληθή” μέγιστα σε άλλα σημεία. Όσο πιο κοντά είναι ένα αποτέλεσμα σε αυτή την περίπτωση, τόσο πιο καλή θα είναι η διαδικασία peak picking στο δεύτερο στάδιο. Η διαδικασία peak picking κρίνεται από την αποτελεσματικότητα της στο να επιλέγει μόνο εκείνα τα τοπικά μέγιστα που αντιστοιχούν σε σημεία ενάρξεως των νοτών. Έτσι, το να επιλεγούν όλα τα μέγιστα της συνάρτησης ανίχνευσης αντιστοιχεί μόνο στην ιδεατή περίπτωση μιας αλάνθαστης εκτίμησης μόνο των onsets που αντιστοιχούν σε νότες. Η επιλογή ενός κατωφλίου στην detection function με σκοπό να αγνοηθούν όλα τα ψευδεπίγραφα μέγιστα είναι ένα σύνηθες πρόβλημα στο στάδιο επιλογής κορυφών [60].
  • 49.
    47 Εικόνα 3.14 :Τα στάδια της συνάρτησης εκτίμησης των onsets [30] ‘Ενα πρώτο βήμα για την ανάκτηση διακριτών χρόνων onset είναι η αξιολόγηση του ποσοστού μεταβολής του σήματος. Για ένα δεδομένο χρονικό διάστημα υπολογίζεται ένα μέτρο βασισμένο στα χαρακτηριστικά του σήματος και με τη συγκέντρωση συνεχών παρατηρήσεων σχηματίζεται η συνάρτηση εντοπισμού των onset [30]. Ο στόχος των συναρτήσεων αυτών είναι να παράσχουν μία μεσαίου επιπέδου εκπροσώπηση του σήματος, χρησιμοποιώντας μικρότερη δειγματοληψία από το αρχικό ηχητικό. Αυτό έχει ως συνέπεια, το αποτέλεσμά τους να παρουσιάζει απότομες κορυφές τη στιγμή που εντοπίζεται ένα onset και να μην παρουσιάζει κορυφές κατά τη διάρκεια της εκτέλεσης μιας συνεχούς νότας ή από το θόρυβο περιβάλλοντος. Σε δεύτερο στάδιο γίνεται η επιλογή των κορυφών από τις οποίες θα ανακτηθεί ο ακριβής χρόνος εμφάνισης των σχετικών onset. Γενικά, υπάρχουν τρεις μέθοδοι για την κατασκευή αυτών των συναρτήσεων εντοπισμού: • Αναγνώριση στο πεδίο του χρόνου κατευθείαν πάνω στην κυματομορφή. • Αναγνώριση στο πεδίο της συχνότητας χρησιμοποιώντας διάφορες ζώνες συχνοτήτων ή ένα phase vocoder. • Αναγνώριση χρησιμοποιώντας τεχνικές μηχανικής μάθησης (machine learning techniques) για διάφορα χαρακτηριστικά του σήματος.
  • 50.
    48 Στη συνέχεια θααναφέρουμε μερικές από τις μεθόδους ανίχνευσης των onsets τόσο στο πεδίο του χρόνου όσο και στο πεδίο της συχνότητας. Ενεργειακή Προσέγγιση (Energy-Based) Mία νότα σε ένα ηχητικό σήμα έχει ως αποτέλεσμα την αύξηση της ενέργειας του σήματος. Ιδιαίτερα στην περίπτωση των κρουστικών ήχων, όπως αυτή των τυμπάνων, η αύξηση της ενέργειας είναι πολύ απότομη. Γι’ αυτό το λόγο, η ενέργεια έχει αποδειχθεί ένα πολύ χρήσιμο και αποδοτικό μέτρο ώστε να ανιχνεύονται κρουστικές διακυμάνσεις και άρα συγκεκριμένα είδη οnsets. Η ενέργεια ενός σήματος ορίζεται ως το άθροισμα των τετραγώνων των μέτρων της ενέργειας του κάθε frame και περιγράφεται από την παρακάτω σχέση: 𝛦(𝑚) = ∑ |𝑥(𝑛)|2 𝑚ℎ 𝑛=(𝑚−1)ℎ (3.4) Όπου h είναι το μέγεθος του frame, m ο αριθμός των frames και n η μεταβλητή ολοκλήρωσης. Παίρνοντας στη συνέχεια την πρώτη παράγωγο της ενέργειας E(m) προκύπτει η συνάρτηση ανίχνευσης από την οποία είναι δυνατόν να επιλεχθούν τα τοπικά μέγιστα που αντιστοιχούν σε onsets. Αυτή η ιδέα μπορεί να επεκταθεί στον υπολογισμό των frames στο πεδίο της συχνότητας κάνοντας χρήση του γρήγορου μετασχηματισμού Fourier (FFT)[30]. Όπως αναφέραμε και στην υποενότητα 2.2.2, έχοντας ένα σήμα s(mh) στο πεδίο το χρόνου ο STFT υπολογίζεται ως εξής. 𝑺 𝒌(𝒎) = ∑ 𝒔(𝒏)𝒘(𝒎𝒉 − 𝒏)𝒆− 𝒋𝟐𝝅𝒏𝒌 𝑵 ∞ 𝒏=−∞ (𝟑. 𝟓) όπου k=0,1, … , N-1 είναι ο δείκτης του bin με συχνοτικό περιεχόμενο και w(n) είναι το πεπερασμένου μήκους κυλιόμενο ‘’παράθυρο’’. Επίσης, οι διαφορές στα πλάτη, που αποτελεί πρακτικά μια προσέγγιση της παραγώγου, δίνονται από το τύπο: 𝛿𝑆 = ∑|𝑆 𝑘(𝑚)| − | 𝑆 𝑘(𝑚 − 1)| 𝑁 𝑘=1 (3.6)
  • 51.
    49 Εικόνα 3.15 :Φωνητικό σήμα (πάνω) και η ενέργεια του (κάτω) H συγκεκριμένη συνάρτηση ανίχνευσης αποτελεί μια εύκολα υλοποιήσιμη μέθοδο για να εκτιμηθούν τα onsets σε ένα σήμα και παρόλη την απλότητα της παρέχει ικανοποιητικά αποτελέσματα σε ότι αφορά τους κρουστικούς ήχους. Φασική προσέγγιση (Phase deviation) Μια εναλλακτική προσέγγιση παρουσίασε οι Bello et al με τη δημιουργία μιας συνάρτησης που μετρά τη χρονική αστάθεια της φάσης. Έτσι, τα τονικά onset αναγνωρίζονται εντοπίζοντας σημαντικές διακυμάνσεις της φάσης [30]. Η φάση ενός σήματος σε στάσιμη κατάσταση αναμένεται να γυρίζει σταθερά γύρω από τον τριγωνομετρικό κύκλο. Η φασική καθυστέρηση και η γωνιακή ταχύτητά του, λοιπόν, μπορούν να θεωρηθούν στάσιμες και η επιτάχυνσή του μηδενική, οπότε για να εντοπιστούν αλλαγές σε ένα μη στάσιμο σήμα αρκεί να παρατηρήσουμε τη φασική επιτάχυνση. Η συνάρτηση αυτή κατασκευάστηκε από τον ποσοτικό προσδιορισμό της απόκλισης της φάσης. 𝜑 𝜅̂[𝑛] = 𝑝𝑟𝑖𝑛𝑐𝑎𝑟𝑔 ( 𝜃2 𝜑 𝜅[𝑛] 𝜃𝑛2 ) (3.7) όπου princarg (Principal Argument Function) είναι μια συνάρτηση που δίνει το ακτινικό μέτρο του ορίσματος ενός μιγαδικού αριθμού στο εύρος [-π,π].
  • 52.
    50 Έτσι προκύπτει ησυνάρτηση: 𝐷 𝜑[𝑛] = ∑| 𝜑 𝜅 ̂[ 𝑛]| 𝑁 𝑘=0 (3.8) Επομένως, έχοντας κατατμήσει το υπό επεξεργασία σήμα σε frames, λαμβάνοντας την φάση αυτών και βρίσκοντας την πρωταρχική διαφορά της φάσης του εκάστοτε frame σε σχέση με τα 2 προηγούμενα του είναι δυνατό να ανιχνευτούν onsets. Όπου παρατηρείται μη μηδενική διαφορά φάσης θα υπάρχει και πιθανότατα μια νέα νότα [30] Ένα μειονέκτημα αυτής της προσέγγισης είναι ότι σημαντικές αλλαγές της φάσης μπορεί να συμβούν χωρίς να σχετίζονται με κάποια μουσική αλλαγή. Για παράδειγμα, τα θορυβώδη σημεία του σήματος παρουσιάζουν συνήθως ασταθή φάση. Παρόλο που αυτό δεν μπορεί να επηρεάσει τονικά γεγονότα με έντονο αρμονικό περιεχόμενο, σε κρουστικούς ήχους και όταν το σήμα είναι θορυβώδες, μπορούν να παρουσιαστούν μεγάλες αποκλίσεις. Συνδυασμός Ενεργειακής και Φασικής Προσέγγισης Οι Bello, Duxbury, Davies, και Sandler [60] πρότειναν μια μέθοδο που συνδυάζει τις ενεργειακές και φασικές προσεγγίσεις. Αυτή η μέθοδος κάνει χρήση της παρόμοιας συμπεριφοράς των κατανομών από τις διαφορές φάσεως και των φασματικών διαφορών των πλατών. Μετρήσεις του κάθε αναπτύγματος ανά frame για την κάθε κατανομή εξήχθησαν από τον τύπο: 𝜂(𝑛) = 𝑚𝑒𝑎𝑛( 𝑓𝑛(|𝑥|)) (3.9) όπου f(x) είναι η συνάρτηση πυκνότητας πιθανότητας του συνόλου των υπό επεξεργασία δεδομένων. Έπειτα οι μετρήσεις αυτές πολλαπλασιάστηκαν, δίνοντας έμφαση στα φασικά χαρακτηριστικά αυτών των πιο σχετικών με την ανάλυση συντελεστών. Η μέθοδος αυτή αντιστάθμισε τις αστάθειες των επιμέρους προσεγγίσεων και παρήγαγε πιο ‘’αιχμηρά’’ peaks για τα ανιχνευμένα onsets. Τα αποτελέσματα που παρατηρήθηκαν τελικά αποδείχτηκαν ικανοποιητικότερα τόσο από την ενεργειακή όσο και από τη φασική προσέγγιση . H συνάρτηση της συνδυαστικής προσέγγισης φαίνεται στην εικόνα 3.16 σε σύγκριση με τις δύο προηγούμενες.
  • 53.
    51 Εικόνα 3.16 :Το ηχητικό σήμα (α) και οι τρείς συναρτήσεις ανίχνευσης onset. Φασική Προσέγγιση (b), Ενεργειακή Προσέγγιση (c), Συνδυασμός Ενεργειακής και Φασικής Προσέγγισης (d) [60] Περιεχόμενο υψηλής συχνότητας (High Frequency Content, HFC) Ο Masri πρότεινε τον εντοπισμό ενεργειακών εξάρσεων στο πεδίο της συχνότητας χρησιμοποιώντας ευρείες ζώνες συχνοτήτων [61], δίνοντας έτσι έμφαση στις αλλαγές των συστατικών του φάσματος με υψηλό συχνοτικό περιεχόμενο: 𝐷 𝐻[𝑛] = ∑ 𝑘|𝑋 𝑘[𝑛]𝑒 𝑗𝜑 𝑘[𝑛] | 2 𝑁 𝑘=1 (3.10)
  • 54.
    52 όπου Xk[n] είναιτο φασματικό εύρος του σήματος και Φk[n] η φάση του, σε χρόνο n. Αυτή η μέθοδος, επειδή δίνει έμφαση στις συχνοτικές αλλαγές στο υψηλό μέρος του φάσματος και ιδιαίτερα στις εξάρσεις ευρυζωνικού θορύβου, έχει καλά αποτελέσματα στην αναγνώριση κρουστικών onset. Ωστόσο, είναι λιγότερο επιτυχής στη αναγνώριση onset, όταν η πηγή του ήχου δεν προκαλεί ευρείες εξάρσεις ενέργειας, όπως συμβαίνει στα έγχορδα με δοξάρι, στα πνευστά σαν το φλάουτο κ.ο.κ. Φασματική διαφορά (Spectral Flux) Αλλαγές στο αρμονικό περιεχόμενο και στη θεμελιώδη συχνότητα που προκαλούνται ομαλά, σα να ολισθαίνουν από τη μία στην άλλη, δεν εντοπίζονται επιτυχώς από τις μεθόδους Energy και HFC. Μία από τις μεθόδους που μετράνε τις αλλαγές στο αρμονικό περιεχόμενο είναι γνωστή ως Φασματική Διαφορά (Spectral Difference ή Spectral Flux ) [62]. Αυτή η μέθοδος υπολογίζει το μέγεθος της διαφοράς του φασματικού περιεχομένου δύο διαδοχικών δειγμάτων που προκύπτουν από μετασχηματισμό Fourier μικρής διάρκειας (Short Time Fourier Transform). Παρακάτω φαίνεται η συγκεκριμένη συνάρτηση 𝐷𝑠[𝑛] = ∑||𝑋 𝑘[𝑛]|2 − |𝑋 𝑘[𝑛 − 1]|2| 𝑁 𝑘=0 (3.11) Όπως και η συνάρτηση βασισμένη στην ενέργεια του σήματος έτσι κι αυτή είναι αρκετά αποτελεσματική στην ανίχνευση onsets κρουστικών τόνων [63]. Από την άλλη πλευρά, επιχειρεί να προσδιορίσει το ποσοστό της μεταβολής από το ένα δείγμα στο άλλο, σε αντίθεση με τις συναρτήσεις Energy και HFC, όπου οι παρατηρήσεις γίνονται μεμονωμένα σε κάθε δείγμα ξεχωριστά.
  • 55.
    53 Kullback-Liebler distance Μπορούν ναπαρθούν εναλλακτικά μέτρα για να υπολογιστεί η απόσταση μεταξύ δύο συνεχόμενων δειγμάτων. Στοχεύοντας στον τονισμό των ενεργειακών αυξήσεων και αγνοώντας τις μειώσεις, μπορεί να χρησιμοποιηθεί η απόσταση Kullback-Liebler: 𝐷 𝑘𝑙[𝑛] = ∑|𝑋 𝑘[𝑛]| log |𝑋 𝑘[𝑛]| |𝑋 𝑘[𝑛 − 1]| 𝑁 𝑘=0 (3.12) Αυτή η συνάρτηση αναδεικνύει τις θετικές αλλαγές του πλάτους στο σήμα, παρουσιάζοντας μεγάλες κορυφές καθώς από την σιωπή περνάμε σε κάποιο ηχητικό γεγονός. Μια παραλλαγή αυτής της προσέγγισης παρουσιάζεται από τους Hainsworth και Macleod [64], αφαιρώντας το|𝑋 𝑘[𝑛]| και εντείνοντας έτσι τις διακυμάνσεις του πλάτους: 𝐷 𝑚𝑘𝑙[𝑛] = ∑ log |𝑋 𝑘[𝑛]| |𝑋 𝑘[𝑛 − 1]| 𝑁 𝑘=0 (3.13) Ο Paul Brossier στοχεύοντας να αποτρέψει τη συνάρτηση από το να παίρνει αρνητικές τιμές, κάτι το οποίο θα αύξανε την πολυπλοκότητα της επιλογής των κορυφών στο επόμενο στάδιο επεξεργασίας, διαμόρφωσε περαιτέρω την παραπάνω συνάρτηση ως εξής: 𝐷′ 𝑘𝑙[𝑛] = ∑ log (1 + |𝑋 𝑘[𝑛]| |𝑋 𝑘[𝑛 − 1]+∈| ) 𝑁 𝑘=0 (3.14) όπου ∈ είναι μια σταθερά με τιμή ∈=10−6 , σχεδιασμένη για να αποφεύγονται μεγάλες διακυμάνσεις όταν το σήμα έχει πολύ χαμηλά επίπεδα ενέργειας, αποτρέποντας έτσι την παρουσία μεγάλων κορυφών τις χρονικές στιγμές που υπάρχουν offset [65]. Peak Peaking Για να εντοπιστούν τα onset πρέπει να εντοπιστούν οι κορυφές της συνάρτησης ανίχνευσης που αντιστοιχούν σε πραγματικούς χρόνους onset, και να απορριφθούν οι υπόλοιπες κορυφές που οδηγούν σε ψευδή onset. Ανάλογα με το περιεχόμενο του σήματος και κυρίως την ένταση, μπορούν να παρατηρηθούν σημαντικές διακυμάνσεις στο πλάτος των συναρτήσεων ανίχνευσης. Η επιλογή του κατωφλίου για τις συναρτήσεις ανίχνευσης μπορεί να θεωρηθεί προβληματική για πολυάριθμους λόγους. Αρχικά, οι συναρτήσεις ανίχνευσης τείνουν να είναι “θορυβώδεις”, εκτός αν έχουν περαστεί από ένα χαμηλοπερατό φίλτρο, κάτι που οδηγεί σε μικρότερες
  • 56.
    54 διακυμάνσεις στο σήμακαι κατ΄ επέκταση στην αδυναμία του συστήματος να εντοπίσει εν δυνάμει onset. Επιπρόσθετα, σε ένα μικρό κομμάτι του σήματος μπορούν να υπάρχουν πολλοί διαφορετικοί τύποι onset. Γι’ αυτούς τους λόγους, η επιλογή κατωφλίου για την εκάστοτε συνάρτηση ανίχνευσης συνήθως γίνεται χειροκίνητα σε πολλές εφαρμογές. Σε εφαρμογές όμως πραγματικού χρόνου (real-time applications) κάτι τέτοιο θα ήταν μη πρακτικό. ‘Ενας τρόπος ώστε να αντιμετωπιστούν αυτές οι έντονες μεταβολές στο σήμα μας είναι η δυναμική κατωφλίωση (dynamic thresholding). Με βάση κάθε παρατήρηση στη συνάρτηση ανίχνευσης, υπολογίζεται ένα κατώφλι βασιζόμενο σε ένα μικρό αριθμό μελλοντικών και παρελθοντικών παρατηρήσεων, το οποίο συγκρίνεται με το πλάτος της τρέχουσας παρατήρησης. Μία μέθοδος κατασκευής δυναμικού κατωφλίου είναι η Frame Histogramming [64], όπου το πιο κατάλληλο όριο της συνάρτησης ανίχνευσης καθορίζεται από τη μελέτη του πλήθους των παρατηρήσεων γύρω από την τρέχουσα χρονική στιγμή. Οι Duxbury et al [30] επέλεξαν έναν απλό αλγόριθμο peak picking, χρησιμοποιώντας ένα weighted/βεβαρημένο κυμαινόμενο μέσο όρο, για να καθοριστούν οι ακριβείς θέσεις των onsets από την συνάρτηση ανίχνευσης. Ο αλγόριθμος αυτός βασίζεται στην αρχή ότι υπολογίζοντας το μέσο όρο(median) ενός σήματος από ένα κυλιόμενο ‘’παράθυρο’’ ανάλυσης, όλες οι κορυφές που υπερβαίνουν αυτόν επιλέγονται ως onsets. Κάθε τιμή του δυναμικού κατωφλίου δ, για μια κυλιόμενη ανάλυση H μήκους δίνεται από τον τύπο: 𝛿𝑡(𝑚) = 𝐶𝑡 𝑚𝑒𝑑𝑖𝑎𝑛 𝛾2 (𝑘 𝑚), 𝑘 𝑚 𝜖 [𝑚 − 𝐻 2 , 𝑚 + 𝐻 2 ] (3.15) όπου Ct είναι ένας κλιμακωτός παράγοντας [30].
  • 57.
    55 Εικόνα 3.17 :Δυναμικό κατώφλι median (διακεκομμένη γραμμή) εφαρμοσμένο στη συνδυαστική συνάρτηση (Ενέργειας και Φάσης) εκτίμησης onset [60] Εκτίμηση των silenced frames Το τελευταίο στάδιο της μονοφωνικής μεταγραφής είναι αυτό της ανίχνευσης των χρονικών διαστημάτων που επικρατεί σιγή στο σήμα. Για να είναι δυνατή η κατασκευή του αρχείου midi αφού ανιχνευθεί το onset μιας νότας πρέπει στη συνέχεια να εκτιμήσουμε το διάστημα στο οποίο εκείνη είναι ενεργή. Αυτό είναι εφικτό με τον προσδιορισμό του offset της νότας. Αυτά ακριβώς τα διαστήματα, από το offset της νότας μέχρι το onset της επόμενης, ονομάζουμε silenced frames. Η διαδικασία εκτίμησης των silenced frames είναι σχετικά απλή και γρήγορη. Συγκρίνοντας, λοιπόν, την ενέργεια του κάθε frame με την τιμή του κατωφλίου που έχει προσαρμοστεί δυναμικά στην ενέργεια του σήματος, είμαστε σε θέση να αποφασίσουμε ποια από αυτά τα frames παρουσιάζουν ιδιαίτερα χαμηλή στάθμη ενέργειας και άρα αντιστοιχούν σε στιγμές σιγής στο σήμα μας. Έχοντας προσδιορίσει τα οnsets και τα ύψη των νοτών του μουσικού σήματος μέσα από τις αντίστοιχες συναρτήσεις αλλά και τα silenced frames με την παραπάνω διαδικασία, είμαστε σε θέση να συνθέσουμε το αρχείο midi το οποίο θα αξιολογήσουμε στη συνέχεια. Εικόνα 3.18 : Silenced frame ενός ηχητικού αποσπάσματος silenced frame
  • 58.
    56 4. Πολυφωνική μεταγραφήμουσικής 4.1 Το πρόβλημα της πολυφωνίας Tι ονομάζουμε πολυφωνία; Ως πολυφωνία ή πολυφωνική μουσική, χαρακτηρίζεται κάθε μουσικό είδος το οποίο βασίζεται σε πολλές μελωδικές γραμμές, οι οποίες συμπλέκονται κατάλληλα σχηματίζοντας μία πολυγραμμική υφή[66]. Σε αντίθεση με τη μονοφωνία, κάθε χρονική στιγμή είναι δυνατόν να συνυπάρχουν δύο ή περισσότερες νότες χωρίς να έχουν κάποια αρμονική σχέση και μπορούν να επικαλύπτονται χρονικά με τυχαίο τρόπο. Αυτό το ταυτόχρονο άκουσμα δύο ή περισσότερων μουσικών φθόγγων ονομάζεται συνήχηση. Χαρακτηριστικό παράδειγμα πολυφωνίας είναι οι συγχορδίες της κιθάρας. Εικόνα 4.1 Παρτιτούρα και ταμπλατούρα πολυφωνικής μελωδίας Όπως έχουμε επισημάνει και στην αρχή της διπλωματική εργασίας, η πολυφωνική μεταγραφή μουσικής αποτελεί ένα τρομερά δύσκολο πρόβλημα του κλάδου της ανάκτησης μουσικής πληροφορίας. Αυτό σημαίνει ότι οι υπάρχοντες αλγόριθμοι μπορούν να μεταγράψουν πολυφωνικά μουσικά κομμάτια με μια σχετική επιτυχία αναγνώρισης των νοτών, η οποία ποικίλλει από το βαθμό πολυφωνίας και την πολυπλοκότητα του κομματιού. Τα τελευταία χρόνια με σκοπό την επίτευξη του παραπάνω εγχειρήματος έχουν αναπτυχθεί διάφορες μέθοδοι. Δύο από αυτές είναι η χρήση των νευρωνικών δικτύων και η παραγοντοποίηση μη-αρνητικών πινάκων, με τη δεύτερη να εξάγει μέχρι τώρα τα πιο
  • 59.
    57 ικανοποιητικά αποτελέσματα. Αυτόέχει ως αποτέλεσμα την διεξαγωγή μιας βαθύτερης μελέτης προς αυτή την κατεύθυνση και την πρόταση εναλλακτικών αλγόριθμων. Η παραγοντοποίηση μη-αρνητικών πινάκων είναι η μέθοδος με την οποία θα ασχοληθούμε στη συγκεκριμένη διπλωματική εργασία γι’ αυτό και την αναλύουμε παρακάτω. 4.2 Μέθοδος παραγοντοποίησης μη αρνητικών πινάκων – (Νοn- Negative Matrix Factorization – NMF) 4.2.1 Λίγα λόγια για τον NMF H παραγοντοποίηση μη-αρνητικών πινάκων, ή αλλιώς NMF (Νοn-Negative Matrix Factorization), εισήχθη για πρώτη φορά σαν ιδέα από τον Paatero το 1997 ως παραγοντοποίηση θετικών Πινάκων. Αργότερα, οι Lee και Seung το 1999 πρότειναν κάποιους πολύ αποδοτικούς αλγόριθμους σε ότι αφορά το υπολογιστικό μέρος της μεθόδου NMF. Από την πρώτη στιγμή που εισήχθη σαν έννοια, ο NMF εφαρμόστηκε επιτυχώς σε ποικίλα προβλήματα παρόλη την αμυδρή υποστήριξη που είχε [67]. H παραγοντοποίηση μη-αρνητικών πινάκων είναι μία πολύ ισχυρή τεχνική ανάλυσης, καθώς επιτρέπει την αναπαράσταση δισδιάστατων μη-αρνητικών δεδομένων ως γραμμικό συνδυασμό των στοιχείων μιας βάσης. Ο NMF έχει χρησιμοποιηθεί ευρέως στην επεξεργασία ηχητικών σημάτων. Πιο συγκεκριμένα, έχει εφαρμοστεί σε ζητήματα διαχωρισμού ηχητικών πηγών [68], στη μεταγραφή τυμπάνων (drum transcription) [69] καθώς και σε ζητήματα μεταγραφής πολυφωνικής μουσικής. Κύρια ιδιότητα του αποτελεί ο διαχωρισμός των νοτών σε ένα πολυφωνικό ηχητικό σήμα και η μεταγραφή του σε συμβολική μορφή, όπως είναι το MIDI [70][71]. Παρακάτω, θα ορίσουμε τον NMF, ενώ θα αναφέρουμε και διάφορες εναλλακτικές υλοποιήσεις του. 4.2.2 Ορισμός του ΝΜF Η αρχική φόρμουλα του NMF ορίζεται ως εξής: Έχοντας ένα μη-αρνητικό πίνακα V, διαστάσεων m×n, έχουμε σαν σκοπό να τον προσεγγίσουμε ως γινόμενο δύο μη-αρνητικών πινάκων W και H, διαστάσεων m×r και r×n αντίστοιχα, όπου r ≤ m, έτσι ώστε να ελαχιστοποιήσουμε το σφάλμα ανακατασκευής του V από το γινόμενο W∙Η.
  • 60.
    58 Ο πολλαπλασιασμός πινάκωνγίνεται με τον γραμμικό συνδυασμό των διανυσμάτων που σχηματίζουν οι στήλες του W επί τους συντελεστές που παρέχουν τα περιεχόμενα των κελιών του Η. Έτσι, κάθε στήλη του V μπορεί να υπολογιστεί ως εξής : 𝒗𝒊 = ∑ 𝑯𝒋𝒊 ⋅ 𝒘𝒋 𝑵 𝒋=𝟏 (4.1) Ν: ο αριθμός των στηλών του W vj: είναι το i διάνυσμα στήλης του παραγόμενου πίνακα V Hji : είναι η τιμή του κελιού στην j γραμμή και i στήλη του πίνακα H wj : είναι η j στήλη του πίνακα W [72] Σημειώνεται πως η παραγοντοποίηση δεν είναι μοναδική. Ένας πίνακας και ο αντίστροφός του μπορούν να χρησιμοποιηθούν για να μεταβάλουν τους δύο πίνακες παραγοντοποίησης. Για παράδειγμα, έστω η σχέση: WH = WBB-1 H όπου, Β ένας τυχαίος μη-αρνητικός πίνακας διαστάσεων (RxR), και B-1 ο αντίστροφος αυτού με διαστάσεις (RxR).Αν οι νέοι πίνακες 𝑊̃ = 𝑊 ⋅ 𝐵 και 𝐻̃ = 𝐵−1 ⋅ 𝐻 είναι μη-αρνητικοί. τότε σχηματίζουν μια άλλη λύση της ζητούμενης παραγοντοποίησης. Η επιτυχία της ανακατασκευής του πίνακα V μπορεί να μετρηθεί μέσα από διάφορες συναρτήσεις κόστους. Η συναρτήσεις κόστους που προτείνουν οι Lee και Seung είναι οι ακόλουθες: α) 𝐷 = ‖𝑉 ⨂ ln ( 𝑉 𝑊 ∙ 𝐻 ) − 𝑉 + 𝑊 ∙ 𝐻‖ 𝐹 (4.2) Όπου II∙II είναι η Frobenius νόρμα και ⨂ το γινόμενο Hadamard (πολλαπλασιασμός κατά στοιχείο). Η πράξη της διαίρεσης που αναφέρεται παραπάνω είναι επίσης κατά στοιχείο. Η εξίσωση αυτή είναι συγγενική της απόκλισης Kullback-Leibler. H δεύτερη συνάρτηση βασίζεται στην Ευκλείδεια απόσταση και ορίζεται ως εξής: β) 𝐶 = ‖𝑉 − 𝑊 ∙ 𝐻‖ 𝐹 (4.3)
  • 61.
    59 Οι Lee καιSeung το 2000 πρότειναν έναν αποτελεσματικό επαναληπτικό αλγόριθμο για βελτιστοποιήσουν τη συνάρτηση αυτή χωρίς τη χρήση περιορισμών για να επιβάλλουν τη μη- αρνητικότητα στους πίνακες. Oι επαναληπτικοί κανόνες ενημέρωσης για κάθε περίπτωση των παραπάνω συναρτήσεων κόστους είναι: o Kullback-Leibler 𝛨 = 𝛨⨂ 𝑊 𝛵 ⋅ 𝑉 𝑊 ⋅ 𝐻 𝑊 𝛵 ⋅ 1 (4.4) , 𝑊 = 𝑊⨂ 𝑉 𝑊 ⋅ 𝐻 ⋅ 𝐻 𝛵 1 ⋅ 𝐻 𝛵 (4.5) o Ευκλείδεια απόσταση 𝛨 = 𝛨⨂ 𝑊 𝛵 ⋅ 𝑉 𝑊 ⋅ 𝐻 𝑊 𝛵 ⋅ 𝑊 ∙ 𝐻 (4.6) , 𝑊 = 𝑊⨂ 𝑉 𝑊 ⋅ 𝐻 ⋅ 𝐻 𝛵 𝑊 ∙ 𝐻 ⋅ 𝐻 𝛵 (4.7) όπου 1 είναι ένα μοναδιαίος m×n πίνακας και οι διαιρέσεις είναι και εδώ κατά στοιχείο. Η μεταβλητή r επιλέγεται ώστε να ικανοποιεί το κριτήριο (n+m) r < nm, με αποτέλεσμα οι Πίνακες W και H να είναι μικρότεροι από τον V [67]. Βλέπουμε λοιπόν ότι η μέθοδος NMF βασίζεται σε επαναληπτικές ανανεώσεις των πινάκων W και Η για να συγκλίνει. Σε κάθε επανάληψη του αλγόριθμου η νέα τιμή του W ή του Η υπολογίζεται βάσει της επιτυχίας της προσέγγισης στην προηγούμενη επανάληψη. Αποδεικνύεται ότι η ποιότητα της προσέγγισης ανανεώνεται μονοτονικά με την εφαρμογή των πολλαπλασιαστικών κανόνων ενημέρωσης. Οι πίνακες W και H μπορούν να αρχικοποιηθούν με τυχαίες μη-αρνητικές τιμές και με την εφαρμογή των κανόνων ενημέρωσης, σύμφωνα με τους Lee και Seung, ο NMF συγκλίνει σε τοπικό ελάχιστο. Ένας εναλλακτικός τρόπος να εξετάσουμε την παραπάνω παραγοντοποίηση είναι ως αποσύνθεση μιας βάσης χαμηλότερης τάξης, έτσι ώστε V = W∙H και ακολούθως Η=Α∙Χ, όπου 𝐴 = 𝑊+ διαστάσεων r×m . Το σύμβολο + εκφράζει τον αντίστροφο πίνακα Moore-Penrose, γνωστό κι ως ψευδοαντίστροφο πίνακα. H τελευταία αυτή εξίσωση μας επιτρέπει να συσχετίσουμε την διαδικασία αυτή με μεθόδους ανάλυσης όπως είναι οι ICA (Independent Component Analysis) και PCA (Principal Component Analysis). Στη πραγματικότητα, χρησιμοποιώντας την συνάρτηση κόστους (4.3) έχει αποδειχθεί ότι το αποτέλεσμα του NMF είναι πάντα μια κυκλική εναλλαγή του ισοδύναμου αποτελέσματος της PCA (H PCA στη πραγματικότητα ελαχιστοποιεί την ίδια συνάρτηση κόστους αλλά με ορθογωνικό
  • 62.
    60 περιορισμό). Με βάσηαυτό το γεγονός, αναφέρεται ότι ο ΝMF πραγματοποιεί μια μη- αρνητική ανάλυση ICA [70]. Σε πιο κοινούς όρους, αυτό που κάνει ο NMF είναι να συνοψίζει το “προφίλ” των γραμμών του V στις γραμμές του H και αντίστοιχα το “προφίλ” των στηλών του V στις στήλες του W. Η παράμετρος r που ορίζει την τάξη της προσέγγισης αποτελεί τη δύναμη αυτής της σύνοψης. Αν επιλέξουμε τέτοια τιμή στο r ώστε r=m, τότε τα περιεχόμενα των πινάκων W και H δεν μας παρέχουν κάποια ιδιαίτερη πληροφορία. Όσο όμως ελαττώνουμε την τιμή του r τα στοιχεία του W και H αρχίζουν να παίρνουν τιμές που συνοπτικά περιγράφουν τα κύρια στοιχεία του πίνακα V. Το ζήτημα είναι να θέσουμε τέτοια τιμή στην παράμετρο r ώστε να εξάγουμε τα κυριότερα συστατικά της δομής του V [70]. 4.2.3 Προεκτάσεις του NMF Sparse NMF Μια επέκταση του NMF αποτελεί ο αραιός NMF (Sparse NMF) . Η λειτουργία του SNMF βασίζεται στην αδυναμία της μεθόδου NMF να θέσει περιορισμούς πυκνότητας των δεδομένων στους πίνακες. Με αποτέλεσμα να μην είναι σε θέση να πραγματοποιήσει αποτελεσματική παραγοντοποίηση σε έναν πίνακα V που έχει τοπικά αραιά χαρακτηριστικά στα δεδομένα του. Με την εισαγωγή του συντελεστή αραιότητας αναιρούμε αυτό το πρόβλημα. Επίσης, έτσι αναιρούμε και την αμοιβαιότητα που μπορεί να υπάρξει ανάμεσα στους πίνακες W και Η. Ένας απλός τρόπος να εισάγουμε το περιορισμό της αραιότητας στον πίνακα H είναι να αντικαταστήσουμε την συνάρτηση κόστους με τον εξής τύπο: 𝑮(𝑽 ∥ 𝑾, 𝑯) = ‖𝑽 − 𝑾 ∙ 𝑯‖ 𝑭 + 𝝀 ∑ 𝑯𝒊𝒋 𝒊𝒋 (𝟒. 𝟖) Στην παραπάνω εξίσωση ο δεύτερος όρος είναι αυτός που επιβάλλει την αραιότητα στον πίνακα Η. Η τιμή της παραμέτρου λ καθορίζει την ισορροπία μεταξύ της αραιότητας και της ακριβούς ανακατασκευής του πίνακα V.Όσο μικρότερη τιμή έχει η παράμετρος λ τόσο πιο ακριβής είναι και η προσέγγιση του γινομένου W∙H. Αυτή η συνάρτηση κόστους ελαχιστοποιείται με τους εξής κανόνες ενημέρωσης:
  • 63.
    61 𝑊 = 𝑊− 𝜇(𝑊 𝛵 ⋅ 𝐻 − 𝑉)𝐻 𝛵 (4.9) 𝐻 = 𝐻. ⨂(𝑊 𝛵 ⋅ 𝑉)./(𝑊 𝛵 ⋅ 𝑊 ⋅ 𝐻 + 𝜆) (4.10) Όπου . ⨂ και ./ αντιστοιχούν σε πολλαπλασιασμό και διαίρεση κατά στοιχείο, μ είναι ένας μικρός πραγματικό αριθμός και λ ένας θετικός αριθμός. NMF Deconvolution Ακόμη μια παραλλαγή του αλγορίθμου NMF είναι η αποσυνελικτική παραγοντοποίηση NMFD (Non-Negative Matrix Factor Deconvolution), που προτάθηκε από τον Smaragdis [67]. Ο κλασικός NMF είναι μία καλή μέθοδος για την επεξεργασία ηχητικών σημάτων αλλά έχει μια αδυναμία στο να συνυπολογίζει συγγενικές θέσεις στο φάσμα του σήματος, αποκλείοντας έτσι προσωρινές πληροφορίες. Στον απλό NMF ο πολλαπλασιασμός των πινάκων V και Η γίνεται στιγμιαία, ενώ στην αποσυνελικτική παραγοντοποίηση πινάκων ο πολλαπλασιασμός των V και H είναι μια συνελικτική μίξη που δίνεται από τον τύπο: 𝑉 = ∑ 𝑊𝜏 ⋅ 𝐻 𝜏⃗ 𝑇−1 𝜏=0 (4.11) όπου το 𝐻 𝜏⃗ σημαίνει μετατόπιση των στηλών του H τ θέσεις δεξιά. Θέτοντας ως 𝛬 = ∑ 𝑊𝜏 ⋅ 𝐻 𝜏⃗𝛵−1 𝜏=0 προκύπτει η ακόλουθη συνάρτηση κόστους: 𝐷 = ‖𝑉 ⨂ ln ( 𝑉 𝜦 ) − 𝑉 + 𝜦‖ 𝐹 (4.12) Αντίστοιχα προκύπτουν και οι επαναληπτικοί κανόνες ενημέρωσης: 𝛨 = 𝛨⨂ 𝑊𝜏 𝛵 ⋅ [ 𝑉 𝛬] 𝜏⃗ 𝑊𝜏 𝛵 ⋅ 1 (4.13) , 𝑊𝜏 = 𝑊𝜏⨂ 𝑉 𝛬 ⋅ 𝐻 𝜏⃗ 𝛵 1 ⋅ 𝐻 𝜏⃗ 𝛵 (4.14)
  • 64.
    62 Sparse NMF 2-DDeconvolution Ένα συνδυασμός των μεθόδων NMF που αναλύθηκαν προηγουμένως είναι ο SNMF2D( Sparse Nonnegative Matrix Factor 2-D Deconvolution) που προτάθηκε από τους Morten και Morup [73]. Το μοντέλο NMF2D επεκτείνει το NMF σε 2-διαστάσεων συνέλιξη των W και Η που δίνεται από τον τύπο : 𝑉 = ∑ 𝑊𝜏 ↓𝜑 ⋅ 𝛨 𝜑 𝜏⃗ 𝜏,𝜑 (4.15) όπου το 𝑊𝜏 ↓𝜑 σημαίνει μετατόπιση των γραμμών του W κατά φ θέσεις κάτω. Ο συντελεστής αραιότητας εφαρμόζεται στον πίνακα Η των μελωδιών έτσι ώστε η δομή της υπογραφής να ωθείται προς τον πίνακα W των υπογραφών. Εφαρμόζεται σε κάθε επανάληψη για να ελαχιστοποιεί τον κανόνα του πίνακα Η [74]. 𝛨 𝜑 = 𝛨 𝜑⨂ ∑ 𝑊𝜏 ↓𝜑Τ ⋅ [ 𝑉 𝛬] 𝜏⃖⃗ 𝜏 ∑ 𝑊𝜏 ↓𝜑Τ ⋅ 1𝜏 (4.16) , 𝑊𝜏 = 𝑊𝜏⨂ ∑ [ 𝑉 𝛬] ↑𝜑 ⋅ 𝛨 𝜑 𝜏⃗ 𝛵 𝜑 ∑ 1 ⋅ 𝛨 𝜑 𝜏⃗ 𝛵 𝜑 (4.17) Αναφέρουμε ξανά ότι οι πίνακες W και H αρχικοποιούνται με τυχαίες μη-αρνητικές τιμές σε όλες τις εναλλακτικές μεθόδους του ΝΜF. 4.3 Η διαδικασία της πολυφωνικής μεταγραφής Όπως και στη μονοφωνική μεταγραφή, έτσι και στην πολυφωνική, το σήμα μας πρέπει να περάσει από μια αλληλουχία σταδίων επεξεργασίας ώστε να εξάγουμε το τελικό μας αποτέλεσμα, που στην προκειμένη περίπτωση είναι ένα πολυφωνικό midi. Παρακάτω απεικονίζεται το σύστημα μεταγραφής ενός πολυφωνικού σήματος.
  • 65.
    63 Εικόνα 4.2 :Τα στάδια της πολυφωνικής μεταγραφής 4.3.1 O NMF στην πολυφωνική μεταγραφή Για να γίνει κατανοητή η εφαρμογή της μεθόδου NMF στη πολυφωνική μεταγραφή ενός ηχητικού σήματος ακολουθεί ένα απλό παράδειγμα. Signal segmentation STFT / Constant Q NMF Pitch Detection Onset Detection •Thresholding Midi Construction Input signal track.wav midi file track.mid
  • 66.
    64 Έστω ότι τοπολυφωνικό μας σήμα προς μεταγραφή αποτελείται από δύο θεμελιώδεις συχνότητες. Στην παρακάτω εικόνα βλέπουμε το φασματογράφημα V του σήματος, από όπου μπορούμε να αντλήσουμε πληροφορίες σχετικά με τα χρονικά διαστήματα που κάθε συχνότητα είναι ενεργή. Εικόνα 4.3 Διάγραμμα συχνότητας – χρόνου μιας απλής ηχητικής σκηνής [70] Σκοπός μας σε αυτό το σημείο είναι να εφαρμόσουμε τον NMF στο μη-αρνητικό πίνακα V m×n. Αυτό σημαίνει ότι πρέπει να σχηματίσουμε τους πίνακες W m×r και Η r×n έτσι ώστε το γινόμενο τους να προσεγγίζει όσο γίνεται τον πίνακα V. Ορίζοντας r=2 γιατί έχουμε δύο συχνότητες στο σήμα μας και εφαρμόζοντας τον επαναληπτικό αλγόριθμο για τα W και Η περιμένουμε το γραφικό αποτέλεσμα της παρακάτω εικόνας. Εικόνα 4.4 : Η αποσύνθεση του πίνακα της σκηνής της εικόνας 4.3 σε γινόμενο των πινάκων H (αριστερά) και W (δεξιά) [70]
  • 67.
    65 Έτσι παρατηρούμε ταεξής: Οι δύο γραμμές του H περιέχουν δύο χρονοσειρές που αντικατοπτρίζουν την οριζόντια δομή του V. Με το ίδιο σκεπτικό οι στήλες του πίνακα W αντικατοπτρίζουν την κάθετη δομή του V. Η κάθε στήλη δηλαδή του W δίνει την συχνότητα της κάθε νότας και η αντίστοιχη γραμμή του Η τις χρονικές διάρκειες που αυτή είναι ενεργή. Συνεπώς ο γραμμικός συνδυασμός της n-οστής γραμμής του H με τη n-οστή στήλη του W παράγουν ένα φασματογράφημα ισοδύναμο με αυτό του V. Φυσικά, το παράδειγμα δεν αποτελεί μία δύσκολη περίπτωση για τον ΝΜF αλγόριθμο, καθώς το σήμα μας δεν αποτελούταν ούτε από αρμονικές συνιστώσες, που συνεπάγονται παραπάνω πληροφορία, ούτε από μεγάλο αριθμό ηχητικών γεγονότων. Ας περάσουμε να δούμε την εφαρμογή του NMF σε μία μονοφωνική μουσική μελωδία. Παρακάτω απεικονίζεται στο πεντάγραμμο η ακολουθία των νοτών του γνωστού παιδικού τραγουδιού Mary had a little Lamb. Εικόνα 4.5 : Η μονοφωνική μελωδία “Mary had a little Lamb” [75] Όπως είναι προφανές η μελωδία μας αποτελείται από 3 νότες (Ε, D, C), συνεπώς η τάξη παραγοντοποίησης μας είναι r=3. Ακολουθώντας την ίδια διαδικασία, περιμένουμε ο NMF να έχει το αποτέλεσμα της ακόλουθης εικόνας. Εικόνα 4.6 Το φασματογράφημα (V) της μελωδίας της εικόνας 4.5 και η αποσύνθεση του μέσω του NMF στους πίνακες W και Η [75] Ε D C D E E E
  • 68.
    66 Παρόλο που τοσήμα μας έχει όλα τα χαρακτηριστικά ενός πραγματικού μουσικού αποσπάσματος (αρμονικές, θόρυβο κλπ. ) δεν αποτελεί ιδιαίτερη πρόκληση για τον ΝΜF εξαιτίας της μονοφωνικής του φύσης. Το παρακάτω σήμα αποτελείται από δύο νότες (C4, G4) ηχογραφημένες σε ηλεκτρική κιθάρα με τον τρόπο που φαίνεται στο παρακάτω φασματογράφημα. Εικόνα 4.7 : Φασματογράφημα νοτών C4(261.1 Hz) και G4(392 Hz) στη κιθάρα [76] Όπως γίνεται αντιληπτό από το φασματογράφημα το τρίτο μέρος του σήματος αντιστοιχεί στην ταυτόχρονη αναπαραγωγή των νοτών C4 και G4. Η πρόκληση εδώ για τον NMF είναι η αναγνώριση και των δύο ηχητικών γεγονότων στο συγκεκριμένο χρονικό διάστημα. Σ’ αυτή την περίπτωση έχουμε r=3 .Τα διανύσματα βάσης (basis vectors) που συμπεριλαμβάνονται στον πίνακα W φαίνονται στην εικόνα 4.8, ενώ στην εικόνα 4.9 φαίνεται ο πίνακας Η, που περιέχει τα απαιτούμενα βάρη έτσι ώστε να προσεγγίσει κατάλληλα τις αντίστοιχες στήλες του πίνακα V με γραμμικό συνδυασμό των στηλών του W.
  • 69.
    67 Εικόνα 4.8 :Τα διανύσματα βάσης του πίνακα W [76] Εικόνα 4.9 : Οι πληροφορίες ενεργοποίησης των νοτών C4 και G4 στον πίνακα H [76] Βλέπουμε και σε αυτή την περίπτωση ότι ο NMF διαχωρίζει χωρίς ιδιαίτερα προβλήματα τα ηχητικά γεγονότα κάνοντας τη μεταγραφή του συγκεκριμένου πολυφωνικού σήματος να φαίνεται εύκολη διαδικασία. Σε ένα πολυφωνικό μουσικό κομμάτι, όπου είναι πιθανό να συμμετέχουν περισσότερα από ένα μουσικά όργανα, το συχνοτικό εύρος θα είναι πολύ μεγαλύτερο. Αυτό συνεπάγεται την ενδεχόμενη ύπαρξη πολύ χαμηλών και πολύ υψηλών συχνοτήτων στο ίδιο σήμα. Μια αδυναμία που παρουσιάζει η εφαρμογή του FFT σε ένα τέτοιο σήμα είναι η χαμηλή ανάλυση των χαμηλών συχνοτήτων, κάνοντας την ανίχνευση τους από τον NMF μη αποτελεσματική. Τη λύση σε αυτό το πρόβλημα έρχεται να δώσει ο μετασχηματισμός Constant Q.
  • 70.
    68 4.3.2 Constant Q Ομετασχηματισμός Constant Q έχει πολλά κοινά χαρακτηριστικά με το μετασχηματισμό Fourier. Ας δούμε όμως σε τι διαφέρουν για να κατανοήσουμε την υπεροχή του Constant Q σε περιπτώσεις επεξεργασίας ηχητικών σημάτων. Ο Διακριτός Μετασχηματισμός Fourier είναι στην ουσία μια σειρά από ζωνοδιαβατά φίλτρα με σταθερό εύρος και κεντρικές συχνότητες ομοιόμορφα διατεταγμένες στο εύρος συχνοτήτων που αναλύει. Η ανάλυση της συνάρτηση παραθύρου W στο μετασχηματισμό STFT είναι η ίδια για όλες τις τιμές των συχνοτήτων. Για παράδειγμα, στην περίπτωση ενός σήματος της μπότας των ντραμς (bass drum ) και του κρας (crash cymbal) το πλάτος του bin είναι το ίδιο. Επιπρόσθετα, οι συχνότητες στο STFT έχουν ισότιμες αποστάσεις καθώς ο δείκτης στην εξίσωση μετασχηματισμού αυξάνεται γραμμικά [77]. Όπως ακριβώς και ο μετασχηματισμός Fourier, έτσι και ο μετασχηματισμός Constant Q είναι μια σειρά φίλτρων με τη διαφορά ότι οι αποστάσεις των κεντρικών συχνοτήτων είναι λογαριθμικά κατανεμημένες. 𝑓𝑘 = 𝑓𝑜 ⋅ 2 𝑘 𝑏 , 𝑘 = 0,1, . . 𝑁 (4.18) Όπου το b αντιστοιχεί στο αριθμό των φίλτρων ανά οκτάβα [80]. Κάθε λογαριθμικό φίλτρο k του Constant Q έχει φασματικό εύρος πολλαπλάσιο του πλάτους του προηγούμενου φίλτρου. Δηλαδή: 𝛿𝑓𝑘 = 2 1 𝑏 𝛿𝑓𝑘−1 (4.19) Η σχέση που προκύπτει για τον μετασχηματισμό Constant Q προκύπτει σύμφωνα με το παρακάτω συλλογισμό. O STFT (Μετασχηματισμός βραχέως χρόνου) ενός σήματος περιγράφεται από τη σχέση: 𝛸[𝑘] = ∑ 𝑊[𝑛] 𝑥[𝑛] 𝑁−1 𝑛=0 𝑒− 𝑗2𝜋𝑘𝑛 𝑁 (4.20)
  • 71.
    69 για μια δοθείσααλληλουχία δεδομένων, με συχνότητα δειγματοληψίας fs= 1/T, όπου T είναι η περίοδος δειγματοληψίας των δεδομένων και Ν το πλήθος των δειγμάτων, για κάθε συχνοτικό bin μπορούν να ορισθούν τα ακόλουθα :  Πλάτος φίλτρου, 𝛿𝑓𝑘  Παράγοντας ποιότητας Q , 𝑄 = 𝑓 𝑘 𝛿𝑓 𝑘  Μήκος παραθύρου για το k bin, 𝑁[𝑘] = 𝑓 𝑘 𝛿𝑓 𝑘 = ( 𝑓𝑠 𝑓 𝑘 ) 𝑄 𝑓𝑠 𝑓 𝑘 είναι ο αριθμός των δειγμάτων ανά κύκλο στην συχνότητα 𝑓𝑘  Οποιαδήποτε συνάρτηση παραθύρου θα είναι συνάρτηση μήκους παραθύρου και ομοίως συνάρτηση του αριθμού παραθύρου. Για παράδειγμα, το αντίστοιχο παράθυρο Hamming θα έχει την μορφή: 𝑊[𝑘, 𝑛] = 𝑎 − (1 − 𝑎) cos ( 2𝜋𝑛 𝑁[𝑘] ) , με α=25/46 και 0≤n≤Ν[k-1]  Η ψηφιακή συχνότητα 2𝜋𝑘 𝑁 παίρνει τη μορφή 2𝜋𝑄 𝑁[𝑘] Κατά συνέπεια ο μετασχηματισμός Constant Q περιγράφεται από τη σχέση : 𝛸[𝑘] = 1 𝛮[𝑘] ∑ 𝑊[𝑘, 𝑛] 𝑥[𝑛] 𝑁[𝑘]−1 𝑛=0 𝑒 − 𝑗2𝜋𝑄𝑛 𝑁[𝑘] (4.21) O μετασχηματισμός Constant Q προσπαθεί να κρατήσει σταθερό το Q για όλα τα bins της συχνότητας. Αυτό έχει ως συνέπεια να αυξάνεται ο αριθμός των δειγμάτων με τις κεντρικές συχνότητες fk. Συνεπώς, αυξάνεται η ανάλυση στο πεδίο του χρόνου για υψηλότερες συχνότητες [78]. Δεδομένου ότι γίνεται λογαρίθμιση συχνότητας, αυτό έχει ως αποτέλεσμα να απαιτούνται λιγότερα bins συχνότητας για να καλυφθεί ένα συγκεκριμένο εύρος ικανοποιητικά και αυτό αποδεικνύεται χρήσιμο όταν οι συχνότητες κατανέμονται σε αρκετές οκτάβες. Καθώς το εύρος της ανθρώπινης ακοής καλύπτει προσεγγιστικά δέκα οκτάβες (20 Hz έως 20 kHz), αυτή η μείωση στα δεδομένα εξόδου είναι σημαντική [79].
  • 72.
    70 Επιπρόσθετα, οι αρμονικέςτων μουσικών νοτών σχηματίζουν ένα μοτίβο χαρακτηριστικό της χροιάς του οργάνου σε αυτό τον μετασχηματισμό. Θεωρώντας τις ίδιες σχετικές δυνάμεις για κάθε αρμονική, καθώς η θεμελιώδης συχνότητα μεταβάλλεται, οι σχετικές θέσεις αυτών των αρμονικών παραμένουν σταθερές. Αυτό καθιστά την αναγνώριση των οργάνων πολύ εύκολη. Συγκριτικά με τον μετασχηματισμό Fourier, η εφαρμογή του μετασχηματισμού Constant Q είναι πιο δυσνόητη. Αυτό οφείλεται στον μεταβαλλόμενο αριθμό των δειγμάτων που χρησιμοποιούνται στον υπολογισμό του κάθε συχνοτικού bin, ο οποίος επηρεάζει επίσης και το μήκος οποιασδήποτε συνάρτησης παραθύρου χρησιμοποιηθεί. Στην εικόνα 4.10 μπορεί κανείς ξεκάθαρα πλέον να διακρίνει τις διαφορές των φασματογραφημάτων ενός μουσικού αποσπάσματος, σύμφωνα με αυτά που αναλύσαμε παραπάνω: Εικόνα 4.10 : Φασματογράφημα του Μετασχηματισμού Fourier (πάνω) και του μετασχηματισμού Constant Q (κάτω) στην πολυφωνική εισαγωγή του μουσικού κομματιού “Smoke on the Water”
  • 73.
    71 4.3.3 Εκτίμηση Ύψους(pitch detection) Είδαμε πιο πάνω ότι ο πίνακας W συμπεριλαμβάνει τα διανύσματα βάσης (basis vectors), στα οποία στην περίπτωση μας συγκαταλέγονται θεμελιώδεις συχνότητες μαζί με τις αρμονικές τους που αντιστοιχούν σε πιθανές νότες του ηχητικού σήματος. Εικόνα 4.11 : Οι στήλες του πίνακα W περιέχουν ιδανικά τις θεμελιώδεις συχνότητες της μουσικής σύνθεσης [70] Η εκτίμηση του pitch όπως μπορούμε να διαπιστώσουμε από την παραπάνω εικόνα είναι η εύρεση του πρώτου σημαντικού μέγιστου σε κάθε στήλη του πίνακα W. Κατά την εφαρμογή του αλγόριθμου NMF είναι πολύ σημαντικό να κάνουμε μια όσο το δυνατό καλύτερη προσέγγιση της τάξης παραγοντοποίησης r , καθώς η τιμή που θα πάρει θα καθορίσει και την ακρίβεια εκτίμησης των αναμενόμενων pitch. Στην ιδανική περίπτωση το r θα θέλαμε να είναι όσες και οι νότες στο πολυφωνικό μας κομμάτι. Κάτι τέτοιο όμως δεν είναι εφικτό για ευνόητους λόγους, οπότε το καθορίζουμε εμπειρικά. Ο θόρυβος στο σήμα είναι ένα από τα στοιχεία που μπορεί να χαμηλώσει την ποιότητα της μεταγραφής καθώς είναι πιθανό να παρεμβάλλεται σθεναρά ανάμεσα στις θεμελιώδεις συχνότητες του σήματος κάνοντας τη διαδικασία ανίχνευσης του pitch ακόμη πιο δύσκολη.
  • 74.
    72 4.3.4 Εκτίμηση τηςαρχής της νότας (onset detection) Στην περίπτωση της πολυφωνικής μεταγραφής ενός ηχητικού σήματος η ανίχνευση των onsets δεν είναι μια εύκολη διαδικασία. Στον πίνακα Η, που προκύπτει από τη μέθοδο NMF και συγκεκριμένα στις γραμμές του πίνακα, “καταγράφονται” τα χρονικά διαστήματα τα οποία αντιστοιχούν στα ηχητικά γεγονότα του σήματος. Εκτός αυτών, όμως, καταγράφονται και ανεπιθύμητα εσωτερικά σήματα που οφείλονται είτε στην ποιότητα ηχογράφησης του σήματος, είτε στη κατασκευή του μουσικού οργάνου κλπ. Τέτοια ανεπιθύμητα σήματα είναι οι σποραδικές διακυμάνσεις μικρής ενέργειας κατά μήκος της τρίτης σειράς του πίνακα Η που φαίνεται στην παρακάτω εικόνα. Εικόνα 4.12 : Οι γραμμές του πίνακα H σηματοδοτούν τα χρονικά διαστήματα που τα ηχητικα γεγονότα είναι ενεργά. [70] Συνεπώς η εκτίμηση των onsets και κατ’ επέκταση των offsets σχετίζεται με τα χρονικά διαστήματα που παρατηρούνται διακυμάνσεις υψηλής ενέργειας. Για να εξαλειφθούν κατά ένα ποσοστό οποιεσδήποτε ανεπιθύμητες συνιστώσες η εφαρμογή ενός φίλτρου median σε κάθε γραμμή του πίνακα H αποτελεί μια αποδοτική τεχνική. Αυτό
  • 75.
    73 όμως το μέτροδεν είναι αρκετό ώστε να μπορούν να εκτιμηθούν με ακρίβεια τα onsets και offsets του ηχητικού σήματος. Μετά την εφαρμογή του median φίλτρου, ορίζοντας ένα κατώφλι (threshold) σύμφωνα με τη μέγιστη τιμή του πλάτους που εμφανίζεται στο σήμα, μπορούμε να εκτιμήσουμε πιο αποδοτικά τα onsets και offsets στο σήμα [81]. Πιο συγκεκριμένα, στο διάστημα που κλιμακώνονται οι τιμές σε μία σειρά του πίνακα Η, η στιγμή που μια τιμή υπερβεί την τιμή του κατωφλίου ανιχνεύεται ως onset. Αντίστοιχα καθώς η ενέργεια της νότας “σβήνει”, η στιγμή που θα περάσει κάτω από τη τιμή του κατωφλίου ανιχνεύεται ως offset. Έχοντας ολοκληρώσει και το παραπάνω στάδιο, είμαστε σε θέση να κατασκευάσουμε το πολυφωνικό αρχείο midi και να αξιολογήσουμε την ποιότητα της μεταγραφής που πραγματοποιήθηκε. 4.4 W Training Όπως επισημάναμε στις υποενότητες 4.2.2 και 4.2.3 η διαδικασία της μεθόδου παραγανοτοποίησης μη-αρνητικών πινάκων μπορεί να λάβει διάφορες προεκτάσεις και να περιγραφεί από διαφορετικούς επαναληπτικούς κανόνες που έχουν όμως έναν κοινό στόχο. Αυτός δεν είναι άλλος από την προσέγγιση της αρχικής σχέσης: 𝑉 ≈ 𝑊 ⋅ 𝐻. Σε όλες τις μορφές του NMF που έχουν αναπτυχθεί, η διαδικασία της κατασκευής αυτής της προσέγγισης ξεκινάει με την αρχικοποίηση των πινάκων W και H με τυχαίους μη-αρνητικούς αριθμούς. Όπως είναι προφανές μέσα από τις επαναληπτικές διαδικασίες και οι δύο πίνακες συγκλίνουν στις τιμές όπου ο γραμμικός συνδυασμός τους θα προσεγγίζει το πίνακα V. Μια εναλλακτική τεχνική που θα μπορούσαμε να εφαρμόσουμε είναι κρατώντας τον πίνακα W σταθερό να εφαρμόσουμε την επαναληπτική μέθοδο μόνο στον πίνακα H. Κάνοντας κάτι τέτοιο έχουμε “εκπαιδεύσει” τον πίνακα W ώστε να αποτελείται από τα συστατικά τα οποία αναμένουμε να εμφανίζονται στον αρχικό πίνακα V. Tο μόνο που μένει είναι να προσαρμοστεί ο πίνακας Η καθορίζοντας τα βάρη στα συστατικά αυτά για να παράγουμε το επιθυμητό αποτέλεσμα. Ο καθορισμός των διανυσμάτων βάσης του πίνακα W μπορεί να εφαρμοστεί για την αναγνώριση συγκεκριμένων προτύπων (patterns) αλλά και στην περίπτωση μας για την αναγνώριση των νοτών ενός μουσικού κομματιού. Πιο συγκεκριμένα, στην περίπτωση της πολυφωνικής μεταγραφής ενός ηχητικού σήματος ο W θα περιέχει το dataset των νοτών που
  • 76.
    74 εμφανίζονται στο σήμα.Αυτό μπορεί να γίνει με διάφορους τρόπους. Ενδεικτικά θα αναφέρουμε εκείνους που θα υλοποιηθούν στην παρούσα εργασία. Ο πρώτος τρόπος αφορά την χειροκίνητη κατασκευή του πίνακα W. Με τον όρο χειροκίνητη κατασκευή αναφερόμαστε στην κατάλληλη τοποθέτηση των θεμελιωδών συχνοτήτων και των αρμονικών τους σε κάθε στήλη του W, γεμίζοντας τα υπόλοιπα στοιχεία του πίνακα με την τιμή μηδέν (0). Για παράδειγμα, αν επιλέξουμε την τάξη παραγοντοποίησης r=49 ο πίνακας θα αποτελείται από 49 θεμελιώδεις συχνότητες και τις αρμονικές τους. Ο δεύτερος τρόπος έχει την ίδια λογική με τη διαφορά ότι ο πίνακας W κατασκευάζεται μέσω μιας ρουτίνας που διαβάζει και αποθηκεύει τις νότες που έχουν ηχογραφηθεί από ένα μουσικό όργανο, λαμβάνοντας και καταχωρώντας έτσι και την πληροφορία της χροιάς του αντίστοιχου οργάνου. Παρακάτω απεικονίζεται η αρχιτεκτονική ενός συστήματος Sparse NMF με την εκμάθηση του πίνακα W. Εικόνα 4.13 Αρχιτεκτονική Συστήματος πολυφωνικής μεταγραφής με τη μέθοδο Sparse ΝΜF και “εκπαίδευση” του πίνακα W. Σύμφωνα με την παραπάνω τοπολογία αναπτύχθηκαν τρείς εκδοχές του NMF, μία εκ των οποίων αναφέρθηκε και σε προηγούμενη ενότητα. Παρακάτω περιγράφονται περιληπτικώς
  • 77.
    75 και δίνεται σεκάθε περίπτωση η αναδρομική σχέση σύμφωνα με την οποία συγκλίνει ο πίνακας Η  Sparse NMF Η συγκεκριμένη προέκταση του NMF αναλύθηκε στην υποενότητα 4.2.3, συνεπώς εδώ αναφέρεται μία προσέγγιση έχοντας τον πίνακα-βάση W σταθερό. Εκμεταλλευόμενοι, με αυτή τη μέθοδο , την τοπική αραιότητα (sparseness) των δεδομένων του αρχικού πίνακα V σχηματίζουμε τον H με την επαναληπτική διαδικασία που περιγράφεται στο παρακάτω πλαίσιο[83] :  NMF με απόκλιση β (β-Divergence) H συγκεκριμένη εκδοχή του NMF εισάγει την παράμετρο της απόκλισης μέσω του συντελεστή β. Ως απόκλιση δύο σημείων x, y ορίζουμε[84] : 𝑑 𝛽(𝑥|𝑦) = 1 𝛽(𝛽 − 1) (𝑥 𝛽 + (𝛽 − 1)𝑦 𝛽 − 𝛽𝑥𝑦 𝛽−1 ) (4.22) Έτσι για β=1 και β=2 παίρνουμε αντίστοιχα την απόκλιση Kullback-Leibler και την ευρέως χρησιμοποιούμενη Ευκλείδεια απόσταση. 𝑑 𝛽=1(𝑥|𝑦) = 𝑑 𝐾𝐿(𝑥|𝑦) = 𝑥 log 𝑥 𝑦 + 𝑦 − 𝑥 (4.23) 𝑑 𝛽=2(𝑥|𝑦) = 𝑑 𝐸(𝑥|𝑦) = 1 2 (𝑥 − 𝑦)2 (4.24) (α) 𝛨 = 𝜇 𝐻 𝑊 𝛵 (𝑊𝐻 − 𝑉) (β) S = H + (𝑙 𝑒 − ∑ tanh(𝐻^2 ) )/𝑁 (γ) 𝑚 = 𝑙 𝑒 /𝑁 (δ) 𝑆 = 𝑚 + 𝑎 (𝑠 − 𝑚) Όπου 𝑎 = −(𝑠−𝑚) 𝛵 𝑚+ √((𝑠−𝑚) 𝑇 𝑚)2− ∑(𝑠−𝑚)2 (∑ 𝑚2−𝑙2 2) ∑(𝑠−𝑚)2 (ε) θέτουμε τα αρνητικά στοιχεία του S ίσα με μηδέν και H = S
  • 78.
    76 H απόκλιση ενόςπίνακα μπορεί να σχηματιστεί σαν μία διαχωρίσιμη απόκλιση, αθροίζοντας δηλαδή κατά στοιχείο τις επιμέρους αποκλίσεις. Συνεπώς στην περίπτωση του NMF και δεδομένου ότι κρατάμε τον πίνακα-βάση W σταθερό, η συνάρτηση κόστους που θέλουμε να ελαχιστοποιήσουμε παίρνει την παρακάτω μορφή: 𝐷 𝛽(𝑣|𝑊ℎ) = ∑ 𝑑 𝛽 𝑖 (𝑣|[𝑊ℎ]𝑖) (4.25) Έτσι ο Η συγκλίνει με την εφαρμογή του παρακάτω επαναληπτικού κανόνα: 𝛨 = 𝛨⨂ 𝑊 𝛵 ⋅ ((𝑊 ⋅ 𝐻) 𝛽−2 ⨂ 𝑉) 𝑊 𝛵 ⋅ (𝑊 ∙ 𝐻) 𝛽−1 (4.26)  Sparse NMF With Temporal Continuity Σ’ αυτή τη μέθοδο πέρα από το κριτήριο της αραιότητας (sparseness) των δεδομένων εισάγεται και το κριτήριο της προσωρινής συνοχής (temporal continuity). To κριτήριο αυτό μπορεί να υπολογιστεί εντοπίζοντας μεγάλες αλλαγές στα πλάτη (gains) μεταξύ δύο συνεχόμενων frames. Για τον προσδιορισμό του παραπάνω κριτηρίου προτείνεται το άθροισμα της διαφοράς των τετραγώνων των πλατών[68]. Για να μην επηρεάσει η αριθμητική κλίμακα των πλατών τη συνάρτηση πραγματοποιείται μια κανονικοποίηση στα αντίστοιχα πλάτη. Έτσι η συνάρτηση κόστους για την προσωρινή συνοχή μπορεί να γραφτεί ως εξής[68]: 𝑐𝑡(𝐺) = ∑ 1 𝜎𝑗 2 𝐽 𝑗=1 ∑(𝑔𝑡,𝑗 − 𝑔𝑡−1,𝑗) 2 𝑇 𝑡=2 (4.27) Συνεπώς η κλίση της συνάρτησης κόστους c(W,H) είναι το άθροισμα των κλίσεων του σφάλματος ανακατασκευής, του σφάλματος προσωρινής συνοχής (temporal continuity) των δεδομένων και του σφάλματος που περιλαμβάνει το χαρακτηριστικό της αραιότητας(sparseness) και υπολογίζεται από την εξίσωση: 𝛻𝑐(𝑊, 𝐻) = 𝛻𝑐 𝑟(𝑊, 𝐻) + 𝑎𝛻𝑐𝑡(𝐻) + 𝛽𝛻𝑠(𝐻) (4.28)
  • 79.
    77 Η παραπάνω εξίσωσημπορεί να γραφεί ως η παρακάτω αφαίρεση: 𝛻𝑐(𝑊, 𝐻) = 𝛻𝑐+(𝑊, 𝐻) − 𝛻𝑐−(𝑊, 𝐻) (4.29) με 𝛻𝑐+(𝑊, 𝐻) = 𝛻𝑐 𝑟 +(𝑊, 𝐻) + 𝑎𝛻𝑐𝑡 +(𝐻) + 𝛽𝑐 𝑠 +(𝐻) (4.30) και 𝛻𝑐−(𝑊, 𝐻) = 𝛻𝑐 𝑟 −(𝑊, 𝐻) + 𝑎𝛻𝑐𝑡 −(𝐻) + 𝛽𝑐 𝑠 −(𝐻) (4.31) Οι παραπάνω όροι υπολογίζονται ως εξής: o 𝛻𝑐 𝑟 +(𝑊, 𝐻) = 𝑊 𝛵 1 (4.32) o 𝛻𝑐 𝑟 −(𝑊, 𝐻) = 𝑊 𝛵 𝑉 𝑊𝐻 (4.33) o [𝛻𝑐𝑡 +(𝐻)] 𝑗,𝑡 = 4𝛵ℎ 𝑖,𝑡 ∑ ℎ 𝑗,𝑖 2𝑇 𝑖=1 (4.34) o [𝛻𝑐𝑡 −(𝐻)] 𝑗,𝑡 = 2𝑇 ℎ 𝑗,𝑡−1+ ℎ 𝑗,𝑡+1 ∑ ℎ 𝑗,𝑖 2𝑇 𝑖=1 + 2𝑇 ∑ (ℎ 𝑗,𝑖+ ℎ 𝑗,𝑖−1) 2𝑇 𝑖=2 (∑ ℎ 𝑗,𝑖 2𝑇 𝑖=1 ) 2 (4.35) o [𝛻𝑐 𝑠 +(𝐻)] 𝑗,𝑡 = 1 √ 1 𝑇 ∑ ℎ 𝑗,𝑖 2𝑇 𝑖=1 (4.36) o [𝛻𝑐 𝑠 −(𝐻)] 𝑗,𝑡 = ℎ 𝑗,𝑡√ 𝑇 ∑ ℎ 𝑗,𝑖 𝑇 𝑖=1 (∑ ℎ 𝑗,𝑖 2𝑇 𝑖=1 ) 3 2 (4.37) Σημειώνεται πως όλες οι πράξεις που πραγματοποιούνται παραπάνω είναι κατά στοιχείο. Έτσι, η αναδρομική σχέση για τον πίνακα Η έχει ως εξής: 𝛨 = 𝛨⨂ 𝛻𝑐−(𝑊, 𝐻) 𝛻𝑐+(𝑊, 𝐻) (4.38)
  • 80.
    78 5. Πειραματικό μέρος 5.1Υλοποίηση της μονοφωνικής μεταγραφής Στην ενότητα αυτή θα αναλυθεί το προγραμματιστικό μέρος της μονοφωνικής μεταγραφής ενός ηχητικού σήματος. Τα βήματα που ακολουθήσαμε είναι αυτά που περιγράφτηκαν στο σύστημα της υποενότητας 3.2. Πιο συγκεκριμένα, για την ανίχνευση του pitch επιλέχτηκε η μέθοδος της αυτοσυσχέτισης όπως μελετήθηκε και από τον Bello[8] ενώ για την ανίχνευση των onsets εξετάστηκαν δύο τεχνικές. Η πρώτη αφορά την εκτίμηση των onsets με βάση την ενέργεια του σήματος (Energy–based), όπως υποδεικνύεται από τους Duxbury et al [60] και η δεύτερη βασίστηκε στη φασματική διαφορά (Spectral Flux) που ανέπτυξαν οι Benetos και Stylianou [63]. Υπενθυμίζουμε ότι o κώδικας υλοποιήθηκε στο περιβάλλον MATLAB και σαν ηχητικά σήματα εισόδου της μεταγραφής επιλέχτηκαν ηχογραφήσεις από κιθάρα και πιάνο ώστε να μπορούμε να αξιολογήσουμε και να συγκρίνουμε την ποιότητα μεταγραφής και στα δύο μουσικά όργανα δεδομένου ότι τα ηχητικά σήματα που παράγουν διακρίνονται από τη διαφορετική χροιά τους. Επίσης δείγματα χρησιμοποιήθηκαν και από μια database που μας παρείχε το γαλλικό πανεπιστήμιο Télécom ParisTech. Αναφέρεται επίσης ότι η συχνότητα δειγματοληψίας σε όλα τα ηχητικά αρχεία ήταν fs=16kHz. Τέλος για τη κατασκευή του midi χρησιμοποιήσαμε μια σειρά συναρτήσεων που αναπτύχθηκαν από τον Ken Schutte [85] 5.1.1 Κατάτμηση του ηχητικού σήματος Αφού έχουμε εισάγει το ηχητικό μας σήμα μέσω της ενσωματωμένης ρουτίνας audioread του matlab, περνάμε στο στάδιο της κατάτμησης του μέσω της συνάρτησης frame_wind() που υλοποιήσαμε. Οι παράμετροι της συνάρτησης κατάτμησης είναι προφανώς το σήμα εισόδου, το μέγεθος παραθύρου (frame) και η επικάλυψη (overlap). Ορίσαμε τη μεταβλητή frame=256 παρατηρώντας ότι η τιμή αυτή μας παρέχει καλή εποπτεία στο σήμα και η τιμή της επικάλυψης ορίστηκε στο 50% (overlap=0.5) για την επιτυχημένη ανακατασκευή του
  • 81.
    79 σήματος. Αποτέλεσμα αυτήςτης διαδικασία είναι ένας δισδιάστατος πίνακας που πρακτικά κάθε του στήλη αποτελεί ένα frame 256 δειγμάτων. Τέλος, στον πίνακα αυτό εφαρμόζεται και το παράθυρο Hanning σε κάθε ένα από τα επιμέρους τμήματα που χωρίσαμε το σήμα μας. Εικόνα 5.1 : Κατάτμηση του ηχητικού σήματος σε επιμέρους τμήματα (frames) 5.1.2 Pitch Detection με τη μέθοδο της αυτοσυσχέτισης (Auto-correlation) Για να δείξουμε στην πράξη την ψηφιακή επεξεργασία που υπόκειται το σήμα στο στάδιο αυτό θα απεικονίσουμε το γράφημα ενός τυχαίου frame κατά τη διάρκεια εκτίμησης του ύψους. Παρακάτω φαίνεται το εν λόγω frame που ανήκει στο χωρισμένο σε τμήματα πλέον σήμα.
  • 82.
    80 Εικόνα 5.2 :Στιγμιότυπο ενός frame Εφαρμόζοντας τη μέθοδο της αυτοσυσχέτισης στο matlab με τη συνάρτηση xcorr() προκύπτει το παρακάτω αποτέλεσμα για το παραπάνω frame: Εικόνα 5.3 : Εφαρμογή της συνάρτηση της αυτοσυσχέτισης στο frame
  • 83.
    81 Εδώ παρατηρούμε ένακεντρικό μέγιστο και μια άρτια συμμετρία σε σχέση με αυτό επειδή η αυτοσυσχέτιση είναι μια άρτια συνάρτηση. Επίσης, ο αριθμός δειγμάτων (samples) του frame έχει πλέον διπλασιαστεί. Επομένως, τα δείγματα του πρώτου μισού του frame μπορούν να απαλειφθούν. Εικόνα 5.4 : Απαλοιφή του αριστερού συμμετρικού τμήματος της αυτοσυσχέτισης Όπως φαίνεται στην παραπάνω εικόνα το σήμα μας αποτελείται και από αρνητικές συνιστώσες. Σε αυτά τα σημεία όμως το σήμα εμφανίζει ελάχιστη περιοδικότητα οπότε απαλείφονται. Εικόνα 5.5 : To frame της εικόνας 5.4 χωρίς τις αρνητικές συνιστώσες και η ανίχνευση του pitch (πράσινος κύκλος)
  • 84.
    82 Το σήμα μαςπλέον έχει πάρει τη μορφή από την οποία μπορούμε να εκτιμήσουμε το ύψος της νότας στο συγκεκριμένο frame. Mε τη συνάρτηση locmax (περιέχεται στο παράρτημα) εντοπίζουμε τα τοπικά μέγιστα στο frame και επιλέγουμε ως θέση του pitch το δεύτερο κατά σειρά όπως έχει σημειωθεί και στην εικόνα. Η επιλογή του δεύτερου μεγίστου αντιστοιχεί στο pitch καθώς το πρώτο σχετίζεται με το ξέσπασμα της ενέργειας στο σήμα κατά το παίξιμο της νότας. 5.1.3 Onset Detection Για την ανίχνευση των σημείων έναρξης μιας νότας αναπτύχθηκαν δύο προσεγγίσεις, οι οποίες θα περιγραφούν σε αυτό το εδάφιο και θα συγκριθούν ως προς την αποδοτικότητα τους. o Energy-based Onset detection Για την προσέγγιση αυτής της μεθόδου κατασκευάστηκε η συνάρτηση Energy_Onset(). Μέσα στη συνάρτηση υπολογίζουμε την ενέργεια σήματος , η οποία στην πράξη είναι το άθροισμα των τετραγώνων των μέτρων της ενέργειας του κάθε frame. 𝛦(𝑚) = ∑ |𝑥(𝑛)|2 𝑚ℎ 𝑛=(𝑚−1)ℎ (5.1) Στη συνέχεια παραγωγίζοντας την Ενέργεια και απαλείφοντας τις αρνητικές συνιστώσες παρατηρούμε τα σημεία στο σήμα που έχουν αυξημένη ενέργεια και αντιπροσωπεύουν πιθανά οnset. Εξαιτίας όμως του θορύβου στο σήμα διαφαίνονται και κάποιες μικρές διακυμάνσεις που ενδέχεται να ανιχνευτούν ως onset. Έτσι, με τη δημιουργία ενός δυναμικού κατωφλιού και την εφαρμογή του στον παραπάνω πίνακα της παραγώγου της ενέργειας περιοριζόμαστε στα peaks που είναι
  • 85.
    83 περισσότερο πιθανό νααντιστοιχούν σε onsets. Στην εικόνα φαίνεται η εφαρμογή του κατωφλιού, το οποίο δημιουργήθηκε με τη βοήθεια της συνάρτηση medfilt1(). Εικόνα 5.6 : Η παράγωγος της ενέργειας του σήματος (μπλε) και το δυναμικό κατώφλι median (κόκκινη γραμμή) o Spectral Flux Onset detection Η υλοποίηση της συνάρτησης SpectralFlux_Onset ανιχνεύει τα onsets με τη μέθοδο της φασματικής διαφοράς η οποία δίνει έμφαση στις αλλαγές στο αρμονικό περιεχόμενο του σήματος. Αφού υπολογιστεί ο FFT του σήματος μέσω της παρακάτω σχέσης, καταχωρούνται με έντονες ακμές τα σημεία που παρατηρείται αντίστοιχα έντονη αλλαγή στο φάσμα του σήματος. 𝐷𝑠[𝑛] = ∑||𝑋 𝑘[𝑛]|2 − |𝑋 𝑘[𝑛 − 1]|2| 𝑁 𝑘=0 (5.2) Για τους ίδιους λόγους, που αναφέραμε και στην παραπάνω συνάρτηση ανίχνευσης, εφαρμόζεται ένα δυναμικό κατώφλι του οποίου η εφαρμογή φαίνεται παρακάτω. Έπειτα με βάση το μέγιστο του σήματος απαλείφονται όποια ίχνη θορύβου είχαν απομείνει, ώστε να μείνουν μόνο τα εν δυνάμει onsets.
  • 86.
    84 Εικόνα 5.7 :Η συνάρτηση ανίχνευσης onset Spectral Flux (μπλε) και το δυναμικό κατώφλι median (κόκκινη γραμμή) Ανεξάρτητα από τη μέθοδο που θα ακολουθήσουμε για την ανίχνευση των onsets το στάδιο που ακολουθεί είναι αυτό του peak picking. Σχεδιάζοντας κατάλληλα μια συνάρτηση, με όνομα peak_detector() παίρνουμε τα σημεία που έχουν ανιχνευθεί τα onsets στο σήμα. Στην εικόνα 5.8 μπορούμε να συγκρίνουμε τα αποτελέσματα των δύο μεθόδων που αναλύθηκαν παραπάνω. Εικόνα 5.8 : Τα αποτελέσματα των συναρτήσεων ανίχνευσης onset μετά το pick picking. Ενεργειακή προσέγγιση (πάνω) και Spectral Flux (κάτω) .
  • 87.
    85 5.1.4 Εκτίμηση τωνsilenced frames Για να προσδιορίσουμε τα frames στα οποία επικρατεί σιγή στο σήμα επιλέγεται η ακόλουθη λογική. Κάθε φορά που εντοπίζεται ένα οnset, ελέγχουμε την ενέργεια του επόμενου frame με την τιμή ενός δυναμικού κατωφλίου που έχουμε δημιουργήσει. Αν η ενέργεια είναι πάνω από το κατώφλι τότε θεωρούμε ότι η νότα είναι ακόμη ενεργή. Στην αντίθετη περίπτωση το frame καθορίζεται ως silenced και στον πίνακα των νοτών εκχωρείται η τιμή -1. Εικόνα 5.9 : Η ενέργεια του σήματος (μπλε), το δυναμικό κατώφλι median (μωβ γραμμή) και τα εκτιμώμενα silenced frames 5.1.5 Κατασκευή του midi αρχείου Αφού πλέον έχουμε εκτιμήσει τις χρονικές στιγμές που αντιστοιχούν σε onsets στο αρχικό μας ηχητικό σήμα αλλά και έχοντας προσδιορίσει το index των pitch μέσω της μεθόδου της αυτοσυσχέτισης μπορούμε να ξεκινήσουμε τη διαδικασία κατασκευής του αρχείου midi. Για την αντιστοίχιση των συχνοτήτων στην αντίστοιχη τιμή midi χρησιμοποιήθηκε η σχέση: 𝒎 = 𝟏𝟐 𝐥𝐨𝐠 𝟐 (𝒇 𝒏 𝒇 𝟎⁄ ), όπου fn η θεμελιώδης συχνότητα που θέλουμε να αντιστοιχίσουμε και f0= 16.35 ,η συχνότητα που αντιστοιχεί στη νότα C0 (ντό στη μηδενική οκτάβα).
  • 88.
    86 Εικόνα 5.10 :O τελικός πίνακας σύμφωνα με τον οποίο κατασκευάζεται το midi Η υπορουτίνα note_start_end() του Ken Schutte λαμβάνοντας τον πίνακα που περιλαμβάνει τις midi-νότες της παραπάνω εικόνας καθώς επίσης και τις μεταβλητές frame, overlap και fs, δημιουργεί τους πίνακες Α, Β και C. Στον πίνακα Α καταχωρούνται οι midi-νότες (note) ενώ οι στιγμές που γίνονται οι μεταβάσεις(start/onset) στις εκάστοτε νότες αποθηκεύονται στον πίνακα Β. Στον πίνακα C, όπως αναμένεται, αποθηκεύεται ο δείκτης που δηλώνει την παύση της ενεργοποιημένης νότας (end/offset). Στις επόμενες δύο συναρτήσεις matrix2midi() και writemidi() γίνονται oι κατάλληλες ενέργειες, που περιλαμβάνουν και την τοποθέτηση των παραπάνω στοιχείων στο χρόνο, ώστε να εξάγουμε το αρχείο midi και να εκτιμήσουμε την ακρίβεια του αποτελέσματος.
  • 89.
    87 5.1.6 Μέτρηση ακρίβειαςγια τη μονοφωνία Για να ελέγξουμε την αποδοτικότητα της μεταγραφής υλοποιήθηκε ένας αλγόριθμος ο οποίος εξάγει ένα ποσοστό, το οποίο αντιπροσωπεύει το βαθμό ακρίβειας που πετυχαίνει η εκάστοτε μέθοδος. Τα μεγέθη που συγκρίνονται είναι ο πίνακας που περιέχει τις midi-νοτες του μετεγγραμμένου ηχητικού σήματος και ο πίνακας με τις midi νότες, παραγόμενος από το αντίστοιχο αρχείο midi. Συγκεκριμένα, ο πρώτος πίνακας που εισάγεται στη ρουτίνας του υπολογισμού της ακρίβειας αντιστοιχεί στον πίνακα που έχει σχηματιστεί μετά και από την εκτίμηση των silenced frames, το στάδιο δηλαδή πριν την κατασκευή του αρχείου midi. (Tr_midi). O δεύτερος πίνακας (Οr_midi), που αποτελεί και το μέτρο σύγκρισης, παράγεται με τη βοήθεια των συναρτήσεων readmidi(), midiInfo() και getTempoChanges() τις οποίες ανέπτυξε ο Ken Schutte [85]. Αναλυτικότερα, από την συνάρτηση midiInfo() λαμβάνονται οι πληροφορίες που σχετίζονται με το pitch , την αρχή (οnset) και το τέλος (offset) κάθε νότας του αρχείου midi. Kάνοντας τις απαραίτητες μετατροπές μεταφέρουμε τα παραπάνω γεγονότα από το χρόνο σε δείκτες του πίνακα Or_midi ενώ τα σημεία που αντιστοιχούν σε silenced frames αντιπροσωπεύονται στον πίνακα με την τιμή -1. Σε αυτό το σημείο οι πίνακες Τr_midi και Οr_midi έχουν πάρει την επιθυμητή μορφή ώστε να καταστεί η σύγκριση τους δυνατή. Αμφότεροι οι πίνακες είναι μονοδιάστατοι και το περιεχόμενο τους, το οποίο και συγκρίνεται, δεν είναι κάτι άλλο από τις midi-νότες διατεταγμένες κατά μήκος των frames. Επειδή είναι πιθανό οι πίνακες να μην έχουν το ίδιο μέγεθος, ανάλογα την περίπτωση, ο μικρότερος από τους δύο πίνακες συμπληρώνεται με μηδενικά στοιχεία (zero-padding) ώστε και οι δύο πίνακες να αποτελούνται από τον ίδιο αριθμό frames. Επιπρόσθετα, η ευθυγράμμιση των δύο πινάκων είναι απαραίτητη προϋπόθεση για την μεταξύ τους σύγκριση. Κάτι τέτοιο μπορεί να επιτευχθεί με την εφαρμογή της συνάρτησης της αυτοσυσχέτισης (xcorr() )στους δύο πίνακες. To αποτέλεσμα της αυτοσυσχέτισης καταχωρείται σε ένα πίνακα στον οποίο αν το μέγιστο παρατηρείται στο κέντρο του. όπως φαίνεται και στην εικόνα, τότε οι δύο πίνακες βρίσκονται σε απόλυτη ευθυγράμμιση. Σε αντίθετη περίπτωση, ο πίνακας που έχει συμπληρωθεί με μηδενικά στοιχεία υπόκειται ανάλογη ολίσθηση ώστε να μετακινηθεί το μέγιστο στο κέντρο του πίνακα που προαναφέραμε. Ένα παράδειγμα ευθυγραμμισμένων πινάκων φαίνεται στην εικόνα 5.11
  • 90.
    88 Εικόνα 5.11 :Αναπαράσταση ευθυγραμισμένων πινάκων μετα την εφαρμογή της συνάρτηση αυτοσυσχέτισης xcorr() Για να εξαχθεί το τελικό ποσοστό ακρίβειας (accuracy) της μεταγραφής πρέπει να προσδιοριστούν δύο μετρητές. Ο πρώτος είναι το recall ή αλλιώς η ευαισθησία του μεγέθους που συγκρίνουμε, που είναι στην ουσία το κλάσμα των σχετικών με το μέγεθος σύγκρισης γεγονότων που ανακτήθηκαν. Ο δεύτερος μετρητής είναι το precision ή αλλιώς η τιμή των θετικών προβλέψεων που πρακτικά είναι το κλάσμα των ανακτηθέντα γεγονότων τα οποία είναι σχετικά με το μέγεθος σύγκρισης. Με άλλα λόγια στη περίπτωση μας υψηλό ποσοστό του recall σημαίνει ότι ο πίνακας Tr_midi περιέχει τα περισσότερα από τα στοιχεία που έχει ο πίνακας Οr_midi, ενώ υψηλό ποσοστό του precision σημαίνει ότι o πίνακας Τr_midi περιέχει περισσότερα σχετικά με τον Or_midi στοιχεία παρά άσχετα. Παρακάτω περιγράφονται οι σχέσεις υπολογισμού των recall και precision ενώ παρατίθεται και ως επεξήγηση των σχέσεων η εικόνα 5.12.
  • 91.
    89 Εικόνα 5.12: Σύνολομεταβλητών για τον προσδιορισμό των μετρητών recall και precision [86] 𝑟𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 , 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 Όπου : ▪ TP : true positive ▪ FN : false negative ▪ FP : false positive Κάνοντας τις συγκρίσεις στοιχείο προς στοιχείο προκύπτουν οι παραπάνω μετρητές και το τελικό ποσοστό της ακρίβειας (accuracy) υπολογίζεται με βάση τη σχέση :
  • 92.
    90 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 2 ×𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 Παρακάτω παρατίθενται οι πίνακες από τις μετρήσεις ακρίβειας που έγιναν για μια σειρά από δείγματα. Για κάθε δείγμα πραγματοποιήθηκαν δύο μετρήσεις, όσες δηλαδή και οι μέθοδοι ανίχνευσης onsets που υλοποιήθηκαν. SPECTRAL FLUX Sample Precision Recall Accuracy midisample 1 : 94,21% 100% 97% midisample 2 : 96,62% 100% 98,28% midisample 3 : 93,54% 100% 96,66% midisample 4 : 95,93% 100% 97,93% midisample 5 : 100% 100% 100% midisample 6 : 95,67% 100% 97,79% midisample 7 : 87,11% 100% 93,11% midisample 8 : 95,83% 100% 97,87% midisample 9 : 97,52% 100% 98,74% midisample 10 : 95,01% 100% 97,44% cleanguit-major : 82,24% 100% 90,25% c-major scale : 57,70 % 100% 73,18% c-major triad : 59,16% 100% 74,34% Πίνακας 5.1 : Μετρήσεις ακρίβειας δειγμάτων με μέθοδο ανίχνευσης onset την προσέγγιση Spectral Flux ENERGY-BASED Sample Precision Recall Accuracy midisample 1 : 94,13% 100% 96,98% midisample 2 : 96,29% 100% 98,11% midisample 3 : 93,50% 100% 96,64% midisample 4 : 95,26% 100% 97,57% midisample 5 : 100% 100% 100% midisample 6 : 94,91% 100% 97,39% midisample 7 : 84,95% 100% 91,86% midisample 8 : 91,75% 100% 95,70% midisample 9 : 97,45% 100% 98,70% midisample 10 : 93,91% 100% 96,86% cleanguit-major : 80,99% 100% 89,50% c-major scale : 57,72% 100% 73,20% c-major triad : 57,67% 100% 73,15% Πίνακας 5.2 : Μετρήσεις ακρίβειας δειγμάτων με μέθοδο ανίχνευσης onset την Ενεργειακή προσέγγιση
  • 93.
    91 5.2 Υλοποίηση τηςπολυφωνικής μεταγραφής Το εδάφιο αυτό αφορά την υλοποίηση του αλγορίθμου που πραγματοποιεί τη μεταγραφή ενός πολυφωνικού ηχητικού σήματος. Όπως επισημάνθηκε και στο τέταρτο κεφάλαιο η μέθοδος που προσεγγίστηκε προγραμματιστικά είναι αυτή της παραγοντοποίησης μη- αρνητικών πινάκων (NMF). Επιπρόσθετα προτιμήθηκε ο μετασχηματισμός Constant Q ,που αναλύθηκε στην υποενότητα 4.3.2., έναντι του κοινού μετασχηματισμού Fourier εξαιτίας των πλεονεκτημάτων του στα ηχητικά σήματα. Σε ότι αφορά την μέθοδο NMF υλοποιήθηκαν τέσσερεις διαφορετικές προεκτάσεις του, οι οποίες στο τέλος συγκρίθηκαν ως προς την ακρίβεια της μεταγραφής. Αναφορικά, υλοποιήθηκε ο NMF κατά Lee και Seung [87], Sparse NMF [83], ΝΜF beta-Divergence [84] και Sparse NMF with Temporal Continuity [68]. Aκόμη πραγματοποιήθηκε training του πίνακα των διανυσμάτων βάσης όπως περιγράφηκε στην υποενότητα 4.4. Τα μουσικά σήματα που επιλέχτηκαν για μεταγραφή είναι ίδιας φύσεως με αυτά της μονοφωνικής μεταγραφής με τη διαφορά ότι αποτελούνται από πολυφωνικές μελωδίες ηχογραφημένες και αυτές με συχνότητα δειγματοληψίας fs=16 KHz. 5.2.1 Εφαρμογή του μετασχηματισμού Constant Q Το αρχικό στάδιο της εισαγωγής του ηχητικού σήματος στο προγραμματιστικό περιβάλλον του Matlab γίνεται με τον ίδιο τρόπο με την συνάρτηση audioread() και καθορίζονται και εδώ οι αρχικές μας μεταβλητές με τις παρακάτω τιμές o Μέγεθος παραθύρου : frame = 1024 o Επικάλυψη: overlap=0.5 o Ρυθμός δειγματοληψίας fs =16000 (Ηz) Στη συνέχεια, αφού κανονικοποιηθεί το σήμα, το εισάγουμε στη ρουτίνα logfsgram() που αναπτύχθηκε από τον Ellis [88], από την οποία εξάγεται o πίνακας V του οποίου το φασματογράφημα αντιστοιχεί στον μετασχηματισμό Constant Q. Από την ίδια ρουτίνα παράγεται και o πίνακας MX, ο οποίος περιέχει τα δεδομένα της λογαριθμικής κλίμακας χαρτογραφημένα στη γραμμική κλίμακα συχνότητας.
  • 94.
    92 Εικόνα 5.13 :O πίνακας V σε λογαριθμική συχνότητα της συνάρτησης logfsgram() Εικόνα 5.14 : O πίνακας ΜΧ σε λογαριθμική συχνότητα της συνάρτησης logfsgram()
  • 95.
    93 5.2.2 Εφαρμογή τουNMF Ο πίνακας στον οποίο εφαρμόζεται η μέθοδος NMF είναι ο εξαγόμενος πίνακας V του φασματογραφήματος που εξηγήσαμε παραπάνω. Υπενθυμίζουμε ότι σκοπός μας είναι να προσεγγίσουμε τον πίνακα V μέσα από το γινόμενο των μη-αρνητικών πινάκων W και H. Με άλλα λόγια να ικανοποιήσουμε τη σχέση 𝑉 ≈ 𝑊 ⋅ 𝐻. Ανεξάρτητα της μεθόδου που θα εφαρμοστεί, προτεραιότητα αποτελεί η αρχικοποίηση των πινάκων W και H με τυχαίους μη- αρνητικούς αριθμούς. Μία εναλλακτική που προτάθηκε και στην ενότητα 4.4 είναι αυτή της δημιουργίας εκ των προτέρων του πίνακα-βάση W, γεγονός που τον “απαλλάσσει” από τους επαναληπτικούς κανόνες. Έτσι, κρατώντας τον W σταθερό, μέσω της ανάλογης διαδικασίας προσαρμόζεται ο πίνακας Η, αντιστοιχώντας τις νότες του W με τα σημεία εμφάνισης τους στο σήμα. Παρακάτω φαίνονται δύο εκδοχές του πίνακα W με r=49 ( δηλαδή περιέχει τα διανύσματα βάσης που αντιστοιχούν σε 49 νότες). Η πρώτη εκδοχή (εικόνα 5.15) αφορά την χειροκίνητη κατασκευή του W ενώ η δεύτερη (εικόνα 5.16) αφορά την κατασκευή του W μέσα από τη συνάρτηση Wbasis() η οποία λαμβάνει μια σειρά από ηχογραφημένες νότες από κιθάρα. Σημειώνεται πως επιλέχτηκε η συγκεκριμένη τάξη παραγοντοποίησης (r=49), ώστε να έχουμε μια αποδοτική μεταγραφή. Στην περίπτωση που επιλέγαμε μια μικρότερη τιμή είναι πιθανό να μην καλύπταμε το εύρος των νοτών που βρίσκονται στο ηχητικό μας σήμα, ενώ αντίθετα αν επιλέγαμε μια μεγαλύτερη τιμή η πιθανότητα να εμφανιστούν πολλαπλά σφάλματα κατά τη μεταγραφή αυξάνεται.
  • 96.
    94 Εικόνα 5.15 :O “εκπαιδευμένος” πίνακας W που αποτελεί τη βάση 49 νοτών 6 αρμονικών τους (χειροκίνητη υλοποίηση) Εικόνα 5.16 : O “εκπαιδευμένος” πίνακας W που αποτελεί τη βάση 45 νοτών 6 αρμονικών τους (ηχογραφημένες νότες κιθάρας)
  • 97.
    95 Η κύρια διαφοράτων εκδοχών NMF που υλοποιήθηκαν έγκειται στον τρόπο που υπολογίζεται ο πίνακας H στο πλαίσιο της επαναληπτικής διαδικασίας ώστε οι τιμές του να συγκλίνουν στο επιθυμητό αποτέλεσμα. Σημειώνεται ότι σαν όριο της επαναληπτικής διαδικασίας τέθηκε το 1500, ενώ η διαδικασία περατώνεται όταν κατά τη διάρκεια της σύγκλισης το σφάλμα πάρει τιμή μικρότερη του 10-3 . Στη συνέχεια θα παρουσιαστούν αποτελέσματα από τα στάδια επεξεργασίας μίας εκδοχής του ΝΜF και συγκεκριμένα του Sparse NMF with Temporal Continuity. H επαναληπτική διαδικασία του NMF παράγει τον πίνακα H που φαίνεται στην εικόνα 5.17. Εικόνα 5.17 : O πίνακας Η μετά τη σύγκλιση του μέσω του Sparse NMF & Temporal Continuity Όπως είναι αντιληπτό, ο Η πρέπει να υποστεί επεξεργασία ώστε να αφαιρεθούν όσο είναι δυνατό οι περιττές συνιστώσες. Σ’ αυτό το σημείο ο Η θα περάσει από δύο στάδια κατωφλίωσης όπως φαίνεται και στην εικόνα 5.18. Το πρώτο στάδιο αποτελεί η εφαρμογή ενός δυναμικού κατωφλίου μέσω της συνάρτησης medfilt1(). Με το κατώφλι αυτό απαλείφονται συνιστώσες μικρής έντασης και διάρκειας, διακυμάνσεις δηλαδή που δεν αντιστοιχούν σε τονικά γεγονότα. Στο δεύτερο στάδιο κατωφλίωσης, ορίζουμε ένα κατώφλι σύμφωνα με τη μέγιστη τιμή που εμφανίζεται στον πίνακα Η. Ο ορισμός της τιμής του
  • 98.
    96 συγκεκριμένου κατωφλίου γίνεταιεμπειρικά καθώς εξαρτάται από παράγοντες της αρχικής ηχογράφησης του ηχητικού σήματος. Εικόνα 5.18. Ο Πίνακας Η μετά από (α) την επαναληπτική διαδικασία του NMF , (β) την εφαρμογή του δυναμικού κατωφλίου median κατά στήλη και (γ) την εφαρμογή του κατωφλίου βάσει το μέγιστο (max) του πίνακα Έτσι έχουμε φέρει τον πίνακα H στη μορφή της εικόνας 5.18(γ). Από τον πίνακα αυτό μέσω της συνάρτησης locmax() εξάγουμε τα τοπικά ακρότατα κάθε στήλης, μειώνοντας έτσι την πιθανότητα ύπαρξης συχνοτικών υπολειμμάτων. Στη συνέχεια όποια στοιχεία δεν είναι μηδενικά αντικαθίστανται με 1, επιβάλλοντας έτσι σε όλα τα ηχητικά γεγονότα να έχουν το ίδιο πλάτος. Οι ενέργειες αυτές είναι εμφανείς και στην παρακάτω εικόνα:
  • 99.
    97 Εικόνα 5.19 :Ο πίνακας Η μετά την εξαγωγή των τοπικών μεγίστων (αριστερά) και μετά την αντικατάσταση των μη-μηδενικών στοιχείων με την τιμή ένα (1) (δεξιά) Η διάρκεια (duration) μια νότας καθορίζεται από τα frames στα οποία είναι ενεργή. Επίσης, αν μια νότα είναι ενεργή για λιγότερα από τρία frames απορρίπτεται και δεν περιλαμβάνεται σαν ηχητικό συμβάν στο τελικό αρχείο midi. Ο πίνακας Η έχει πάρει πλέον την τελική του μορφή από τον οποίο μπορούμε να αντλήσουμε πληροφορίες για τα οnsets, offsets και durations των νοτών. Οι πληροφορίες αυτές θα εκχωρηθούν στους αντίστοιχους πίνακες A, B, C όπως αναλύσαμε και στη διαδικασία της μονοφωνίας. Τέλος και πάλι μέσω των ρουτινών midinew() και writemidi() που ανέπτυξε ο Ken Schutte [42] κατασκευάζουμε το πολυφωνικό αρχείο midi. 5.2.3 Μέτρηση ακρίβειας για την πολυφωνία Όπως ακριβώς για την μονοφωνία έτσι και για την πολυφωνία αναπτύχθηκε ο αντίστοιχος αλγόριθμος ώστε να εξεταστεί η αποδοτικότητα του αλγορίθμου. Στην περίπτωση της πολυφωνίας, αντικείμενα σύγκρισης αποτελούν ο πίνακας Η_tr που είναι το τελικό προϊόν της πολυφωνικής μεταγραφής, μετά δηλαδή από την εκτέλεση του εκάστοτε NMF και την μετέπειτα προσαρμογή του πίνακα μέσω των κατωφλίων και ο πίνακας Η_or o οποίος είναι ο αντίστοιχος πίνακας εξαγόμενος από τo αρχείο midi, που αποτελεί και μέτρο σύγκρισης,
  • 100.
    98 ξανά μέσω τωνσυναρτήσεων readmidi(), midiInfo() και getTempoChanges() του Ken Schutte [42] Η μέτρηση της ακρίβειας της πολυφωνικής μεταγραφής γίνεται μέσω της συνάρτηση accuracy_poly(), η οποία σαν παραμέτρους εισόδου δέχεται τους πίνακες που μόλις αναφέραμε. (Η_tr, H_or). Ο πίνακας Η_or προκύπτει με τον ίδιο τρόπο όπως και ο αντίστοιχος πίνακας ( Οr_midi) στη μονοφωνία. Επίσης, γίνονται οι αντίστοιχες ενέργειες ώστε να είναι εφικτή η σύγκριση των δύο πινάκων. Αυτό περιλαμβάνει την προσαρμογή τους ώστε να έχουν ίδιο μέγεθος αλλά και να είναι ευθυγραμμισμένοι (aligned). H ευθυγράμμιση πραγματοποιείται και εδώ με την εφαρομγή της συνάρτησης αυτοσυσχέτισης στους δύο πίνακες. Η εν λόγω συνάρτηση στην περίπτωση μας είναι η xcorr2() καθώς οι πίνακες είναι δύο διαστάσεων. Η ευθυγράμμιση των δύο πινάκων εξασφαλίζεται όταν στον δισδιάστατο πίνακα που έχει εκχωρηθεί το αποτέλεσμα της αυτοσυσχέτισης εντοπίζεται το μέγιστο ακριβώς στη μέση του πίνακα όπως δείχνει και η εικόνα 5.20. Εικόνα 5.20 : Επιβεβαίωση ευθυγράμμισης δύο δυσδιάστατων πινάκων μέσω της συνάρτησης αυτοσυσχέτισης xcorr2()
  • 101.
    99 Στους ακόλουθους πίνακεςκαταγράφονται οι μετρήσεις ακρίβειας που πραγαματοποιήθηκαν για μία σειρά δειγμάτων. Σημειώνεται πως οι σχέσεις που χρησιμποιήθηκαν για τον υπολογισμό των ποσοστών είναι οι ίδιες με αυτές της μονοφωνίας (recall, precision, accuracy). SAMPLE NMF NMF Β-DIVERGENCE NMF SPARSE NMF SPARSENESS & TEMP.CONT SMOKE_POLY 85,9% 90,7% 45,2% 87,7% EYE_TIGER_POLY 75,3% 66,1% 32,6% 66,7% SUNSHINE_POLY 78,5% 80,4% 38,4% 81,7% IRON_POLY 65,3% 68,5% 32,8% 69,2% TNT_POLY 60,4% 63,2% 31,7% 69,1% BLACK_POLY 54,4% 62,6% 34,0% 64,0% SAGRERAS 3.11 52,4% 54,7% 29,4% 60,4% ODE_TO_JOY 58,7% 61,2% 31,5% 64,3% AVERAGE 66,36% 68% 34% 70,39% Πίνακας 5.3 : Μετρήσεις ακρίβειας δειγμάτων για τις διάφορες εφαρμογές ΝΜF και ελάχιστη διάρκεια νότας 0.05 sec Aπο τις παραπάνω μετρήσεις, συγκριτικά με την αρχικό NMF, παρατηρούμε αισθητή βελτίωση στην απόδοση της μεταγραφής με τη μέθοδο ΝΜF β-divergence ενώ τα αποτελέσματα βελτιώνονται ακόμη περισσότερο με την εκδοχη NMF που κάνει χρήση των κριτηρίων Sparseness και Temporal Continuity. Αντίθετα ο Sparse NMF παρήγαγε αρκετά χαμηλά ποσοστά ακρίβειας γεγονός που το αποδίδουμε στην αδυναμία του να ανιχνέυει τις χαμηλές συχνότητες αλλά και στο μη αποτελεσματικό έλεγχο της αραιότητας των δεδομένων του πίνακα H.
  • 102.
    100 6. Συμπεράσματα 6.1 Σύνοψη Αντικείμενομελέτης της παρούσας διπλωματικής εργασίας ήταν, όπως είδαμε, η αυτόματη μεταγραφή μουσικής. Αναλύοντας αρχικά την περίπτωση της μονοφωνικής μεταγραφής, που θεωρείται πια ένα λυμένο πρόβλημα, περάσαμε και στην ανάπτυξη μεθόδων για την μεταγραφή μιας πολυφωνικής μελωδίας όπου και διαπιστώσαμε και τη δυσκολία του εγχειρήματος. Κοινά προβλήματα και των δύο ειδών μεταγραφής αποτελούν α) η αναγνώριση του τονικού ύψους (pitch-recognition) β) ανίχνευση αρχή και τέλους της νότας (οnset,offset-detection) και γ) ο περιορισμός του θορύβου για την αποφυγή αναγνώρισης ψευδών νοτών. Φυσικά, η αντιμετώπιση των παραπάνω προβλημάτων δεν είναι κοινή για την μονοφωνική και την πολυφωνική μεταγραφή καθώς σε κάθε περίπτωση εφαρμόζονται διαφορετικές τεχνικές. Αναλυτικότερα στο κεφάλαιο 3, που αφορά τη μονοφωνική μεταγραφή, αναλύσαμε και προτείναμε διάφορες μεθόδους για την αναγνώριση του pitch. Μία μέθοδος, στο πεδίο του χρόνου, είναι αυτή της αυτοσυσχέτισης (auto-correlation) η οποία και υλοποιήθηκε. Όπως διαπιστώσαμε και στο πειραματικό μέρος η συνάρτηση της αυτοσυσχέτισης αποδείχτηκε μια ιδιαίτερα αξιόπιστη και αποδοτική μέθοδος για την αναγνώριση του τονικού ύψους. Αυτό οφείλεται κυρίως στην ικανότητα της συνάρτησης να συγκρίνει τις ομοιότητες τμημάτων του σήματος με τμήματα του ίδιου σήματος που έχουν μετατεθεί χρονικά. Επιπρόσθετα, στο ίδιο κεφάλαιο, αναφέραμε αρκετές τεχνικές ανίχνευσης των onsets σε μια μονοφωνική μελωδία, η κάθε μία από τις οποίες προσεγγίζει τη λύση του προβλήματος από διαφορετική σκοπιά. Οι συναρτήσεις εκτίμησης των οnsets που επιλέχτηκαν να υλοποιηθούν ήταν αυτή που βασίζεται στην ενέργεια του σήματος (Energy-based) και εκείνη που “παρατηρεί” τις φασματικές διαφορές μεταξύ διαδοχικών frame (Spectral Flux). Από το τελικό προϊόν της μεταγραφής που είναι το μονοφωνικό αρχείο midi αλλά και τις μετρήσεις ακρίβειας διαπιστώσαμε ότι η δεύτερη μέθοδος είναι ελαφρώς αποδοτικότερη στο να ανιχνεύει με ακρίβεια τα onsets του ηχητικού σήματος που επιθυμούμε να μεταγράψουμε. Σε αυτό το σημείο πρέπει να αναφέρουμε ότι αμφότερες μέθοδοι περιλαμβάνουν τον καθορισμό ενός κατωφλίου για την εκτίμηση των πιθανών onsets, η τιμή του οποίου δεν
  • 103.
    101 είναι η καλύτερηδυνατή για όλα τα δείγματα. Αυτό δικαιολογείται από το γεγονός ότι κάθε ηχητικό σήμα έχει συνιστώσες οι οποίες επιβάλλουν αυτή την διαφοροποίηση της τιμής του. Τέτοιες συνιστώσες μπορεί να είναι η ηχητική πηγή του σήματος, η ποιότητα ηχογράφησης του, τα επίπεδα θορύβου στο σήμα κ.α. Έτσι ανάλογα τα δείγματα που έχουμε προς μεταγραφή προσαρμόζουμε κατάλληλα και την τιμή του κατωφλίου ή επιλέγουμε μια κοινή τιμή που επιφέρει ακριβή αποτελέσματα για τη πλειονότητα των δειγμάτων. Στην πολυφωνική μεταγραφή, η οποία αναλύθηκε στο κεφάλαιο 4, ήρθαμε αντιμέτωποι με το τρέχον πρόβλημα της αναγνώρισης ταυτόχρονων μουσικών τόνων (multi-pitch detection), πρόβλημα για το οποίο δεν έχει βρεθεί βέλτιστος τρόπος αντιμετώπισης μέχρι και σήμερα. Μία κατεύθυνση επίλυσης αποτελεί η μέθοδος της παραγοντοποίησης μη-αρνητικών πινάκων (Non-negative Matrix Factorization, NMF). Σε αυτή τη μέθοδο η αναγνώριση των μουσικών τόνων βασίζεται σε μια επαναληπτική διαδικασία μέσα στην οποία συγκλίνουν οι τιμές δύο πινάκων, ο γραμμικός συνδυασμός των οποίων παράγει στην ιδανική περίπτωση το ηχητικό μας σήμα. Βασιζόμενοι στη μέθοδο NMF τονίσαμε τον τρόπο χρήσης της στη πολυφωνική μεταγραφή ενώ αναφέραμε και διάφορες προεκτάσεις της που έχουν αναπτυχθεί κατά καιρούς. Προκειμένου να βελτιωθεί το αποτέλεσμα της ΝMF μεθόδου προτάθηκε σαν λύση, στην ενότητα 4.4, η a priori κατασκευή του πίνακα-βάση (W), ο οποίος πρακτικά περιλαμβάνει το συχνοτικό εύρος των νοτών που ενδέχεται να περιέχονται στο ηχητικό σήμα. Αυτό έχει ως αποτέλεσμα να διατηρείται σταθερός ο πίνακας-βάση (W) καθ’ όλη την επαναληπτική διαδικασία και να προσαρμόζονται οι τιμές του πίνακα Η, με βάση τα χρονικά διαστήματα εμφάνισης των νοτών. Στο πειραματικό μέρος υλοποιήσαμε τέσσερις (4) εκδοχές του NMF με σταθερό πίνακα-βάση και αξιολογήθηκε η ποιότητα τους με βάση το παραγόμενο αρχείο midi αλλά και τις μετρήσεις ακρίβειας που παραθέσαμε στους αντίστοιχους πίνακες της υποενότητας 5.2.3. Πιο συγκεκριμένα εκτός από την βασική μέθοδο ΝΜF κατά Lee και Seung [87] αναπτύχθηκε η μέθοδος α) Sparse NMF [83], β) NMF με απόκλιση-β [84] , και γ) ο NMF με τα κριτήρια Sparseness και Temporal Continuity [68]. H μέθοδος α) και γ) έχουν ως στόχο να εκμεταλλευτούν την αραιότητα των ηχητικών γεγονότων του σήματος. Ο καθορισμός της τιμής του συντελεστή αραιότητας γίνετε εμπειρικά εξαιτίας ιδιαίτερων χαρακτηριστικών του σήματος, όπως για παράδειγμα το tempo. Αντίστοιχα ,στη μέθοδο β) γίνεται και η επιλογή της παραμέτρου β μεταξύ των τιμών μηδέν (0) και ένα (1), κάτι το οποίο βασίζεται στην απόκλιση των τιμών του πίνακα, που αντιστοιχεί στο αρχικό σήμα.
  • 104.
    102 Επίσης, η επιλογήτου μετασχηματισμού Constant Q έναντι του μετασχηματισμού Fourier διευκόλυνε την επεξεργασία του πολυφωνικού σήματος καθώς έχοντας ανάγει τις συχνότητες σε λογαριθμική κλίμακα πετύχαμε μεγαλύτερη ευκρίνεια ιδιαίτερα στις χαμηλές συχνότητες και κατ’ επέκταση μεγαλύτερη ακρίβεια στην αναγνώριση των τόνων. Ο ορισμός των κατωφλίων για την εκτίμηση των οnsets και offsets αποδείχτηκε μια επίπονη διαδικασία για του λόγους που αναφέραμε και στη μονοφωνική μεταγραφή συν το γεγονός ότι η προσέγγιση του πίνακα H ποικίλει εξαιτίας της επαναληπτικής φύσης του ΝΜF. Λαμβάνοντας υπόψη τα παραπάνω αλλά και τις μετρήσεις ακρίβειας είναι αντιληπτό ότι η πολυφωνική μεταγραφή της μουσικής επιδέχεται πολλά στάδια βελτίωσης για να μπορέσει να θεωρηθεί ένα λυμένο πρόβλημα. 6.2 Μελλοντικές επεκτάσεις Αναφερόμενοι στα κατώφλια (thresholds) και σε άλλους παραμέτρους που εισάγονται εμπειρικά, μια μελλοντική επέκταση της αυτόματης μεταγραφής αφορά μια πιο αυτόνομη εφαρμογή που οι όποιες παράμετροι θα ορίζονται αυτόματα με βάση τα χαρακτηριστικά του σήματος, αποδεσμεύοντας έτσι το χρήστη της εφαρμογής. Κάτι τέτοιο θα μπορούσε να είναι εφικτό με την a-priori γνώση του είδους των ηχητικών πηγών του σήματος, λαμβάνοντας έτσι πληροφορίες για το συχνοτικό εύρος του σήματος αλλά και για το ιδιαίτερο γνώρισμα της χροιάς. Επίσης, ανοικτό θέμα παραμένει η αξιοποίηση της μουσικολογικής πληροφορίας για τη βελτίωση της τελικής μεταγραφής. Για παράδειγμα, ένα σύστημα το οποίο μπορεί να προσδιορίσει την βασική μουσική κλίμακα ή ακόμη και τις συγχορδίες θα έχει ως αποτέλεσμα μια πιο αποδοτική ανίχνευση των pitches. Ακόμη, στη σύγχρονη μουσική έχουν προστεθεί πολλά στοιχεία το οποία καθιστούν ακόμη πιο δύσκολο το έργο της αυτόματης μεταγραφής. Χαρακτηριστικά παραδείγματα είναι η εισαγωγή ψηφιακών εφέ που παραμορφώνουν τη κυματορφή του σήματος ή ακόμη και ο εξαιρετικά γρήγορος ρυθμός που μπορεί να αποτελέσει τροχοπέδη στην αποδοτική εκτίμηση όλων των ηχητικών γεγονότων. Η πρόκληση, λοιπόν, έγκειται στο σχεδιασμό ενός συστήματος που να ανταποκρίνεται σε αυτές τις σύγχρονες απαιτήσεις. Ένας ακόμη μελλοντικός στόχος είναι η δημιουργία συστημάτων τα οποία να μπορούν να λειτουργήσουν σε πραγματικό χρόνο, καθώς τα τρέχοντα συστήματα απαιτούν μεγάλους χρόνους εκτέλεσης. Στα ίδια συστήματα η offline λειτουργία μπορεί να εξυπηρετήσει
  • 105.
    103 πολλούς σκοπούς όπωςτην επεξεργασία ηχητικών αρχείων ή τη μεταφορά τους σε παρτιτούρα για ανάγκες διδασκαλίας.
  • 106.
    104 Βιβλιογραφία [1] Bello J.P.,Monti G., Sandler M. “Techniques for automatic music transcription”. Department of Electronic Engineering, King’s College London, UK. [2] https://en.wikipedia.org/wiki/Musical_acoustics [3] http://philippseifried.com/blog/2011/12/27/dynamic-audio-in-as3-part-5-interpolation- and-pitching/ [4] http://www-etud.iro.umontreal.ca/~boulanni/ [5] https://el.wikipedia.org/wiki/Μουσική [6] https://en.wikipedia.org/wiki/Music_theory [7] http://www.musictheory.gr/θεωρία/πεντάγραμμο-κλειδιά [8]http://www.musicheaven.gr/html/modules.php?name=News&file=article&id=810 [9] http://users.otenet.gr/~djv14/jim/jimtheory.htm [10] https://el.wikipedia.org/wiki/Κλίμακα_(μουσική) [11] http://www.dspguide.com/ch3/4.htm [12] Hayes H. Μ. “Schaum’s outlines,Digital Signal Processing”. [13] https://en.wikipedia.org/wiki/Sampling_(signal_processing) [14] http://www.newworldencyclopedia.org/entry/Digital_audio
  • 107.
    105 [15] https://en.wikipedia.org/wiki/Fourier_transform [16] https://www.coursera.org/course/digitalsounddesign [17]http://www.huffingtonpost.com/the-m-machine/technology-and-music_b_2769411. html [18]https://en.wikipedia.org/wiki/Music_information_retrieval [19] http://hyperphysics.phy-astr.gsu.edu/hbase/sound/pitch.html [20] http://acoustics.org/pressroom/httpdocs/158th/shahin.htm [21] http://www.seventhstring.com/resources/notefrequencies.html [22] Moorer J.A. “On the transcription of musical sound by computer”, 1977. [23] Piszczalski M., Galler B. “Computer Analysis and Transcription of Performed Music: a Project Approach, Computers and the Humanities”, 1979. [24] Klapuri A. “Signal Processing Methods for the Automatic Transcription of Music”. PhD Thesis, Tampere University of Technology, March 2004. [25] Huber D. M. “The midi manual”[second edition]. [26] Λουφόπουλος A. “ Ψηφιακή Τεχνολογία και Μουσική 1 / Midi – Θεωρία” , Τ.Ε.Ι. ΙΟΝΙΩΝ ΝΗΣΩΝ -ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΗΧΟΥ & ΜΟΥΣΙΚΩΝ ΟΡΓΑΝΩΝ [27] http://docstore.mik.ua/orelly/web2/audio/ch02_01.htm [28] http://www.musicarrangers.com/star-theory/t08.htm [29] http://dsp.stackexchange.com/questions/948/smoothing-signal-detecting-bumps-in-a- data-stream
  • 108.
    106 [30] Bello J.P., Daudet L., Abdallah S., Duxbury C., Davies M., and Sandler M. B. “A Tutorial on Onset Detection in Music Signals”, IEEE Transactions On Speech and Audio Processing, Vol. 13, No. 5, September 2005. [31] http://web.media.mit.edu/~tristan/phd/dissertation/chapter3.html [32] Moelants D., Rampazzo C. “A Computer System for the Automatic Detection of Perceptual Onsets in a Musical Signal”. In Camurri, Antonio (Ed.). “KANSEI, The Technology of Emotion”, pp. 140–146. Genova, 1997. [33] Klapuri A. “Sound onset detection by applying psychoacoustic knowledge”. In “Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), volume 6”, pp. 3089–3092, 1999. [34] Puckette M. S., Apel T., and Zicarelli D. D. “Real-time analysis tools for PD and MSP”. In Arbor A. “Proceedings of the International Computer Music Conference (ICMC)”, University of Michigan, USA, 1998. [35] Jaillet F., Rodet X. “Improved modelling of attack transients in music analysis synthesis”. In “Proceedings of the International Computer Music Conference (ICMC)”, pp 30– 33. Havana, Cuba, 2001. [36] Bello J.-P. “Towards the Automated Analysis of Simple Polyphonic Music”, PhD thesis. Centre for Digital Music, Queen Mary University of London, London, UK, 2003. [37] Klapuri A. “Signal Processing Methods for the Automatic Transcription of Music”, PhD thesis. Tampere University of Technology, Tampere, Finland, 2004. [38] Smith L. S. “Using an onset-based representation for sound segmentation”. In “Proceedings of the International Conference on Neural networks and their Applications (NEURAP)”, pp 274– 281. Marseilles, France, March 1996. [39] Dixon S., Gouyon F., Widmer G. “ Towards characterization of music via rhythmic patterns”. In “Proceedings of the International Symposium on Music Information Retrieval (ISMIR)”, pp 509–516. Barcelona, Spain, October 2004. [40] Scheirer E. D. “Tempo and beat analysis of acoustic musical signals”. Journal of the Acoustical Society of America, pp 588–601. 1998.
  • 109.
    107 [41] Mητιανούδης N.“Τεχνολογία Ήχου”. Δημοκρίτειο Πανεπιστήμιο Θράκης, 2015. [42] https://en.wikipedia.org/wiki/Window_function [43] https://en.wikipedia.org/wiki/Hann_function [44] Monti G., Sandler M. , “Monophonic transcription with autocorrelation”. Department of Electronic Engineering, King’s College London. In “Proceedings of the COST G-6 Conference on Digital Audio Effects (DAFX-00)”. Verona, Italy, December 2000. [45] Caprio J. R., Parks T. W., Wise J. D. “Maximum likelihood pitch estimation”. In “IEEE Transactions on Acoustic, Speech and Signal Processing”, 24 (5): pp 418–423, October 1976. [46] Amatriain X., Gomez E., Herrera P. , Peterschmitt G. “Content-based melodic transformations of audio for a music processing application”. In “Proceedings of the International Conference on Digital Audio Effects (DAFx-03)”, pp 333–338. London, UK, 2003. [47] Klapuri A. “Qualitative and quantitative aspects in the design of periodicity estimation algorithms”. In “Proceedings of the European Signal Processing Conference (EUSIPCO)”, 2000. [48] De Cheveigne A., Kawahara H. “YIN, a fundamental frequency estimator for speech and music”. In “Journal of the Acoustical Society of America”, 111(4): pp 1917–1930. 2002. [49] Pressnitzer D., Patterson D., and Krumbholz K. “The lower limit of melodic pitch”. In “Journal of the Acoustical Society of America”, 109(5): pp 2074–2084. 2001. [50] Yost W. A. “Pitch strength of iterated rippled noise”. In Journal of the Acoustical Society of America, 100(5): pp.3329–3335. 1996. [51] Dyer L. and L.,Richard F. “Experiments with a computational model of the cochlea”. In “Proceedings of the International Conference on Acoustics, Speech, and Signal Processing”, pp 1975–1978. Tokyo, Japan, 1986. [52] http://meandering-through-mathematics.blogspot.gr/ [53] http://note.sonots.com/SciSoftware/Pitch.html
  • 110.
    108 [54] De CheveigneA. “Pitch perception models”. In C. J. Plack, Popper A.N., Fay R. R. and Oxenham A. J., “Pitch: Neural Coding and Perception”. 2004. [55] Brown. “Musical frequency tracking using the methods of Conventional and Narrowed Autocorrelation”, J.A.S.A. 1991. [56] Klapuri A. “Sound onset detection by applying psychoacoustic knowledge”. Signal Processing Laboratory, Tampere University of Technology, Tampere, Finland. [57] Schloss A. “On the Automatic Transcription of Percussive Music —From Acoustic Signal to High-Level Analysis”. PhD Thesis. Stanford University, 1985. [58] Goto M., Muraoka Y. “Beat Tracking based on Multiple-agent Architecture - A Real-time Beat Tracking System for Audio Signals”. In “ Proceedings of The Second International Conference on Multiagent Systems”, pp.103–110. 1996. [59] Goto M., Muraoka Y. “A Real-time Beat Tracking System for Audio Signals”. In “Proceedings of the 1995 International Computer Music Conference”, pp.171–174. September 1995. [60] Bello J. P., Davies M., Duxbury C. and Sandler M. “Complex domain onset detection for musical signals”. In Proceedings of the 6th International Conference on Digital Audio Effects (DAFx-03)”, London, UK, September 2003. [61] Masri P. “Computer modeling of Sound for Transformation and Synthesis of Musical Signal”.PhD dissertation, University of Bristol, UK, 1996. [62] Foote J., Uchihashi S. “The beat spectrum: a new approach to rhythm analysis”. In “Proceedings of the IEEE International Conference on Multi- media and Expo (ICME 2001)”, pp. 881–884.Tokyo, Japan, August 2001. [63]E. Benetos and Y. Stylianou, “Auditory spectrum-based pitched instrument onset detection”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 18, no. 8, pp. 1968-1977, Nov. 2010. [64] Hainsworth S., Macleod M. “Onset detection in music audio signals”. In “Proceedings of the International Computer Music Conference (ICMC)”, pp. 163–166. Singapore, 2003.
  • 111.
    109 [65] Brossier P.M. “Automatic Annotation of Musical Audio for Interactive Applications”. Technical Report - Centre for Digital Music Queen Mary University of London, August 2006. [66] https://el.wikipedia.org/wiki/Πολυφωνία [67] Smaragdis P. “Non-negative Matrix Factor Deconvolution; Extracation of Multiple Sound Sources from Monophonic Inputs”. Technical Report TR2004-104, MERL, September 2004. [68] Virtanen T. “Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria”. IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 3, pp. 1066–1074. March 2007. [69] Paulus J., Virtanen T. “Drum transcription with non-negative spectrogram factorisation”. In “Proceedings of the 13th European Signal Processing Conference (EUSIPCO)”. Antalya, Turkey. September 2005. [70] Brown J., Smaragdis P., “Non-negative matrix factorization for polyphonic music transcription”. In “IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA’03)”, pp. 177–180. New York, USA. October 2003. [71] Badeau R., Bertin N., and Richard G. “Blind signal decompositions for automatic transcription of polyphonic music: NMF and K-SVD on the benchmark”. In “Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP’07), vol. 1”, pp. 65–68. Honolulu, Hawaii, USA. April 2007. [72] https://en.wikipedia.org/wiki/Non-negative_matrix_factorization [73] Mørup M., Schmidt M. N. “Sparse Non-negative Matrix Factor 2-D Deconvolution for Automatic Transcription of Polyphonic Music”.2006. [74] Mørup M., Schmidt M. N. “Nonnegative Matrix Factor 2-D Deconvolution for Blind Single Channel Source Separation”. Independent Component Analysis and Blind Signal Separation, pp. 700-707, 2006 [75] Bryan N., Sun D. “Source Separation Tutorial Mini-Series II: Introduction to Non-Negative Matrix Factorization” .Center for Computer Research in Music and Acoustics, Stanford University, DSP Seminar. April 2013.
  • 112.
    110 [76] Virtanen T.“Non-Negative Matrix Factorization and Its Application to Audio”. MLSP 2009, Tutorial [77]http://www.edn.com/electronics-blogs/sound-bites/4421452/Audio-pitch-shifting---the- constant-Q-transform [78] Brown J. “Calculation of a constant Q spectral transform”, J. Acoust. Soc. Am., 89(1): pp. 425–434. 1991. [79] https://en.wikipedia.org/wiki/Constant_Q_transform [80] Blankertz B. “The Constant Q Transform”, http://doc.ml.tu-berlin.de/bbci/material/publications/Bla_constQ.pdf [81] Bertin N., Badeau R., Vincent E., Fast bayesian nmf algorithms enforcing harmonicity and temporal continuity in polyphonic music transcription. WASPAA 2009: pp. 29-32. [82] Costantini, G., Todisco, M., and Perfetti, R., “NMF based Dictionary Learning for Automatic Transcription of Polyphonic Piano Music,” WSEAS Transactions on Signal Processing, Volume 9, Issue 3, pp. 148-157, July 2013. [83] Cont A. “Realtime Multiple Pitch Observation using Sparse Non-negative Constraints”. International Conference on Music Information Retrieval, 2006. [84] Cont A., Dessein A., Lemaitre G. “Real-time polyphonic music transcription with non- negative matrix factorization and beta-divergence”, 1th International Society for Music Information Retrieval Conference, 2010. [85] http://kenschutte.com/midi [86] https://en.wikipedia.org/wiki/Precision_and_recall [87] Lee D. D., Seung H. S. “Algorithms for nonnegative matrix factorization”. In Leen T. K., Dietterich T. G., and Tresp V. “Advances in Neural Information Processing Systems 13”, pp. 556–562. MIT Press. 2001. [88] Ellis D. ‘’Spectrograms: Constant-Q (Log-frequency) and conventional (linear)’’, URL: http://labrosa.ee.columbia.edu/matlab/sgram/
  • 113.