SlideShare a Scribd company logo
1 of 113
Download to read offline
ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ
ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ
ΜΕΤΑΓΡΑΦΗ ΠΟΛΥΦΩΝΙΚΗΣ ΜΕΛΩΔΙΑΣ ΜΕ ΧΡΗΣΗ
ΦΑΣΜΑΤΙΚΩΝ ΠΡΟΤΥΠΩΝ
ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ
ΣΑΧΟΣ ΚΩΝΣΤΑΝΤΙΝΟΣ – ΑΡΣΕΝΙΟΣ
ΑΕΜ 5468
Επιβλέπων : ΜΗΤΙΑΝΟΥΔΗΣ ΝΙΚΟΛΑΟΣ
ΞΑΝΘΗ, ΝΟΕΜΒΡΙΟΣ 2015
1
ΠΕΡΙΛΗΨΗ
Σε αυτή τη διπλωματική εργασία αναλύεται και υλοποιείται η διαδικασία της μεταγραφής
μουσικών σημάτων, η μετατροπή δηλαδή της ηχητικής πληροφορίας σε μουσική
σημειογραφία όπως για παράδειγμα παρτιτούρα ή συμβολικό αρχείο σε ηλεκτρονική
μορφή(αρχείο ΜIDI). Η προαναφερθείσα μετατροπή εξετάζεται τόσο σε μονοφωνικά αρχεία
ήχου όσο και σε πολυφωνικά.
Στο πρώτο μέρος της εργασίας γίνεται αναφορά μερικών εννοιών σχετικά με τον κλάδο της
Μουσικής αλλά και τον τομέα της Ψηφιακής Επεξεργασίας Σήματος ώστε να καταστεί
ευκολότερη η κατανόηση του περιεχομένου που ακολουθεί. Στη συνέχεια, σε πρώτη φάση
ασχολούμαστε με το κομμάτι της μονοφωνικής μεταγραφής, όπου προτείνονται δύο
εναλλακτικοί τρόποι αντιμετώπισης του προβλήματος βασισμένοι στην αυτοσυσχέτιση
(auto-correlation) για τον εντοπισμό της κυρίαρχης συχνότητας και κατ’ επέκταση την
εκτίμηση της εκάστοτε νότας. Η δεύτερη φάση αφορά την πολυφωνική μεταγραφή ενός
ηχητικού σήματος όπου με γνώμονα τη μέθοδο της παραγοντοποίησης μη-αρνητικών
πινάκων (NMF) αναπτύσσονται διάφορες τεχνικές με σκοπό την πιστή αποτύπωση του στο
αρχείο MIDI. Κλείνοντας, πραγματοποιούνται μετρήσεις σχετικά με την ακρίβεια της
μεταγραφής και των δύο περιπτώσεων και εξάγονται αντίστοιχα συμπεράσματα.
Λέξεις Κλειδιά: Μεταγραφή, μουσική, επεξεργασία, σήμα, νότα, ανίχνευση, ύψος,
αυτοσυσχέτιση, μετασχηματισμός, φασματογράφημα, μονοφωνία, πολυφωνία,
παρτιτούρα, παραγοντοποίηση
2
ABSTRACT
In this thesis we analyze and implement the transcription of music signals, the conversion, in
other words, of the audio information to music notation e.g. music score or noted file in
electronic format (midi file). The aforesaid conversion is examined both in monophonic and
in polyphonic audio files.
In the first part of this project, we mention some introductory concepts related to Music and
to Digital Signal Processing, so that the following content can be conceived more easily. Next,
we deal with monophonic transcription, where we suggest two alternative ways of addressing
the problem based on auto-correlation for e pitch detection and later on for the estimation of
each note. Consequently, we address the problem of polyphonic transcription of an audio
signal. where based on the method of Non-Negative Matrix Factorization (NMF), we develop
several techniques aiming at extracting its precise representation in a midi file. Finally,
objective evaluation of the proposed methodologies is being performed in terms of the
accuracy of the transcription for both the monophonic and polyphonic case.
Key words: Transcription, music, processing, signal, note, detection, pitch, auto-correlation,
transform, spectrogram, monophony, music score, piano roll, Non-negative Matrix
Factorisation
3
Ευχαριστίες
Σε αυτό το σημείο θα ήθελα πω ένα μεγάλο ευχαριστώ στον επιβλέποντα της διπλωματικής
εργασίας και καθηγητή μου, κ. Μητιανούδη Νικόλαο πρώτα για την εμπιστοσύνη που μου
έδειξε αναθέτοντας μου τη συγκεκριμένη διπλωματική εργασία και κατ’ επέκταση για την
υποστήριξη και καθοδήγηση του κατά τη διάρκεια εκπόνησης της.
Επίσης ευχαριστώ θερμά την οικογένεια μου για την πολυδιάστατη στήριξη που μου
παρείχαν σε όλα τα χρόνια των σπουδών μου.
Τέλος ευχαριστώ την Ε. για την αμέριστη κατανόηση και ανιδιοτελή βοήθεια της και τους
κοντινούς μου ανθρώπους που διαμόρφωσαν τα φοιτητικά μου χρόνια.
4
ΠΕΡΙΕΧΟΜΕΝΑ
ΠΕΡΙΛΗΨΗ…………………………………………………………………………………………………….............1
Λέξεις-κλειδιά…………………………………………………………………………………………………………..1
ABSTRACT…………………………………………………………………………………………………………………2
Key words………………………………………………………………………………………………………………….2
Ευχαριστίες ………………………………………………………………………………………………………………3
ΠΕΡΙΕΧΟΜΕΝΑ………………………………………………………………………………………………………….4
ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ………………………………………………………………………………………………..6
ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ………………………………………………………………………………………………..9
1.ΕΙΣΑΓΩΓΗ……………………………………………………………………………………………………………..10
1.1 Παρουσίαση θέματος και Στόχοι……………………………………………………………………….10
1.2 Δομή της Διπλωματικής…………………………………………………………………………………….13
2.ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ……………………………………………………………………………………….14
2.1 Θεωρία της Μουσικής………………………………………………………………………………………14
2.2 Ψηφιακή Επεξεργασία Σήματος………………………………………………………………………..16
2.2.1 Δειγματοληψία – Θεώρημα Νyquist – Κβαντισμός………………………………………..17
2.2.2 Φάσμα και Μετασχηματισμός Fourier……………………………………………………………19
2.3 Μουσική και Ψηφιακή Επεξεργασία ήχου…………………………………………………………21
2.3.1 Βασικά Χαρακτηριστικά Ψηφιακού ήχου……………………………………………………….22
2.4 Μεταγραφή Μουσικής……………………………………………………………………………………..25
3. ΜΟΝΟΦΩΝΙΚΗ ΜΕΤΑΓΡΑΦΗ ΜΟΥΣΙΚΗΣ…………………………………………………………….31
3.1 Χαρακτηριστικά της Μονοφωνίας…………………………………………………………………….31
3.2 H Τεχνοτροπία της Μονοφωνικής Μεταγραφής……………………………………………….34
3.2.1 Κατάτμηση ηχητικού σήματος……………………………………………………………………….36
3.2.2 Συνάρτηση Παραθύρου…………………………………………………………………………………37
3.2.3 Ανίχνευση ύψους της νότας (pitch detection)…………………………………………………38
3.2.4 Εκτίμηση της αρχής μιας νότας (onset detection)…………………………………………..45
5
4. ΠΟΛΥΦΩΝΙΚΗ ΜΕΤΑΓΡΑΦΗ ΜΟΥΣΙΚΗΣ………………………………………………………………56
4.1 Το πρόβλημα της πολυφωνίας………………………………………………………………………….56
4.2 Μέθοδος παραγοντοποίησης μη αρνητικών πινάκων – (Νοn-Negative Matrix
Factorization – NMF)………………………………………………………………………………………………57
4.2.1 Λίγα λόγια για τον NMF………………………………………………………………………………….57
4.2.2 Ορισμός του ΝΜF………………………………………………………………………………………….57
4.2.3 Προεκτάσεις του NMF……………………………………………………………………………………60
4.3 Η διαδικασία της πολυφωνικής μεταγραφής……………………………………………………62
4.3.1 O NMF στην πολυφωνική μεταγραφή……………………………………………………………63
4.3.2 Constant Q…………………………………………………………………………………………………….68
4.3.3 Εκτίμηση Ύψους (pitch detection)………………………………………………………………….71
4.3.4 Εκτίμηση της αρχής της νότας (onset detection)…………………………………………….72
4.4 W Training………………………………………………………………………………………………………..73
5. ΠΕΙΡΑΜΑΤΙΚΟ ΜΕΡΟΣ…………………………………………………………………………………………78
5.1 Υλοποίηση της μονοφωνικής μεταγραφής………………………………………………………..78
5.1.1 Κατάτμηση του ηχητικού σήματος…………………………………………………………………78
5.1.2 Pitch Detection με τη μέθοδο της αυτοσυσχέτισης (Auto-correlation)……………79
5.1.3 Onset Detection…………………………………………………………………………………………….82
5.1.4 Εκτίμηση των silenced frames………………………………………………………………………..85
5.1.5 Κατασκευή του midi αρχείου…………………………………………………………………………85
5.1.6 Μέτρηση ακρίβειας για τη μονοφωνία………………………………………………………….87
5.2 Υλοποίηση της πολυφωνικής μεταγραφής………………………………………………………..91
5.2.1 Εφαρμογή του μετασχηματισμού Constant Q………………………………………………..91
5.2.2 Εφαρμογή του NMF……………………………………………………………………………………….93
5.2.3 Μέτρηση ακρίβειας για την πολυφωνία……………………………………………………….97
6. ΣΥΜΠΕΡΑΣΜΑΤΑ………………………………………………………………………………………………101
6.1 Σύνοψη………………………………………………………………………………………………….101
6.2 Μελλοντικές επεκτάσεις…………………………………………………………………………………103
ΒΙΒΛΙΟΓΡΑΦΙΑ………………………………………………………………………………………………………105
6
ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ
Εικόνα 1.1: Κυματομορφή ηχητικού σήματος (πάνω) και η συμβολική του μορφή-piano roll
(κάτω) [1]
Εικόνα 1.2 : Φασματογράφημα δύο μεμονωμένων διαδοχικών νοτών (αριστερά) και μιας
συγχορδίας (δεξιά) [2][3]
Εικόνα 1.3: Πολυφωνική μεταγραφή μουσικού κομματιού [4]
Εικόνα 2.1 : Το μουσικό πεντάγραμμο και οι θέσεις των νοτών σε αυτό [7]
Εικόνα 2.2: Η φυσική κλίμακα Ντο [8]
Εικόνα 2.3 : Η οκτάβα και τα σημεία αλλοιώσεως στο πιάνο [10]
Εικόνα 2.4 : Μετατροπή αναλογικού σήματος σε ψηφιακό [11]
Εικόνα 2.5 : Αναπαράσταση δειγματοληψίας σήματος. Το συνεχές σήμα αναπαρίσταται από
την πράσινη γραμμή ενώ τα διακριτά δείγματα (αποτέλεσμα δειγματοληψίας) με το μπλε
χρώμα [13]
Εικόνα 2.6: Αναπαράσταση κβαντισμού(4-bit / 16 στάθμες) ενός αναλογικού σήματος
(κόκκινη γραμμή) [14]
Εικόνα 2.7 : Η κυματομορφή (αριστερά) και το φασματογράφημα (δεξιά) ενός “καθαρού”
ημιτόνου, μιας νότας βιολιού και μιας νότας πιάνου, “μαρτυρούν” τη διαφορετική χροιά του
καθενός [20]
Εικόνα 2.8 : Το συχνοτικό εύρος της ανθρώπινης φωνής και διάφορων οργάνων
Εικόνα 2.9 : Δομή ενός τυπικού MIDI μηνύματος [26]
Εικόνα 2.10 : Βits και bytes του MIDI κώδικα [26]
Εικόνα 2.11 : Τρόποι διαχείρισης της μουσικής μέσω μουσικών λογισμικών
Εικόνα 3.1 : Παρτιτούρα μονοφωνικής μελωδίας
Εικόνα 3.2 : Η κυματομορφή μίας νότας μπάσου (χαμηλό pitch) και ενός τόνου σφυρίχτρας
(υψηλό pitch) [27]
Εικόνα 3.3 : Η κυματομορφή νότας (αριστερά) και τα επιμέρους χαρακτηριστικά της (δεξιά)
[29]
Εικόνα 3.4 : H κυματομορφή ενός ηχητικού σήματος (μπλε) και τα εκτιμημένα onsets (μωβ)
[31]
Εικόνα 3.5 : Τα στάδια επεξεργασίας της μονοφωνικής μεταγραφής
Εικόνα 3.6 : Κατάτμηση του σήματος με επικάλυψη (overlap) 50%
Εικόνα 3.7 : Το παράθυρο Hanning (αριστερά) και η απόκριση συχνότητάς του (δεξιά) [43]
Εικόνα 3.8 : Επίδραση του τετράγωνου παραθύρου (πάνω) και του παραθύρου Hanning
(κάτω)
7
Εικόνα 3.9 : Η θεμελιώδης συχνότητα της νότας Μι στη 3η οκτάβα (Ε3) και οι αρμονικές τις
[52]
Εικόνα 3.10 : Η μέθοδος της γραμμικής πρόβλεψης (LPC) [53]
Εικόνα 3.11 : Το ηχητικό σήμα και οι διελεύσεις της κυματομορφής από το μηδέν (zero
crossings)
Εικόνα 3.12 : Το ηχητικό σήμα στην αρχική του μορφή (αριστερά) και μετά την εφαρμογή της
συνάρτησης της αυτοσυσχέτισης (δεξιά)
Εικόνα 3.13: Κυματομορφή ηχητικού αποσπάσματος από κιθάρα. Τα πραγματικά onsets
είναι σημειωμένα με διακεκομμένες κάθετες γραμμές.
Εικόνα 3.14 : Τα στάδια της συνάρτησης εκτίμησης των onsets [30]
Εικόνα 3.15 : Φωνητικό σήμα (πάνω) και η ενέργεια του (κάτω)
Εικόνα 3.16 : Το ηχητικό σήμα (α) και οι τρείς συναρτήσεις ανίχνευσης onset. Φασική
Προσέγγιση (b), Ενεργειακή Προσέγγιση (c), Συνδυασμός Ενεργειακής και Φασικής
Προσέγγισης (d) [60]
Εικόνα 3.17 : Δυναμικό κατώφλι median (διακεκομμένη γραμμή) εφαρμοσμένο στη
συνδυαστική συνάρτηση (Ενέργειας και Φάσης) εκτίμησης onset [60]
Εικόνα 3.18 : Silenced frame ενός ηχητικού αποσπάσματος
Εικόνα 4.1 : Παρτιτούρα και ταμπλατούρα πολυφωνικής μελωδίας
Εικόνα 4.2 : Τα στάδια της πολυφωνικής μεταγραφής
Εικόνα 4.3 : Διάγραμμα συχνότητας – χρόνου μιας απλής ηχητικής σκηνής [70]
Εικόνα 4.4 : Η αποσύνθεση του πίνακα της σκηνής της εικόνας 4.3 σε γινόμενο των πινάκων
H (αριστερά) και W (δεξιά) [70]
Εικόνα 4.5 : Η μονοφωνική μελωδία “Mary had a little Lamb” [75]
Εικόνα 4.6 : Το φασματογράφημα (V) της μελωδίας της εικόνας 4.5 και η αποσύνθεση του
μέσω του NMF στους πίνακες W και Η [75]
Εικόνα 4.7 : Φασματογράφημα νοτών C4(261.1 Hz) και G4(392 Hz) στη κιθάρα [76]
Εικόνα 4.8 : Τα διανύσματα βάσης του πίνακα W [76]
Εικόνα 4.9 : Οι πληροφορίες ενεργοποίησης των νοτών C4 και G4 στον πίνακα H [76]
Εικόνα 4.10 : Φασματογράφημα του Μετασχηματισμού Fourier (πάνω) και του
μετασχηματισμού Constant Q (κάτω) στην πολυφωνική εισαγωγή του μουσικού κομματιού
“Smoke on the Water”
Εικόνα 4.11 : Οι στήλες του πίνακα W περιέχουν ιδανικά τις θεμελιώδεις συχνότητες της
μουσικής σύνθεσης [70]
Εικόνα 4.12 : Οι γραμμές του πίνακα H σηματοδοτούν τα χρονικά διαστήματα που τα ηχητικα
γεγονότα είναι ενεργά. [70]
8
Εικόνα 4.13 : Αρχιτεκτονική Συστήματος πολυφωνικής μεταγραφής με τη μέθοδο Sparse ΝΜF
και “εκπαίδευση” του πίνακα W.
Εικόνα 5.1 : Κατάτμηση του ηχητικού σήματος σε επιμέρους τμήματα (frames)
Εικόνα 5.2 : Στιγμιότυπο ενός frame
Εικόνα 5.3 : Εφαρμογή της συνάρτηση της αυτοσυσχέτισης στο frame
Εικόνα 5.4 : Απαλοιφή του αριστερού συμμετρικού τμήματος της αυτοσυσχέτισης
Εικόνα 5.5 : To frame της εικόνας 5.4 χωρίς τις αρνητικές συνιστώσες και η ανίχνευση του
pitch (πράσινος κύκλος)
Εικόνα 5.6 : Η παράγωγος της ενέργειας του σήματος (μπλε) και το δυναμικό κατώφλι median
(κόκκινη γραμμή)
Εικόνα 5.7 : Η συνάρτηση ανίχνευσης onset Spectral Flux (μπλε) και το δυναμικό κατώφλι
median (κόκκινη γραμμή)
Εικόνα 5.8 : Τα αποτελέσματα των συναρτήσεων ανίχνευσης onset μετά το pick picking.
Ενεργειακή προσέγγιση (πάνω) και Spectral Flux (κάτω) .
Εικόνα 5.9 : Η ενέργεια του σήματος (μπλε), το δυναμικό κατώφλι median (μωβ γραμμή) και
τα εκτιμώμενα silenced frames
Εικόνα 5.10 : O τελικός πίνακας σύμφωνα με τον οποίο κατασκευάζεται το midi
Εικόνα 5.11 : Αναπαράσταση ευθυγραμισμένων πινάκων μετα την εφαρμογή της συνάρτηση
αυτοσυσχέτισης xcorr()
Εικόνα 5.12: Σύνολο μεταβλητών για τον προσδιορισμό των μετρητών recall και precision
[86]
Εικόνα 5.13 : O πίνακας V σε λογαριθμική συχνότητα της συνάρτησης logfsgram()
Εικόνα 5.14 : O πίνακας ΜΧ σε λογαριθμική συχνότητα της συνάρτησης logfsgram()
Εικόνα 5.15 : O “εκπαιδευμένος” πίνακας W που αποτελεί τη βάση 49 νοτών 6 αρμονικών
τους (χειροκίνητη υλοποίηση)
Εικόνα 5.16 : O “εκπαιδευμένος” πίνακας W που αποτελεί τη βάση 45 νοτών 6 αρμονικών
τους (ηχογραφημένες νότες κιθάρας)
Εικόνα 5.17 : O πίνακας Η μετά τη σύγκλιση του μέσω του Sparse NMF & Temporal Continuity
Εικόνα 5.18 : Ο Πίνακας Η μετά από (α) την επαναληπτική διαδικασία του NMF , (β) την
εφαρμογή του δυναμικού κατωφλίου median κατά στήλη και (γ) την εφαρμογή του
κατωφλίου βάσει το μέγιστο (max) του πίνακα
Εικόνα 5.19 : Ο πίνακας Η μετά την εξαγωγή των τοπικών μεγίστων (αριστερά) και μετά την
αντικατάσταση των μη-μηδενικών στοιχείων με την τιμή ένα (1) (δεξιά)
Εικόνα 5.20 : Επιβεβαίωση ευθυγράμμισης δύο δυσδιάστατων πινάκων μέσω της
συνάρτησης αυτοσυσχέτισης xcorr2()
9
ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ
Πίνακας 2.1 : Οι θεμελιώδεις συχνότητες των νοτών σε όλες τις οκτάβες [21]
Πίνακας 5.1 : Μετρήσεις ακρίβειας δειγμάτων με μέθοδο ανίχνευσης onset την προσέγγιση
Spectral Flux
Πίνακας 5.2 : Μετρήσεις ακρίβειας δειγμάτων με μέθοδο ανίχνευσης onset την Ενεργειακή
προσέγγιση
Πίνακας 5.3 : Μετρήσεις ακρίβειας δειγμάτων για τις διάφορες εφαρμογές ΝΜF και ελάχιστη
διάρκεια νότας 0.05 sec
10
1. Εισαγωγή
Σε αυτή την ενότητα παρουσιάζεται ο στόχος της εργασίας καθώς επίσης η δομή και οι
θεματικές ενότητες από τις οποίες αποτελείται, ώστε να αποκτήσει ο αναγνώστης μια εικόνα
του περιεχομένου που ακολουθεί.
1.1 Παρουσίαση θέματος και Στόχοι
Η μουσική κατείχε ανέκαθεν σπουδαία θέση στη ζωή του ανθρώπου και με το πέρασμα των
δεκαετιών η μελέτη της εξετάστηκε από διάφορους τομείς που εκτείνονται από τη φιλοσοφία
έως την επεξεργασία σημάτων. Η προτυποποίηση των δεδομένων μουσικής οδήγησε στην
δημιουργία ενός νέου τομέα έρευνας, αυτού της ανάκτησης μουσικών πληροφοριών και
ειδικότερα, της ανάπτυξης μεθόδων για την οργάνωση και ανάλυση του ταχέως
επεκτεινόμενου μουσικού σύμπαντος.
Μια τέτοια μέθοδος μελετάται στην παρούσα διπλωματική εργασία και πιο συγκεκριμένα, η
αυτόματη μεταγραφή ενός μονοφωνικού αρχικά και ενός πολυφωνικού, στη συνέχεια,
μουσικού σήματος.
Η ικανότητα να παράγουμε την ακριβή μεταγραφή μιας μουσικής ακολουθίας έχει
πολυάριθμες πρακτικές εφαρμογές στο χώρο της ψηφιακής επεξεργασίας σήματος αλλά και
στη μουσικολογία. Για παράδειγμα, ένα μετεγγραμμένο μουσικό απόσπασμα μπορεί να
χρησιμοποιηθεί για να προσδιοριστούν πολλαπλές εμφανίσεις του μέσα σε μια ηχητική βάση
δεδομένων.
Στόχος της αυτόματης μεταγραφής μουσικής είναι η εξαγωγή από ένα ηχητικό σήμα, μιας
αναπαράστασης ικανής να διαβαστεί και να ερμηνευτεί από τον άνθρωπο (π.χ παρτιτούρα).
Για να είναι δυνατόν να εξαχθεί μια τέτοια αναπαράσταση είναι απαραίτητο να εκτιμηθούν
τα ύψη (pitch), η αρχή (onset), η διάρκεια των νοτών και η τονικότητα του σήματος προς
επεξεργασία. Θα μπορούσαμε να πούμε ότι η μεταγραφή της μουσικής περιλαμβάνει δύο
στάδια: α) τη μετατροπή του ηχητικού σήματος σε απεικόνιση piano roll (βλ. εικόνα 1.1)
έχοντας προσδιορίσει τα παραπάνω χαρακτηριστικά των μουσικών νοτών και β) τη
μεταφορά του piano roll σε μουσική απεικόνιση, όπως το πεντάγραμμο.
11
Εικόνα 1.1: Κυματομορφή ηχητικού σήματος (πάνω) και η συμβολική του μορφή-piano roll (κάτω) [1]
Η διαδικασία της μεταγραφής, για κάποιον που δεν κατέχει γνώσεις και εμπειρία στο χώρο
της μουσικής, μπορεί να είναι δύσκολη έως και αδύνατη. Ακόμη και για έναν επαγγελματία
μουσικό, η μεταγραφή μιας πολυφωνικής μελωδίας μπορεί μεν να έχει σχετικά ακριβή
αποτελέσματα, είναι δε μία χρονοβόρα και επίπονη διαδικασία. Για ένα αυτοματοποιημένο
σύστημα που δεν “κατέχει” μουσικές γνώσεις, η διαδικασία της αναγνώρισης πολλαπλών
ταυτόχρονων συμβάντων έχει αποδειχθεί ιδιαίτερα απαιτητική εξαιτίας της πλοκής
(υπέρθεσης) των νοτών με τις διάφορες αρμονικές που απλώνονται στο σήμα. Ενώ το
φασματογράφημα μιας νότας έπειτα από το μετασχηματισμό Fourier αποτελείται από την
θεμελιώδη συχνότητα fo και τις αρμονικές της, το αντίστοιχο διάγραμμα μίας πολύπλοκης
σύνθεσης μπορεί να περιέχει πολλές νότες που επικαλύπτονται στο χρόνο. Στην εικόνα 1.2
παρουσιάζονται δύο τέτοια φασματογραφήματα, όπου στη περίπτωση της συγχορδίας είναι
σαφώς πιο δύσκολο να διαχωρίσουμε τις θεμελιώδεις συχνότητες από τις αρμονικές.
Εικόνα 1.2 : Φασματογράφημα δύο μεμονωμένων διαδοχικών νοτών (αριστερά) και μιας συγχορδίας (δεξιά)
[2][3]
12
Σκοπός αυτής της εργασίας είναι ο σχεδιασμός αυτής της διαδικασίας, καθώς επίσης και η
εξαγωγή συμπερασμάτων από την πειραματική παρατήρηση, για μελλοντικές βελτιώσεις. Η
αυτόματη μεταγραφή μουσικής από την πλευρά της μονοφωνίας θεωρείται ένα πρόβλημα
που έχει λυθεί όπως θα γίνει αντιληπτό στη συνέχεια, καθώς τα αποτελέσματα στις
μετρήσεις ακρίβειας είναι πολύ ικανοποιητικά. Από την άλλη πλευρά, στο κομμάτι της
πολυφωνίας, η μεταγραφή ενός ηχητικού σήματος δεν βρίσκεται στο ίδιο στάδιο, μιας και το
θεμελιώδες πρόβλημα της αυτόματης μεταγραφής είναι η αναγνώριση ταυτόχρονων
μουσικών τόνων (multi-pitch detection).
Εικόνα 1.3: Πολυφωνική μεταγραφή μουσικού κομματιού [4]
Η υλοποίηση του αλγόριθμου και για τα δύο είδη μεταγραφής πραγματοποιήθηκε σε
ΜΑΤLΑB (Matrix Laboratory), δηλαδή σε μια γλώσσα υψηλού επιπέδου και ένα περιβάλλον
που αποτελεί το πλέον ιδανικό εργαλείο για ζητήματα ψηφιακής επεξεργασίας σήματος. Από
το παραπάνω λογισμικό περιλαμβάνονται οπτικά αποτελέσματα σε διαφορά εδάφια της
εργασίας με στόχο την σαφέστερη αντίληψη του θέματος που εξετάζεται. Στο παράρτημα της
εργασίας, θα βρείτε το λογισμικό που αναπτύχθηκε σε περιβάλλον MATLAB.
13
1.2 Δομή της Διπλωματικής
Κεφάλαιο 2: Σε αυτή την ενότητα γίνεται μια αναφορά στα βασικά στοιχεία της θεωρίας της
Μουσικής και ορίζονται μερικές έννοιες απαραίτητες για τη συνέχεια. Έπειτα, περιγράφεται
ο κλάδος της Ψηφιακής Επεξεργασίας Σήματος και γίνεται η σύνδεση με την διαδικασία της
μεταγραφής, ενώ στο τέλος του κεφαλαίου απαριθμούνται διάφορες πρακτικές εφαρμογές
της μουσικής μεταγραφής.
Κεφάλαιο 3: Το κεφάλαιο αυτό είναι αφιερωμένο στη μονοφωνική μεταγραφή και στις
μεθόδους που εφαρμόζονται. Ιδιαίτερη έμφαση δίνεται στην ανίχνευση των οnsets και στις
πιθανές αστοχίες που μπορεί να εμφανίσουν οι τεχνικές.
Κεφάλαιο 4: Εδώ μελετάται η πολυφωνική μεταγραφή ενός ηχητικού σήματος αφού γίνει
πρώτα μια σύντομη εισαγωγή στην παραγοντοποίηση μη-αρνητικών πινάκων. Βασιζόμενοι
σε αυτή τη μέθοδο εξετάζουμε εναλλακτικές τεχνικές με στόχο την βελτίωση του
αποτελέσματος.
Κεφάλαιο 5: Περιλαμβάνει τις υλοποιήσεις τόσο της μονοφωνικής όσο και της πολυφωνικής
μεταγραφής αναλύοντας τα στάδια επεξεργασίας που υπόκειται κάθε φορά το σήμα. Επίσης
πραγματοποιούνται μετρήσεις ακρίβειας για συγκεκριμένα μουσικά δείγματα συγκρίνοντας
έτσι την αποδοτικότητα των μεθόδων που αναπτύχθηκαν.
Κεφάλαιο 6: Στην τελευταία αυτή ενότητα εξάγονται συμπεράσματα σύμφωνα με τα
αποτελέσματα και προτείνονται μελλοντικές κατευθύνσεις προς μελέτη. Κλείνοντας, στο
παράρτημα περιλαμβάνεται ο κώδικας που αφορά και τα δύο είδη μεταγραφών.
14
2. Θεωρητικό υπόβαθρο
2.1 Θεωρία της Μουσικής
Tί είναι η μουσική;
Ως μουσική ορίζεται η τέχνη που βασίζεται στην οργάνωση ήχων με σκοπό τη σύνθεση,
εκτέλεση και ακρόαση/λήψη ενός μουσικού έργου. Με τον όρο εννοείται επίσης και το
σύνολο ήχων από το οποίο απαρτίζεται ένα μουσικό κομμάτι. [5]
Θεμελιώδη στοιχεία της μουσικής
Tα βασικά στοιχεία τα οποία χαρακτηρίζουν τη μουσική είναι η μελωδία, ο ρυθμός, η
αρμονία, η ρυθμική αγωγή και η δυναμική. [6]
Η μελωδία είναι μία διαδοχή φθόγγων με διαφορετικό ύψος και διαφορετική συνήθως αξία
που εκφράζουν ένα μουσικό νόημα.
Ρυθμός είναι η προσπάθεια οργάνωσης του χρόνου σε μια μουσική σύνθεση, ενώ η ρυθμική
αγωγή ή αλλιώς tempo είναι η ταχύτητα εκτέλεσης ενός μουσικού κομματιού.
Με τον όρο αρμονία αναφερόμαστε στο φαινόμενο που προσδίδει βάθος στην κίνηση της
μελωδίας και περιγράφει σε κάθετο επίπεδο ταυτόχρονα μουσικά συμβάντα.
Τέλος, η δυναμική καθορίζει το πόσο ηχηρά ή απαλά εκτελείται μία ή περισσότερες νότες.
Πεντάγραμμο και Νότες
Σαν πρώτο ξεκίνημα, θα πρέπει να αναφερθούμε σε μερικούς ορισμούς. Υπάρχουν πολλών
ειδών μουσικά σύμβολα στην παγκόσμια μουσική σημειογραφία, που ποικίλουν ανάλογα με
το είδος της μουσικής ή τη γεωγραφική περιοχή (π.χ. αραβική, βυζαντινή παρασημαντική,
αρχαία αγκιστροειδής κ.λ.π.). Διεθνώς όμως, σαν πρότυπο, έχει επικρατήσει η Ευρωπαϊκή
σημειογραφία που μας ενδιαφέρει εδώ άμεσα.
Η πλατφόρμα της Ευρωπαϊκής μουσικής σημειογραφίας ονομάζεται πεντάγραμμο και
αποτελείται από πέντε (5) παράλληλες, οριζόντιες, ευθείες γραμμές, που ισαπέχουν και
αποτελούν τη βάση όπου τοποθετούνται τα μουσικά σύμβολα.
15
Οι ήχοι που αντιστοιχούν σε συχνότητες του ακουστικού αλλά και ωφέλιμου, για τη μουσική,
φάσματος (frequency range) ονομάζονται νότες ή φθογγόσημα και τοποθετούνται στις 5
γραμμές ή στα 4 διαστήματα του πεντάγραμμου, ακόμα και στις βοηθητικές γραμμές πάνω
ή κάτω από αυτό.
Εικόνα 2.1 : Το μουσικό πεντάγραμμο και οι θέσεις των νοτών σε αυτό [7]
Για την ονοματολογία των νοτών, στην Ελλάδα, χρησιμοποιείται το Ιταλικό σύστημα, ενώ στις
υπόλοιπες Ευρωπαϊκές χώρες το Σαξονικό και Γερμανικό. Έτσι, οι νότες για το Ιταλικό
σύστημα είναι: Ντο, ρε, μι, φα, σολ, λα, σι. Για το Σαξονικό σύστημα, οι αντίστοιχες νότες
συμβολίζονται: C, D, E, F, G, A, B. [8]
H διαδοχική σειρά των φθογγόσημων από τον χαμηλότερο ήχο στον υψηλότερο καλείται
σκάλα ή κλίμακα.
Εικόνα 2.2: Η φυσική κλίμακα Ντο [8]
Η ηχητική απόσταση ανάμεσα στον πρώτο και τον τελευταίο ήχο/νότα μιας
οκτάφθογγης κλίμακας ονομάζεται Οκτάβα. Δεδομένου ότι κάθε σκάλα παίρνει το όνομά της
από την πρώτη (και τελευταία) νότα, στη φυσική σκάλα του Ντο διακρίνουμε τις αποστάσεις,
που καλούνται διαστήματα, μεταξύ 1ης-2ης, 2ης-3ης, 4ης-5ης, 5ης-6ης, 6ης-7ης και τα
ονομάζουμε τόνους, ενώ τα διαστήματα μεταξύ 3ης-4ης και 7ης-8ης ονομάζουμε ημιτόνια.
Έτσι για παράδειγμα, οι νότες ντο-ρε σχηματίζουν μια διατονική απόσταση δευτέρας, ενώ οι
νότες σι-ντο σχηματίζουν μια ημιτονιακή ή χρωματική απόσταση δευτέρας. [9]
16
Σημεία αλλοιώσεως ονομάζονται τα σημεία που χρησιμοποιούμε για να οξύνουμε ή να
βαρύνουμε ένα μουσικό φθόγγο. Τα κυριότερα από αυτά είναι τρία:
Η δίεση (#) η οποία υψώνει μια νότα κατά ένα ημιτόνιο
Η ύφεση (b) η οποία χαμηλώνει μια νότα κατά ένα ημιτόνιο
Η αναίρεση η οποία καταργεί μια προηγούμενη αλλοίωση ( # ή b)
Εικόνα 2.3 : Η οκτάβα και τα σημεία αλλοιώσεως στο πιάνο [10]
2.2 Ψηφιακή Επεξεργασία Σήματος
Η ψηφιακή επεξεργασία σήματος (Digital signal processing ή DSP) ασχολείται με την
αναπαράσταση σημάτων διακριτού χρόνου ως ακολουθιών αριθμών ή συμβόλων, καθώς και
με την επεξεργασία των σημάτων αυτών. Κάποιες εφαρμογές της ψηφιακής επεξεργασίας
σήματος είναι: η επεξεργασία ήχου, η αναγνώριση φωνής, η επεξεργασία σημάτων από
σόναρ, ραντάρ και συστοιχίες αισθητήρων, η εκτίμηση φάσματος, η στατιστική επεξεργασία
σήματος, η ψηφιακή επεξεργασία εικόνας, η επεξεργασία σήματος στις τηλεπικοινωνίες, ο
έλεγχος συστημάτων, η επεξεργασία βιοϊατρικών σημάτων και η επεξεργασία σεισμικών
δεδομένων.
17
Εικόνα 2.4 : Μετατροπή αναλογικού σήματος σε ψηφιακό [11]
Ο σκοπός της ψηφιακής επεξεργασίας σήματος συνήθως είναι η μέτρηση, το φιλτράρισμα ή
η συμπίεση συνεχόμενων αναλογικών φυσικών σημάτων. Το πρώτο βήμα συνήθως είναι η
μετατροπή του σήματος από αναλογικό σε ψηφιακό, μέσω δειγματοληψίας και κβαντισμού
του σήματος με τη βοήθεια ενός μετατροπέα αναλογικού σήματος σε ψηφιακό (ADC), ο
οποίος μετασχηματίζει το αναλογικό σήμα σε μια ακολουθία από αριθμούς. Η
ανακατασκευή του σήματος σε αναλογικό ακολουθεί την αντίστροφη διαδικασία.[12]
2.2.1 Δειγματοληψία – Θεώρημα Νyquist – Κβαντισμός
Δειγματοληψία είναι η καταγραφή της τιμής του σήματος ανά τακτά χρονικά
διαστήματα Τs. Ως Τs ορίζεται η περίοδος δειγματοληψίας. Το διακριτό σήμα που προκύπτει
μετά τη δειγματοληψία είναι της μορφής:
S[n] = S(nTs) , n ακέραιος (2.1)
Η συχνότητα δειγματοληψίας ή ρυθμός δειγματοληψίας μετριέται στην μονάδα μέτρησης
Hertz (Hz) και μας δείχνει πόσα δείγματα έχουν ληφθεί από τον δειγματολήπτη σε διάρκεια
ενός δευτερολέπτου. Η συχνότητα δειγματοληψίας συνδέεται με την περίοδο με τη βοήθεια
της ακόλουθης σχέσης: Fs =1/Ts
Θεώρημα Nyquist
Ένα αναλογικό σήμα xa(t) με περιορισμένο φάσμα εύρους (<Fo) μπορεί να ανακατασκευαστεί
ακριβώς από τα δείγματά του x(n)=xa(nTs) εάν η συχνότητα δειγματοληψίας Fs είναι διπλάσια
του εύρους Fo. (Fs>2Fo)
Σε κάθε άλλη περίπτωση υπάρχει αλλοίωση του φάσματος (aliasing) και το αρχικό αναλογικό
σήμα δεν μπορεί να ανακατασκευασθεί μετά τη δειγματοληψία. Στην εικόνα 2.5
απεικονίζεται η δειγματοληψία ενός αναλογικού σήματος.
18
Εικόνα 2.5 : Αναπαράσταση δειγματοληψίας σήματος. Το συνεχές σήμα αναπαρίσταται από την πράσινη
γραμμή ενώ τα διακριτά δείγματα (αποτέλεσμα δειγματοληψίας) με το μπλε χρώμα [13]
Κβαντισμός είναι η διαδικασία κατά την οποία οι διαδοχικές τιμές της στάθμης (πλάτους)
του σήματος διακριτού χρόνου Sd(nTs) που προκύπτει κατά την δειγματοληψία
μετατρέπονται σε διακριτές (ψηφιακές) τιμές. Πραγματοποιείται δηλαδή μια απεικόνιση της
μορφής S(nTs) = Q[Sd(nTs)], όπου Q[Sd(nTs)] είναι η κβαντισμένη τιμή στάθμης του σήματος.
Το τελικό σήμα είναι πλέον διακριτό τόσο ως προς το χρόνο, όσο και ως προς το πλάτος και
καλείται ψηφιακό S(nTs). Η παρακάτω εικόνα αναπαριστά τον κβαντισμό ενός ημιτονικού
σήματος.
Εικόνα 2.6: Αναπαράσταση κβαντισμού(4-bit / 16 στάθμες) ενός αναλογικού σήματος (κόκκινη γραμμή) [14]
19
2.2.2 Φάσμα και Μετασχηματισμός Fourier
Ως φάσμα ορίζεται το σύνολο των συχνοτήτων όλων των ημιτονικών σημάτων με
συγκεκριμένα πλάτη και φάσεις που πρέπει να προστεθούν ώστε να δώσουν το αρχικό σήμα.
Ο λόγος που ορίστηκε η έννοια του φάσματος είναι για γίνει ευκολότερος ο τρόπος
υπολογισμού κι απεικόνισης της συμπεριφοράς ενός συστήματος. Σκοπός ήταν να μπορεί να
αναλυθεί οποιοδήποτε σήμα σε ένα σύνολο από ημιτονικά σήματα, ένα συνεχές σήμα το
οποίο μπορεί να διατηρεί τη μορφή του σε παραγωγίσεις και ολοκληρώσεις Η ανάλυση του
σήματος κατά αυτόν τον τρόπο ονομάζεται ανάλυση Fourier.
Η ανάλυση Fourier αποτελείται από ένα σύνολο μαθηματικών τεχνικών, με τις οποίες
αναλύουμε ένα σήμα σε άθροισμα ημιτόνων και συνημιτόνων. Με την εφαρμογή της
μπορούμε να μελετήσουμε ποιες συχνότητες εμφανίζονται στο σήμα, και κατά πόσο
επηρεάζεται το σήμα από κάθε φασματική συνιστώσα. Ο μαθηματικός μετασχηματισμός για
τον υπολογισμό της ανάλυσης Φουριέ, ονομάζεται μετασχηματισμός Fourier (Fourier
Transform), και δίνεται από τη σχέση:
𝑿(𝝎) = ∫ 𝒙(𝒕)𝒆−𝒋𝝎𝒕
∞
−∞
𝒅𝒕 (𝟐. 𝟐)
ενώ ο αντίστροφος μετασχηματισμός είναι:
𝒙(𝒕) = ∫ 𝑿(𝝎)𝒆−𝒋𝝎𝒕
∞
−∞
𝒅𝝎 (𝟐. 𝟑)
όπου x(t) η συνάρτηση του σήματος στο χρόνο και X(ω) η αντίστοιχη συνάρτηση στη
συχνότητα [14]. Μετά την εφαρμογή του, το σήμα μετατρέπεται από το πεδίο του χρόνου,
στο πεδίο της συχνότητας . Ο μετασχηματισμός αυτός μπορεί να εφαρμοστεί μόνο σε
αναλογικά σήματα, ενώ για τα διακρικά σήματα χρειαζόμαστε μια παραλλαγή του, τον
Διακριτό Μετασχηματισμό Fourier (Discrete Fourier Transform - DFT).
STFT (Short Time Fourier Transform)
Ο μετασχηματισμός Fourier δεν εφαρμόζεται στην περίπτωση που η συχνότητα του σήματος
είναι συνάρτηση του χρόνου, καθώς η πληροφορία που μας δίνει είναι για την ύπαρξη μιας
20
συγκεκριμένης συχνότητας, κι όχι για τις χρονικές στιγμές στις οποίες εμφανίζεται. Αυτό
μπορεί να γίνει εφικτό τμηματοποιώντας χρονικά το σήμα με τη χρήση μικρών διαδοχικών ή
επικαλυπτόμενων παραθύρων, στα οποία θεωρούμε ότι το συχνοτικό περιεχόμενο του
σήματος παραμένει σταθερό. Σε καθένα από τα μικρά χρονικά τμήματα, μπορεί να θεωρηθεί
ότι το σήμα είναι στάσιμο, και στη συνέχεια να εφαρμοστεί ο Μετασχηματισμός Fourier σε
αυτό. Η τεχνική αυτή ονομάζεται Μετασχηματισμός Fourier Βραχέος Χρόνου (STFT) και
περιγράφεται από τον παρακάτω τύπο:
𝑺𝑻𝑭𝑻 {𝒙(𝒕)} = ∫ 𝒙(𝒖)𝒘(𝒖 − 𝒕)𝒆−𝒋𝝎𝒖
∞
−∞
𝒅𝒖 (𝟐. 𝟒)
όπου w(t) είναι μια συνάρτηση παραθύρου. Πιθανές επιλογές είναι το παράθυρο Hamming,
Hanning, Blackman κτλ, που το καθένα από αυτά έχει διαφορετικές ιδιότητες όσον αφορά
την εξομάλυνση λανθασμένων αρμονικών υψηλών συχνοτήτων που προκαλεί η απότομη
αποκοπή ενός τμήματος από το αρχικό σήμα.
Το πλάτος του STFT, το οποίο ονομάζεται και φασματόγραμμα (spectrogram)
του σήματος , ισούται με:
𝑺(𝒕, 𝝎) = | ∫ 𝒙(𝒖)𝒘(𝒖 − 𝒕)𝒆−𝒋𝝎𝒖
∞
−∞
𝒅𝒖| 𝟐
(𝟐. 𝟓)
και εκφράζει την πυκνότητα ενέργειας του φάσματος ενός τμήματος του σήματος x(u), στο
οποίο έχει εφαρμοστεί το παράθυρο w(t) []. Η χρονική ακρίβεια βελτιώνεται με την
ελαχιστοποίηση του μήκος του παραθύρου εις βάρος της συχνοτικής ακρίβειας, και το
αντίστροφο. Εάν το παράθυρο έχει άπειρο μήκος, τότε το φασματογράφημα που προκύπτει
έχει τέλεια συχνοτική, αλλά μηδενική χρονική ακρίβεια.
Εάν το παράθυρο έχει μικρό μήκος, τότε το φασματογράφημα θα έχει τέλεια χρονική
ακρίβεια, αλλά ελάχιστη συχνοτική ακρίβεια.
21
2.3 Μουσική και Ψηφιακή Επεξεργασία ήχου
Η μουσική αποτελεί ένα αναπόσπαστο κομμάτι της ζωής του ανθρώπου. Ήχοι και μουσική
είναι ενσωματωμένα σχεδόν σε κάθε πτυχή της ζωής, από την επικοινωνία και την
καλλιτεχνική έκφραση, μέχρι την κοινωνική και πολιτιστική ταυτότητα ενός λαού. Η μουσική
όχι μόνο διαμορφώνει την καθημερινότητα, αλλά πολλές φορές της δίνει μία νέα μορφή με
αποτέλεσμα την εξέλιξη και πιθανόν την ποιοτική βελτίωση της [16].
Ήδη από την αρχαιότητα και κατά τη διάρκεια των αιώνων μπορούμε να παρατηρήσουμε την
άρρηκτη σύνδεση της μουσικής με τα μαθηματικά και την τεχνολογία.
Ενδεικτικά, πρώτος ο Πυθαγόρας, μελετώντας το αρχαίο όργανο μονόχορδο, πέτυχε το
χωρισμό και καθορισμό των μουσικών διαστημάτων εφευρίσκοντας έτσι την Πυθαγόρεια
κλίμακα. Ο Mozart έγραψε καινοτόμες για την εποχή του συνθέσεις με το προσφάτως
σχεδιασμένο πιάνο, ενώ οι Beatles άλλαξαν τελείως το πρόσωπο της δημοφιλούς μουσικής
πρωτοπορώντας με την μοντέρνα τεχνική ηχογράφησης [17].
Σήμερα, εξαιτίας της ραγδαίας εξέλιξης της τεχνολογίας και σε συνδυασμό με την
απεριόριστη υπολογιστική ισχύ και συνδεσιμότητα, έχουν αναπτυχθεί διάφοροι
επιστημονικοί κλάδοι που βασίζονται στην ψηφιακή επεξεργασία του ήχου και κατ’
επέκταση διεισδύουν στο χώρο της μουσικής. Ένας τέτοιος κλάδος είναι και η Ανάκτηση
Μουσικής Πληροφορίας (Music Information Retrieval – MIR).
Ο παραπάνω κλάδος αποτελεί ένα μικρό αλλά αναπτυσσόμενο πεδίο της επιστήμης, που
ασχολείται με την εξαγωγή πληροφοριών από ένα μουσικό απόσπασμα ή ακόμη και από μια
μεγάλη βάση ηχητικών δεδομένων [18]. Μερικές εφαρμογές του ΜΙR είναι:
o Συστήματα συστάσεων (Recommendation systems)
o Διαχωρισμός μουσικού κομματιού και ηχητικών πηγών (Track separation and
instrument recognition)
o Αυτόματη Κατηγοριοποίηση (Automatic categorization)
o Αναγνώριση γένους μουσικής (Music genre recognition)
o Αυτόματη μεταγραφή μουσικής (Automatic music transcription)
22
2.3.1 Βασικά Χαρακτηριστικά Ψηφιακού ήχου
Η αυτόματη μεταγραφή μουσικής που αποτελεί το κεντρικό θέμα της εργασίας έχει ως
αντικείμενο επεξεργασίας τον ψηφιακό ήχου. Γι’ αυτό το λόγο είναι απαραίτητο να
προσδιοριστούν τα θεμελιώδη χαρακτηριστικά του .
Α) Ύψος (pitch) : Η θέση μιας συχνότητας στο ακουστικό/ηχητικό φάσμα
Το τονικό ύψος καθορίζει αυτό που ονομάζουμε "ψηλό" ή "βαθύ" ήχο. Το ύψος ενός ήχου
που αντιλαμβανόμαστε είναι η απόκριση του αυτιού μας στη συχνότητα. Συχνά όμως για
πρακτικούς λογούς συχνά ταυτίζουμε το ύψος με τη συχνότητα (Hz). Το ύψος συνδέεται
άμεσα µε την συχνότητα ενός ήχου, αλλά όχι γραμμικά. Αυτό σημαίνει ότι μπορεί η
συχνότητα ενός ήχου να αυξάνεται, αλλά το ύψος του ήχου, δηλαδή η συχνότητα που
αντιλαμβάνονται τα αυτιά μας, να µην αυξάνεται εξίσου [19].
Β) Ένταση (loudness): To πόσο «δυνατό» χαρακτηρίζουμε έναν ήχο
Η ένταση ενός ήχου, εξαρτάται από το πλάτος του, δηλαδή από τις μεταβολές που έχει η
πίεση μέσα σε ένα ηχητικό κύμα. Είναι ένα καθαρά αντικειμενικό μέγεθος, το οποίο μπορεί
να μετρηθεί µε κατάλληλα μηχανήματα, όπως είναι ο παλμογράφος ή το ηχόμετρο. Η ένταση
µετριέται σε dB ή αλλιώς decibel και πήρε την ονομασία της χάρις στον Alexander Graham
Bell. Θεωρούμε ως ήχο αναφοράς 0 dB, ένα ήχο που βρίσκεται στο κατώφλι της ακοής. Αν
έχουμε έναν ήχο 10 dB, τότε αυτός θα είναι 10 φορές μεγαλύτερος από τον ήχο αναφοράς,
αν έχουμε έναν ήχο 20 dB, τότε αυτός θα είναι 100 φορές μεγαλύτερος από τον ήχο
αναφοράς κ.ο.κ.
Γ) Χροιά (timbre): Το «χρώμα» ενός ήχου
Η χροιά ενός ήχου, είναι ένα υποκειμενικό χαρακτηριστικό, που συσχετίζεται µε τον τρόπο
που αντιλαμβανόμαστε τους σύνθετους ήχους. Είναι το βασικό εργαλείο για να μπορούμε να
ξεχωρίζουμε τους ήχους μεταξύ τους, το ένα όργανο από το άλλο, και καθορίζεται από το
πλήθος και την σχετική ένταση που έχουν οι αρμονικές συχνότητες μεταξύ τους. Στην εικόνα
2.7 μπορούμε να διακρίνουμε την διαφορετική χροιά των ηχητικών πηγών τόσο από την
κυματομορφή τους όσο και από το αντίστοιχο φασματογράφημα τους. Το αντικειμενικό
χαρακτηριστικό µε το οποίο θα μπορούσαμε να αντιστοιχίσουμε την χροιά, είναι το φάσμα.
Δ) Διάρκεια (duration): Η χρονική διάρκεια για την οποία ένας ήχος είναι αντιληπτός.
23
Εικόνα 2.7 : Η κυματομορφή (αριστερά) και το φασματογράφημα (δεξιά) ενός “καθαρού” ημιτόνου, μιας
νότας βιολιού και μιας νότας πιάνου, “μαρτυρούν” τη διαφορετική χροιά του καθενός [20]
Ε] Θεμελιώδης συχνότητα
Η εκτίμηση της θεμελιώδους συχνότητας f0 (fundamental frequency estimation) γνωστή και
ως εξαγωγή του ύψους (pitch extraction) είναι το κύριο και πρώτο στάδιο που εκτελείται
κατά τη διάρκεια της αναγνώρισης μουσικής. Σύμφωνα µε τη μουσική θεωρία, όπως
αναφέραμε και σε προηγούμενη ενότητα, το φάσμα των διαφορετικών συχνοτήτων
χωρίζεται σε οκτάβες. Η οκτάβα ορίζεται ως η απόσταση ανάδεσα σε διπλάσιες συχνότητες.
Η οκτάβα χωρίζεται στη συνέχεια σε 12 ημιτόνια τα οποία έχουν μεταξύ τους σταθερό λόγο
απόστασης ίσο µε 21/12
. Οι συχνότητες των ημιτονίων παίρνουν συγκεκριμένες
προκαθορισμένες τιμές, οι οποίες δίνονται στον πίνακα. Σε αυτόν φαίνεται ότι οι συχνότητες
που επιτρέπεται να έχει μια νότα είναι λογαριθμικά κατανεμημένες. Ως κεντρική νότα
αναφέρεται συνήθως η A4 (Λα) στα 440Hz.
Συγκεκριμένα αν f0 είναι η συχνότητα νότας αναφοράς, τότε η συχνότητα νότας που απέχει n
ημιτόνια από αυτήν είναι:
f1 = f0 x an , με α=21/12 (2.6)
24
Πίνακας 2.1 : Οι θεμελιώδεις συχνότητες των νοτών σε όλες τις οκτάβες [21]
Κατά τη διάρκεια της μεταγραφής ενός ηχητικού σήματος είναι σημαντικό να γνωρίζουμε το
είδος της ηχητικής πηγής ώστε να μπορούμε όσο είναι δυνατόν να εστιάσουμε σε
συγκεκριμένη περιοχή συχνοτήτων. Κάθε όργανο εξαιτίας της φύσης του και της κατασκευής
του έχει διαφορετικό εύρος συχνοτήτων που μπορεί να αναπαράγει. Το ίδιο ισχύει και για τη
φωνή του ανθρώπου, η οποία έχει συνήθως ένα εύρος 2 -3 οκτάβες ενώ σε εξαιρετικά
σπάνιες περιπτώσεις μπορεί να φτάσει τις 4.
Εικόνα 2.8 : Το συχνοτικό εύρος της ανθρώπινης φωνής και διάφορων οργάνων
25
2.4 Μεταγραφή Μουσικής
Ιστορική Αναδρομή
Η ιστορία της μεταγραφής πολυφωνικής μουσικής ξεκινάει από τον Moorer [22] στις αρχές
τις δεκαετίας του ΄70 και ακολουθούν Piszczalski (1979) και Maher (1989) τη δεκαετία του
΄80. Τα συστήματα που αναπτύχθηκαν περιορίζονταν στην αναγνώριση το πολύ δύο
ταυτόχρονων ήχων με περιορισμένο εύρος συχνοτήτων. Από τη δεκαετία του ΄90 και μετά το
ενδιαφέρον για την μεταγραφή μουσικής έγινε εντονότερο και δημοσιεύτηκαν αρκετές
εργασίες. Σημαντική επιτυχία στην μεταγραφή πολυφωνικής μουσικής έχουν κάποιες
δημοσιεύσεις των Goto, Ryynanen και Klapuri. Παρόλα αυτά, ακόμα και τα πιο σύγχρονα
συστήματα που υλοποιήθηκαν, δεν μπορούν να ξεπεράσουν τις ικανότητες ενός
εκπαιδευμένου μουσικού [24].
Κατά τη διάρκεια των ερευνών έχουν εφαρμοστεί διάφορες μέθοδοι ανάλυσης του ηχητικού
σήματος, άλλες στο πεδίο του χρόνου και άλλες στο πεδίο των συχνοτήτων. Η πιο βασική
μέθοδος είναι η γνωστή ως Short-Time Fourier Transform (STFT), δηλαδή ο μετασχηματισμός
Fourier διαδοχικών τμημάτων του σήματος, τα οποία απομονώνονται από το υπόλοιπο σήμα
µε τη βοήθεια μιας συνάρτησης παραθύρου. Επίσης διαδεδομένος είναι και ο
μετασχηματισμός Constant-Q, ο οποίος χρησιμοποιεί μεταβλητό μήκος παραθύρου για να
επιτύχει σταθερό λόγο συχνότητας προς ακρίβεια ανάλυσης, όπως το ανθρώπινο αυτί. Άλλες
μέθοδοι που υπάρχουν είναι η μοντελοποίηση µε χρήση προσαρμοζόμενων φίλτρων, η
αυτοσυσχέτιση (autocorrelation) του σήματος, ο αλγόριθμος MUSIC (MUltiple SIgnal
Classification), η μέθοδος του Prony, η ανάλυση κυµατιδίων (wavelets), η ανάλυση cepstrum
και άλλες.
Εφαρμογές
Η αυτόματη μεταγραφή ενός ηχητικού σήματος μπορεί να βρεθεί σε πολυάριθμες
εφαρμογές κυρίως στο χώρο της μουσικής, αλλά και στην ανάλυση μουσικών δεδομένων.
Ενδεικτικά μερικές από αυτές είναι:
26
• Αναζήτηση μουσικής πληροφορίας βάσει π.χ. τη μελωδία του κομματιού.
• Μουσική ανάλυση. Τα εργαλεία μεταγραφής διευκολύνουν την ανάλυση των μουσικών
αυτοσχεδιασμών και τη διαχείριση των μουσικών αρχείων.
• Μουσικό ρεμίξ (music remixing). Δίνει τη δυνατότητα να αλλάξει και να αντικαταστήσει
κανείς τα όργανα εφαρμόζοντας εφέ σε ορισμένα τμήματα, ή ακόμη και να αφαιρέσει,
επιλεκτικά, ορισμένα από αυτά.
• Διαδραστικά μουσικά συστήματα(interactice music systems), που παράγουν μια μουσική
συνοδεία π.χ. στο μέρος του σόλο ενός καλλιτέχνη, είτε off-line είτε σε πραγματικό χρόνο.
• Εξοπλισμός με μουσική συσχέτιση (music-related equipment), όπως συγχρονισμός των εφέ
φωτισμού με το αντίστοιχο μουσικό σήμα.
• Δομημένη κωδικοποίηση ήχου. Μια MIDI αναπαράσταση είναι εξαιρετικά μικρού
μεγέθους, ενώ ταυτόχρονα διατηρεί σε σημαντικό βαθμό την ταυτότητα και τα
χαρακτηριστικά του μουσικού κομματιού. Στη δομημένη κωδικοποίηση ήχου, οι παράμετροι
της ηχητικής πηγής πρέπει επίσης να κωδικοποιούνται, αλλά το εύρος ζώνης παραμένει
περίπου στα 2-3 kbit/s [24]
To πρότυπο MIDI
Το τελευταίο στάδιο της μεταγραφής της μουσικής, μετά την αναγνώριση δηλαδή των νοτών
του μουσικού σήματος που επεξεργαζόμαστε, είναι η κατασκευή ενός αρχείου midi
παρέχοντας έτσι ένα ακουστικό αποτέλεσμα. Σε τι αντιστοιχεί όμως το πρότυπο midi ;
Το πρότυπο MIDI (Musical Instruments Digital Interface) αφορά την επικοινωνία μεταξύ
μουσικών οργάνων/µέσων µε τη χρήση ενός ειδικού ψηφιακού κώδικα. Σύμφωνα µε το
πρότυπο MIDI, η ψηφιακή επικοινωνία γίνεται µε τη μετάδοση εντολών, από κάποιο όργανο-
πομπό σε κάποιο όργανο-δέκτη, οι οποίες καθορίζουν ένα σύνολο παραμέτρων που
σχετίζονται µε την παραγωγή ήχου, την οργάνωση των μουσικών γεγονότων και τον
συγχρονισμό των οργάνων [25].
27
Το πρότυπο MIDI αποτελείται από δύο αλληλένδετα μέρη:
α) Το πρωτόκολλο επικοινωνίας (Software): Πρόκειται για τη γλώσσα της MIDI επικοινωνίας
(MIDI Language) και περιλαμβάνει το σύνολο των εντολών που αφορούν τη διάρθρωση μιας
μουσικής εκτέλεσης.
β) Το υλικό μέρος (Hardware): Αυτό αφορά τις ηλεκτρονικές συσκευές (πομπός – δέκτης) που
επικοινωνούν και καθορίζει τα τεχνικά τους χαρακτηριστικά, τις εισόδους/εξόδους
επικοινωνίας και τα μέσα διασύνδεσης.
Το πρωτόκολλο επικοινωνίας είναι αυτό που μας ενδιαφέρει περισσότερο στην παρούσα
εργασία και γι’ αυτό το λόγο θα παραλείψουμε την ανάλυση του hardware.
MIDI MODES (ΚΑΤΑΣΤΑΣΕΙΣ ΛΕΙΤΟΥΡΓΙΑΣ)
Σε κάθε MIDI συσκευή μπορεί να υπάρχουν τέσσερις καταστάσεις λειτουργίας οι οποίες
καθορίζουν τον τρόπο που η συσκευή ανταποκρίνεται στην εισερχόμενη πληροφορία,
ανάλογα µε την πολυφωνία και πολυχρωµατικότητα που διαθέτει:
Omni on: Ο δέκτης ανταποκρίνεται στην πληροφορία που δέχεται ανεξάρτητα από το κανάλι
στο οποίο δέχεται την πληροφορία.
Omni off: Ο δέκτης ανταποκρίνεται µόνο στην πληροφορία που δέχεται σε κάποιο
προκαθορισμένο κανάλι.
Poly on: Ο δέκτης ανταποκρίνεται στην πληροφορία πολυφωνικά (ανάλογα µε την
πολυφωνία που διαθέτει).
Mono on: Ο δέκτης ανταποκρίνεται στην πληροφορία μονοφωνικά (µία νότα κάθε φορά).
Οι πιθανοί συνδυασμοί των παραπάνω καταστάσεων λειτουργίας µας δίνουν τα 4 MIDI
Modes που καθορίζουν τον τρόπο αντίδρασης του οργάνου/µέσου στην πληροφορία που
λαμβάνει [26]:
Mode 1: Omni On/Poly
Mode 2: Omni On/Mono
Mode 3: Omni Off/Poly
Mode 4: Omni Off/Mono
28
Η ΔΟΜΗ ΕΝΟΣ MIDI ΜΗΝΥΜΑΤΟΣ
Το κάθε MIDI μήνυμα αποτελείται από 1 έως 3 ψηφιολέξεις (bytes) οι οποίες
αποτελούνται από 8 bits η καθεμία. Η πρώτη ψηφιολέξη που μεταδίδεται ονομάζεται
Status Byte και ειδοποιεί για το είδος μηνύματος και τον αριθμό καναλιού στο οποίο
το μήνυμα θα μεταδοθεί. Οι δύο επόμενες ψηφιολέξεις ονομάζονται Data bytes και
µέσω του συνδυασμού των δυαδικών ψηφίων καθορίζουν τιμές (0-127) οι οποίες
μπορεί να αφορούν το ποσοστό μεταβολής του ήχου, το τονικό ύψος της νότας, την
θέση ενός MIDI Programme στη μνήμη ενός οργάνου κτλ. ανάλογα πάντα µε το είδος
της εντολής που καθορίζεται από το status byte. Για παράδειγμα, εάν πιέσουμε το
μεσαίο ντο στο κλαβιέ ενός MIDI Keyboard, το status byte του μηνύματος που θα
σταλεί θα ειδοποιήσει ότι ενεργοποιήθηκε µία νότα (μήνυμα ‘note on’), και στη
συνέχεια το πρώτο data byte θα ειδοποιήσει για το ‘ποιά νότα’ µε τιμές 0-127 (π.χ.
60 = μεσαίο ντο), ενώ το δεύτερο data byte θα ειδοποιήσει για την ένταση της νότας,
πάλι µε τιμές 0-127 (π.χ. 60=μέτρια ένταση).
Εικόνα 2.9 :Δομή ενός τυπικού MIDI μηνύματος [26]
Σε κάθε Status Byte το πρώτο bit είναι το 1. Αντίθετα το κάθε Data Byte ξεκινά από 0. Αυτό
έχει καθοριστεί από τους προγραμματιστές της MIDI γλώσσας για να είναι ευδιάκριτη η
ταυτότητα του κάθε byte (αν δηλαδή πρόκειται για status byte ή data byte) πράγμα που
διευκολύνει την επικοινωνία. Έτσι, ένα όργανο/μέσο που δέχεται ένα byte το οποίο ξεκινά
από 1 ‘καταλαβαίνει’ ότι πρόκειται για ένα νέο μήνυμα το οποίο ‘περιγράφεται’ µε τις τιμές
των data bytes που ακολουθούν. Εάν το όργανο/μέσο δεχθεί ένα byte που ξεκινά από 0 τότε
συνεχίζει να ανταποκρίνεται στο είδος μηνύματος που καθορίστηκε από το προηγούμενο
29
status byte. To παραπάνω όμως σημαίνει ότι εφόσον το 1ο bit του κάθε byte χρησιμοποιείται
για τον προσδιορισμό της ταυτότητάς του, τότε µας μένουν άλλα 7 bits τα οποία
συνδυάζονται για τον καθορισμό των τιμών, και έτσι οι πιθανές τιμές που μπορεί να
αποδοθούν από ένα byte ενός MIDI μηνύματος είναι τελικά 128 (27 =128), δηλαδή από το 0
έως το 127.
Για παράδειγμα, η μεταβολή της έντασης ενός ήχου μπορεί να οριστεί µέσω της MIDI
επικοινωνίας σε µία κλίμακα µε τιμές από το 0 (=μηδενική ένταση) έως το 127 (μέγιστη
ένταση), ενώ κατά τον ίδιο τρόπο ένα άλλο byte μπορεί µέσω αυτής της κλίμακας να
προσδιορίζει 128 διαφορετικές νότες που μπορούν να παιχθούν από ένα κλαβιέ (0= ντο -2,
127= σολ 8).
Εικόνα 2.10 : Βits και bytes του MIDI κώδικα [26]
Χρησιμότητα
Γενικά ο μουσικός που θα γνωρίσει τις συγκινήσεις που προσφέρει το MIDI είναι πολύ
δύσκολο να φανταστεί τον κόσμο χωρίς αυτό. Οι δυνατότητες που ανοίγονται είναι τεράστιες
σε κάθε τομέα της μουσικής: διδασκαλία, σύνθεση, μάθηση, διασκέδαση. Οι δημιουργοί
λογισμικού έχουν αναπτύξει κάθε δυνατή πλευρά της μουσικής μέσω ειδικών
προγραμμάτων και για κάθε επίπεδο αγοραστικής δύναμης.
Οι κυριότερες κατηγορίες λογισμικού που θα μπορούσε κάποιος να βρει σήμερα είναι:
30
 Προγράμματα μουσικής
σημειογραφίας (Notation
Software)
 Προγράμματα μουσικής
εγγραφής (Sequencer)
 Προγράμματα μουσικής
εκπαίδευσης
 Προγράμματα επεξεργασίας-
ταξινόμησης ήχων
 Προγράμματα αναγνώρισης
μουσικών χαρακτήρων
Εικόνα 2.11 : Τρόποι διαχείρισης της μουσικής μέσω μουσικών λογισμικών
31
3. Μονοφωνική μεταγραφή μουσικής
3.1 Χαρακτηριστικά της Μονοφωνίας
Τι είναι μονοφωνία;
Ως μονοφωνία ή μονοφωνική μουσική, χαρακτηρίζεται κάθε μουσικό είδος το οποίο
βασίζεται σε μία και μόνη μελωδική γραμμή, που ακόμα κι αν παίζεται ή τραγουδιέται από
πλέον του ενός εκτελεστή, αναπαράγεται από όλους ταυτόχρονα και πανομοιότυπα. Αυτό
σημαίνει ότι σε οποιαδήποτε χρονική στιγμή ενός ηχητικού αποσπάσματος αναπαράγεται
ένας και μόνο τόνος, με αποτέλεσμα το απόσπασμα να αποτελείται από μία μόνο μελωδία.
Ένα σόλο ενός τρομπετίστα ή ενός βιολιστή είναι χαρακτηριστικά παραδείγματα
μονοφωνίας.
Εικόνα 3.1 : Παρτιτούρα μονοφωνικής μελωδίας
Αυτή ακριβώς η ιδιότητα της μονοφωνικής μουσικής είναι που την κάνει πιο ευκολά
μεταγράψιμη. Σε αντίθεση με αυτή, στην πολυφωνία, το σύστημα που είναι υπεύθυνο για τη
μεταγραφή μίας πολυφωνικής μελωδίας πρέπει να είναι σχεδιασμένο έτσι ώστε να μπορεί
να διακρίνει και να ανιχνεύει παραπάνω από έναν τόνο μια δεδομένη χρονική στιγμή. Αυτό
όμως δε σημαίνει ότι η μεταγραφή μιας μονοφωνικής μελωδίας είναι μια εύκολη διαδικασία,
καθώς έχουν αναπτυχθεί συγκεκριμένες τεχνικές για την επίτευξη ενός ικανοποιητικού
αποτελέσματος.
Κατά τη διάρκεια της μονοφωνικής μεταγραφής πρέπει να προσδιοριστούν τρεις παράμετροι
που χαρακτηρίζουν τις νότες σε μια μουσική μελωδία. Αυτές είναι:
32
 Ύψος (Pitch)
 Αρχή (Onset )
 Διάρκεια (Duration)
Ύψος
Όπως αναφέραμε και στην παράγραφο 3.2, αναλύοντας τα χαρακτηριστικά του ψηφιακού
ήχου, ο όρος ύψος αναφέρεται στο πόσο ψηλός ή χαμηλός είναι ένας τόνος. Στην προκειμένη
περίπτωση το ύψος είναι η συχνότητα της νότας που εξετάζουμε και η αντιστοιχία οξύτητας
του ήχου και της κλίμακας της συχνότητας είναι ανάλογη. Δηλαδή ένας υψηλός ήχος
αντιστοιχεί σε μια υψηλή συχνότητα, ενώ ένας χαμηλός ήχος σε μια χαμηλή συχνότητα (βλ.
εικόνα 3.2)
Μονάδα μέτρησης είναι το Χερτς (Hz), όπου 1Hz=1 κύκλος/δευτερόλεπτο
Εικόνα 3.2 Η κυματομορφή μίας νότας μπάσου (χαμηλό pitch) και ενός τόνου σφυρίχτρας (υψηλό pitch) [27]
Aρχή (onset) νότας
Στην παρακάτω εικόνα αριστερά φαίνεται η κυματομορφή μιας μεμονωμένης νότας και
δεξιά τα μέρη από τα οποία αποτελείται. Θα αναλύσουμε τα μέρη αυτά στη συνέχεια καθώς
είναι ιδιαίτερα σημαντικά ώστε να προσδιοριστεί η αρχή της νότας την κατάλληλη χρονική
στιγμή.
33
Εικόνα 3.3 : Η κυματομορφή νότας (αριστερά) και τα επιμέρους χαρακτηριστικά της (δεξιά) [29]
o Attack: αντιστοιχεί στο τμήμα που το πλάτος της νότας αυξάνεται.
o Decay: είναι το τμήμα στο οποίο η νότα είναι ηχηρή με αποτέλεσμα να καθορίζει τη
διάρκεια αλλά και το τέλος της. [28]
Αναλόγως το όργανο αλλά και την στίξη της νότας που σημειώνεται σε μια
παρτιτούρα (staccato, marcato, tenuto κ.λ.π.) τα δύο παραπάνω τμήματα
επηρεάζονται αναλόγως.
o Transient: είναι το τμήμα της νότας το οποίο δεν είναι εύκολα αντιληπτό από το
ανθρώπινο αυτί. Πρακτικά με τον όρο transient αναφερόμαστε στο τμήμα της νότας
όπου παρατηρείται μια γρήγορη μεταβολή. Στην περίπτωση των ακουστικών
οργάνων, το transient αντιστοιχεί στο χρονικό διάστημα κατά το οποίο εφαρμόζεται
η διέγερση και στη συνέχεια μειώνεται αφήνοντας μια αργή εξασθένιση στις
συχνότητες συντονισμού του οργάνου[30].
o Onset: όπως φαίνεται και στην παραπάνω εικόνα το onset συμπίπτει με το σημείο
όπου ξεκινάει το χρονικό διάστημα του transient.
transient
34
Διάρκεια
Ορίζεται ως το χρονικό διάστημα από το onset μέχρι το offset της νότας, όπου με τον όρο
offset αναφερόμαστε στο σημείο που η νότα σταματά να είναι ενεργή.
Εικόνα 3.4 : H κυματομορφή ενός ηχητικού σήματος (μπλε) και τα εκτιμημένα onsets (μωβ) [31]
Η αποσαφήνιση των παραπάνω είναι ιδιαίτερα σημαντική, καθώς πολλοί από τους
αλγόριθμους ανίχνευσης της αρχής των νοτών (onset detection) βασίζονται σε αυτά τα
χαρακτηριστικά. Τέτοιοι αλγόριθμοι είναι ιδιαίτερα χρήσιμοι σε αναλύσεις και τεχνικές
κατηγοριοποίησης μουσικών σημάτων. Ο πλέον συνηθής τρόπος ανίχνευσης των onsets είναι
η μελέτη του transient τμήματος μιας νότας, από όπου μπορούν να εξαχθούν διάφορα
συμπεράσματα. Μερικά παραδείγματα που μπορούν να οδηγήσουν στην ανίχνευση ενός
onset είναι ένα ξέσπασμα στην ενέργεια του σήματος, μία αλλαγή στο φάσμα του σήματος
ή σε κάποιες στατιστικές ιδιότητες του.
3.2 H Τεχνοτροπία της Μονοφωνικής Μεταγραφής
Σε αυτή την υποενότητα θα περιγράψουμε τα επιμέρους στάδια από τα οποία αποτελείται
ένα σύστημα μονοφωνικής μεταγραφής. Όπως μπορεί κανείς να δει στο παρακάτω
διάγραμμα, σαν είσοδο του συστήματος έχουμε ένα αρχείο τύπου κυματομορφής
35
(waveform). Σε αυτή τη μορφή το σήμα μας εμπεριέχει όλες τις δυνατές πληροφορίες που
μπορούμε να εξάγουμε καθώς δεν έχει υποστεί καμία μορφή συμπίεσης. Έπειτα το σήμα μας
χωρίζεται σε πολλά επιμέρους τμήματα (frames) για την καλύτερη εποπτεία και επεξεργασία
του, ενώ στη συνέχεια τα τμήματα αυτά πολλαπλασιάζονται με μία συνάρτηση “παραθύρου”
τύπου Hanning ώστε να είναι δυνατή η ανακατασκευή του σήματος, διαδικασία που θα
αναλύσουμε στη συνέχεια. Τα κύρια μέρη, στα οποία εστιάζουμε περισσότερο, είναι οι
συναρτήσεις ανίχνευσης της αρχής της νότας (onset detection function) και ανίχνευσης του
ύψους της (pitch detection function). Έπειτα προσδιορίζονται τα τμήματα σιγής (silenced
frames) του ηχητικού μας αρχείου και περνώντας στο τελευταίο στάδιο, συνδυάζοντας τα
παραπάνω, πραγματοποιείται η κατασκευή του αρχείου midi.
Εικόνα 3.5 : Τα στάδια επεξεργασίας της μονοφωνικής μεταγραφής
Signal
segmentation
Hanning
Window
Onset
Detection
Pitch
Detection
Energy
Estimation
Combine and
extract
silenced
midi file
track.mid
Input signal
track.wav
36
3.2.1 Κατάτμηση ηχητικού σήματος
Η χρονική κατάτμηση ενός ακουστικού κύματος σε μικρότερα στοιχεία είναι θεμελιώδες
βήμα για τη μετατροπή των ήχων σε σημασιολογικά αντικείμενα. Τα τελευταία χρόνια έχει
αφιερωθεί σημαντική έρευνα σε αυτό το αντικείμενο και έχουν αναπτυχθεί διάφοροι
αλγόριθμοι για τον αυτόματο διαχωρισμό μουσικών σημάτων στα όρια των αντικειμένων του
ήχου: αρχή (onset) και τέλος (offset) νότας [32][33]. Συστήματα ικανά να εντοπίζουν τα onset
τη στιγμή που συμβαίνουν, προσδίδουν νέες προοπτικές στην αλληλεπίδραση μεταξύ
ακουστικών και εικονικών μουσικών οργάνων [34].
Η εξαγωγή της χρονικής πληροφορίας των onset είναι χρήσιμη στις εφαρμογές επεξεργασίας
ήχου για την ακριβή μοντελοποίηση της έναρξης ενός ηχητικού φαινομένου (attack) [35].
Επίσης, βοηθά τα συστήματα μεταγραφής στον εντοπισμό της αρχής των νοτών [36][33], και
μπορεί να χρησιμοποιηθεί σε προγράμματα επεξεργασίας ήχων (sound editors) για το
διαχωρισμό ηχητικών αρχείων στα λογικά τους μέρη [38]. Οι μέθοδοι ανίχνευσης των onset
έχουν χρησιμοποιηθεί στην ταξινόμηση μουσικής, στο χαρακτηρισμό ρυθμικών μοτίβων [39],
καθώς και σε συστήματα αναγνώρισης ρυθμού (tempo) για να εντοπίσουν τη θέση των
ρυθμικών παλμών (beats) σε ένα μουσικό κομμάτι [40].
Κατά την τμηματοποίηση ενός σήματος στα επιμέρους frames, είναι σύνηθες να εφαρμόζεται
μία επικάλυψη (οverlap) των εξαγόμενων τμημάτων, ώστε να αποφευχθεί οποιαδήποτε
ασυνέχεια στην ανακατασκευή του σήματος. Όπως και στην εικόνα που ακολουθεί, η τιμή
της επικάλυψης συνηθίζεται να είναι 50%.
Εικόνα 3.6 : Κατάτμηση του σήματος με επικάλυψη (overlap) 50%
37
3.2.2 Συνάρτηση Παραθύρου
Η συνάρτηση παραθύρου είναι μια μαθηματική συνάρτηση που εφαρμόζεται στην
επεξεργασία ενός ψηφιακού σήματος για να αποφευχθούν ασυνέχειες στις δύο άκρες ενός
επιλεγμένου διαστήματος[42].
Ένα τέτοιο παράθυρο είναι και το παράθυρο Hanning (Hanning Window). Kύρια λειτουργία
του είναι να τονίσει τις συνιστώσες που βρίσκονται στο κέντρο του δείγματος που
εφαρμόζεται το παράθυρο, ενώ παράλληλα περιορίζει συμμετρικά τις τιμές στα άκρα του.
Με αυτόν τον τρόπο επιτυγχάνεται ο περιορισμός του φαινομένου της φασματικής διαρροής
(spectral leakage)
Εικόνα 3.7 : Το παράθυρο Hanning (αριστερά) και η απόκριση συχνότητάς του (δεξιά) [43]
Το παράθυρο Hanning ορίζεται ως εξής [43]:
𝒘(𝒏) = 𝟎. 𝟓 (𝟏 − 𝐜𝐨𝐬 (
𝟐𝝅𝒏
𝑵 − 𝟏
)) (𝟑. 𝟏)
N: μέγεθος παραθύρου
n: 0,1,..,N
Στη δική μας περίπτωση πολλαπλασιάζουμε κάθε frame με το παράθυρο Hanning. Αυτό έχει
ως αποτέλεσμα την ενίσχυση της θεμελιώδους συχνότητας και τον περιορισμό των
38
αρμονικών, πράγμα που διευκολύνει την επόμενη διαδικασία της ανίχνευσης του ύψους της
νότας.
Στην εικόνα 3.8 φαίνεται στο πεδίο της συχνότητας η επίδραση που έχει η εφαρμογή ενός
τετράγωνου παραθύρου και ενός παραθύρου Hanning στο σήμα. Είναι προφανές ότι στη
δεύτερη περίπτωση έχει εξαλειφθεί η όποια φασματική διαρροή υπήρχε προηγουμένως και
είναι πιο εμφανείς η τονική και οι βασικές αρμονικές της νότας.
Εικόνα 3.8 : Επίδραση του τετράγωνου παραθύρου (πάνω) και του παραθύρου Hanning (κάτω)
3.2.3 Ανίχνευση ύψους της νότας (pitch detection)
H μονοφωνική ανίχνευση του ύψους μια νότας αποτελεί τη μέθοδο αναγνώρισης της πρώτης
συχνότητας που εμπεριέχεται σε ένα ηχητικό σήμα όταν μόνο μια νότα αναπαράγεται κάθε
χρονική στιγμή. Ο στόχος ενός συστήματος ανίχνευσης τονικού ύψους (pitch detection
system) είναι να αναγνωρίσει τους ήχους που διαμορφώνουν την αίσθηση της τονικότητας
και να εκτιμήσει τη συχνότητα που αντιστοιχεί στο αντιλαμβανόμενο τονικό ύψος.
39
Παρατηρήθηκε λοιπόν από τους επιστήμονες πως, αν υπολογιστεί η θεμελιώδης συχνότητα
ενός αρμονικού σήματος και έπειτα το αποτέλεσμα οπτικοποιηθεί, για το μεγαλύτερο μέρος
της διάρκειας των νοτών το pitch παραμένει σταθερό. Αυτό το φαινόμενο, που είναι τόσο
προφανές, αξίζει να σχολιασθεί περαιτέρω. Με στόχο να ορισθούν κάποια κριτήρια
ομαδοποίησης και κανόνων για τους ήχους, θα πρέπει να δοθεί έμφαση στην ομοιότητα της
ανθρώπινης αντίληψης ανάμεσα στην εικόνα και τον ήχο. Σημαντικά στοιχεία μπορούν να
ληφθούν παρατηρώντας την κυματομορφή ενός pitch. Η συγκεκριμένη μέθοδος δεν
χρησιμοποιεί έναν συμβατικό ανιχνευτή οnset αλλά εφαρμόζει μια μέθοδο υπολογισμού του
onset με βάση την θεμελιώδη συχνότητα, που είναι πιο ισχυρή όταν αντιμετωπίζονται
προβλήματα με μικρές αλλαγές στις νότες (glissando, legato) [44].
Πολλά από τα μοντέλα αναγνώρισης τονικού ύψους προέρχονται από τεχνικές επεξεργασίας
λόγου [45]. Υπάρχει ένας μεγάλος αριθμός μεθόδων για την εκτίμηση της τονικότητας
σημάτων ομιλίας [46] και μουσικής [47], τα οποία κατά κύριο λόγο λειτουργούν εκτιμώντας
τη θεμελιώδη συχνότητα κάθε μουσικού συμβάντος (νότας). Η θεμελιώδης συχνότητα f0 ενός
περιοδικού σήματος είναι η αντίστροφος της περιόδου του. Η περίοδος μπορεί να οριστεί ως
“το μικρότερο μέλος ενός συνόλου άπειρων χρονικών μετατοπίσεων που αφήνουν το σήμα
αμετάβλητο” [48]. Στη μουσική, ωστόσο, το σήμα δεν είναι απόλυτα περιοδικό και ο ορισμός
αυτός εφαρμόζεται σε ένα συγκεκριμένο χρονικό τμήμα γύρω από το τρέχον σημείο της
ανάλυσης.
Στις περισσότερες περιπτώσεις, η θεμελιώδης συχνότητα μίας νότας αντιστοιχεί στην
αντιλαμβανόμενη τονικότητα, χωρίς αυτό όμως να αποτελεί ανεξαίρετο κανόνα [49], καθώς
το αντιλαμβανόμενο τονικό ύψος των μουσικών οργάνων εξαρτάται και από τις αρμονικές
συχνότητες που παράγουν [50]. Τα μουσικά όργανα έχουν διαφορετικές αρμονικές δομές και
το πλάτος των αρμονικών τους μεταβάλλεται με το χρόνο, προσδίδοντας στο κάθε όργανο
ξεχωριστή χροιά.
40
Εικόνα 3.9 : Η θεμελιώδης συχνότητα της νότας Μι στη 3η οκτάβα (Ε3) και οι αρμονικές τις [52]
Οι διάφοροι διαθέσιμοι αλγόριθμοι για την εκτίμηση της θεμελιώδους συχνότητας
κατηγοριοποιούνται γενικά σε δύο κατηγορίες: α) στις μεθόδους που εκτιμούν την
περιοδικότητα της κυματομορφής του σήματος (μέθοδοι στο πεδίο του χρόνου - time
domain methods) και β) στις μεθόδους που αναζητούν αρμονικά μοτίβα στο φάσμα (μέθοδοι
στο πεδίο της συχνότητας - frequency or spectral domain methods). Oι φασματικές
προσεγγίσεις τείνουν να έχουν καλά αποτελέσματα στο ψηλότερο μέρος του φάσματος και
υστερούν στο χαμηλό, ενώ αντίθετα οι χρονικές παρουσιάζουν περισσότερα λάθη στις
υψηλές συχνότητες, κυρίως όσο πλησιάζουν στη μισή τιμή της συχνότητας δειγματοληψίας
(ρυθμός Nyquist). Μερικά συστήματα χρησιμοποιούν συνδυαστικά μεθόδους βασισμένες
στο πεδίο του χρόνου και της συχνότητας, στοχεύοντας να εκμεταλλευτούν τα δυνατά σημεία
της καθεμίας ώστε να έχουν καλύτερα αποτελέσματα στο συνολικό εύρος του φάσματος του
ήχου [51].
41
Στο πεδίο της συχνότητας διακρίνονται γενικά δύο τύποι μεθόδων για την αναγνώριση του
τονικού ύψους:
α) οι μέθοδοι φασματικής θέσης (spectral position methods), οι οποίες βασίζονται στον
εντοπισμό της θεμελιώδους συχνότητας επιλέγοντας φασματικές συνιστώσες ανάλογα με τη
θέση τους στο φάσμα.
β) οι μέθοδοι φασματικών διαστημάτων (spectral interval methods), οι οποίες βασίζονται
στον υπολογισμό των διαστημάτων μεταξύ των αρμονικών συχνοτήτων [47].
Μια μέθοδος φασματικής θέσης ευρέως χρησιμοποιούμενη κυρίως σε συστήματα ανάλυσης
φωνητικών σημάτων, είναι αυτή της γραμμική πρόβλεψης (Linear Predictive Coding (LPC) )
που βλέπουμε στην εικόνα 3.10.
Εικόνα 3.10 : Η μέθοδος της γραμμικής πρόβλεψης (LPC) [53]
42
Αναγνώριση τονικού ύψους στο πεδίο του χρόνου
Zero - Crossing
Μία μέθοδος για τον εντοπισμό της θεμελιώδους συχνότητας στο πεδίο του χρόνου
συνίσταται στην παρατήρηση μοτίβων περιοδικότητας του σήματος μέσω της κυματομορφής
του. Ένας από τους πιο γρήγορους τρόπους για να υπολογιστεί η τονικότητα είναι να
μετρηθούν οι διελεύσεις από το μηδέν (zero-crossings) σε ένα συγκεκριμένο χρονικό
διάστημα, κάτι το οποίο απαιτεί εξονυχιστική έρευνα σε κάθε παράθυρο επεξεργασίας για
να εντοπιστούν οι αλλαγές των προσήμων.
Εικόνα 3.11 : Το ηχητικό σήμα και οι διελεύσεις της κυματομορφής από το μηδέν (zero crossings)
Αυτή η μέθοδος είναι επιτυχής όταν το σήμα αποτελείται από απλούς ημιτονοειδείς τόνους,
αλλά αποτυγχάνει όταν στοχεύει σε πιο πολύπλοκους τύπους σημάτων. Για παράδειγμα, ο
αριθμός των διελεύσεων από το μηδέν ενός αρμονικού ήχου συχνά δεν έχει σχέση με το
μήκος κύματος του, καθώς το πρόσημο της κυματομορφής μπορεί να αλλάξει πάνω από μία
φορά σε μία περίοδο. Επιπλέον, η παρουσία θορύβου στο σήμα μπορεί να δυσκολέψει
ακόμη περισσότερο τη σωστή καταμέτρηση των διελεύσεων από το μηδέν, είτε αυξάνοντας
είτε μειώνοντας τον αριθμό των αλλαγών πρόσημου εντός του παραθύρου επεξεργασίας.
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468
Thesis_sachos5468

More Related Content

Featured

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Saba Software
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
Simplilearn
 

Featured (20)

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
 

Thesis_sachos5468

  • 1. ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΓΡΑΦΗ ΠΟΛΥΦΩΝΙΚΗΣ ΜΕΛΩΔΙΑΣ ΜΕ ΧΡΗΣΗ ΦΑΣΜΑΤΙΚΩΝ ΠΡΟΤΥΠΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΑΧΟΣ ΚΩΝΣΤΑΝΤΙΝΟΣ – ΑΡΣΕΝΙΟΣ ΑΕΜ 5468 Επιβλέπων : ΜΗΤΙΑΝΟΥΔΗΣ ΝΙΚΟΛΑΟΣ ΞΑΝΘΗ, ΝΟΕΜΒΡΙΟΣ 2015
  • 2.
  • 3. 1 ΠΕΡΙΛΗΨΗ Σε αυτή τη διπλωματική εργασία αναλύεται και υλοποιείται η διαδικασία της μεταγραφής μουσικών σημάτων, η μετατροπή δηλαδή της ηχητικής πληροφορίας σε μουσική σημειογραφία όπως για παράδειγμα παρτιτούρα ή συμβολικό αρχείο σε ηλεκτρονική μορφή(αρχείο ΜIDI). Η προαναφερθείσα μετατροπή εξετάζεται τόσο σε μονοφωνικά αρχεία ήχου όσο και σε πολυφωνικά. Στο πρώτο μέρος της εργασίας γίνεται αναφορά μερικών εννοιών σχετικά με τον κλάδο της Μουσικής αλλά και τον τομέα της Ψηφιακής Επεξεργασίας Σήματος ώστε να καταστεί ευκολότερη η κατανόηση του περιεχομένου που ακολουθεί. Στη συνέχεια, σε πρώτη φάση ασχολούμαστε με το κομμάτι της μονοφωνικής μεταγραφής, όπου προτείνονται δύο εναλλακτικοί τρόποι αντιμετώπισης του προβλήματος βασισμένοι στην αυτοσυσχέτιση (auto-correlation) για τον εντοπισμό της κυρίαρχης συχνότητας και κατ’ επέκταση την εκτίμηση της εκάστοτε νότας. Η δεύτερη φάση αφορά την πολυφωνική μεταγραφή ενός ηχητικού σήματος όπου με γνώμονα τη μέθοδο της παραγοντοποίησης μη-αρνητικών πινάκων (NMF) αναπτύσσονται διάφορες τεχνικές με σκοπό την πιστή αποτύπωση του στο αρχείο MIDI. Κλείνοντας, πραγματοποιούνται μετρήσεις σχετικά με την ακρίβεια της μεταγραφής και των δύο περιπτώσεων και εξάγονται αντίστοιχα συμπεράσματα. Λέξεις Κλειδιά: Μεταγραφή, μουσική, επεξεργασία, σήμα, νότα, ανίχνευση, ύψος, αυτοσυσχέτιση, μετασχηματισμός, φασματογράφημα, μονοφωνία, πολυφωνία, παρτιτούρα, παραγοντοποίηση
  • 4. 2 ABSTRACT In this thesis we analyze and implement the transcription of music signals, the conversion, in other words, of the audio information to music notation e.g. music score or noted file in electronic format (midi file). The aforesaid conversion is examined both in monophonic and in polyphonic audio files. In the first part of this project, we mention some introductory concepts related to Music and to Digital Signal Processing, so that the following content can be conceived more easily. Next, we deal with monophonic transcription, where we suggest two alternative ways of addressing the problem based on auto-correlation for e pitch detection and later on for the estimation of each note. Consequently, we address the problem of polyphonic transcription of an audio signal. where based on the method of Non-Negative Matrix Factorization (NMF), we develop several techniques aiming at extracting its precise representation in a midi file. Finally, objective evaluation of the proposed methodologies is being performed in terms of the accuracy of the transcription for both the monophonic and polyphonic case. Key words: Transcription, music, processing, signal, note, detection, pitch, auto-correlation, transform, spectrogram, monophony, music score, piano roll, Non-negative Matrix Factorisation
  • 5. 3 Ευχαριστίες Σε αυτό το σημείο θα ήθελα πω ένα μεγάλο ευχαριστώ στον επιβλέποντα της διπλωματικής εργασίας και καθηγητή μου, κ. Μητιανούδη Νικόλαο πρώτα για την εμπιστοσύνη που μου έδειξε αναθέτοντας μου τη συγκεκριμένη διπλωματική εργασία και κατ’ επέκταση για την υποστήριξη και καθοδήγηση του κατά τη διάρκεια εκπόνησης της. Επίσης ευχαριστώ θερμά την οικογένεια μου για την πολυδιάστατη στήριξη που μου παρείχαν σε όλα τα χρόνια των σπουδών μου. Τέλος ευχαριστώ την Ε. για την αμέριστη κατανόηση και ανιδιοτελή βοήθεια της και τους κοντινούς μου ανθρώπους που διαμόρφωσαν τα φοιτητικά μου χρόνια.
  • 6. 4 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΛΗΨΗ…………………………………………………………………………………………………….............1 Λέξεις-κλειδιά…………………………………………………………………………………………………………..1 ABSTRACT…………………………………………………………………………………………………………………2 Key words………………………………………………………………………………………………………………….2 Ευχαριστίες ………………………………………………………………………………………………………………3 ΠΕΡΙΕΧΟΜΕΝΑ………………………………………………………………………………………………………….4 ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ………………………………………………………………………………………………..6 ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ………………………………………………………………………………………………..9 1.ΕΙΣΑΓΩΓΗ……………………………………………………………………………………………………………..10 1.1 Παρουσίαση θέματος και Στόχοι……………………………………………………………………….10 1.2 Δομή της Διπλωματικής…………………………………………………………………………………….13 2.ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ……………………………………………………………………………………….14 2.1 Θεωρία της Μουσικής………………………………………………………………………………………14 2.2 Ψηφιακή Επεξεργασία Σήματος………………………………………………………………………..16 2.2.1 Δειγματοληψία – Θεώρημα Νyquist – Κβαντισμός………………………………………..17 2.2.2 Φάσμα και Μετασχηματισμός Fourier……………………………………………………………19 2.3 Μουσική και Ψηφιακή Επεξεργασία ήχου…………………………………………………………21 2.3.1 Βασικά Χαρακτηριστικά Ψηφιακού ήχου……………………………………………………….22 2.4 Μεταγραφή Μουσικής……………………………………………………………………………………..25 3. ΜΟΝΟΦΩΝΙΚΗ ΜΕΤΑΓΡΑΦΗ ΜΟΥΣΙΚΗΣ…………………………………………………………….31 3.1 Χαρακτηριστικά της Μονοφωνίας…………………………………………………………………….31 3.2 H Τεχνοτροπία της Μονοφωνικής Μεταγραφής……………………………………………….34 3.2.1 Κατάτμηση ηχητικού σήματος……………………………………………………………………….36 3.2.2 Συνάρτηση Παραθύρου…………………………………………………………………………………37 3.2.3 Ανίχνευση ύψους της νότας (pitch detection)…………………………………………………38 3.2.4 Εκτίμηση της αρχής μιας νότας (onset detection)…………………………………………..45
  • 7. 5 4. ΠΟΛΥΦΩΝΙΚΗ ΜΕΤΑΓΡΑΦΗ ΜΟΥΣΙΚΗΣ………………………………………………………………56 4.1 Το πρόβλημα της πολυφωνίας………………………………………………………………………….56 4.2 Μέθοδος παραγοντοποίησης μη αρνητικών πινάκων – (Νοn-Negative Matrix Factorization – NMF)………………………………………………………………………………………………57 4.2.1 Λίγα λόγια για τον NMF………………………………………………………………………………….57 4.2.2 Ορισμός του ΝΜF………………………………………………………………………………………….57 4.2.3 Προεκτάσεις του NMF……………………………………………………………………………………60 4.3 Η διαδικασία της πολυφωνικής μεταγραφής……………………………………………………62 4.3.1 O NMF στην πολυφωνική μεταγραφή……………………………………………………………63 4.3.2 Constant Q…………………………………………………………………………………………………….68 4.3.3 Εκτίμηση Ύψους (pitch detection)………………………………………………………………….71 4.3.4 Εκτίμηση της αρχής της νότας (onset detection)…………………………………………….72 4.4 W Training………………………………………………………………………………………………………..73 5. ΠΕΙΡΑΜΑΤΙΚΟ ΜΕΡΟΣ…………………………………………………………………………………………78 5.1 Υλοποίηση της μονοφωνικής μεταγραφής………………………………………………………..78 5.1.1 Κατάτμηση του ηχητικού σήματος…………………………………………………………………78 5.1.2 Pitch Detection με τη μέθοδο της αυτοσυσχέτισης (Auto-correlation)……………79 5.1.3 Onset Detection…………………………………………………………………………………………….82 5.1.4 Εκτίμηση των silenced frames………………………………………………………………………..85 5.1.5 Κατασκευή του midi αρχείου…………………………………………………………………………85 5.1.6 Μέτρηση ακρίβειας για τη μονοφωνία………………………………………………………….87 5.2 Υλοποίηση της πολυφωνικής μεταγραφής………………………………………………………..91 5.2.1 Εφαρμογή του μετασχηματισμού Constant Q………………………………………………..91 5.2.2 Εφαρμογή του NMF……………………………………………………………………………………….93 5.2.3 Μέτρηση ακρίβειας για την πολυφωνία……………………………………………………….97 6. ΣΥΜΠΕΡΑΣΜΑΤΑ………………………………………………………………………………………………101 6.1 Σύνοψη………………………………………………………………………………………………….101 6.2 Μελλοντικές επεκτάσεις…………………………………………………………………………………103 ΒΙΒΛΙΟΓΡΑΦΙΑ………………………………………………………………………………………………………105
  • 8. 6 ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ Εικόνα 1.1: Κυματομορφή ηχητικού σήματος (πάνω) και η συμβολική του μορφή-piano roll (κάτω) [1] Εικόνα 1.2 : Φασματογράφημα δύο μεμονωμένων διαδοχικών νοτών (αριστερά) και μιας συγχορδίας (δεξιά) [2][3] Εικόνα 1.3: Πολυφωνική μεταγραφή μουσικού κομματιού [4] Εικόνα 2.1 : Το μουσικό πεντάγραμμο και οι θέσεις των νοτών σε αυτό [7] Εικόνα 2.2: Η φυσική κλίμακα Ντο [8] Εικόνα 2.3 : Η οκτάβα και τα σημεία αλλοιώσεως στο πιάνο [10] Εικόνα 2.4 : Μετατροπή αναλογικού σήματος σε ψηφιακό [11] Εικόνα 2.5 : Αναπαράσταση δειγματοληψίας σήματος. Το συνεχές σήμα αναπαρίσταται από την πράσινη γραμμή ενώ τα διακριτά δείγματα (αποτέλεσμα δειγματοληψίας) με το μπλε χρώμα [13] Εικόνα 2.6: Αναπαράσταση κβαντισμού(4-bit / 16 στάθμες) ενός αναλογικού σήματος (κόκκινη γραμμή) [14] Εικόνα 2.7 : Η κυματομορφή (αριστερά) και το φασματογράφημα (δεξιά) ενός “καθαρού” ημιτόνου, μιας νότας βιολιού και μιας νότας πιάνου, “μαρτυρούν” τη διαφορετική χροιά του καθενός [20] Εικόνα 2.8 : Το συχνοτικό εύρος της ανθρώπινης φωνής και διάφορων οργάνων Εικόνα 2.9 : Δομή ενός τυπικού MIDI μηνύματος [26] Εικόνα 2.10 : Βits και bytes του MIDI κώδικα [26] Εικόνα 2.11 : Τρόποι διαχείρισης της μουσικής μέσω μουσικών λογισμικών Εικόνα 3.1 : Παρτιτούρα μονοφωνικής μελωδίας Εικόνα 3.2 : Η κυματομορφή μίας νότας μπάσου (χαμηλό pitch) και ενός τόνου σφυρίχτρας (υψηλό pitch) [27] Εικόνα 3.3 : Η κυματομορφή νότας (αριστερά) και τα επιμέρους χαρακτηριστικά της (δεξιά) [29] Εικόνα 3.4 : H κυματομορφή ενός ηχητικού σήματος (μπλε) και τα εκτιμημένα onsets (μωβ) [31] Εικόνα 3.5 : Τα στάδια επεξεργασίας της μονοφωνικής μεταγραφής Εικόνα 3.6 : Κατάτμηση του σήματος με επικάλυψη (overlap) 50% Εικόνα 3.7 : Το παράθυρο Hanning (αριστερά) και η απόκριση συχνότητάς του (δεξιά) [43] Εικόνα 3.8 : Επίδραση του τετράγωνου παραθύρου (πάνω) και του παραθύρου Hanning (κάτω)
  • 9. 7 Εικόνα 3.9 : Η θεμελιώδης συχνότητα της νότας Μι στη 3η οκτάβα (Ε3) και οι αρμονικές τις [52] Εικόνα 3.10 : Η μέθοδος της γραμμικής πρόβλεψης (LPC) [53] Εικόνα 3.11 : Το ηχητικό σήμα και οι διελεύσεις της κυματομορφής από το μηδέν (zero crossings) Εικόνα 3.12 : Το ηχητικό σήμα στην αρχική του μορφή (αριστερά) και μετά την εφαρμογή της συνάρτησης της αυτοσυσχέτισης (δεξιά) Εικόνα 3.13: Κυματομορφή ηχητικού αποσπάσματος από κιθάρα. Τα πραγματικά onsets είναι σημειωμένα με διακεκομμένες κάθετες γραμμές. Εικόνα 3.14 : Τα στάδια της συνάρτησης εκτίμησης των onsets [30] Εικόνα 3.15 : Φωνητικό σήμα (πάνω) και η ενέργεια του (κάτω) Εικόνα 3.16 : Το ηχητικό σήμα (α) και οι τρείς συναρτήσεις ανίχνευσης onset. Φασική Προσέγγιση (b), Ενεργειακή Προσέγγιση (c), Συνδυασμός Ενεργειακής και Φασικής Προσέγγισης (d) [60] Εικόνα 3.17 : Δυναμικό κατώφλι median (διακεκομμένη γραμμή) εφαρμοσμένο στη συνδυαστική συνάρτηση (Ενέργειας και Φάσης) εκτίμησης onset [60] Εικόνα 3.18 : Silenced frame ενός ηχητικού αποσπάσματος Εικόνα 4.1 : Παρτιτούρα και ταμπλατούρα πολυφωνικής μελωδίας Εικόνα 4.2 : Τα στάδια της πολυφωνικής μεταγραφής Εικόνα 4.3 : Διάγραμμα συχνότητας – χρόνου μιας απλής ηχητικής σκηνής [70] Εικόνα 4.4 : Η αποσύνθεση του πίνακα της σκηνής της εικόνας 4.3 σε γινόμενο των πινάκων H (αριστερά) και W (δεξιά) [70] Εικόνα 4.5 : Η μονοφωνική μελωδία “Mary had a little Lamb” [75] Εικόνα 4.6 : Το φασματογράφημα (V) της μελωδίας της εικόνας 4.5 και η αποσύνθεση του μέσω του NMF στους πίνακες W και Η [75] Εικόνα 4.7 : Φασματογράφημα νοτών C4(261.1 Hz) και G4(392 Hz) στη κιθάρα [76] Εικόνα 4.8 : Τα διανύσματα βάσης του πίνακα W [76] Εικόνα 4.9 : Οι πληροφορίες ενεργοποίησης των νοτών C4 και G4 στον πίνακα H [76] Εικόνα 4.10 : Φασματογράφημα του Μετασχηματισμού Fourier (πάνω) και του μετασχηματισμού Constant Q (κάτω) στην πολυφωνική εισαγωγή του μουσικού κομματιού “Smoke on the Water” Εικόνα 4.11 : Οι στήλες του πίνακα W περιέχουν ιδανικά τις θεμελιώδεις συχνότητες της μουσικής σύνθεσης [70] Εικόνα 4.12 : Οι γραμμές του πίνακα H σηματοδοτούν τα χρονικά διαστήματα που τα ηχητικα γεγονότα είναι ενεργά. [70]
  • 10. 8 Εικόνα 4.13 : Αρχιτεκτονική Συστήματος πολυφωνικής μεταγραφής με τη μέθοδο Sparse ΝΜF και “εκπαίδευση” του πίνακα W. Εικόνα 5.1 : Κατάτμηση του ηχητικού σήματος σε επιμέρους τμήματα (frames) Εικόνα 5.2 : Στιγμιότυπο ενός frame Εικόνα 5.3 : Εφαρμογή της συνάρτηση της αυτοσυσχέτισης στο frame Εικόνα 5.4 : Απαλοιφή του αριστερού συμμετρικού τμήματος της αυτοσυσχέτισης Εικόνα 5.5 : To frame της εικόνας 5.4 χωρίς τις αρνητικές συνιστώσες και η ανίχνευση του pitch (πράσινος κύκλος) Εικόνα 5.6 : Η παράγωγος της ενέργειας του σήματος (μπλε) και το δυναμικό κατώφλι median (κόκκινη γραμμή) Εικόνα 5.7 : Η συνάρτηση ανίχνευσης onset Spectral Flux (μπλε) και το δυναμικό κατώφλι median (κόκκινη γραμμή) Εικόνα 5.8 : Τα αποτελέσματα των συναρτήσεων ανίχνευσης onset μετά το pick picking. Ενεργειακή προσέγγιση (πάνω) και Spectral Flux (κάτω) . Εικόνα 5.9 : Η ενέργεια του σήματος (μπλε), το δυναμικό κατώφλι median (μωβ γραμμή) και τα εκτιμώμενα silenced frames Εικόνα 5.10 : O τελικός πίνακας σύμφωνα με τον οποίο κατασκευάζεται το midi Εικόνα 5.11 : Αναπαράσταση ευθυγραμισμένων πινάκων μετα την εφαρμογή της συνάρτηση αυτοσυσχέτισης xcorr() Εικόνα 5.12: Σύνολο μεταβλητών για τον προσδιορισμό των μετρητών recall και precision [86] Εικόνα 5.13 : O πίνακας V σε λογαριθμική συχνότητα της συνάρτησης logfsgram() Εικόνα 5.14 : O πίνακας ΜΧ σε λογαριθμική συχνότητα της συνάρτησης logfsgram() Εικόνα 5.15 : O “εκπαιδευμένος” πίνακας W που αποτελεί τη βάση 49 νοτών 6 αρμονικών τους (χειροκίνητη υλοποίηση) Εικόνα 5.16 : O “εκπαιδευμένος” πίνακας W που αποτελεί τη βάση 45 νοτών 6 αρμονικών τους (ηχογραφημένες νότες κιθάρας) Εικόνα 5.17 : O πίνακας Η μετά τη σύγκλιση του μέσω του Sparse NMF & Temporal Continuity Εικόνα 5.18 : Ο Πίνακας Η μετά από (α) την επαναληπτική διαδικασία του NMF , (β) την εφαρμογή του δυναμικού κατωφλίου median κατά στήλη και (γ) την εφαρμογή του κατωφλίου βάσει το μέγιστο (max) του πίνακα Εικόνα 5.19 : Ο πίνακας Η μετά την εξαγωγή των τοπικών μεγίστων (αριστερά) και μετά την αντικατάσταση των μη-μηδενικών στοιχείων με την τιμή ένα (1) (δεξιά) Εικόνα 5.20 : Επιβεβαίωση ευθυγράμμισης δύο δυσδιάστατων πινάκων μέσω της συνάρτησης αυτοσυσχέτισης xcorr2()
  • 11. 9 ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ Πίνακας 2.1 : Οι θεμελιώδεις συχνότητες των νοτών σε όλες τις οκτάβες [21] Πίνακας 5.1 : Μετρήσεις ακρίβειας δειγμάτων με μέθοδο ανίχνευσης onset την προσέγγιση Spectral Flux Πίνακας 5.2 : Μετρήσεις ακρίβειας δειγμάτων με μέθοδο ανίχνευσης onset την Ενεργειακή προσέγγιση Πίνακας 5.3 : Μετρήσεις ακρίβειας δειγμάτων για τις διάφορες εφαρμογές ΝΜF και ελάχιστη διάρκεια νότας 0.05 sec
  • 12. 10 1. Εισαγωγή Σε αυτή την ενότητα παρουσιάζεται ο στόχος της εργασίας καθώς επίσης η δομή και οι θεματικές ενότητες από τις οποίες αποτελείται, ώστε να αποκτήσει ο αναγνώστης μια εικόνα του περιεχομένου που ακολουθεί. 1.1 Παρουσίαση θέματος και Στόχοι Η μουσική κατείχε ανέκαθεν σπουδαία θέση στη ζωή του ανθρώπου και με το πέρασμα των δεκαετιών η μελέτη της εξετάστηκε από διάφορους τομείς που εκτείνονται από τη φιλοσοφία έως την επεξεργασία σημάτων. Η προτυποποίηση των δεδομένων μουσικής οδήγησε στην δημιουργία ενός νέου τομέα έρευνας, αυτού της ανάκτησης μουσικών πληροφοριών και ειδικότερα, της ανάπτυξης μεθόδων για την οργάνωση και ανάλυση του ταχέως επεκτεινόμενου μουσικού σύμπαντος. Μια τέτοια μέθοδος μελετάται στην παρούσα διπλωματική εργασία και πιο συγκεκριμένα, η αυτόματη μεταγραφή ενός μονοφωνικού αρχικά και ενός πολυφωνικού, στη συνέχεια, μουσικού σήματος. Η ικανότητα να παράγουμε την ακριβή μεταγραφή μιας μουσικής ακολουθίας έχει πολυάριθμες πρακτικές εφαρμογές στο χώρο της ψηφιακής επεξεργασίας σήματος αλλά και στη μουσικολογία. Για παράδειγμα, ένα μετεγγραμμένο μουσικό απόσπασμα μπορεί να χρησιμοποιηθεί για να προσδιοριστούν πολλαπλές εμφανίσεις του μέσα σε μια ηχητική βάση δεδομένων. Στόχος της αυτόματης μεταγραφής μουσικής είναι η εξαγωγή από ένα ηχητικό σήμα, μιας αναπαράστασης ικανής να διαβαστεί και να ερμηνευτεί από τον άνθρωπο (π.χ παρτιτούρα). Για να είναι δυνατόν να εξαχθεί μια τέτοια αναπαράσταση είναι απαραίτητο να εκτιμηθούν τα ύψη (pitch), η αρχή (onset), η διάρκεια των νοτών και η τονικότητα του σήματος προς επεξεργασία. Θα μπορούσαμε να πούμε ότι η μεταγραφή της μουσικής περιλαμβάνει δύο στάδια: α) τη μετατροπή του ηχητικού σήματος σε απεικόνιση piano roll (βλ. εικόνα 1.1) έχοντας προσδιορίσει τα παραπάνω χαρακτηριστικά των μουσικών νοτών και β) τη μεταφορά του piano roll σε μουσική απεικόνιση, όπως το πεντάγραμμο.
  • 13. 11 Εικόνα 1.1: Κυματομορφή ηχητικού σήματος (πάνω) και η συμβολική του μορφή-piano roll (κάτω) [1] Η διαδικασία της μεταγραφής, για κάποιον που δεν κατέχει γνώσεις και εμπειρία στο χώρο της μουσικής, μπορεί να είναι δύσκολη έως και αδύνατη. Ακόμη και για έναν επαγγελματία μουσικό, η μεταγραφή μιας πολυφωνικής μελωδίας μπορεί μεν να έχει σχετικά ακριβή αποτελέσματα, είναι δε μία χρονοβόρα και επίπονη διαδικασία. Για ένα αυτοματοποιημένο σύστημα που δεν “κατέχει” μουσικές γνώσεις, η διαδικασία της αναγνώρισης πολλαπλών ταυτόχρονων συμβάντων έχει αποδειχθεί ιδιαίτερα απαιτητική εξαιτίας της πλοκής (υπέρθεσης) των νοτών με τις διάφορες αρμονικές που απλώνονται στο σήμα. Ενώ το φασματογράφημα μιας νότας έπειτα από το μετασχηματισμό Fourier αποτελείται από την θεμελιώδη συχνότητα fo και τις αρμονικές της, το αντίστοιχο διάγραμμα μίας πολύπλοκης σύνθεσης μπορεί να περιέχει πολλές νότες που επικαλύπτονται στο χρόνο. Στην εικόνα 1.2 παρουσιάζονται δύο τέτοια φασματογραφήματα, όπου στη περίπτωση της συγχορδίας είναι σαφώς πιο δύσκολο να διαχωρίσουμε τις θεμελιώδεις συχνότητες από τις αρμονικές. Εικόνα 1.2 : Φασματογράφημα δύο μεμονωμένων διαδοχικών νοτών (αριστερά) και μιας συγχορδίας (δεξιά) [2][3]
  • 14. 12 Σκοπός αυτής της εργασίας είναι ο σχεδιασμός αυτής της διαδικασίας, καθώς επίσης και η εξαγωγή συμπερασμάτων από την πειραματική παρατήρηση, για μελλοντικές βελτιώσεις. Η αυτόματη μεταγραφή μουσικής από την πλευρά της μονοφωνίας θεωρείται ένα πρόβλημα που έχει λυθεί όπως θα γίνει αντιληπτό στη συνέχεια, καθώς τα αποτελέσματα στις μετρήσεις ακρίβειας είναι πολύ ικανοποιητικά. Από την άλλη πλευρά, στο κομμάτι της πολυφωνίας, η μεταγραφή ενός ηχητικού σήματος δεν βρίσκεται στο ίδιο στάδιο, μιας και το θεμελιώδες πρόβλημα της αυτόματης μεταγραφής είναι η αναγνώριση ταυτόχρονων μουσικών τόνων (multi-pitch detection). Εικόνα 1.3: Πολυφωνική μεταγραφή μουσικού κομματιού [4] Η υλοποίηση του αλγόριθμου και για τα δύο είδη μεταγραφής πραγματοποιήθηκε σε ΜΑΤLΑB (Matrix Laboratory), δηλαδή σε μια γλώσσα υψηλού επιπέδου και ένα περιβάλλον που αποτελεί το πλέον ιδανικό εργαλείο για ζητήματα ψηφιακής επεξεργασίας σήματος. Από το παραπάνω λογισμικό περιλαμβάνονται οπτικά αποτελέσματα σε διαφορά εδάφια της εργασίας με στόχο την σαφέστερη αντίληψη του θέματος που εξετάζεται. Στο παράρτημα της εργασίας, θα βρείτε το λογισμικό που αναπτύχθηκε σε περιβάλλον MATLAB.
  • 15. 13 1.2 Δομή της Διπλωματικής Κεφάλαιο 2: Σε αυτή την ενότητα γίνεται μια αναφορά στα βασικά στοιχεία της θεωρίας της Μουσικής και ορίζονται μερικές έννοιες απαραίτητες για τη συνέχεια. Έπειτα, περιγράφεται ο κλάδος της Ψηφιακής Επεξεργασίας Σήματος και γίνεται η σύνδεση με την διαδικασία της μεταγραφής, ενώ στο τέλος του κεφαλαίου απαριθμούνται διάφορες πρακτικές εφαρμογές της μουσικής μεταγραφής. Κεφάλαιο 3: Το κεφάλαιο αυτό είναι αφιερωμένο στη μονοφωνική μεταγραφή και στις μεθόδους που εφαρμόζονται. Ιδιαίτερη έμφαση δίνεται στην ανίχνευση των οnsets και στις πιθανές αστοχίες που μπορεί να εμφανίσουν οι τεχνικές. Κεφάλαιο 4: Εδώ μελετάται η πολυφωνική μεταγραφή ενός ηχητικού σήματος αφού γίνει πρώτα μια σύντομη εισαγωγή στην παραγοντοποίηση μη-αρνητικών πινάκων. Βασιζόμενοι σε αυτή τη μέθοδο εξετάζουμε εναλλακτικές τεχνικές με στόχο την βελτίωση του αποτελέσματος. Κεφάλαιο 5: Περιλαμβάνει τις υλοποιήσεις τόσο της μονοφωνικής όσο και της πολυφωνικής μεταγραφής αναλύοντας τα στάδια επεξεργασίας που υπόκειται κάθε φορά το σήμα. Επίσης πραγματοποιούνται μετρήσεις ακρίβειας για συγκεκριμένα μουσικά δείγματα συγκρίνοντας έτσι την αποδοτικότητα των μεθόδων που αναπτύχθηκαν. Κεφάλαιο 6: Στην τελευταία αυτή ενότητα εξάγονται συμπεράσματα σύμφωνα με τα αποτελέσματα και προτείνονται μελλοντικές κατευθύνσεις προς μελέτη. Κλείνοντας, στο παράρτημα περιλαμβάνεται ο κώδικας που αφορά και τα δύο είδη μεταγραφών.
  • 16. 14 2. Θεωρητικό υπόβαθρο 2.1 Θεωρία της Μουσικής Tί είναι η μουσική; Ως μουσική ορίζεται η τέχνη που βασίζεται στην οργάνωση ήχων με σκοπό τη σύνθεση, εκτέλεση και ακρόαση/λήψη ενός μουσικού έργου. Με τον όρο εννοείται επίσης και το σύνολο ήχων από το οποίο απαρτίζεται ένα μουσικό κομμάτι. [5] Θεμελιώδη στοιχεία της μουσικής Tα βασικά στοιχεία τα οποία χαρακτηρίζουν τη μουσική είναι η μελωδία, ο ρυθμός, η αρμονία, η ρυθμική αγωγή και η δυναμική. [6] Η μελωδία είναι μία διαδοχή φθόγγων με διαφορετικό ύψος και διαφορετική συνήθως αξία που εκφράζουν ένα μουσικό νόημα. Ρυθμός είναι η προσπάθεια οργάνωσης του χρόνου σε μια μουσική σύνθεση, ενώ η ρυθμική αγωγή ή αλλιώς tempo είναι η ταχύτητα εκτέλεσης ενός μουσικού κομματιού. Με τον όρο αρμονία αναφερόμαστε στο φαινόμενο που προσδίδει βάθος στην κίνηση της μελωδίας και περιγράφει σε κάθετο επίπεδο ταυτόχρονα μουσικά συμβάντα. Τέλος, η δυναμική καθορίζει το πόσο ηχηρά ή απαλά εκτελείται μία ή περισσότερες νότες. Πεντάγραμμο και Νότες Σαν πρώτο ξεκίνημα, θα πρέπει να αναφερθούμε σε μερικούς ορισμούς. Υπάρχουν πολλών ειδών μουσικά σύμβολα στην παγκόσμια μουσική σημειογραφία, που ποικίλουν ανάλογα με το είδος της μουσικής ή τη γεωγραφική περιοχή (π.χ. αραβική, βυζαντινή παρασημαντική, αρχαία αγκιστροειδής κ.λ.π.). Διεθνώς όμως, σαν πρότυπο, έχει επικρατήσει η Ευρωπαϊκή σημειογραφία που μας ενδιαφέρει εδώ άμεσα. Η πλατφόρμα της Ευρωπαϊκής μουσικής σημειογραφίας ονομάζεται πεντάγραμμο και αποτελείται από πέντε (5) παράλληλες, οριζόντιες, ευθείες γραμμές, που ισαπέχουν και αποτελούν τη βάση όπου τοποθετούνται τα μουσικά σύμβολα.
  • 17. 15 Οι ήχοι που αντιστοιχούν σε συχνότητες του ακουστικού αλλά και ωφέλιμου, για τη μουσική, φάσματος (frequency range) ονομάζονται νότες ή φθογγόσημα και τοποθετούνται στις 5 γραμμές ή στα 4 διαστήματα του πεντάγραμμου, ακόμα και στις βοηθητικές γραμμές πάνω ή κάτω από αυτό. Εικόνα 2.1 : Το μουσικό πεντάγραμμο και οι θέσεις των νοτών σε αυτό [7] Για την ονοματολογία των νοτών, στην Ελλάδα, χρησιμοποιείται το Ιταλικό σύστημα, ενώ στις υπόλοιπες Ευρωπαϊκές χώρες το Σαξονικό και Γερμανικό. Έτσι, οι νότες για το Ιταλικό σύστημα είναι: Ντο, ρε, μι, φα, σολ, λα, σι. Για το Σαξονικό σύστημα, οι αντίστοιχες νότες συμβολίζονται: C, D, E, F, G, A, B. [8] H διαδοχική σειρά των φθογγόσημων από τον χαμηλότερο ήχο στον υψηλότερο καλείται σκάλα ή κλίμακα. Εικόνα 2.2: Η φυσική κλίμακα Ντο [8] Η ηχητική απόσταση ανάμεσα στον πρώτο και τον τελευταίο ήχο/νότα μιας οκτάφθογγης κλίμακας ονομάζεται Οκτάβα. Δεδομένου ότι κάθε σκάλα παίρνει το όνομά της από την πρώτη (και τελευταία) νότα, στη φυσική σκάλα του Ντο διακρίνουμε τις αποστάσεις, που καλούνται διαστήματα, μεταξύ 1ης-2ης, 2ης-3ης, 4ης-5ης, 5ης-6ης, 6ης-7ης και τα ονομάζουμε τόνους, ενώ τα διαστήματα μεταξύ 3ης-4ης και 7ης-8ης ονομάζουμε ημιτόνια. Έτσι για παράδειγμα, οι νότες ντο-ρε σχηματίζουν μια διατονική απόσταση δευτέρας, ενώ οι νότες σι-ντο σχηματίζουν μια ημιτονιακή ή χρωματική απόσταση δευτέρας. [9]
  • 18. 16 Σημεία αλλοιώσεως ονομάζονται τα σημεία που χρησιμοποιούμε για να οξύνουμε ή να βαρύνουμε ένα μουσικό φθόγγο. Τα κυριότερα από αυτά είναι τρία: Η δίεση (#) η οποία υψώνει μια νότα κατά ένα ημιτόνιο Η ύφεση (b) η οποία χαμηλώνει μια νότα κατά ένα ημιτόνιο Η αναίρεση η οποία καταργεί μια προηγούμενη αλλοίωση ( # ή b) Εικόνα 2.3 : Η οκτάβα και τα σημεία αλλοιώσεως στο πιάνο [10] 2.2 Ψηφιακή Επεξεργασία Σήματος Η ψηφιακή επεξεργασία σήματος (Digital signal processing ή DSP) ασχολείται με την αναπαράσταση σημάτων διακριτού χρόνου ως ακολουθιών αριθμών ή συμβόλων, καθώς και με την επεξεργασία των σημάτων αυτών. Κάποιες εφαρμογές της ψηφιακής επεξεργασίας σήματος είναι: η επεξεργασία ήχου, η αναγνώριση φωνής, η επεξεργασία σημάτων από σόναρ, ραντάρ και συστοιχίες αισθητήρων, η εκτίμηση φάσματος, η στατιστική επεξεργασία σήματος, η ψηφιακή επεξεργασία εικόνας, η επεξεργασία σήματος στις τηλεπικοινωνίες, ο έλεγχος συστημάτων, η επεξεργασία βιοϊατρικών σημάτων και η επεξεργασία σεισμικών δεδομένων.
  • 19. 17 Εικόνα 2.4 : Μετατροπή αναλογικού σήματος σε ψηφιακό [11] Ο σκοπός της ψηφιακής επεξεργασίας σήματος συνήθως είναι η μέτρηση, το φιλτράρισμα ή η συμπίεση συνεχόμενων αναλογικών φυσικών σημάτων. Το πρώτο βήμα συνήθως είναι η μετατροπή του σήματος από αναλογικό σε ψηφιακό, μέσω δειγματοληψίας και κβαντισμού του σήματος με τη βοήθεια ενός μετατροπέα αναλογικού σήματος σε ψηφιακό (ADC), ο οποίος μετασχηματίζει το αναλογικό σήμα σε μια ακολουθία από αριθμούς. Η ανακατασκευή του σήματος σε αναλογικό ακολουθεί την αντίστροφη διαδικασία.[12] 2.2.1 Δειγματοληψία – Θεώρημα Νyquist – Κβαντισμός Δειγματοληψία είναι η καταγραφή της τιμής του σήματος ανά τακτά χρονικά διαστήματα Τs. Ως Τs ορίζεται η περίοδος δειγματοληψίας. Το διακριτό σήμα που προκύπτει μετά τη δειγματοληψία είναι της μορφής: S[n] = S(nTs) , n ακέραιος (2.1) Η συχνότητα δειγματοληψίας ή ρυθμός δειγματοληψίας μετριέται στην μονάδα μέτρησης Hertz (Hz) και μας δείχνει πόσα δείγματα έχουν ληφθεί από τον δειγματολήπτη σε διάρκεια ενός δευτερολέπτου. Η συχνότητα δειγματοληψίας συνδέεται με την περίοδο με τη βοήθεια της ακόλουθης σχέσης: Fs =1/Ts Θεώρημα Nyquist Ένα αναλογικό σήμα xa(t) με περιορισμένο φάσμα εύρους (<Fo) μπορεί να ανακατασκευαστεί ακριβώς από τα δείγματά του x(n)=xa(nTs) εάν η συχνότητα δειγματοληψίας Fs είναι διπλάσια του εύρους Fo. (Fs>2Fo) Σε κάθε άλλη περίπτωση υπάρχει αλλοίωση του φάσματος (aliasing) και το αρχικό αναλογικό σήμα δεν μπορεί να ανακατασκευασθεί μετά τη δειγματοληψία. Στην εικόνα 2.5 απεικονίζεται η δειγματοληψία ενός αναλογικού σήματος.
  • 20. 18 Εικόνα 2.5 : Αναπαράσταση δειγματοληψίας σήματος. Το συνεχές σήμα αναπαρίσταται από την πράσινη γραμμή ενώ τα διακριτά δείγματα (αποτέλεσμα δειγματοληψίας) με το μπλε χρώμα [13] Κβαντισμός είναι η διαδικασία κατά την οποία οι διαδοχικές τιμές της στάθμης (πλάτους) του σήματος διακριτού χρόνου Sd(nTs) που προκύπτει κατά την δειγματοληψία μετατρέπονται σε διακριτές (ψηφιακές) τιμές. Πραγματοποιείται δηλαδή μια απεικόνιση της μορφής S(nTs) = Q[Sd(nTs)], όπου Q[Sd(nTs)] είναι η κβαντισμένη τιμή στάθμης του σήματος. Το τελικό σήμα είναι πλέον διακριτό τόσο ως προς το χρόνο, όσο και ως προς το πλάτος και καλείται ψηφιακό S(nTs). Η παρακάτω εικόνα αναπαριστά τον κβαντισμό ενός ημιτονικού σήματος. Εικόνα 2.6: Αναπαράσταση κβαντισμού(4-bit / 16 στάθμες) ενός αναλογικού σήματος (κόκκινη γραμμή) [14]
  • 21. 19 2.2.2 Φάσμα και Μετασχηματισμός Fourier Ως φάσμα ορίζεται το σύνολο των συχνοτήτων όλων των ημιτονικών σημάτων με συγκεκριμένα πλάτη και φάσεις που πρέπει να προστεθούν ώστε να δώσουν το αρχικό σήμα. Ο λόγος που ορίστηκε η έννοια του φάσματος είναι για γίνει ευκολότερος ο τρόπος υπολογισμού κι απεικόνισης της συμπεριφοράς ενός συστήματος. Σκοπός ήταν να μπορεί να αναλυθεί οποιοδήποτε σήμα σε ένα σύνολο από ημιτονικά σήματα, ένα συνεχές σήμα το οποίο μπορεί να διατηρεί τη μορφή του σε παραγωγίσεις και ολοκληρώσεις Η ανάλυση του σήματος κατά αυτόν τον τρόπο ονομάζεται ανάλυση Fourier. Η ανάλυση Fourier αποτελείται από ένα σύνολο μαθηματικών τεχνικών, με τις οποίες αναλύουμε ένα σήμα σε άθροισμα ημιτόνων και συνημιτόνων. Με την εφαρμογή της μπορούμε να μελετήσουμε ποιες συχνότητες εμφανίζονται στο σήμα, και κατά πόσο επηρεάζεται το σήμα από κάθε φασματική συνιστώσα. Ο μαθηματικός μετασχηματισμός για τον υπολογισμό της ανάλυσης Φουριέ, ονομάζεται μετασχηματισμός Fourier (Fourier Transform), και δίνεται από τη σχέση: 𝑿(𝝎) = ∫ 𝒙(𝒕)𝒆−𝒋𝝎𝒕 ∞ −∞ 𝒅𝒕 (𝟐. 𝟐) ενώ ο αντίστροφος μετασχηματισμός είναι: 𝒙(𝒕) = ∫ 𝑿(𝝎)𝒆−𝒋𝝎𝒕 ∞ −∞ 𝒅𝝎 (𝟐. 𝟑) όπου x(t) η συνάρτηση του σήματος στο χρόνο και X(ω) η αντίστοιχη συνάρτηση στη συχνότητα [14]. Μετά την εφαρμογή του, το σήμα μετατρέπεται από το πεδίο του χρόνου, στο πεδίο της συχνότητας . Ο μετασχηματισμός αυτός μπορεί να εφαρμοστεί μόνο σε αναλογικά σήματα, ενώ για τα διακρικά σήματα χρειαζόμαστε μια παραλλαγή του, τον Διακριτό Μετασχηματισμό Fourier (Discrete Fourier Transform - DFT). STFT (Short Time Fourier Transform) Ο μετασχηματισμός Fourier δεν εφαρμόζεται στην περίπτωση που η συχνότητα του σήματος είναι συνάρτηση του χρόνου, καθώς η πληροφορία που μας δίνει είναι για την ύπαρξη μιας
  • 22. 20 συγκεκριμένης συχνότητας, κι όχι για τις χρονικές στιγμές στις οποίες εμφανίζεται. Αυτό μπορεί να γίνει εφικτό τμηματοποιώντας χρονικά το σήμα με τη χρήση μικρών διαδοχικών ή επικαλυπτόμενων παραθύρων, στα οποία θεωρούμε ότι το συχνοτικό περιεχόμενο του σήματος παραμένει σταθερό. Σε καθένα από τα μικρά χρονικά τμήματα, μπορεί να θεωρηθεί ότι το σήμα είναι στάσιμο, και στη συνέχεια να εφαρμοστεί ο Μετασχηματισμός Fourier σε αυτό. Η τεχνική αυτή ονομάζεται Μετασχηματισμός Fourier Βραχέος Χρόνου (STFT) και περιγράφεται από τον παρακάτω τύπο: 𝑺𝑻𝑭𝑻 {𝒙(𝒕)} = ∫ 𝒙(𝒖)𝒘(𝒖 − 𝒕)𝒆−𝒋𝝎𝒖 ∞ −∞ 𝒅𝒖 (𝟐. 𝟒) όπου w(t) είναι μια συνάρτηση παραθύρου. Πιθανές επιλογές είναι το παράθυρο Hamming, Hanning, Blackman κτλ, που το καθένα από αυτά έχει διαφορετικές ιδιότητες όσον αφορά την εξομάλυνση λανθασμένων αρμονικών υψηλών συχνοτήτων που προκαλεί η απότομη αποκοπή ενός τμήματος από το αρχικό σήμα. Το πλάτος του STFT, το οποίο ονομάζεται και φασματόγραμμα (spectrogram) του σήματος , ισούται με: 𝑺(𝒕, 𝝎) = | ∫ 𝒙(𝒖)𝒘(𝒖 − 𝒕)𝒆−𝒋𝝎𝒖 ∞ −∞ 𝒅𝒖| 𝟐 (𝟐. 𝟓) και εκφράζει την πυκνότητα ενέργειας του φάσματος ενός τμήματος του σήματος x(u), στο οποίο έχει εφαρμοστεί το παράθυρο w(t) []. Η χρονική ακρίβεια βελτιώνεται με την ελαχιστοποίηση του μήκος του παραθύρου εις βάρος της συχνοτικής ακρίβειας, και το αντίστροφο. Εάν το παράθυρο έχει άπειρο μήκος, τότε το φασματογράφημα που προκύπτει έχει τέλεια συχνοτική, αλλά μηδενική χρονική ακρίβεια. Εάν το παράθυρο έχει μικρό μήκος, τότε το φασματογράφημα θα έχει τέλεια χρονική ακρίβεια, αλλά ελάχιστη συχνοτική ακρίβεια.
  • 23. 21 2.3 Μουσική και Ψηφιακή Επεξεργασία ήχου Η μουσική αποτελεί ένα αναπόσπαστο κομμάτι της ζωής του ανθρώπου. Ήχοι και μουσική είναι ενσωματωμένα σχεδόν σε κάθε πτυχή της ζωής, από την επικοινωνία και την καλλιτεχνική έκφραση, μέχρι την κοινωνική και πολιτιστική ταυτότητα ενός λαού. Η μουσική όχι μόνο διαμορφώνει την καθημερινότητα, αλλά πολλές φορές της δίνει μία νέα μορφή με αποτέλεσμα την εξέλιξη και πιθανόν την ποιοτική βελτίωση της [16]. Ήδη από την αρχαιότητα και κατά τη διάρκεια των αιώνων μπορούμε να παρατηρήσουμε την άρρηκτη σύνδεση της μουσικής με τα μαθηματικά και την τεχνολογία. Ενδεικτικά, πρώτος ο Πυθαγόρας, μελετώντας το αρχαίο όργανο μονόχορδο, πέτυχε το χωρισμό και καθορισμό των μουσικών διαστημάτων εφευρίσκοντας έτσι την Πυθαγόρεια κλίμακα. Ο Mozart έγραψε καινοτόμες για την εποχή του συνθέσεις με το προσφάτως σχεδιασμένο πιάνο, ενώ οι Beatles άλλαξαν τελείως το πρόσωπο της δημοφιλούς μουσικής πρωτοπορώντας με την μοντέρνα τεχνική ηχογράφησης [17]. Σήμερα, εξαιτίας της ραγδαίας εξέλιξης της τεχνολογίας και σε συνδυασμό με την απεριόριστη υπολογιστική ισχύ και συνδεσιμότητα, έχουν αναπτυχθεί διάφοροι επιστημονικοί κλάδοι που βασίζονται στην ψηφιακή επεξεργασία του ήχου και κατ’ επέκταση διεισδύουν στο χώρο της μουσικής. Ένας τέτοιος κλάδος είναι και η Ανάκτηση Μουσικής Πληροφορίας (Music Information Retrieval – MIR). Ο παραπάνω κλάδος αποτελεί ένα μικρό αλλά αναπτυσσόμενο πεδίο της επιστήμης, που ασχολείται με την εξαγωγή πληροφοριών από ένα μουσικό απόσπασμα ή ακόμη και από μια μεγάλη βάση ηχητικών δεδομένων [18]. Μερικές εφαρμογές του ΜΙR είναι: o Συστήματα συστάσεων (Recommendation systems) o Διαχωρισμός μουσικού κομματιού και ηχητικών πηγών (Track separation and instrument recognition) o Αυτόματη Κατηγοριοποίηση (Automatic categorization) o Αναγνώριση γένους μουσικής (Music genre recognition) o Αυτόματη μεταγραφή μουσικής (Automatic music transcription)
  • 24. 22 2.3.1 Βασικά Χαρακτηριστικά Ψηφιακού ήχου Η αυτόματη μεταγραφή μουσικής που αποτελεί το κεντρικό θέμα της εργασίας έχει ως αντικείμενο επεξεργασίας τον ψηφιακό ήχου. Γι’ αυτό το λόγο είναι απαραίτητο να προσδιοριστούν τα θεμελιώδη χαρακτηριστικά του . Α) Ύψος (pitch) : Η θέση μιας συχνότητας στο ακουστικό/ηχητικό φάσμα Το τονικό ύψος καθορίζει αυτό που ονομάζουμε "ψηλό" ή "βαθύ" ήχο. Το ύψος ενός ήχου που αντιλαμβανόμαστε είναι η απόκριση του αυτιού μας στη συχνότητα. Συχνά όμως για πρακτικούς λογούς συχνά ταυτίζουμε το ύψος με τη συχνότητα (Hz). Το ύψος συνδέεται άμεσα µε την συχνότητα ενός ήχου, αλλά όχι γραμμικά. Αυτό σημαίνει ότι μπορεί η συχνότητα ενός ήχου να αυξάνεται, αλλά το ύψος του ήχου, δηλαδή η συχνότητα που αντιλαμβάνονται τα αυτιά μας, να µην αυξάνεται εξίσου [19]. Β) Ένταση (loudness): To πόσο «δυνατό» χαρακτηρίζουμε έναν ήχο Η ένταση ενός ήχου, εξαρτάται από το πλάτος του, δηλαδή από τις μεταβολές που έχει η πίεση μέσα σε ένα ηχητικό κύμα. Είναι ένα καθαρά αντικειμενικό μέγεθος, το οποίο μπορεί να μετρηθεί µε κατάλληλα μηχανήματα, όπως είναι ο παλμογράφος ή το ηχόμετρο. Η ένταση µετριέται σε dB ή αλλιώς decibel και πήρε την ονομασία της χάρις στον Alexander Graham Bell. Θεωρούμε ως ήχο αναφοράς 0 dB, ένα ήχο που βρίσκεται στο κατώφλι της ακοής. Αν έχουμε έναν ήχο 10 dB, τότε αυτός θα είναι 10 φορές μεγαλύτερος από τον ήχο αναφοράς, αν έχουμε έναν ήχο 20 dB, τότε αυτός θα είναι 100 φορές μεγαλύτερος από τον ήχο αναφοράς κ.ο.κ. Γ) Χροιά (timbre): Το «χρώμα» ενός ήχου Η χροιά ενός ήχου, είναι ένα υποκειμενικό χαρακτηριστικό, που συσχετίζεται µε τον τρόπο που αντιλαμβανόμαστε τους σύνθετους ήχους. Είναι το βασικό εργαλείο για να μπορούμε να ξεχωρίζουμε τους ήχους μεταξύ τους, το ένα όργανο από το άλλο, και καθορίζεται από το πλήθος και την σχετική ένταση που έχουν οι αρμονικές συχνότητες μεταξύ τους. Στην εικόνα 2.7 μπορούμε να διακρίνουμε την διαφορετική χροιά των ηχητικών πηγών τόσο από την κυματομορφή τους όσο και από το αντίστοιχο φασματογράφημα τους. Το αντικειμενικό χαρακτηριστικό µε το οποίο θα μπορούσαμε να αντιστοιχίσουμε την χροιά, είναι το φάσμα. Δ) Διάρκεια (duration): Η χρονική διάρκεια για την οποία ένας ήχος είναι αντιληπτός.
  • 25. 23 Εικόνα 2.7 : Η κυματομορφή (αριστερά) και το φασματογράφημα (δεξιά) ενός “καθαρού” ημιτόνου, μιας νότας βιολιού και μιας νότας πιάνου, “μαρτυρούν” τη διαφορετική χροιά του καθενός [20] Ε] Θεμελιώδης συχνότητα Η εκτίμηση της θεμελιώδους συχνότητας f0 (fundamental frequency estimation) γνωστή και ως εξαγωγή του ύψους (pitch extraction) είναι το κύριο και πρώτο στάδιο που εκτελείται κατά τη διάρκεια της αναγνώρισης μουσικής. Σύμφωνα µε τη μουσική θεωρία, όπως αναφέραμε και σε προηγούμενη ενότητα, το φάσμα των διαφορετικών συχνοτήτων χωρίζεται σε οκτάβες. Η οκτάβα ορίζεται ως η απόσταση ανάδεσα σε διπλάσιες συχνότητες. Η οκτάβα χωρίζεται στη συνέχεια σε 12 ημιτόνια τα οποία έχουν μεταξύ τους σταθερό λόγο απόστασης ίσο µε 21/12 . Οι συχνότητες των ημιτονίων παίρνουν συγκεκριμένες προκαθορισμένες τιμές, οι οποίες δίνονται στον πίνακα. Σε αυτόν φαίνεται ότι οι συχνότητες που επιτρέπεται να έχει μια νότα είναι λογαριθμικά κατανεμημένες. Ως κεντρική νότα αναφέρεται συνήθως η A4 (Λα) στα 440Hz. Συγκεκριμένα αν f0 είναι η συχνότητα νότας αναφοράς, τότε η συχνότητα νότας που απέχει n ημιτόνια από αυτήν είναι: f1 = f0 x an , με α=21/12 (2.6)
  • 26. 24 Πίνακας 2.1 : Οι θεμελιώδεις συχνότητες των νοτών σε όλες τις οκτάβες [21] Κατά τη διάρκεια της μεταγραφής ενός ηχητικού σήματος είναι σημαντικό να γνωρίζουμε το είδος της ηχητικής πηγής ώστε να μπορούμε όσο είναι δυνατόν να εστιάσουμε σε συγκεκριμένη περιοχή συχνοτήτων. Κάθε όργανο εξαιτίας της φύσης του και της κατασκευής του έχει διαφορετικό εύρος συχνοτήτων που μπορεί να αναπαράγει. Το ίδιο ισχύει και για τη φωνή του ανθρώπου, η οποία έχει συνήθως ένα εύρος 2 -3 οκτάβες ενώ σε εξαιρετικά σπάνιες περιπτώσεις μπορεί να φτάσει τις 4. Εικόνα 2.8 : Το συχνοτικό εύρος της ανθρώπινης φωνής και διάφορων οργάνων
  • 27. 25 2.4 Μεταγραφή Μουσικής Ιστορική Αναδρομή Η ιστορία της μεταγραφής πολυφωνικής μουσικής ξεκινάει από τον Moorer [22] στις αρχές τις δεκαετίας του ΄70 και ακολουθούν Piszczalski (1979) και Maher (1989) τη δεκαετία του ΄80. Τα συστήματα που αναπτύχθηκαν περιορίζονταν στην αναγνώριση το πολύ δύο ταυτόχρονων ήχων με περιορισμένο εύρος συχνοτήτων. Από τη δεκαετία του ΄90 και μετά το ενδιαφέρον για την μεταγραφή μουσικής έγινε εντονότερο και δημοσιεύτηκαν αρκετές εργασίες. Σημαντική επιτυχία στην μεταγραφή πολυφωνικής μουσικής έχουν κάποιες δημοσιεύσεις των Goto, Ryynanen και Klapuri. Παρόλα αυτά, ακόμα και τα πιο σύγχρονα συστήματα που υλοποιήθηκαν, δεν μπορούν να ξεπεράσουν τις ικανότητες ενός εκπαιδευμένου μουσικού [24]. Κατά τη διάρκεια των ερευνών έχουν εφαρμοστεί διάφορες μέθοδοι ανάλυσης του ηχητικού σήματος, άλλες στο πεδίο του χρόνου και άλλες στο πεδίο των συχνοτήτων. Η πιο βασική μέθοδος είναι η γνωστή ως Short-Time Fourier Transform (STFT), δηλαδή ο μετασχηματισμός Fourier διαδοχικών τμημάτων του σήματος, τα οποία απομονώνονται από το υπόλοιπο σήμα µε τη βοήθεια μιας συνάρτησης παραθύρου. Επίσης διαδεδομένος είναι και ο μετασχηματισμός Constant-Q, ο οποίος χρησιμοποιεί μεταβλητό μήκος παραθύρου για να επιτύχει σταθερό λόγο συχνότητας προς ακρίβεια ανάλυσης, όπως το ανθρώπινο αυτί. Άλλες μέθοδοι που υπάρχουν είναι η μοντελοποίηση µε χρήση προσαρμοζόμενων φίλτρων, η αυτοσυσχέτιση (autocorrelation) του σήματος, ο αλγόριθμος MUSIC (MUltiple SIgnal Classification), η μέθοδος του Prony, η ανάλυση κυµατιδίων (wavelets), η ανάλυση cepstrum και άλλες. Εφαρμογές Η αυτόματη μεταγραφή ενός ηχητικού σήματος μπορεί να βρεθεί σε πολυάριθμες εφαρμογές κυρίως στο χώρο της μουσικής, αλλά και στην ανάλυση μουσικών δεδομένων. Ενδεικτικά μερικές από αυτές είναι:
  • 28. 26 • Αναζήτηση μουσικής πληροφορίας βάσει π.χ. τη μελωδία του κομματιού. • Μουσική ανάλυση. Τα εργαλεία μεταγραφής διευκολύνουν την ανάλυση των μουσικών αυτοσχεδιασμών και τη διαχείριση των μουσικών αρχείων. • Μουσικό ρεμίξ (music remixing). Δίνει τη δυνατότητα να αλλάξει και να αντικαταστήσει κανείς τα όργανα εφαρμόζοντας εφέ σε ορισμένα τμήματα, ή ακόμη και να αφαιρέσει, επιλεκτικά, ορισμένα από αυτά. • Διαδραστικά μουσικά συστήματα(interactice music systems), που παράγουν μια μουσική συνοδεία π.χ. στο μέρος του σόλο ενός καλλιτέχνη, είτε off-line είτε σε πραγματικό χρόνο. • Εξοπλισμός με μουσική συσχέτιση (music-related equipment), όπως συγχρονισμός των εφέ φωτισμού με το αντίστοιχο μουσικό σήμα. • Δομημένη κωδικοποίηση ήχου. Μια MIDI αναπαράσταση είναι εξαιρετικά μικρού μεγέθους, ενώ ταυτόχρονα διατηρεί σε σημαντικό βαθμό την ταυτότητα και τα χαρακτηριστικά του μουσικού κομματιού. Στη δομημένη κωδικοποίηση ήχου, οι παράμετροι της ηχητικής πηγής πρέπει επίσης να κωδικοποιούνται, αλλά το εύρος ζώνης παραμένει περίπου στα 2-3 kbit/s [24] To πρότυπο MIDI Το τελευταίο στάδιο της μεταγραφής της μουσικής, μετά την αναγνώριση δηλαδή των νοτών του μουσικού σήματος που επεξεργαζόμαστε, είναι η κατασκευή ενός αρχείου midi παρέχοντας έτσι ένα ακουστικό αποτέλεσμα. Σε τι αντιστοιχεί όμως το πρότυπο midi ; Το πρότυπο MIDI (Musical Instruments Digital Interface) αφορά την επικοινωνία μεταξύ μουσικών οργάνων/µέσων µε τη χρήση ενός ειδικού ψηφιακού κώδικα. Σύμφωνα µε το πρότυπο MIDI, η ψηφιακή επικοινωνία γίνεται µε τη μετάδοση εντολών, από κάποιο όργανο- πομπό σε κάποιο όργανο-δέκτη, οι οποίες καθορίζουν ένα σύνολο παραμέτρων που σχετίζονται µε την παραγωγή ήχου, την οργάνωση των μουσικών γεγονότων και τον συγχρονισμό των οργάνων [25].
  • 29. 27 Το πρότυπο MIDI αποτελείται από δύο αλληλένδετα μέρη: α) Το πρωτόκολλο επικοινωνίας (Software): Πρόκειται για τη γλώσσα της MIDI επικοινωνίας (MIDI Language) και περιλαμβάνει το σύνολο των εντολών που αφορούν τη διάρθρωση μιας μουσικής εκτέλεσης. β) Το υλικό μέρος (Hardware): Αυτό αφορά τις ηλεκτρονικές συσκευές (πομπός – δέκτης) που επικοινωνούν και καθορίζει τα τεχνικά τους χαρακτηριστικά, τις εισόδους/εξόδους επικοινωνίας και τα μέσα διασύνδεσης. Το πρωτόκολλο επικοινωνίας είναι αυτό που μας ενδιαφέρει περισσότερο στην παρούσα εργασία και γι’ αυτό το λόγο θα παραλείψουμε την ανάλυση του hardware. MIDI MODES (ΚΑΤΑΣΤΑΣΕΙΣ ΛΕΙΤΟΥΡΓΙΑΣ) Σε κάθε MIDI συσκευή μπορεί να υπάρχουν τέσσερις καταστάσεις λειτουργίας οι οποίες καθορίζουν τον τρόπο που η συσκευή ανταποκρίνεται στην εισερχόμενη πληροφορία, ανάλογα µε την πολυφωνία και πολυχρωµατικότητα που διαθέτει: Omni on: Ο δέκτης ανταποκρίνεται στην πληροφορία που δέχεται ανεξάρτητα από το κανάλι στο οποίο δέχεται την πληροφορία. Omni off: Ο δέκτης ανταποκρίνεται µόνο στην πληροφορία που δέχεται σε κάποιο προκαθορισμένο κανάλι. Poly on: Ο δέκτης ανταποκρίνεται στην πληροφορία πολυφωνικά (ανάλογα µε την πολυφωνία που διαθέτει). Mono on: Ο δέκτης ανταποκρίνεται στην πληροφορία μονοφωνικά (µία νότα κάθε φορά). Οι πιθανοί συνδυασμοί των παραπάνω καταστάσεων λειτουργίας µας δίνουν τα 4 MIDI Modes που καθορίζουν τον τρόπο αντίδρασης του οργάνου/µέσου στην πληροφορία που λαμβάνει [26]: Mode 1: Omni On/Poly Mode 2: Omni On/Mono Mode 3: Omni Off/Poly Mode 4: Omni Off/Mono
  • 30. 28 Η ΔΟΜΗ ΕΝΟΣ MIDI ΜΗΝΥΜΑΤΟΣ Το κάθε MIDI μήνυμα αποτελείται από 1 έως 3 ψηφιολέξεις (bytes) οι οποίες αποτελούνται από 8 bits η καθεμία. Η πρώτη ψηφιολέξη που μεταδίδεται ονομάζεται Status Byte και ειδοποιεί για το είδος μηνύματος και τον αριθμό καναλιού στο οποίο το μήνυμα θα μεταδοθεί. Οι δύο επόμενες ψηφιολέξεις ονομάζονται Data bytes και µέσω του συνδυασμού των δυαδικών ψηφίων καθορίζουν τιμές (0-127) οι οποίες μπορεί να αφορούν το ποσοστό μεταβολής του ήχου, το τονικό ύψος της νότας, την θέση ενός MIDI Programme στη μνήμη ενός οργάνου κτλ. ανάλογα πάντα µε το είδος της εντολής που καθορίζεται από το status byte. Για παράδειγμα, εάν πιέσουμε το μεσαίο ντο στο κλαβιέ ενός MIDI Keyboard, το status byte του μηνύματος που θα σταλεί θα ειδοποιήσει ότι ενεργοποιήθηκε µία νότα (μήνυμα ‘note on’), και στη συνέχεια το πρώτο data byte θα ειδοποιήσει για το ‘ποιά νότα’ µε τιμές 0-127 (π.χ. 60 = μεσαίο ντο), ενώ το δεύτερο data byte θα ειδοποιήσει για την ένταση της νότας, πάλι µε τιμές 0-127 (π.χ. 60=μέτρια ένταση). Εικόνα 2.9 :Δομή ενός τυπικού MIDI μηνύματος [26] Σε κάθε Status Byte το πρώτο bit είναι το 1. Αντίθετα το κάθε Data Byte ξεκινά από 0. Αυτό έχει καθοριστεί από τους προγραμματιστές της MIDI γλώσσας για να είναι ευδιάκριτη η ταυτότητα του κάθε byte (αν δηλαδή πρόκειται για status byte ή data byte) πράγμα που διευκολύνει την επικοινωνία. Έτσι, ένα όργανο/μέσο που δέχεται ένα byte το οποίο ξεκινά από 1 ‘καταλαβαίνει’ ότι πρόκειται για ένα νέο μήνυμα το οποίο ‘περιγράφεται’ µε τις τιμές των data bytes που ακολουθούν. Εάν το όργανο/μέσο δεχθεί ένα byte που ξεκινά από 0 τότε συνεχίζει να ανταποκρίνεται στο είδος μηνύματος που καθορίστηκε από το προηγούμενο
  • 31. 29 status byte. To παραπάνω όμως σημαίνει ότι εφόσον το 1ο bit του κάθε byte χρησιμοποιείται για τον προσδιορισμό της ταυτότητάς του, τότε µας μένουν άλλα 7 bits τα οποία συνδυάζονται για τον καθορισμό των τιμών, και έτσι οι πιθανές τιμές που μπορεί να αποδοθούν από ένα byte ενός MIDI μηνύματος είναι τελικά 128 (27 =128), δηλαδή από το 0 έως το 127. Για παράδειγμα, η μεταβολή της έντασης ενός ήχου μπορεί να οριστεί µέσω της MIDI επικοινωνίας σε µία κλίμακα µε τιμές από το 0 (=μηδενική ένταση) έως το 127 (μέγιστη ένταση), ενώ κατά τον ίδιο τρόπο ένα άλλο byte μπορεί µέσω αυτής της κλίμακας να προσδιορίζει 128 διαφορετικές νότες που μπορούν να παιχθούν από ένα κλαβιέ (0= ντο -2, 127= σολ 8). Εικόνα 2.10 : Βits και bytes του MIDI κώδικα [26] Χρησιμότητα Γενικά ο μουσικός που θα γνωρίσει τις συγκινήσεις που προσφέρει το MIDI είναι πολύ δύσκολο να φανταστεί τον κόσμο χωρίς αυτό. Οι δυνατότητες που ανοίγονται είναι τεράστιες σε κάθε τομέα της μουσικής: διδασκαλία, σύνθεση, μάθηση, διασκέδαση. Οι δημιουργοί λογισμικού έχουν αναπτύξει κάθε δυνατή πλευρά της μουσικής μέσω ειδικών προγραμμάτων και για κάθε επίπεδο αγοραστικής δύναμης. Οι κυριότερες κατηγορίες λογισμικού που θα μπορούσε κάποιος να βρει σήμερα είναι:
  • 32. 30  Προγράμματα μουσικής σημειογραφίας (Notation Software)  Προγράμματα μουσικής εγγραφής (Sequencer)  Προγράμματα μουσικής εκπαίδευσης  Προγράμματα επεξεργασίας- ταξινόμησης ήχων  Προγράμματα αναγνώρισης μουσικών χαρακτήρων Εικόνα 2.11 : Τρόποι διαχείρισης της μουσικής μέσω μουσικών λογισμικών
  • 33. 31 3. Μονοφωνική μεταγραφή μουσικής 3.1 Χαρακτηριστικά της Μονοφωνίας Τι είναι μονοφωνία; Ως μονοφωνία ή μονοφωνική μουσική, χαρακτηρίζεται κάθε μουσικό είδος το οποίο βασίζεται σε μία και μόνη μελωδική γραμμή, που ακόμα κι αν παίζεται ή τραγουδιέται από πλέον του ενός εκτελεστή, αναπαράγεται από όλους ταυτόχρονα και πανομοιότυπα. Αυτό σημαίνει ότι σε οποιαδήποτε χρονική στιγμή ενός ηχητικού αποσπάσματος αναπαράγεται ένας και μόνο τόνος, με αποτέλεσμα το απόσπασμα να αποτελείται από μία μόνο μελωδία. Ένα σόλο ενός τρομπετίστα ή ενός βιολιστή είναι χαρακτηριστικά παραδείγματα μονοφωνίας. Εικόνα 3.1 : Παρτιτούρα μονοφωνικής μελωδίας Αυτή ακριβώς η ιδιότητα της μονοφωνικής μουσικής είναι που την κάνει πιο ευκολά μεταγράψιμη. Σε αντίθεση με αυτή, στην πολυφωνία, το σύστημα που είναι υπεύθυνο για τη μεταγραφή μίας πολυφωνικής μελωδίας πρέπει να είναι σχεδιασμένο έτσι ώστε να μπορεί να διακρίνει και να ανιχνεύει παραπάνω από έναν τόνο μια δεδομένη χρονική στιγμή. Αυτό όμως δε σημαίνει ότι η μεταγραφή μιας μονοφωνικής μελωδίας είναι μια εύκολη διαδικασία, καθώς έχουν αναπτυχθεί συγκεκριμένες τεχνικές για την επίτευξη ενός ικανοποιητικού αποτελέσματος. Κατά τη διάρκεια της μονοφωνικής μεταγραφής πρέπει να προσδιοριστούν τρεις παράμετροι που χαρακτηρίζουν τις νότες σε μια μουσική μελωδία. Αυτές είναι:
  • 34. 32  Ύψος (Pitch)  Αρχή (Onset )  Διάρκεια (Duration) Ύψος Όπως αναφέραμε και στην παράγραφο 3.2, αναλύοντας τα χαρακτηριστικά του ψηφιακού ήχου, ο όρος ύψος αναφέρεται στο πόσο ψηλός ή χαμηλός είναι ένας τόνος. Στην προκειμένη περίπτωση το ύψος είναι η συχνότητα της νότας που εξετάζουμε και η αντιστοιχία οξύτητας του ήχου και της κλίμακας της συχνότητας είναι ανάλογη. Δηλαδή ένας υψηλός ήχος αντιστοιχεί σε μια υψηλή συχνότητα, ενώ ένας χαμηλός ήχος σε μια χαμηλή συχνότητα (βλ. εικόνα 3.2) Μονάδα μέτρησης είναι το Χερτς (Hz), όπου 1Hz=1 κύκλος/δευτερόλεπτο Εικόνα 3.2 Η κυματομορφή μίας νότας μπάσου (χαμηλό pitch) και ενός τόνου σφυρίχτρας (υψηλό pitch) [27] Aρχή (onset) νότας Στην παρακάτω εικόνα αριστερά φαίνεται η κυματομορφή μιας μεμονωμένης νότας και δεξιά τα μέρη από τα οποία αποτελείται. Θα αναλύσουμε τα μέρη αυτά στη συνέχεια καθώς είναι ιδιαίτερα σημαντικά ώστε να προσδιοριστεί η αρχή της νότας την κατάλληλη χρονική στιγμή.
  • 35. 33 Εικόνα 3.3 : Η κυματομορφή νότας (αριστερά) και τα επιμέρους χαρακτηριστικά της (δεξιά) [29] o Attack: αντιστοιχεί στο τμήμα που το πλάτος της νότας αυξάνεται. o Decay: είναι το τμήμα στο οποίο η νότα είναι ηχηρή με αποτέλεσμα να καθορίζει τη διάρκεια αλλά και το τέλος της. [28] Αναλόγως το όργανο αλλά και την στίξη της νότας που σημειώνεται σε μια παρτιτούρα (staccato, marcato, tenuto κ.λ.π.) τα δύο παραπάνω τμήματα επηρεάζονται αναλόγως. o Transient: είναι το τμήμα της νότας το οποίο δεν είναι εύκολα αντιληπτό από το ανθρώπινο αυτί. Πρακτικά με τον όρο transient αναφερόμαστε στο τμήμα της νότας όπου παρατηρείται μια γρήγορη μεταβολή. Στην περίπτωση των ακουστικών οργάνων, το transient αντιστοιχεί στο χρονικό διάστημα κατά το οποίο εφαρμόζεται η διέγερση και στη συνέχεια μειώνεται αφήνοντας μια αργή εξασθένιση στις συχνότητες συντονισμού του οργάνου[30]. o Onset: όπως φαίνεται και στην παραπάνω εικόνα το onset συμπίπτει με το σημείο όπου ξεκινάει το χρονικό διάστημα του transient. transient
  • 36. 34 Διάρκεια Ορίζεται ως το χρονικό διάστημα από το onset μέχρι το offset της νότας, όπου με τον όρο offset αναφερόμαστε στο σημείο που η νότα σταματά να είναι ενεργή. Εικόνα 3.4 : H κυματομορφή ενός ηχητικού σήματος (μπλε) και τα εκτιμημένα onsets (μωβ) [31] Η αποσαφήνιση των παραπάνω είναι ιδιαίτερα σημαντική, καθώς πολλοί από τους αλγόριθμους ανίχνευσης της αρχής των νοτών (onset detection) βασίζονται σε αυτά τα χαρακτηριστικά. Τέτοιοι αλγόριθμοι είναι ιδιαίτερα χρήσιμοι σε αναλύσεις και τεχνικές κατηγοριοποίησης μουσικών σημάτων. Ο πλέον συνηθής τρόπος ανίχνευσης των onsets είναι η μελέτη του transient τμήματος μιας νότας, από όπου μπορούν να εξαχθούν διάφορα συμπεράσματα. Μερικά παραδείγματα που μπορούν να οδηγήσουν στην ανίχνευση ενός onset είναι ένα ξέσπασμα στην ενέργεια του σήματος, μία αλλαγή στο φάσμα του σήματος ή σε κάποιες στατιστικές ιδιότητες του. 3.2 H Τεχνοτροπία της Μονοφωνικής Μεταγραφής Σε αυτή την υποενότητα θα περιγράψουμε τα επιμέρους στάδια από τα οποία αποτελείται ένα σύστημα μονοφωνικής μεταγραφής. Όπως μπορεί κανείς να δει στο παρακάτω διάγραμμα, σαν είσοδο του συστήματος έχουμε ένα αρχείο τύπου κυματομορφής
  • 37. 35 (waveform). Σε αυτή τη μορφή το σήμα μας εμπεριέχει όλες τις δυνατές πληροφορίες που μπορούμε να εξάγουμε καθώς δεν έχει υποστεί καμία μορφή συμπίεσης. Έπειτα το σήμα μας χωρίζεται σε πολλά επιμέρους τμήματα (frames) για την καλύτερη εποπτεία και επεξεργασία του, ενώ στη συνέχεια τα τμήματα αυτά πολλαπλασιάζονται με μία συνάρτηση “παραθύρου” τύπου Hanning ώστε να είναι δυνατή η ανακατασκευή του σήματος, διαδικασία που θα αναλύσουμε στη συνέχεια. Τα κύρια μέρη, στα οποία εστιάζουμε περισσότερο, είναι οι συναρτήσεις ανίχνευσης της αρχής της νότας (onset detection function) και ανίχνευσης του ύψους της (pitch detection function). Έπειτα προσδιορίζονται τα τμήματα σιγής (silenced frames) του ηχητικού μας αρχείου και περνώντας στο τελευταίο στάδιο, συνδυάζοντας τα παραπάνω, πραγματοποιείται η κατασκευή του αρχείου midi. Εικόνα 3.5 : Τα στάδια επεξεργασίας της μονοφωνικής μεταγραφής Signal segmentation Hanning Window Onset Detection Pitch Detection Energy Estimation Combine and extract silenced midi file track.mid Input signal track.wav
  • 38. 36 3.2.1 Κατάτμηση ηχητικού σήματος Η χρονική κατάτμηση ενός ακουστικού κύματος σε μικρότερα στοιχεία είναι θεμελιώδες βήμα για τη μετατροπή των ήχων σε σημασιολογικά αντικείμενα. Τα τελευταία χρόνια έχει αφιερωθεί σημαντική έρευνα σε αυτό το αντικείμενο και έχουν αναπτυχθεί διάφοροι αλγόριθμοι για τον αυτόματο διαχωρισμό μουσικών σημάτων στα όρια των αντικειμένων του ήχου: αρχή (onset) και τέλος (offset) νότας [32][33]. Συστήματα ικανά να εντοπίζουν τα onset τη στιγμή που συμβαίνουν, προσδίδουν νέες προοπτικές στην αλληλεπίδραση μεταξύ ακουστικών και εικονικών μουσικών οργάνων [34]. Η εξαγωγή της χρονικής πληροφορίας των onset είναι χρήσιμη στις εφαρμογές επεξεργασίας ήχου για την ακριβή μοντελοποίηση της έναρξης ενός ηχητικού φαινομένου (attack) [35]. Επίσης, βοηθά τα συστήματα μεταγραφής στον εντοπισμό της αρχής των νοτών [36][33], και μπορεί να χρησιμοποιηθεί σε προγράμματα επεξεργασίας ήχων (sound editors) για το διαχωρισμό ηχητικών αρχείων στα λογικά τους μέρη [38]. Οι μέθοδοι ανίχνευσης των onset έχουν χρησιμοποιηθεί στην ταξινόμηση μουσικής, στο χαρακτηρισμό ρυθμικών μοτίβων [39], καθώς και σε συστήματα αναγνώρισης ρυθμού (tempo) για να εντοπίσουν τη θέση των ρυθμικών παλμών (beats) σε ένα μουσικό κομμάτι [40]. Κατά την τμηματοποίηση ενός σήματος στα επιμέρους frames, είναι σύνηθες να εφαρμόζεται μία επικάλυψη (οverlap) των εξαγόμενων τμημάτων, ώστε να αποφευχθεί οποιαδήποτε ασυνέχεια στην ανακατασκευή του σήματος. Όπως και στην εικόνα που ακολουθεί, η τιμή της επικάλυψης συνηθίζεται να είναι 50%. Εικόνα 3.6 : Κατάτμηση του σήματος με επικάλυψη (overlap) 50%
  • 39. 37 3.2.2 Συνάρτηση Παραθύρου Η συνάρτηση παραθύρου είναι μια μαθηματική συνάρτηση που εφαρμόζεται στην επεξεργασία ενός ψηφιακού σήματος για να αποφευχθούν ασυνέχειες στις δύο άκρες ενός επιλεγμένου διαστήματος[42]. Ένα τέτοιο παράθυρο είναι και το παράθυρο Hanning (Hanning Window). Kύρια λειτουργία του είναι να τονίσει τις συνιστώσες που βρίσκονται στο κέντρο του δείγματος που εφαρμόζεται το παράθυρο, ενώ παράλληλα περιορίζει συμμετρικά τις τιμές στα άκρα του. Με αυτόν τον τρόπο επιτυγχάνεται ο περιορισμός του φαινομένου της φασματικής διαρροής (spectral leakage) Εικόνα 3.7 : Το παράθυρο Hanning (αριστερά) και η απόκριση συχνότητάς του (δεξιά) [43] Το παράθυρο Hanning ορίζεται ως εξής [43]: 𝒘(𝒏) = 𝟎. 𝟓 (𝟏 − 𝐜𝐨𝐬 ( 𝟐𝝅𝒏 𝑵 − 𝟏 )) (𝟑. 𝟏) N: μέγεθος παραθύρου n: 0,1,..,N Στη δική μας περίπτωση πολλαπλασιάζουμε κάθε frame με το παράθυρο Hanning. Αυτό έχει ως αποτέλεσμα την ενίσχυση της θεμελιώδους συχνότητας και τον περιορισμό των
  • 40. 38 αρμονικών, πράγμα που διευκολύνει την επόμενη διαδικασία της ανίχνευσης του ύψους της νότας. Στην εικόνα 3.8 φαίνεται στο πεδίο της συχνότητας η επίδραση που έχει η εφαρμογή ενός τετράγωνου παραθύρου και ενός παραθύρου Hanning στο σήμα. Είναι προφανές ότι στη δεύτερη περίπτωση έχει εξαλειφθεί η όποια φασματική διαρροή υπήρχε προηγουμένως και είναι πιο εμφανείς η τονική και οι βασικές αρμονικές της νότας. Εικόνα 3.8 : Επίδραση του τετράγωνου παραθύρου (πάνω) και του παραθύρου Hanning (κάτω) 3.2.3 Ανίχνευση ύψους της νότας (pitch detection) H μονοφωνική ανίχνευση του ύψους μια νότας αποτελεί τη μέθοδο αναγνώρισης της πρώτης συχνότητας που εμπεριέχεται σε ένα ηχητικό σήμα όταν μόνο μια νότα αναπαράγεται κάθε χρονική στιγμή. Ο στόχος ενός συστήματος ανίχνευσης τονικού ύψους (pitch detection system) είναι να αναγνωρίσει τους ήχους που διαμορφώνουν την αίσθηση της τονικότητας και να εκτιμήσει τη συχνότητα που αντιστοιχεί στο αντιλαμβανόμενο τονικό ύψος.
  • 41. 39 Παρατηρήθηκε λοιπόν από τους επιστήμονες πως, αν υπολογιστεί η θεμελιώδης συχνότητα ενός αρμονικού σήματος και έπειτα το αποτέλεσμα οπτικοποιηθεί, για το μεγαλύτερο μέρος της διάρκειας των νοτών το pitch παραμένει σταθερό. Αυτό το φαινόμενο, που είναι τόσο προφανές, αξίζει να σχολιασθεί περαιτέρω. Με στόχο να ορισθούν κάποια κριτήρια ομαδοποίησης και κανόνων για τους ήχους, θα πρέπει να δοθεί έμφαση στην ομοιότητα της ανθρώπινης αντίληψης ανάμεσα στην εικόνα και τον ήχο. Σημαντικά στοιχεία μπορούν να ληφθούν παρατηρώντας την κυματομορφή ενός pitch. Η συγκεκριμένη μέθοδος δεν χρησιμοποιεί έναν συμβατικό ανιχνευτή οnset αλλά εφαρμόζει μια μέθοδο υπολογισμού του onset με βάση την θεμελιώδη συχνότητα, που είναι πιο ισχυρή όταν αντιμετωπίζονται προβλήματα με μικρές αλλαγές στις νότες (glissando, legato) [44]. Πολλά από τα μοντέλα αναγνώρισης τονικού ύψους προέρχονται από τεχνικές επεξεργασίας λόγου [45]. Υπάρχει ένας μεγάλος αριθμός μεθόδων για την εκτίμηση της τονικότητας σημάτων ομιλίας [46] και μουσικής [47], τα οποία κατά κύριο λόγο λειτουργούν εκτιμώντας τη θεμελιώδη συχνότητα κάθε μουσικού συμβάντος (νότας). Η θεμελιώδης συχνότητα f0 ενός περιοδικού σήματος είναι η αντίστροφος της περιόδου του. Η περίοδος μπορεί να οριστεί ως “το μικρότερο μέλος ενός συνόλου άπειρων χρονικών μετατοπίσεων που αφήνουν το σήμα αμετάβλητο” [48]. Στη μουσική, ωστόσο, το σήμα δεν είναι απόλυτα περιοδικό και ο ορισμός αυτός εφαρμόζεται σε ένα συγκεκριμένο χρονικό τμήμα γύρω από το τρέχον σημείο της ανάλυσης. Στις περισσότερες περιπτώσεις, η θεμελιώδης συχνότητα μίας νότας αντιστοιχεί στην αντιλαμβανόμενη τονικότητα, χωρίς αυτό όμως να αποτελεί ανεξαίρετο κανόνα [49], καθώς το αντιλαμβανόμενο τονικό ύψος των μουσικών οργάνων εξαρτάται και από τις αρμονικές συχνότητες που παράγουν [50]. Τα μουσικά όργανα έχουν διαφορετικές αρμονικές δομές και το πλάτος των αρμονικών τους μεταβάλλεται με το χρόνο, προσδίδοντας στο κάθε όργανο ξεχωριστή χροιά.
  • 42. 40 Εικόνα 3.9 : Η θεμελιώδης συχνότητα της νότας Μι στη 3η οκτάβα (Ε3) και οι αρμονικές τις [52] Οι διάφοροι διαθέσιμοι αλγόριθμοι για την εκτίμηση της θεμελιώδους συχνότητας κατηγοριοποιούνται γενικά σε δύο κατηγορίες: α) στις μεθόδους που εκτιμούν την περιοδικότητα της κυματομορφής του σήματος (μέθοδοι στο πεδίο του χρόνου - time domain methods) και β) στις μεθόδους που αναζητούν αρμονικά μοτίβα στο φάσμα (μέθοδοι στο πεδίο της συχνότητας - frequency or spectral domain methods). Oι φασματικές προσεγγίσεις τείνουν να έχουν καλά αποτελέσματα στο ψηλότερο μέρος του φάσματος και υστερούν στο χαμηλό, ενώ αντίθετα οι χρονικές παρουσιάζουν περισσότερα λάθη στις υψηλές συχνότητες, κυρίως όσο πλησιάζουν στη μισή τιμή της συχνότητας δειγματοληψίας (ρυθμός Nyquist). Μερικά συστήματα χρησιμοποιούν συνδυαστικά μεθόδους βασισμένες στο πεδίο του χρόνου και της συχνότητας, στοχεύοντας να εκμεταλλευτούν τα δυνατά σημεία της καθεμίας ώστε να έχουν καλύτερα αποτελέσματα στο συνολικό εύρος του φάσματος του ήχου [51].
  • 43. 41 Στο πεδίο της συχνότητας διακρίνονται γενικά δύο τύποι μεθόδων για την αναγνώριση του τονικού ύψους: α) οι μέθοδοι φασματικής θέσης (spectral position methods), οι οποίες βασίζονται στον εντοπισμό της θεμελιώδους συχνότητας επιλέγοντας φασματικές συνιστώσες ανάλογα με τη θέση τους στο φάσμα. β) οι μέθοδοι φασματικών διαστημάτων (spectral interval methods), οι οποίες βασίζονται στον υπολογισμό των διαστημάτων μεταξύ των αρμονικών συχνοτήτων [47]. Μια μέθοδος φασματικής θέσης ευρέως χρησιμοποιούμενη κυρίως σε συστήματα ανάλυσης φωνητικών σημάτων, είναι αυτή της γραμμική πρόβλεψης (Linear Predictive Coding (LPC) ) που βλέπουμε στην εικόνα 3.10. Εικόνα 3.10 : Η μέθοδος της γραμμικής πρόβλεψης (LPC) [53]
  • 44. 42 Αναγνώριση τονικού ύψους στο πεδίο του χρόνου Zero - Crossing Μία μέθοδος για τον εντοπισμό της θεμελιώδους συχνότητας στο πεδίο του χρόνου συνίσταται στην παρατήρηση μοτίβων περιοδικότητας του σήματος μέσω της κυματομορφής του. Ένας από τους πιο γρήγορους τρόπους για να υπολογιστεί η τονικότητα είναι να μετρηθούν οι διελεύσεις από το μηδέν (zero-crossings) σε ένα συγκεκριμένο χρονικό διάστημα, κάτι το οποίο απαιτεί εξονυχιστική έρευνα σε κάθε παράθυρο επεξεργασίας για να εντοπιστούν οι αλλαγές των προσήμων. Εικόνα 3.11 : Το ηχητικό σήμα και οι διελεύσεις της κυματομορφής από το μηδέν (zero crossings) Αυτή η μέθοδος είναι επιτυχής όταν το σήμα αποτελείται από απλούς ημιτονοειδείς τόνους, αλλά αποτυγχάνει όταν στοχεύει σε πιο πολύπλοκους τύπους σημάτων. Για παράδειγμα, ο αριθμός των διελεύσεων από το μηδέν ενός αρμονικού ήχου συχνά δεν έχει σχέση με το μήκος κύματος του, καθώς το πρόσημο της κυματομορφής μπορεί να αλλάξει πάνω από μία φορά σε μία περίοδο. Επιπλέον, η παρουσία θορύβου στο σήμα μπορεί να δυσκολέψει ακόμη περισσότερο τη σωστή καταμέτρηση των διελεύσεων από το μηδέν, είτε αυξάνοντας είτε μειώνοντας τον αριθμό των αλλαγών πρόσημου εντός του παραθύρου επεξεργασίας.