SlideShare a Scribd company logo
1 of 76
Download to read offline
SGN-4010 Puheenkäsittelyn menetelmät

            Konsta Koppinen
          konsta.koppinen@tut.fi

           18. joulukuuta 2006
Sisältö

1   Signaalinkäsittelyn kertausta                                                                                             1
    1.1 Spektri, DFT, DTFT . . . . . . . .                   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    1
    1.2 Aika-taajuusresoluutio . . . . . . .                 .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    5
    1.3 Jaksollisen signaalin spektri . . . .                .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    9
    1.4 Nollilla jatketun signaalin spektri . .              .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   11
    1.5 Ikkunointi . . . . . . . . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   12
    1.6 Signaalin autokorrelaatio . . . . . .                .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   17
         1.6.1 Autokorrelaation määritelmä                   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   18

2   Fonetiikkaa                                                                                                              28
    2.1 Puhe-elimet . . . . . . . .     .   .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   28
    2.2 Puheentuotto . . . . . . .      .   .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   31
    2.3 Artikulatorista fonetiikkaa     .   .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   32
         2.3.1 Vokaalit . . . . . .     .   .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   32
         2.3.2 Konsonantit . . . .      .   .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   34
    2.4 Suomen kielen äänteet . .       .   .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   36
    2.5 Muita foneettisia piirteitä .   .   .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   36

3   Akustista fonetiikkaa                                                                                                    38

4   Lineaarinen ennustus                                                                                                     49
    4.1 Lineaarisen ennustuksen taustaa .                .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   49
    4.2 Ääntöväylän mallinnus . . . . . .                .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   52
         4.2.1 Autokorrelaatioyhtälöt . .                .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   53
         4.2.2 Levinson-Durbin rekursio                  .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   57

5   Lineaarisen ennustuksen sovelluksia                                                                                      61
    5.1 Formanttien estimointi . . . . . . . . . . . . . . .                                 .   .   .   .   .   .   .   .   61
         5.1.1 Tekijöihin jako . . . . . . . . . . . . . . .                                 .   .   .   .   .   .   .   .   62
         5.1.2 Amplitudivasteen maksimien etsintä . . . .                                    .   .   .   .   .   .   .   .   64
    5.2 LP-kertoimien käyttö perustaajuuden estimoinnissa                                    .   .   .   .   .   .   .   .   66

                                            ii
SISÄLTÖ                                                                                          iii

6   Puhesynteesi                                                                                 69
    6.1 Tekstianalyysi . . . . . . . . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   69
    6.2 Puhesignaalin generointi . . . . . . . . . . . . . .     .   .   .   .   .   .   .   .   70
        6.2.1 Sääntöpohjainen synteesi . . . . . . . . . .       .   .   .   .   .   .   .   .   70
        6.2.2 Konkatenatiivinen synteesi . . . . . . . . .       .   .   .   .   .   .   .   .   71
        6.2.3 Markovin piilomalleihin perustuva synteesi         .   .   .   .   .   .   .   .   72
iv   SISÄLTÖ
Luku 1

Signaalinkäsittelyn kertausta

Tässä luvussa kerrataan/käydään läpi seuraavat signaalinkäsittelyn tiedot joilla on
erityistä merkitystä puhesignaalin käsittelyn kannalta:

   ¯   spektri, DFT, DTFT ja FFT

   ¯   aika-taajuusresoluutio

   ¯   signaalin jaksollisuuden ja spektrin harmonisuuden välinen yhteys

   ¯   ikkunointi

   Lukijan oletetaan osaavan signaalinkäsittelyn perusteet jotka voi hankkia esi-
merkiksi kursseilta SGN-1200 Signaalinkäsittelyn menetelmät ja SGN-1250 Sig-
naalinkäsittelyn sovellukset.


1.1     Spektri, DFT, DTFT
Napataan kiinni signaali

                              ×´Òµ      ½   ½       ¾     ¾  ½
ja sen DFT Ë ´    µ   (eli discrete Fourier transform, diskreetti Fourier-muunnos)


Ë´ µ              ×´Òµ ÜÔ´       Ò £¾           µ                ¼
            Ò ¼

              ½       ½       ¾ ¿¿   ½·¾ ¾                   ½    ¾    ¾        ½·      ¾ ¿¿

              ½           ¿     
                              ´ ¼ ¾ µ
                                        ¾ ½¾            ¼¿
                                                                     ¾ ½¾   ´ ¼ ¿   µ
                                                                                          ¿    ¼   ¾




                                                    1
2                             LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA

jotka löytyvät kuviosta 1.1. Esim. arvot Ë ´ µ ja Ë ´½ µ voidaan laskea samalla
kaavalla, mutta lopputuloksena on se, että DFT on jaksollinen, tässä tapauksessa
jaksonpituudella eli Ë ´¼µ Ë ´ µ Ë ´½¼µ Ë ´½µ Ë ´ µ Ë ´½½µ jne.
    Termi FFT eli fast Fourier transform viittaa nopeaan Fourier-muunnokseen jo-
ka on nopea algoritmi DFT:n laskemiseksi. Insinööriperinteiden mukaisesti kui-
tenkin usein käytämme nimitystä FFT myös itse DFT-muunnoksesta.
    Diskreetti Fourier-muunnos kertoo kuinka paljon tietyn taajuisia kompleksisia
eksponenttisignaaleja alkuperäisessä signaalissa on. Jatkossa termi ’kompleksinen
eksponenttisignaali’ saatetaan lyhentää muotoon ’kompleksinen sini’ tai jopa ’si-
ni’, sillä

                             ÜÔ´     µ      
Ó×´ µ · × Ò´ µ



                                               signaali s(n)
      2

      1

      0

     −1

     −2
          0              1                          2                    3         4

                                             DFT:n amplitudi
      6

      4

      2

      0
          0     0.5      1           1.5            2          2.5       3   3.5   4

                                         DFT:n vaihe, radiaaneina
      2

      1

      0

     −1

     −2
          0              1                          2                    3         4


              Kuvio 1.1: Signaali ×´Òµ ja sen DFT:n amplitudi ja vaihe.

    Signaalin ×´Òµ diskreetti Fourier-muunnos Ë ´ µ sisältää siis saman informaa-
tion kuin ×´Òµ mutta joskus signaalia analysoitaessa on käyttökelpoista käyttää
redundantimpaa taajuusesitysmuotoa. Jos katsotaan esimerkiksi DFT:n tappia

                      Ë ´¾µ              ×´Òµ ÜÔ´         Ò¾ £ ¾     µ
                                   Ò ¼
1.1. SPEKTRI, DFT, DTFT                                                           3

se kertoo signaalin ×´Òµ ja signaalin ÜÔ´  Ò¾ £ ¾        µ sisätulon, toisin sanoen
suurin piirtein sen, kuinka paljon signaalia ÜÔ´  Ò¾ £ ¾       µ sisältyy signaaliin
×´Òµ (matemaattisesti innokkaat voivat miettiä tätä tarkemmin muistelemalla vek-
torien sisätuloa Ò :ssa). Signaali

                               ÜÔ´    Ò¾ £ ¾        µ

taas on kompleksinen eksponenttisignaali joten se voidaan yhtä hyvin kirjoittaa
muodossa

                                    ÜÔ´   Ò    µ

missä       ¾ £ ¾  . Ja kun tähän asti ollaan tultu, voidaan saman tien antaa
taajuudelle muitakin reaaliarvoja kuin ¼ ¾     ¾£¾       ¿£¾     ja £ ¾     .
Esimerkiksi jos   ¼ ½ £ ¾ , niin summa


                                   ×´Òµ ÜÔ´    Ò    µ
                             Ò ¼

kertoo suunnilleen kuinka paljon signaalia

                                    ÜÔ´    Ò   µ

(kompleksinen eksponenttisignaali, jakso ½¼) sisältyy signaaliin ×´Òµ.
   Jos sama homma tehdään isolle nipulle :n arvoja saadaan funktio

                        Ë´ µ             ×´Òµ ÜÔ´   Ò    µ
                                   Ò ¼

joka on signaalin ×´Òµ DTFT (eli discrete-time Fourier transform, diskreettiaikai-
nen Fourier-muunnos). Kuviossa 1.2 on esitelty signaalin ×´Òµ DTFT. DTFT las-
ketaan siis vastaavasti kuin DFT mutta tiheämmällä jaolla, jonka takia saatamme
ajoittain viitata siihen nimellä interpoloitu DFT. Havaitaan että DTFT on jaksol-
linen jaksolla ¾ (näppärä juttu koska tämä ei riipu signaalin pituudesta), ja sen
näytteet arvoilla ¼ ¾       ¾£¾       ¿£¾         £ ¾ antavat täsmälleen DFT:n
näytteet (jotka on osoitettu kuviossa 1.2 tähdillä).
     Tällä kurssilla käytetään signaalin DTFT:n amplitudista Ë ´ µ nimitystä ’spekt-
ri’, joskus myös itse DTFT:sta. Yleisesti spektrillä voidaan vieläpä tarkoittaa DTFT:n
amplitudin neliötä tai jopa jotain muuta taajuusesitystä joten kannattaa olla varuil-
laan. Mitä iloa tästä spektristä sitten on? Esimerkiksi seuraava: otetaan 10 tappia
sinisignaalia

                            ×´Òµ     × Ò´Ò   £¾     ¿µ
4                             LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA

                                       signaali s(n)
      2

      1

      0

     −1

     −2
          0               1                   2              3                  4

                                     DTFT:n amplitudi
      6

      4

      2

      0
          0         1         2           3             4        5          6

                                       DTFT:n vaihe

      2

      0

     −2

          0         1         2           3             4        5          6


              Kuvio 1.2: Signaalin ×´Òµ DTFT ja DFT:n näytteet tähdillä.




jonka jaksonpituus on ¿. Tämä signaali ja sen DFT:n amplitudi löytyvät kuviosta
1.3. Koska ×´Òµ on täysin jaksollinen signaali, voisimme odottaa että sen DFT:ssa
olisi vain tätä taajuutta vastaava komponentti (sekä lisäksi negatiivisella taajuu-
della koska ×´Òµ on reaalinen, mutta tällä ei ole tässä niin väliä), mutta DFT:ssa
näyttääkin olevan iso kasa eri taajuuksia. Selitys on siinä, että sinin taajuutta ¾ ¿
ei esiinny DFT:ssa, jonka pituus on ½¼, vaan lähimmät taajuudet ovat ¿ £ ¾ ½¼
ja £ ¾ ½¼. Jos signaalin pituus sattuisi olemaan monikerta jaksonpituudesta,
DFT:ssa olisi vain yksi nollasta eroava alkio.


     Jos kuitenkin DFT:n sijaan lasketaankin DTFT, käy kuten kuvio 1.4 kertoo:
spektripiikki on ’levinnyt’ koko taajuusalueelle, kuitenkin siten että oikean taa-
juuden kohdalla on suurin piikki. DTFT antaa tässä ’oikeamman’ kuvan signaa-
lista, sillä sen arvot eivät riipu niin paljon siitä miten signaalin (mahdollinen) jak-
sonpituus ja ikkunan pituus sopivat toisiinsa.
1.2. AIKA-TAAJUUSRESOLUUTIO                                                        5

                                        sinisignaali
        1


       0.5


        0


      −0.5


       −1
             0   1     2       3       4           5    6     7       8      9


                                      DFT:n amplitudi
        4


        3


        2


        1


        0
             0   1     2       3       4           5    6     7       8      9


 Kuvio 1.3: 10 tappia sinisignaalia jonka jaksonpituus on 3 ja DFT:n amplitudi.


1.2          Aika-taajuusresoluutio

Sinisignaalin taajuuden estimointia pohtimalla tulee ilmi yleisempi aika-taajuus-
resoluution ns. Heisenbergin epätarkkuusperiaate: jos signaalin aikaresoluutio on
hyvä, sen taajuusresoluutio ei voi olla kovin hyvä, ja päinvastoin. Signaalin aika-
resoluutio tarkoittaa tässä ikkunan (=signaalin) pituutta ja taajuusresoluutio suurin
piirtein sitä, kuinka keskittynyt sen DTFT on. Aikaresoluutio on sitä parempi mitä
lyhyempi ikkuna ja taajuusresoluutio on sitä parempi mitä keskittyneempi DTFT.
Ajatellaan että otetaan jostain pidemmästä signaalista 10 tapin mittainen ikkuna,
jolloin tiedämme melko tarkkaan (10 näytteen tarkkuudella) missä päin signaa-
lia tämä ikkuna on. Sen sijaan 10 tapin ikkunasta on vaikea tehdä kovin tarkkaa
taajuusanalyysia: kyseessä voisi olla tietyntaajuinen sini ja hiukan kohinaa tai ai-
kalaillaeritaajuinen sini ja hiukan enemmän kohinaa. Sen sijaan jos alkuperäisestä
signaalista otetaan 1024:n tapin mittainen ikkuna, voimme jo aika hyvin diskrimi-
noida edellisten taajuusvaihtoehtojen välillä, mutta nyt aikaresoluutio on heikom-
pi, koska käytetty ikkuna on pidempi.
   Otetaan tästä esimerkkinä 16kHz:lla näytteistetty signaali joka on summa kah-
6                                  LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA

                                             sinisignaali
       1


      0.5


       0


     −0.5


      −1
            0          1       2         3   4             5       6   7       8       9


                                                 spektri
       5

       4

       3

       2

       1

       0
            0              1         2           3             4           5       6


Kuvio 1.4: 10 tappia sinisignaalia jonka jaksonpituus on 3 ja sen spektri, DFT:n
näytteet merkitty tähdillä.

desta sinistä joiden taajuudet ovat 440Hz ja 450Hz:

                ×´Òµ       × Ò´´   ¼ ½ ¼¼¼µ¾ Òµ · × Ò´´        ¼ ½ ¼¼¼µ¾ Òµ

josta otettu ½¼¼:n näytteen pala on kuviossa 1.5. Kun tästä piirretään 440Hz:n
ympäristössä laskettu DTFT 400:n ja 4000:n pituisille ikkunoille saadaan ku-
vio 1.6 (DTFT:t on vielä normalisoitu näytteen pituudella). Lyhyemmän ikku-
nan DTFT:ssa näkyy vain yksi piikki kun taas pidemmässä erottuvat yksittäiset
sinit. Kuuntelemalla sinit lyhyempi kuulostaa (ainakin luennoitsijan korvin) ly-
hyeltä piippaukselta kun pidemmässä erottaa jo huojuntaa joka viittaa läheisiin
sinitaajuuksiin.
    Edellinen periaate voidaan formuloida matemaattisesti huomattavasti tarkem-
minkin, mutta tämän kurssin kannalta järkevää lienee pitää mielessä vain periaate:
mitä pidempi ikkuna, sen parempi taajuusresoluutio mutta sen huonompi aikare-
soluutio.
1.2. AIKA-TAAJUUSRESOLUUTIO                                                      7




                               kahden sinisignaalin summa
       2



      1.5



       1



      0.5



       0



     −0.5



      −1



     −1.5



      −2
            0   10   20   30     40       50        60      70   80   90   100


    Kuvio 1.5: Kahden taajuudeltaan lähekkäisen sinisignaalin summa.
8                         LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA




                                DTFT:n amplitudi, 400 näytettä
        1

       0.8

       0.6

       0.4

       0.2

        0
        400   410   420   430      440        450       460       470   480   490   500
                                          taajuus, Hz

                                DTFT:n amplitudi, 4000 näytettä
        1

       0.8

       0.6

       0.4

       0.2

        0
        400   410   420   430      440        450       460       470   480   490   500
                                          taajuus, Hz



Kuvio 1.6: Kahden sinisignaalin summasta laskettu DTFT eri signaalien pituuk-
silla.
1.3. JAKSOLLISEN SIGNAALIN SPEKTRI                                                                 9

1.3     Jaksollisen signaalin spektri
Joidenkin puheäänteiden (esim. vokaalien) aaltomuoto on usein lähes jaksollinen.
Signaalin jaksollisuus taas näkyy Fourier-muunnoksessa niin, että sen DFT on
harmoninen, eli siinä kaikki energia on perustaajuudella ¼ ja sen monikerroilla
¾ ¼ ¿ ¼      ¼   . Tällä tiedolla on usein käyttöä puhe- ja audiosignaalien käsitte-
lyssä. Mutta miksi spektri on harmoninen?
    Selitys 1 (hankala). Lasketaan kylmästi
                                      Æ ½   
                          ˽ ´ µ               ×½ ´Òµ ÜÔ´      Ò     µ
                                      Ò ¼

missä ×½ ´Òµ on Æ :n pituinen ei-jaksollinen signaali ˽ ´               µ   tämän DTFT. Jos nyt

                                 × ¾ ´Òµ       ×½ ´Òµ ×½ ´Òµ℄

eli kaksi jaksoa signaalia ×½ ´Òµ, niin
                     ¾Æ    ½
        ˾ ´ µ                 ×¾ ´Òµ ÜÔ´       Ò   µ
                     Ò ¼
                       
                     Æ ½                                      
                                                            Æ ½
                            ×½ ´Òµ ÜÔ´   Ò µ·                     ×½ ´Òµ ÜÔ´   ´Ò · Æ µ     µ
                     Ò ¼                       Ò              ¼

                     ˽ ´      µ · ÜÔ´  Æ µË ´ µ        ½

                     ˽ ´      µ´½ · ÜÔ´  Æ µµ

Vastaavalla meiningillä kun signaalista otetaan à kopiota voidaan todeta spektrin
olevan

      Ëà ´ µ     ˽ ´ µ ½ · ÜÔ´        Æ         µ·          · ÜÔ´      ´Ã   ½µÆ       µ℄

Eli herää kysymys miten

            ô µ     ½ · ÜÔ´        Æ          µ·           · ÜÔ´    ´Ã   ½µÆ      µ

käyttäytyy kun à kasvaa. Koska                 ô µ     on geometrinen sarja, saadaan (pikku
muistelulla/taulukkokirjalla)

                                     ÜÔ´  Æ Ã µ
                                           ½
                                  ½   ÜÔ´  Æ µ
                               ô µ


Tämän funktion nimittäjä on 0 kun     ¼ ¾ Æ ¾£¾           Æ        ´Æ   ½µ £ ¾ Æ .
Tällöin myös osoittaja on 0, joten osamäärä voidaan tällaisella taajuudella laskea
10                              LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA

l’Hospitalin säännön avulla

                                                ÜÔ´  Æ Ã µ
                                              ½
                                             ½   ÜÔ´  Æ µ
                ÐÑ        ô µ           ÐÑ

                                             ´½   ÜÔ´  Æ Ã µµ

                                              ´½   ÜÔ´  Æ µµ

                                           ÜÔ´  Æ Ã µ´  Æ Ã µ
                                            ÜÔ´  Æ µ´  Æ µ
                                         Ã

sillä :n määritelmän mukaan ÜÔ´  Æ Ã                 µ       ÜÔ´ Æ       µ      ½. Lisäksi   ô µ
¼ silloin kun osoittaja on 0 eli kun on ¾                 ´Æ Ã µ:n   monikerta jos se ei ole sa-
malla ¾ Æ :n monikerta. Näin käy jos

     ¾    ´Æ Ã µ ¾   £¾    ´Æ Ã µ            ´Ã     ½µ¾     ´Æ Ã µ ´Ã · ½µ¾         ´Æ Ã µ

    Siis: kun signaalista ×½ ´Òµ otetaan à jaksoa, sen DTFT on Ã˽ ´ µ kun on
                                        ¾
¾   Æ :n monikerta ja nolla kun on Æ Ã :n monikerta paitsi ¾ Æ :n monikerrois-
sa. Kuva 1.7 havainnollistaa tilannetta.
    Tämä selitys ei välttämättä ole kaikkein havainnollisin joten katsotaan vielä
toinen...
    Selitys 2 (helpompi mutta hiukan vähemmän tarkka). Otetaan taas à kopoita
Æ :n pituisesta signaalista ×½ ´Òµ signaaliin ×à ´Òµ ja olkoon signaalin ×à ´Òµ DFT
Ëà ´ µ. Tavoitteena on osoittaa että DFT:n tapit paitsi ¼ à ¾Ã            ´Æ   ½µÃ
ovat nollia.
    Lähdetään liikkeelle käänteisestä DFT:sta eli

                            ½
                                 ÆÃ ½ 
               × ´Òµ                     ËÃ ´ µ ÜÔ´ ¾ Ò              ´Æ Ã µµ
                           ÆÃ        ¼


Tiedämme että × ´Òµ on jaksollinen signaali jonka jaksonpituus on Æ ja se saa-
daan siis summaamalla signaaleja ÜÔ´ ¾ Ò ´Æ Ã µµ eri :n arvoilla. Jos otam-
me mukaan summaan vain ne :n arvot joilla tämä signaali on jaksollinen jaksolla
Æ niin summasignaali on taatusti myös jaksollinen jaksolla Æ . Nämä :n arvot
saadaan yhtälöstä

              ÜÔ´ ¾ Ò       ´Æ Ã µµ           ÜÔ´ ¾ ´Ò · Æ µ          ´Æ Ã µµ

Kirjoittamalla oikea puoli auki tämä yhtälö saadaan muotoon

         ÜÔ´ ¾ Ò     ´Æ Ã µµ        ÜÔ´ ¾ Ò         ´Æ Ã µµ ÜÔ´ ¾ Æ            ´Æ Ã µµ
1.4. NOLLILLA JATKETUN SIGNAALIN SPEKTRI                                                                            11

                        signaali                           signaali x 2                        signaali x 3
       3                                        3                                    3

      2.5                                      2.5                               2.5

       2                                        2                                    2

      1.5                                      1.5                               1.5

       1                                        1                                    1

      0.5                                      0.5                               0.5

       0                                        0                                    0
            0       1              2   3             0    2       4        6             0        5            10


                  FFT:n amplitudi                        FFT:n amplitudi                     FFT:n amplitudi
       6                                       15                                20

       5
                                                                                 15
       4                                       10

       3                                                                         10

       2                                        5
                                                                                     5
       1

       0                                        0                                    0
            0       1              2   3             0    2       4        6             0        5            10


                        Kuvio 1.7: Monistettuja signaaleja ja niiden spektrit.

eli

                                           ½             ÜÔ´ ¾ Æ           ´Æ Ã µµ
                                                         ÜÔ´ ¾        õ

Tämä taas on voimassa vain silloin kuin à on kokonaisluku, eli juuri silloin
kun       ¼ à ¾Ã         ´Æ   ½µÃ .
    Selitys 3 (selityskyky olematon mutta menee muistisääntönä). Kun aikatason
signaaliin lisätään à kopiota, sen spektriin interpoloituu à nollaa jokaisen tapin
väliin.


1.4             Nollilla jatketun signaalin spektri
Nollien lisääminen aikatason signaalin perään ennen DFT:n laskentaa on myös
usein hyödyllinen operaatio. Tällä saadaan itse asiassa hyvä approksimaatio DTFT:sta
ja mm. kaikki edellä olleet kuviot DTFT:sta on laskettu tällä tavalla.
    Oletetaan, että meillä on 256:n näytteen pituinen signaali ×½ ´Òµ johon lisääm-
me loppuun nollia siten että signaalin pituus on 1024, merkitään tätä signaalia
12                          LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA

×¾ ´Òµ (jonka alussa majailee siis ×½ ´Òµ ja lopussa 768 nollaa). Jos laskemme alku-
peräisen ja toisaalta nollilla jatketun (engl. zero-padded) jonon DFT:n, käy kuten
kuvio 1.8 kertoo: DFT interpoloituu. Miksi?
    Tämä selittyy helposti DFT:n laskennan avulla, nimittäin DFT:n laskeminen
antaa DTFT:n ˽ ´ µ näytteet taajuuksilla          ¼ ¾ ¾      ¾£¾ ¾          ¾   £
¾ ¾ . Nämä saadaan siis kaavasta

                                  ¾
                        ˽ ´ µ          ×½ Ò℄ ÜÔ´    Ò   µ
                                 Ò ¼

kun       ¼ ¾ ¾      ¾£¾ ¾           ¾  £ ¾ ¾ . Pidennetyn signaalin ×¾´Òµ
DTF:ssa taas on laskettuna taajuudet   ¼ ¾ ½¼¾           ½¼¾¿ £ ¾ ½¼¾ (huo-
maa että nämä ovat tiuhemmassa kuin edellisessä) ja nämä saadaan kaavasta
                                 ½¼¾¿
                        ˾ ´ µ          ×¾ Ò℄ ÜÔ´    Ò   µ
                                 Ò ¼

Mutta hetkinen! Koska jonon ×¾ ´Òµ ensimmäiset ¾         arvoa ovat samat kuin jonos-
sa ×½ ´Òµ ja loput ovat nollia, voidaan todeta että
                                  ¾
                        ˾ ´ µ          ×½ Ò℄ ÜÔ´    Ò   µ
                                 Ò ¼

joka on siis täsmälleen sama kuin ˽ ´ µ. Siis: nollilla jatketun jonon spektri on
täsmälleen sama kuin alkuperäisenkin, mutta sen DFT:ssa on tiuhempi näytteistys.
    Hyvä puoli nollilla jatketun jonon DFT:n laskemisessa on sen nopeus, koska
se toteutetaan FFT:n avulla (DFT on siis se muunnnos, ja FFT taas algoritmi jolla
DFT lasketaan). Matlabilla nollilla jatketun jonon DFT:n saa laskettua komennolla
fft(x, n) missä n on haluttu pituus.


1.5     Ikkunointi
Puhe ei ole stationaarinen signaali, vaan sen ominaisuudet muuttuvat tyypillisesti
millisekuntien tai kymmenien millisekuntien aikana. Tämä on täysin luonnolli-
nen ja hyvä asia, mutta tämä tekee sellaisten signaalinkäsittelyn menetelmien ku-
ten DFT tai autokorrelaatio käyttämisen sellaisenaan epätarkoituksenmukaiseksi.
Useilla äänteillä puhesignaalin omainaisuudet pysyvät lyhyen jakson ajan (n. 5-
100 ms) enemmän tai vähemmän vakiona. Tämä tarkoittaa sitä että puhesignaalis-
ta otettuun lyhyeen ikkunaan voidaan soveltaa suhteellisen menestyksekkäästi pe-
rinteisiä signaalinkäsittelyn menetelmiä. Suuri osa puheenkäsittelystä tapahtuukin
näin: otetaan signaalista lyhyitä ikkunoita (mahdollisesti osittain päällekkäisiä) ja
1.5. IKKUNOINTI                                                                          13

                      signaali                         nollilla jatkettu signaali
      4                                       4


      3                                       3


      2                                       2


      1                                       1


      0                                       0
          0    5           10        15           0    20           40              60


                   DFT:n amplitudi                          DFT:n amplitudi
     40                                      40


     30                                      30


     20                                      20


     10                                      10


      0                                       0
          0    5           10        15           0    20           40              60


Kuvio 1.8: Signaali, nollilla jatkettu signaali ja molempien DFT:t. Alkuperäisen
signaalin DFT:n näytteet on merkitty tähdillä.


käsittelemällä niitä. Tällaista lyhyttä puheesta (tai muusta signaalista) otettua ik-
kunaa kutsutaan kehykseksi (engl. frame) tai usein vain ikkunaksi.Ikkunan pituus
on tyypillisesti 10-30 ms ja peräkkäisten kehysten välinen etäisyys puolet tästä.
    Tämä ikkunointi vastaa toteutuksellisesti sitä mitä sillä ymmärretään esimer-
kiksi suodattimen suunnittelussa ikkunointimenetelmällä: otetaan pitkä signaali
(esimerkiksi puhesignaali tai ideaalinen impulssivaste) ja kerrotaan se näytteittäin
äärellisen pituisella ikkunafunktiolla, jolloin tuloksena saadaan äärellisen mittai-
nen ja painotettu versio alkuperäisestä signaalista. Esimerkki löytyy kuviosta 1.9.
    Puheenkäsittelyssä ikkunafunktion täsmällinen muoto ei yleensä ole kovin
kriittinen, mutta usein kannattaa käyttää jotain ’pehmeää’ ikkunaa (esimerkiksi
hanning, Hamming, kolmio, puolisuunnikas) suorakulmaisen sijaan. Tämä joh-
tuu pitkälti samasta syystä kuin suodattimen suunnittelussakin, ts. pehmeämmän
ikkunan spektrin sivukeilat ovat huomattavasti pienemmät kuin suorakulmaisen
ikkunan. Lisäksi esimerkiksi myöhemmin tarkasteltavassa LPC-analyysissä sig-
naali oletetaan nollaksi ikkunan ulkopuolella, joten suorakulmaisen ikkunan ta-
pauksessa kehyksen rajalla on äkillinen muutos signaalissa, mikä usein vääristää
tuloksia.
14                             LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA

                                        signaali ja ikkuna
       1


      0.5


       0


     −0.5


      −1
       2000    2200     2400     2600         2800       3000       3200   3400   3600
                                        näytteen indeksi

                                             kehys
       1


      0.5


       0


     −0.5


      −1
       2000    2200     2400     2600         2800           3000   3200   3400   3600


                         Kuvio 1.9: Signaalin ikkunointi.


     Kuitenkin täytyy pitää mielessä, että puheenkäsittelyssä (päinvastoin kuin esi-
merkiksi suodattimen suunnittelussa) menetelmät ovat harvoin täydellisesti ma-
temaattisesti perusteltuja. Yleensä tavoitteena on toteuttaa järjestelmä, joka toi-
mii mahdollisimman hyvin annetussa sovelluksessa. Nämä sovelluksen kriteerit
taas saattavat olla hyvin vaikeasti analyyttisesti määriteltävissä, kuten esimerkiksi
koodatun puheen laatu, syntetisoidun puheen ymmärrettävyys tai ehostetun pu-
heen miellyttävyys. Tältä pohjalta kannattaa ikkunointiinkin suhtautua sen verran
vapaasti, että on valmis käyttämään erilaista ikkunointia eri tilanteissa.
     Esimerkiksi: puheen koodauksessa pyritään usein esittämään näytteet täsmäl-
leen sellaisina kuin ne ovat, jolloin tässä käytetään suorakulmaista ikkunointia.
Sen sijaan kun puhekoodekissa lasketaan ns. LPC-kertoimet, näiden laskennassa
käytetään pehmeää ikkunaa, joka on vieläpä epäsymmetrinen jotta koodekin viive
saadaan minimoitua. Puheentunnistuksessa käytetään yleensä päällekkäisiä noin
10 ms pehmeitä (tyypillisesti hanning) ikkunoita, joista tehdään hypoteeseja mikä
äänne voisi olla kyseessä, ja näitä hypoteeseja yhdistellään useamman kehyksen
yli.
     Jos puhetta halutaan myös muokata (ei siis ainoastaan analysoida), kannattaa
käyttää päällekkäisiä ikkunoita jotka summautuvat suurin piirtein 1:een. Esimerk-
1.5. IKKUNOINTI                                                                   15

ki: toteutetaan maailman yksinkertaisin koodaussysteemi, jossa lasketaan kustakin
kehyksestä DFT, nollataan siitä kaikki paitsi muutama amplitudiltaan isoin tappi
ja otetaan tästä käänteismuunnos. Todellisuudessa tämän toteutus vaatisi huomat-
tavan paljon lisätyötä mm. kerrointen indeksien ja amplitudien koodauksessa. Sii-
nä tulee kuitenkin hyvin esille erilaisia ikkunointiin, analysointiin ja syntetisoin-
tiin liittyviä juttuja. Matlab-koodi löytyy osoitteesta

    http://www.cs.tut.fi/~puhkas/FFT_koodaus.m


sekä alta. Koodin jälkeen on selitetty sen toimintaa.

function syn = FFT_koodaus(ind, N, x, fs);

%   syn = FFT_koodaus(ind, N, x, fs);
%
%    Ikkunointi-demo: käydään puhesignaali x läpi
%    pyöreäreunaisesti ikkunoiduissa 60 ms kehyksissä (jos ind == 0), tai
%    suorakulmaisesti ikkunoiduissa 15 ms kehyksissä (jos ind == 1),
%    lasketaan kustakin FFT, nollataan kaikki paitsi N isointa tappia, ja
%    syntetisoidaan tämän perusteella puhe takaisin ulostulosignaaliin syn.
%
%
%   ind   :   jos 0, käytetään 60ms pehmeää ikkunaa, jos 1, 15 ms suorakulmaista.
%   N     :   kuinka monta tappia jätetään FFT:hen
%   x     :   puhesignaali, jos ei annettu otetaan tiedostosta yhdeksan.wav
%   fs    :   näytteenottotaajuus, oletus 8000 Hz
%
%   syn : koodattu signaali


if ( nargin < 3),
    [x,fs] = wavread( ’yhdeksan.wav’);
end

x = x(:); % tehdään pystyvektoriksi
if ( nargin < 4),
    fs = 8000; % näytteenottotaajuus
end

if ( ind == 0),
   awinlen = round( fs*0.06) % analyysi-ikkunan pituus, 60 ms
   % tehdään hihasta analyysi-ikkuna, pyöreät reunat, tasainen keskeltä
   temp = hanning( fs*0.01); % tässä ne pyöreät reunat
   awinfun = [temp(1:length(temp)/2); ones(awinlen-length(temp),1); ...
           temp(length(temp)/2+1:end)];
   swinlen = round(awinlen/2); % synteesi-ikkunan pituus
        %puolet analyysi-ikkunasta
16                     LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA

   swinfun = hanning( swinlen); % synteesi-ikkunafunktio
   nforward = swinlen/2; % kuinka monta tappia on kehysten välillä, 15 ms
end
if ( ind == 1),
   awinlen = round( fs*0.015); % analyysi-ikkunan pituus, 15 ms
   awinfun = boxcar( awinlen);
   swinlen = awinlen; % synteesi-ikkunan pituus = analyysi-ikkunan pituus
   swinfun = boxcar( swinlen); % synteesi-ikkunafunktio
   nforward = swinlen;
end

if ( rem( awinlen, 2) == 1),
    error(’sori, ainoastaan parilliset ikkunan pituudet käyvät.’);
    % käänteisen FFT:n takia
end

fftind = 2:floor(awinlen/2); % FFT:n puolikkaan indeksit ilman DC-tasoa ja
% Nyquistin taajuutta
n = 1+ceil(awinlen/2); % ensimmäisen kehyksen keskimmäinen näyte
syn = zeros( size( x)); % ulostulosignaali tehdään tänne

while ( n+ceil(awinlen/2) <= length(x))
   awinind = n-ceil(awinlen/2)+(0:awinlen-1); % nykyisen kehyksen
                                              % analyysi-ikkunan indeksit
   frame = x( awinind).*awinfun; % kehys
   Frame = fft(frame); % kehyksen FFT

     %etsitään N:nneksi suurin itseisarvo
     [val,sind] = sort( abs( Frame( fftind)));
     valN = val( end-N+1);
     % nollataan kaikki paitsi N suurinta ja tehdään käänteinen FFT
     FrameMod = zeros( length( Frame),1); % modifioitu kehys
     FrameMod(1) = Frame(1); % säilytetään DC
     FrameMod( fftind) = Frame( fftind).*(abs( Frame( fftind)) >= valN);
     % otetaan vain isoimmat tapit
     FrameMod( length(Frame)+2-fftind) = conj( FrameMod(fftind)); % peilataan
     % FFT:n toinen puolikas

     iframe = ifft(FrameMod); % käänteinen FFT
     if ( max( abs( imag( iframe))) > 0.0001) % tarkistus
         error(’Käänteinen FFT ei ole reaalinen.’);
     end
     iframe = real( iframe);

     swinind = n - swinlen/2 + (0:swinlen-1); % synteesi-ikkunan indeksit
     swin = iframe( 1+ awinlen/2 - swinlen/2 + (0:swinlen-1)).*swinfun;
          % synteesikehys
     syn( swinind) = syn(swinind) + swin; % overlap-add
1.6. SIGNAALIN AUTOKORRELAATIO                                                      17

    n = n + nforward; % liikutaan signaalissa eteenpäin

end



    Idea hommassa on seuraava: puheesta ikkunoidaan ensin kehys FFT-analyysia
varten. Tämä tehdään joko pehmeäreunaisella 60 ms ikkunalla tai suorakaiteisella
15 ms ikkunalla. Analyysikehyksestä lasketaan FFT ja nollataan siitä kaikki paitsi
itseisarvoltaan suurimmat tapit.
    Tälle osittain nollatulle spektrille lasketaan tämän jälkeen käänteinen FFT, jol-
loin saadaan vastaava aikatason signaali. Tässä on pientä säätöä sen kanssa että
FFT:n täytyy olla konjugaattisymmetrinen. Tämä tarkoittaa sitä että jos ikkunan
pituus on Æ ja sen FFT on ´¼µ ´½µ ´¾µ                  ´Æ   ½µ niin ennen käänteistä
FFT:ta pitää huolehtia siitä että ´½µ         ´Æ   ¾µ    ´¾µ      ´Æ   ¿µ jne.
    Tälle muokatulle signaalille tehdään tämän jälkeen ns. synteesi-ikkunointi:
sen keskeltä ikkunoidaan pala (tässä tapauksessa hanning-ikkunalla) joka summa-
taan lopulliseen signaaliin, jolloin tuloksena saatavaan signaaliin ei tule äkillisiä
muutoskohtia. Tätä menetelmää jossa lopullinen signaali saadaan summaamal-
la päällekkäisiä kehyksiä kutsutaan overlap-add-menetelmäksi ja sille on usein
käyttöä puheenkäsittelyssä. Synteesi-ikkunointia havainnollistaa kuvio 1.10. Mm.
hanning-ikkunan käytössä on vielä se hyvä puoli että parittoman pituiset puoliksi
päällekkäiset ikkunat summatuvat 1:een.
    Jos käytetään 15 ms suorakaideikkunaa, peräkkäiset kehykset eivät osu ollen-
kaan päällekäin, vaan synteesi tapahtuu liimaamalla käänteisen FFT:n tuottamia
aikatason signaaleja sellaisenaan peräkkäin. Kehysten rajoilla esiintyy täten epä-
jatkuvuuskohtia, jotka saavat ulostulopuheen kuulostamaan rosoiselta.
    Huomaa, että kummankin ikkunan tapauksessa puhe ’koodataan’ samalla mää-
rällä parametreja (ottamatta kvantisointia huomioon): kummallakin menetelmällä
ikkunaa liikutetaan eteenpäin 15 ms kehysten välillä. Merkille kannattaa panna
myös se, että 60 ms ikkunalla koodattu puhe kuulostaa subjektiivisesti paremmal-
ta kuin 15 ms suorakaideikkunalla vaikka edellisestä aiheutuvan kohinan teho on
itse asiassa suurempi.


1.6     Signaalin autokorrelaatio
Signaalin autokorrelaatio kertoo kuinka paljon signaali eri viiveillä korreloi itsen-
sä kanssa (josta nimikin). Se on Fourier-muunnoksen ohella yksi käyttökelpoisim-
mista signaalien analysointimenetelmistä joten käydään se tässä läpi siltä varalta
että se ei ole vielä lukijalle tuttu juttu. Puheenkäsittelyssä autokorrelaatiota käyte-
tään erityisesti puheen perustaajuuden määrittämisessä.
18                             LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA

                        analyysi−ikkuna (ehyt viiva) ja synteesi−ikkuna (katkoviiva)




      1




     0.8




     0.6




     0.4




     0.2




      0
               100    200       300        400        500       600        700         800   900
                                                  näytteet


           Kuvio 1.10: M-funktiossa käytetyt analyysi- ja synteesi-ikkunat.

1.6.1 Autokorrelaation määritelmä
Meidän tarkoituksiimme riittää hyvin määritellä autokorrelaatio vain äärellisen pi-
tuisille signaaleille, jotka käytännössä ovat kehyksiä jostain pidemmästä signaa-
lista. Kuviossa 1.11 on esimerkki tällaisesta signaalista. Signaalin indeksoinnin
kannalta on usein kuitenkin näppärämpää esittää tämä äärettömän pitkänä signaa-
lina, joka on 0 muualla kuin tämän äärellisen ikkunan kohdalla. Kuvio 1.12 esittää
tämän nollilla jatketun signaalin.
     Signaalin ×´Òµ autokorrelaatio Ö´ µ määritellään kaavalla
                                              ½
                               Ö´ µ                 ×´Òµ×´Ò            µ                           (1.1)
                                          Ò    ½
missä saa kaikki kokonaislukuarvot                  ¾  ½ ¼ ½ ¾ . Huomaa että
autokorrelaatio on siis viiveen funktio vastaavasti kuin esimerkiksi FFT on taajuu-
den funktio, jonka takia sitä nimitetään myös autokorrelaatiofunktioksi. Autokor-
relaatio on itse asiassa korrelaatio signaalien ×´Òµ ja ×´Ò   µ välillä: sen arvo on
sitä suurempi mitä enemmän nämä signaalit korreloivat keskenään.
1.6. SIGNAALIN AUTOKORRELAATIO                                                       19

                                               puhekehys
          0.1


         0.08


         0.06


         0.04


         0.02


           0


        −0.02


        −0.04


        −0.06


        −0.08
                −200          0          200               400           600   800
                                                  näyte



                         Kuvio 1.11: Äärellisen pituinen kehys.


   Eräs ongelma autokorrelaation määrittelemisessä kaavalla (1.1) on se, että
suuremmilla viiveillä summaan tulee mukaan vähemmän termejä ja tämän takia
autokorrelaation arvo pienenee viiveen kasvaessa signaalista riippumatta. Esimer-
kiksi jos meillä on Æ :n näytteen pituinen ikkuna vakiosignaalia 1 (eli ×´Òµ   ½
kun ¼ Ò Æ ja ×´Òµ ¼ muulloin), kun ¼                 Æ autokorrelaatio on

                              Ö´ µ                ×´Òµ×´Ò            µ
                                          Ò
                                         Æ ½   
                                                  ×´Òµ×´Ò            µ
                                         Ò
                                         Æ ½   
                                                  ½
                                          Ò
                                         Æ      
Kun  Æ           ¼,    vastaavalla päättelyllä todetaan että autokorrelaatio on

                                  Ö´ µ     Æ       
Kun        Æ , toinen termi summassa (1.1) on aina 0, joten kaiken kaikkiaan tässä
20                             LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA

                                           nollilla jatkettu puhekehys
          0.1


         0.08


         0.06


         0.04


         0.02


           0


        −0.02


        −0.04


        −0.06


        −0.08
                 −200          0               200             400           600   800
                                                     näyte



                Kuvio 1.12: Nollilla jatkettu äärellisen pituinen kehys.

tapauksessa autokorrelaatioksi tulee

                                            
                                   ´
                                       Æ                  ÙÒ             Æ
                        Ö´ µ
                                       ¼                  ÙÒ             Æ

Toisin sanoen tämä autokorrelaation määritelmä ’suosii’ pienempiä viiveitä.
    Tämän takia autokorrelaatiosta löytyy myös pari muunnelmaa joissa tämä on-
gelma pyritään kiertämään. Ensimmäinen muunnelma on määritellä autokorrelaa-
tio kaavalla
                                           ×´Òµ×´Ò   µ
                                   ½
                      Ö½ ´ µ
                                       Æ              Ò
                                                                            (1.2)

jossa yksinkertaisesti otetaan keskiarvo kaikista nollasta eroavista tulon termeistä
viiveellä . Tämä kyllä poistaa arvojen pienenemisen ongelman mutta tilalle tulee
toinen: mitä suurempi viive on, sitä vähemmän termejä summaan tulee mukaan
ja sitä ’epäluotettavampi’ tulos on. Esimerkiksi kohinaisella signaalilla autokor-
relaatio voi saada suuriakin arvoja kun viive on suuri vaikka signaali ei näillä
viiveillä oikeastaan korreloikaan, esimerkki tästä löytyy jäljempänä. Koko hom-
ma saataisiin perusteltua täsmällisemmin sillä että tämän autokorrelaatiofunktion
estimaattorin varianssi kasvaa kun viive kasvaa (vaikka se onkin harhaton) mutta
tämä vaatisi stokastisten prosessien teoriaa joten ei käydä tätä sen tarkemmin läpi.
1.6. SIGNAALIN AUTOKORRELAATIO                                                                     21

   Vielä yksi muunnos autokorrelaatiosta saadaan kaavalla
                                           Æ ½   
                          Ö¾ ´ µ                        ×´Òµ×´Ò                 µ
                                       Ò     Æ ·½
kun    Æ            Æ ja summan laskemiseen käytetään ×´Òµ:n arvoja kun Ò
 ¾Æ ·¾         ¾Æ   ¾. Tässä jippo on siinä, että kaikilla viiveillä otetaan summaan
mukaan sama määrä termejä jolloin luotettavuus säilyy. Ongelmana on se että
signaalista tarvitaan pidempi ikkuna kuin edellisillä menetelmillä ja eri viiveillä
autokorrelaatio tulee laskettua eri näytteiden yli, jonka seurauksena osa seuraavan
kappaleen ominaisuuksista eivät ole voimassa.
    Jatkossa käytämme autokorrelaatiota (1.1) mutta on hyvä pitää mielessä että
myös vaihtoehtoja on olemassa. Matlabissa autokorrelaation saa laskettua komen-
nolla xcorr.

Autokorrelaatiofunktion ominaisuuksia
Kaavan (1.1) autokorrelaatiolla on seuraavat ominaisuudet:

   ¯   Ö´ µ     Ö´  µ, toisin sanoen autokorrelaation on symmetrinen funktio 0-
       viiveen suhteen. Jätetään tämä lukijan todettavaksi.

   ¯   Ö´¼µ = signaalin energia. Tämä seuraa suoraan siitä että

                                           Ö´¼µ                 ×´Òµ¾
                                                            Ò


   ¯   Ö´¼µ       Ö´ µ kaikilla :n arvoilla. Otetaan lähtökohdaksi perusmatikan
       kursseilta tuttu Cauchy-Schwarz–epäyhtälö Æ :n pituisille reaalivektoreille
       Ü ja Ý :
                                            ¾
                     Æ                                   Æ                          Æ
                                                                        ¾
                          Ü´ÒµÝ ´Òµ                             Ü´Òµ                      Ý ´Òµ¾
                    Ò ½                                 Ò ½                         Ò ½

       Myös tässä voidaan summata kaikkien kokonaislukuindeksien Ò yli kunhan
       vain äärellinen määrä arvoista poikkeaa nollasta. Kun meillä on joku viive
          niin otetaan vektoriksi Ü signaali ×´Òµ ja vektoriksi Ý viivästetty signaa-
       li ×´Ò   µ. Huomaa että koska ×´Òµ:ssa vain äärellisen monta arvoa eroaa
       nollasta, sekä ×´Òµ että ×´Ò   µ voidaan esittää äärellisen pituisina vektorei-
       na. Konkreettinen esimerkki: jos ×´Òµ        ½ ¾ ¿ ℄ ja         ¾ niin tehdään
       vektorit

                                   Ü                ½   ¾       ¿   ¼       ¼
22                                  LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA

         ja

                                         Ý           ¼      ¼        ½   ¾    ¿


         Nyt kun sovelletaan Cauchy-Schwarz-epäyhtälöä näihin vektoreihin saa-
         daan
                                                     ¾

                               ×´Òµ×´Ò         µ                             ×´Òµ¾           ×´Ò           ¾
                                                                                                           µ
                       Ò                                                 Ò               Ò
                                                                                     ¾

                                                                             ×´Òµ¾
                                                                         Ò


         koska
                 È
                  Ò   ×´Òµ¾
                                   È
                                     Ò   ×´Ò             µ¾ .   Tästä seuraa että

                                                   Ö´ µ¾             Ö´¼µ¾

         josta puolestaan seuraa että Ö´¼µ                           Ö´ µ .

     ¯   autokorrelaatiofunktion Fourier-muunnos = signaalin Fourier-muunnoksen
         amplitudin neliö (Wiener-Khinchin–teoreema). Tarkalleen ottaen siis
                                                                 ¬                                ¬¾
                                                                 ¬                                ¬
                                Ö´Òµ ÜÔ´             Òµ
                                                                 ¬
                                                                 ¬
                                                                 ¬
                                                                         ×´Òµ ÜÔ´            Ò
                                                                                                  ¬
                                                                                                 µ¬
                                                                                                  ¬
                           Ò                                         Ò

         Tämä on hitusen yllättävä tulos ja yksi tapa hahmottaa sitä on seuraava: au-
         tokorrelaatiofunktion Ö´ µ symmetrisyydestä seuraa helposti että sen Fourier-
         muunnos on reaalinen. Tämä teoreema sanoo että Fourier-muunnos on pait-
         si reaalinen myös ei-negatiivinen (koska edellisen yhtälön oikea puoli on
         aina ¼). Tällä kurssilla emme isommin käytä tätä tulosta mutta se on kui-
         tenkin hyvä pitää mielen perukoilla.

Esimerkkejä autokorrelaatiosta
Katsotaan läpi muutamia signaaleja ja niiden autokorrelaatio jotta saadaan jokin
käsitys siitä miten autokorrelaatio toimii. Olemme lähinnä kiinnostuneita siitä mi-
kä autokorrelaatiofunktion muoto on, joten tätä tarkoitusta varten autokorrelaatio
saadaan näppärästi normalisoitua jakamalla sen arvot Ö´¼µ:lla.
    Esimerkki 1: ×´Òµ      ½ eli vakiosignaali. Totesimme jo aiemmin että tämän
signaalin autokorrelaatiofunktio on

                                          Ö´ µ            Æ      
1.6. SIGNAALIN AUTOKORRELAATIO                                                                  23

Tässä tapauksessa Ö´¼µ      Æ , joten normalisoitu autokorrelaatio (siis autokorre-
laatio jaettuna signaalin energialla) on


                                         Ö´ µ      ½    Æ

Tämä on esitetty kuviossa 1.13. Tässä on oleellista huomata että vaikka ×´Òµ:n
näytteet eri viiveillä korreloivat täysin, niin signaalin ikkunointi aiheuttaa sen että
autokorrelaatio kuitenkin pienenee lineaarisesti viiveen kasvaessa.


                                                  vakiosignaali
          2


         1.5


          1


         0.5


          0
               0    10       20     30       40         50        60       70   80   90   100


                                           normalisoitu autokorrelaatio
          1

         0.8

         0.6

         0.4

         0.2

          0
         −100      −80      −60    −40      −20          0        20       40   60   80   100
                                                       viive



                         Kuvio 1.13: Vakiosignaali ja autokorrelaatio.


    Esimerkki 2: ×´Òµ = satunnaista kohinaa jonka keskiarvo ¼. Ajatellaan vaik-
ka että signaali saadaan heittämällä -sivuista noppaa jonka arvot ovat  ¿ ¼ ½ ja
¾. Kun       ¼ niin Ö ´¼µ on signaalin energia, kuten tavallista. Kun   ¼, meillä
on summa


                                  Ö´ µ            ×´Òµ×´Ò              µ
                                             Ò
24                          LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA

Nyt minkä tahansa kahden arvon ×´Òµ ja ×´Ò              µ   tulo saadaan taulukosta
                                       ¿   ¼    ½       ¾
                             ¿             ¼    ¿  
                              ¼        ¼   ¼    ¼       ¼
                              ½        ¿   ¼    ½       ¾
                              ¾            ¼    ¾

Todetaan että taulukon alkioiden summa on ¼ ja jokainen niistä on yhtä todennä-
köinen, joten summasta
                                      ×´Òµ×´Ò       µ
                                  Ò

tulee arvoksi ’keskimäärin’ 0.
     Tämä päättely saataisiin huomattavasti vakaammalle pohjalle käyttämällä to-
dennäköisyyslaskennan teoriaa mutta tämä tarkkuus riittää meidän tarpeisiimme.
Eli satunnaisen signaalin tapauksessa autokorrelaatio Ö´ µ on signaalin energia
kun       ¼ ja koko lailla 0 kun      ¼.
     Kuviossa 1.14 on esitetty yksi realisaatio tästä signaalista kun sen pituus on
Æ      ½¼¼ ja tämän normalisoitu autokorrelaatio. Todetaan että autokorrelaatio ei
ole tarkalleen 0 kun         ¼ mutta kuitenkin aika liki. Kuviossa 1.15 on esitelty
tilanne kun signaalin pituus Æ       ½¼¼¼, josta huomataan että normalisoitu auto-
korrelaatio on huomattavasti pienempi kun           ¼. Normalisoitu autokorrelaatio
käyttäen kaavaa (1.2) on vielä laskettu kuviossa 1.16 josta välittömästi havaitaan
että pitkillä viiveillä tämä menetelmä ei ole kovin luotettava.
     Tavallaan nämä kaksi esimerkkisignaalia kuvastavat autokorrelaation ääripäi-
tä: täysin korreloivan signaalin normalisoitu autokorrelaatio on ½   Æ ja täysin
satunnaisen signaalin normalisoitu autokorrelaatio on impulssi (siis ½ kun          ¼
ja 0 muuten). Käytännön signaalit elävät jossain näiden ääripäiden välimaastossa
jota varten katsotaan pari esimerkkiä autokorrelaatiosta eri puheäänteissä.
     Esimerkki 3: kuviossa 1.17 on esitetty kehys (suorakaideikkunalla ikkunoitu)
[ä]-äänteestä ja sen autokorrelaatio. Havaitaan että autokorrelaatiossa on useita
suuria piikkejä joten eri viiveet korreloivat vahvasti keskenään. Erityisesti viiveel-
lä 150 autokorrelaatiossa on iso positiivinen piikki joka johtuu puheen perustaa-
juudesta tässä kehyksessä; yhdellä jaksonpituudella viivästetty puhe näyttää aika
samalta kuin viivästämätön puhe. Tässä kehyksessä puheen perustaajuus on siis
½ ¼¼¼ ÀÞ
   ½ ¼
            ½¼ ÀÞ. Itse asiassa autokorrelaation piikkien etsintä on hyvä tapa löy-
tää puheen perustaajuus (tästä tarkemmin seuraavassa luvussa).
     Esimerkki 4: kuviosta 1.17 löytyy kehys (taas suorakaideikkunalla ikkunoi-
tu) [s]-äänteestä ja sen autokorrelaatio. Tässä tapauksessa autokorrelaatio on koh-
tuullisen impulssimainen mikä viittaa siihen että [s]-äänteen aaltomuoto on melko
satunnainen.
1.6. SIGNAALIN AUTOKORRELAATIO                                                                25

                                             kohinasignaali

        2

        1

        0

       −1

       −2

       −3

             0    10     20     30      40        50          60     70    80    90    100


                                      normalisoitu autokorrelaatio
       1.5


        1


       0.5


        0


      −0.5
       −100      −80    −60    −40     −20         0          20     40    60    80    100
                                                 viive



                  Kuvio 1.14: Satunnaissignaalin autokorrelaatio.

                                        pidempi kohinasignaali

        2

        1

        0

       −1

       −2

       −3

             0    100    200    300    400       500          600    700   800   900   1000


                                      normalisoitu autokorrelaatio
       1.2

        1

       0.8

       0.6

       0.4

       0.2

        0

      −0.2
       −1000     −800   −600   −400   −200         0          200    400   600   800   1000
                                                 viive



         Kuvio 1.15: Pidemmän satunnaissignaalin autokorrelaatio.
26                                      LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA

                                                     pidempi kohinasignaali

      2

      1

      0

     −1

     −2

     −3

          0            100      200      300        400       500        600         700   800   900   1000


                                                normalisoitu autokorrelaatio r (k)
                                                                               1
      4

      3

      2

      1

      0

     −1

     −2

     −3
     −1000            −800     −600     −400       −200         0        200         400   600   800   1000
                                                              viive



      Kuvio 1.16: Satunnaissignaalin autokorrelaatio kaavalla (1.2).

                                                             [ä]−äänne
       0.1


      0.05


              0


     −0.05


      −0.1
                  0      50       100     150         200       250       300        350   400   450   500


                                                    normalisoitu autokorrelaatio
              1



       0.5



              0



      −0.5
       −500             −400     −300    −200        −100         0       100        200   300   400   500
                                                                viive



                               Kuvio 1.17: [ä]-äänne ja autokorrelaatio.
1.6. SIGNAALIN AUTOKORRELAATIO                                                                 27




                                                [s]−äänne
      0.03

      0.02

      0.01

        0

     −0.01

     −0.02

     −0.03
             0    50       100    150    200       250        300      350   400   450   500


                                        normalisoitu autokorrelaatio
        1

       0.8

       0.6

       0.4

       0.2

        0

      −0.2

      −0.4
       −500      −400     −300   −200   −100         0        100      200   300   400   500
                                                   viive



                        Kuvio 1.18: [s]-äänne ja autokorrelaatio.
Luku 2

Fonetiikkaa

Puhe on kaiken kaikkiaan hyvin monitasoinen ja monimutkainen inhimillinen ja
fysikaalinen ilmiö, sisältäen kysymyksiä liittyen mm. kognitioon, kieleen, fysiolo-
giaan, kuuloon ja akustiikkaan. Fonetiikka tarkoittaa yleisesti puheen tutkimusta,
joka sisältää piirteitä edellisistä tieteenaloista.
    Puheenkäsittelyn kannalta joudumme toistaiseksi keskittymään puheen alem-
piin tasoihin, joissa kysytään esimerkiksi: Millaisia erilaisia äänteitä on olemassa?
Mikä on perustaajuus/puheen resonanssitaajuudet tietyllä hetkellä? Miten puhet-
ta kannattaa koodata? Mitä foneemeja tietyssä puhejaksossa esiintyy? Näiden ja
muiden kysymysten selvittämiseksi tarvitaan perustietoja siitä, millainen signaali
puhe oikeastaan on.
    Suuri osa puheen akustisista ominaisuuksista juontaa juurensa ihmisen pu-
heentuottojärjestelmän ominaisuuksiin. Siksi tämän järjestelmän toiminta katso-
taan ensin läpi, ja sen jälkeen sitä pyritään mallintamaan.


2.1     Puhe-elimet
Hyviä kuvioita liittyen oheiseen tekstiin löytyy osoitteesta

http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/006.htm

    Akustisesti puhe on ilmanpaineen vaihtelua, jonka voimanlähteenä on keuh-
koissa oleva tiivistetty ilma. Sisäänhengityksessä pallea ja kylkivälilihakset jän-
nittyvät, jolloin rintakehä laajenee ja keuhkoihin syntyy alipaine ja ilmaa virtaa
niihin. Uloshengityksen aikana lihakset rentoutuvat, jolloin rintakehä supistuu, ja
ilmaa virtaa ulos keuhkojen ylipaineesta johtuen. Puhetta esiintyy lähes yksino-
maan uloshengityksen aikana. Kannattaa pitää mielessä, että puhe-elimet (keuh-
kot, kieli, äänihuulet, yms.) ovat alun perin kehittyneet mahdollistamaan ihmi-

                                         28
2.1. PUHE-ELIMET                                                              29

sen muita toimintoja, lähinnä hengityksen ja syömisen, ja ovat vasta myöhemmin
adaptoituneet myös puheen tuottamiseen.
    Kurkunpää on kehittynyt elin, jonka päätarkoituksena on toimia läppänä jo-
kaa erottaa ruokatorven henkitorvesta nielaisemisen ajaksi. Puheentuoton kannal-
ta oleellisinta kurkunpäässä on että se muokkaa keuhkoista lähtevän äänettömän
ilmavirran jollain tapaa kuuluvaksi. Kurkunpää muodostuu seuraavista osista: kil-
pirusto (aataminomena), äänihuulet ja kannurustot. Äänihuulten välissä olevaa
rakoa nimitetään ääniraoksi eli glottikseksi ja se muodostuu huuliraosta (ääni-
huulten välissä) ja rustoraosta (kannurustojen välissä), ks. kuvio 2.1. Ihminen
pystyy säätelemään monipuolisesti ääniraon muotoa kurkunpään lihaksien avulla.




Kuvio     2.1:     Kurkunpään          poikkileikkaus    äänihuulten     kohdal-
ta ylhäältä katsottuna, kuvion leikattu henkilö katsoo                  ylöspäin
(http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/).


    Ääntöväylällä tarkoitetaan yleensä puhe-elimiä kurkunpään jälkeen, ks. kuvio
2.2. Nämä jakautuvat seuraaviin alueisiin: nieluontelo, nenäontelo ja suuontelo.
Tärkeimmät puhe-elimet ääntöväylässä ovat kieli, kitapurje, alaleuka ja huulet.
Kieli on puheentuoton tärkein elin: sen eri asennot määräävät suurimman osan
äänteistä. Kitapurje on lihas, jonka avulla voidaan erottaa nieluontelo nenäonte-
losta.
    Ohessa lyhyt suomi-englanti-termistö aiheesta:
30                                                  LUKU 2. FONETIIKKAA

     alveolar ridge hammasvalli      arytenoid cartilage kannurusto
     bronchus keuhkoputki            cartilage rusto
     cricoid cartilage rengasrusto   diaphragm pallea
     epiglottis kurkunkansi          false vocal folds taskuhuulet
     glottis äänirako                hyoid bone kieliluu
     larynx kurkunpää                lungs keuhkot
     nasal cavity nenäontelo         palate kitalaki
     thyroid cartilage kilpirusto    tongue kieli
     trachea henkitorvi              vocal folds äänihuulet
     vocal tract ääntöväylä          oral pharynx, pharyngeal cavity nieluontelo
     pharynx nielu                   uvula kitakieleke
     velum, soft palate kitapurje




Kuvio 2.2: Ääniväylän puhe-elimet (Thomas W. Parsons, Voice and Speech
Processing, McGraw-Hill, Inc., 1987. s. 63).
2.2. PUHEENTUOTTO                                                                 31

2.2     Puheentuotto
Puhetta muodostuu, kun keuhkoista lähtevä ilmavirta kulkee ääniraon eli glot-
tiksen läpi ja moduloituu ääntöväylässä. Ääniraosta lähtevä ääni voidaan ajatella
herätteeksi, jonka ääntöväylä suodattaa. Ilmavirtaus sinänsä on äänetöntä, joten
äänteet muodostetaan tavalla tai toisella aiheuttamalla muutoksia keuhkoista läh-
tevään ilmavirtaan. Alla on lueteltu glottiksen eri herätetyypit.

soinnilliset äänteet Glottis aukenee ja sulkeutuu jaksollisesti, mikä aiheuttaa kat-
      konaisen ilmavirran. Yhtä auki-kiinni jaksoa sanotaan värähdykseksi, ja sen
      kesto määrää äänen perustaajuuden jota säädetään esim. laulamisessa. Tyy-
      pillisesti taajuus on n. 50-500Hz (matalampi miehillä, korkeampi naisilla
      ja lapsilla). Äänteitä, joissa äänihuulet värähtelevät, sanotaan soinnillisiksi
      (esim. kaikki vokaalit).

hengitys Glottis on auki. Ilmavirta on tasaista ja sen takia (lähes) äänetöntä.

soinnittomat äänteet Glottis on jonkin verran auki mutta äänihuulet eivät väräh-
      tele.

kuiskaus Glottis on kiinni mutta rustorako auki, jolloin muodostuu kuultavaa
     hankaushälyä (friction).




Kuvio 2.3: Äänihuulten asento eri äännetyypeissä (Kalevi Wiik, Fonetiikan Pe-
ruskurssi, WSOY, 1981).

     Ääntöväylä suodattaa glottisherätteen puhe-elinten asennosta riippuvalla ta-
valla. Kunkin äänteen aikana ääntöväylällä on tyypillinen (äänteestä riippuva)
muotonsa, jota voidaan mallintaa akustisena putkena. Tällä putkella on erityises-
ti tietyt resonanssitaajuudet, joiden johdosta äänteen spektrissä on havaittavissa
vahvistuneita osavärähtelyalueita eli formantteja. Formantit ovat tärkein seuraus
ääniväylän moduloinnista; niiden avulla voidaan luokitella kaikki vokaalit. Toinen
tapa muodostaa äänteitä on aiheuttaa ääntöväylän johonkin osaan kapeikko jonka
32                                                      LUKU 2. FONETIIKKAA

läpi kulkiessaan ilmavirta muuttuu pyörteiseksi. Kolmas laaja äänteiden luokka
saadaan sulkemalla hetkeksi ääntöväylä kokonaan joltain kohtaa ja avaamalla se,
jolloin ilmavirta ’poksahtaa’ ulos.
    Seuraavassa luvussa on selitetty tämän kurssin jatkon kannalta oleellisimmat
tiedot siitä, miten puhe-elimet tuottavat tietyn äänteen ja millaisia akustisia omi-
naisuuksia äänteellä tästä konfiguraatiosta johtuen on. Yleisesti artikulatorinen
fonetiikka tutkii, millä tavalla puhe-elimet sijoittuvat tietyn äänteen aikaansaami-
seksi kun taas akustisessa fonetiikassa tutkitaan akustisen aallon ja puhe-elinten
asentojen yhteyttä (tästä lisää myöhemmin).


2.3     Artikulatorista fonetiikkaa
Eräs tärkeä fonetiikan tavoite on luokitella eri kielissä esiintyvät äänteet. Tätä
tarkoitusta varten kehitettiin vuonna 1888 International phonetic alphabet (IPA).
IPA:n luokittelusta ollaan jokseenkin yksimielisiä, mutta lähinnä merkinnällisistä
syistä (IPAssa käytetyttyjä symboleita ei löydy kirjoituskoneesta) käytetään mui-
takin foneettisia aakkostoja, mm. Arpabet. IPA-luokitus löytyy osoitteesta
    http://www.arts.gla.ac.uk/IPA/fullchart.html
    Äänteitä voidaan käsitellä foneettiselta kannalta, jolloin tarkastelu ei ole si-
doksissa mihinkään tiettyyn kieleen, vaan äänteet pyritään kuvaamaan mahdolli-
simman täsmällisesti niiden artikuloinnin (puhe-elinten asennon) avulla. Toinen
lähestymistapa on fonologinen, jossa tarkastellaan tietyssä kielessä esiintyviä eri
äänteitä, erityisesti niiden äänteiden luokkaa jotka tulkitaan samaksi.
    Esimerkiksi [k] ja [p] ovat suomen kielessä eri äänteitä koska sanaa kala ei
ymmärretä samaksi kuin sanaa pala. Sen sijaan äänteet [s] ja "suhu-[s]"(kuten
esim. sanassa shekki) eivät muuta sanan merkitystä, joten ne tulkitaan suomen
kielessä samaksi äänteeksi, kun taas esim. venäjän kielessä ne ovat eri äänteitä.
    Kaikkien maailman kielten äänteet jakautuvat vokaaleihin ja konsonantteihin
(selitetty tarkemmin alla), joita edelleen jakaa tarkemmin eri ominaisuuksien pe-
rusteella (myös selitetty tarkemmin alla). Kannattaa koko ajan pitää mielessä että
tämän kappaleen luokittelu on tullut pyrkimyksestä selittää miten ihmisten ään-
teet muodostuvat; puhuminen onnistuu varsin hyvin tietämättä tästä luokituksesta
mitään (joskus jopa paremmin).


2.3.1 Vokaalit
Vokaalit (engl. vowel) ovat soinnillisia äänteitä, joissa ääniväylä on avoin. Eri kie-
lissä saattaa kuitenkin esiintyä tarvetta edellisen määritelmän hienosäätöön, esim.
suomen kielessä vokaalit määritellään äänteiksi joissa ’ääntä pääsee esteettä suun
keskeltä ulos’ (näin päästään eroon nasaaleista [n] ja [m] sekä lateraalista [l]).
2.3. ARTIKULATORISTA FONETIIKKAA                                                  33

   Vokaalit taas voidaan luokitella seuraavien ominaisuuksien perusteella:

   ¯   kielen asento

   ¯   huulten pyöreys

   ¯   nasaalisuus

    Erityisesti kielen asennossa on oleellista ääniväylän kapeimman kohdan si-
jainti. Tämä voidaan esittää ns. vokaalidiagrammin avulla, jossa on kuvallisesti
esitetty kielen keskiviivan korkein kohta suussa.




               [i]                        [y]                    [u]




                       [e]                      [ö]              [o]




                              [ä]                                [a]

Kuvio 2.4: Vokaalidiagrammi, jossa on esitettynä kielen korkein kohta suomen eri
vokaaleissa. Kuvio esittää pelkistetysti vasemmalle katsovan henkilön suuonteloa.

    Huulten asennon perusteella äänteitä nimitetään labiaalisiksi (jos huulet ovat
pyöristetyt) tai illabiaalisiksi (jos eivät). Esim. suomen [i] ja [y] eroavat lähinnä
huulten pyöreyden perusteella.
    Nasaalisuus liittyy siihen, onko kitapurje alhaalla vai ylhäällä. Kun kitapurje
on alhaalla eli auki, ilmavirta pääsee nenäonteloon ja syntyy nasaalinen äänne, ja
vastaavasti kitapurjeen ollessa ylhäällä syntyy oraalinen äänne.
34                                                       LUKU 2. FONETIIKKAA

2.3.2 Konsonantit
Konsonanteissa (engl. consonant) ilmavirta ei pääse vapaasti suun kautta ulos.
Tarkemmin ottaen konsonantit voidaan luokitella seuraavien ominaisuuksien pe-
rusteella:

     ¯   ääntymäpaikka

     ¯   ääntymätapa

     ¯   sointi

    Ääntymäpaikka (engl. place of articulation) kertoo missä kohdassa ääntö-
väylää muodostuu tärkein kapeikko. Esimerkisi [p]-äänteessä kapeikko muodos-
tuu huulten välissä ja [t]-äänteessä kielen ja ylähampaiden takana. Eri ääntymä-
paikat ovat (ks. kuvio 2.5):

bilabiaalinen huulten välissä

labiodentaalinen alahuulen ja ylähampaiden välissä

dentaalinen hampaiden välissä

alveolaarinen hammasvallin ja kielen välissä

palato-alveolaarinen kitalaen etuosan ja kielen välissä

palataalinen kitalaen ja kielen välissä

velaarinen kitapurjeen ja kielen välissä

uvulaarinen kitapurjeen kärjen (uvula) ja kielen välissä

faryngaalinen nielun takaosan ja kielen välissä

    Ääntymätavalla (engl. manner of articulation) tarkoitetaan sitä, kuinka va-
paasti ilmavirta pääsee virtaamaan konsonanttia äännettäessä. Konsonantteja jois-
sa ilmavirralla on vapaa ulospääsy sanotaan resonanteiksi ja niitä joissa ei sano-
taan obstruenteiksi.
    Resonantit voidaan edelleen ryhmitellä tarkemmin:

     ¯   puolivokaalit (engl. approximant). Nämä muistuttavat vokaaleja, mutta kie-
         lellä tai huulilla muodostettava kapeikko on ahtaampi kuin vokaaleilla. Suo-
         men puolivokaaleja ovat [j] ja [v].
2.3. ARTIKULATORISTA FONETIIKKAA                                                   35




Kuvio 2.5: Konsonanttien ääntymäpaikat: 1: bilabiaalinen, 2: labiodentaalinen, 3:
interdentaalinen, 4: dentaalinen, 5: alveoraalinen, 6: palataalinen, 7: velaarinen, 8:
uvulaarinen, 9: faryngaalinen, 10: laryngaalinen, 11: apikaalinen, 12: koronaali-
nen, 13: laminaalinen, 14: dorsaalinen, 15: radikaalinen, 16: sublingvaalinen, 17:
epiglottaalinen.

   ¯   nasaalit. Nasaaleissa ilmavirta kulkee ulos vain nenän kautta, suomessa [n],
       [m], [ng].

   ¯   likvidat. Näissä ilmavirta tulee suusta eri tavalla kuin vokaaleissa. Likvidat
       jaotellaan edelleen lateraaleiksi joissa ilmavirta kulkee kielen laitojen yli
       (suomessa [l]) ja tremulanteiksi joissa ilmavirta on katkonainen (suomessa
       [r]).

   Samoin obstruenttien jakoa voidaan hienontaa:

   ¯   klusiilit (engl. plosive). Näissä obstruenteissa ilmavirta katkaistaan koko-
       naan (suomessa [p], [t], [k]). Myös [b], [d], [g] voidaan laskea suomen kie-
       len foneemeiksi vaikka kaikki suomea puhuvat eivät käytä näitä puheessa;
       nämä ovat muuten samat kuin äänteet [p], [t] ja [k], mutta ovat soinnillisia.

   ¯   frikatiivit. Ilmavirta estetään osittain, suomessa [s], [h], sekä vieraampana
       [f].
36                                                               LUKU 2. FONETIIKKAA

    Sointi ilmaisee onko konsonantti soinnillinen vai soinniton. Soinnillisia kon-
sonantteja suomen kielessä ovat kaikki paitsi [p],[t],[k],[h] ja [s] (sekä [f]). Itse
asiassa [h] voi esiintyä ns. henkäyssoinnillisena äänteenä (kuten sanassa paha),
jolloin ääniraon huulirako värähtelee etuosaltaan ja rustorako on auki.
    Edellisten kolmen ominaisuuden (ääntymäpaikka, ääntymätapa ja sointi) pe-
rusteella voidaan luokitella kaikki konsonantit. Esimerkkejä: [m] on soinnillinen
bilabiaalinen nasaali ja [k] on soinniton palataalinen klusiili. Kysymys: onko suo-
men kielessä soinnitonta dentaalista klusiilia? Entä soinnillista labiodentaalista
resonanttia?


2.4        Suomen kielen äänteet
Alla on suomen kielen äänteiden jaottelu ääntymätavan mukaan:

     ¯   vokaalit: [a],[e],[i],[o],[u],[y],[ä],[ö]

     ¯   konsonantit

            – resonantit
                 £   puolivokaalit: [j],[v]
                 £   nasaalit: [n],[m],[ng]
                 £   lateraali: [l]
                 £   tremulantti: [r]
            – obstruentit
                 £   frikatiivit: [h],[s] (myös [f])
                 £   klusiilit: [p],[t],[k] (myös [b],[d],[g])

     Lisäksi suomessa kaikki äänteet poislukien [d], [g], [f] voidaan kahdentaa,
esimerkiksi muta, mutta, muuta, mutaa ja muuttaa ovat kaikki eri sano-
ja. "Äng-äänne"[ng] esiintyy tosin aina pitkänä (esim. kengät) ellei sitä seuraa
konsonantti (kenkä), ja [v] ja [h] eivät yleensä esiinny pitkinä paitsi joskus lop-
pukahdennuksen yhteydessä (homevvaurio).


2.5        Muita foneettisia piirteitä
Yleistä äänneluokkaa kutsutaan foneemiksi, kun taas yksittäistä puhuttua realisaa-
tiota kutsutaan fooniksi (kaikki foonit ovat siis periaatteessa erilaisia). Tietyssä
2.5. MUITA FONEETTISIA PIIRTEITÄ                                                 37

kielessä samaan äänneluokkaan kuuluvia äänteitä, joilla on kuitenkin joku foneet-
tinen ero, sanotaan allofoneiksi. Yleinen periaate jonkin kielen foneemien määrit-
tämisessä on se voiko jonkin äänteen muuttaminen toiseksi muuttaa sanan mer-
kitystä. Esimerkiksi suomen kielessä kaikki vokaalit voidaan ääntää joko nasaali-
sina tai ei-nasaalisina sanan merkityksen muuttumatta kun taas vaikkapa ranskan
kielessä myös merkitys voi muuttua.
     Vaikka kielen äänteet kuullaan diskreetteinä foneemeina, itse äänteet eivät ole
diskreettejä, äkillisesti toisiinsa muuttuvia aaltomuotoja, vaan äänteet ’sulautuvat’
toisiinsa. Tätä ilmiötä kutsutaan yhteisartikuloinniksi (engl. coarticulation). Yh-
teisartikulointi johtuu pitkäli siitä että puhe-elinten siirtyminen ei ole hetkellinen
tapahtuma vaan vaatii aikaa, ja tämän siirtymisen aikana aaltomuoto muuttuu ta-
saisesti. Lisäksi, yleensä kun puhe-elimet ovat saaneet äänteen ’riittävän hyvin’
äännettyä (eli niin hyvin että kuulija sen ymmärtää), ne alkavat siirtyä seuraavan
äänteen vaatimaan asentoon. Lisäksi äänteessä käytetty allofoni riippuu usein ym-
päröivistä äänteistä, erityisesti seuraavasta äänteestä.
     Prosodialla tarkoitetaan puheen ’pidempiaikaisia’ ominaisuuksia, joita ovat
lähinnä kvantiteetti, paino ja intonaatio (määrittelyt alla). Prosodian pienin yk-
sikkö foneemin sijasta on yleensä tavu. Tavun yleispätevää määritelmää ei ole
olemassa, mutta kielikohtainen määritteleminen onnistuu. Suomen kielessä tavu-
tuksen pääsääntö on se, että tavun raja kulkee jokaisen CV (konsonatti, vokaali)
ryhmän edellä (esim. pu-heen-kä-sit-te-ly). Tavu on kielellisesti usein käyttökel-
poisempi yksikkö kuin yksittäiset foneemit.
     Kvantiteetilla tarkoitetaan äänteiden pituutta. Joissakin kielissä (esim. espan-
ja) kvantiteetin muutoksella ei saada sanan merkitystä muuttumaan. Sen sijaan
suomen kielessä kvantiteetitti on erottava piirre (eli sillä voidaan muuttaa sa-
nan merkitystä) sekä vokaaleissa (muta, muuta) että konsonanteissa (muta,
mutta). Äänteen kvantiteetti riippuu monesta eri tekijästä, kuten äänteen ’luon-
nollisesta’ kestosta, viereisten äänteiden laadusta ja kestosta, äänteiden asemasta
tavussa sekä äänteen painosta.
     Paino tarkoittaa jonkin äänteen painottamista, yleensä suuremmalla teholla tai
muuttuneella äänenkorkeudella. Paino voi viitata joko tavupainoon (painotetaan
tiettyä tavua sanassa) tai sanapainoon (painotetaan tiettyä sanaa virkkeessä). Suo-
men kielessä tavupaino on aina ensimmäisellä tavulla (jonka takia suomen kieli
on ei-suomalaisen korviin melko monotonisen kuuloista).
     Intonaatio viittaa puheen äänenkorkeuden muutokseen pidemmän jakson, esim.
virkkeen aikana. Äänenkorkeudella voidaan muuttaa joissain kielissä sanojen mer-
kityksiä (esim. kiina) mutta sitä käytetään muissakin kielissä ilmaisemaan esim.
välimerkkejä. Esimerkiksi englannin kielessä äänenkorkeus nousee kysymyslauseen
lopussa, kun taas suomen kielessä koko kysymyslauseen sävelkorkeus on jonkin
verran korkeampi kuin vastaavan väitelauseen.
Luku 3

Akustista fonetiikkaa

Akustisessa fonetiikassa tutkitaan puheen akustisia ominaisuuksia ja sitä miten
ne seuraavat puheentuottomekanismin toiminnasta. Aiheen tarkka käsitteleminen
vaatisi oman kurssinsa, mutta seuraavassa käydään läpi aiheesta tämän kurssin
kannalta oleellisimmat tiedot.
    Tärkein ääntöväylän akustinen ominaisuus ovat siinä esiintyvät resonanssit,
jotka syntyvät samaan tapaan kuin esim. puhallinsoittimissa, eli värähtelevän il-
mapatsaan seisovina aaltoina. Mikäli kyseessä on tasapaksu putki, jonka toinen
pää on umpinainen ja toinen avoin, siinä muodostuu seisovia aaltoja siten, että
paineenvaihtelu umpinaisessa päässä on pienimmillään ja avonaisessa suurimmil-
laan, kuten kuviosta 3.1 näkyy. Mikäli putken pituus on , seisovien aaltojen aal-
lonpituudet ( ) ovat

                                 ¿
Tyypillisesti aikuisen miehen ääntöväylän pituus on luokkaa ½ cm ja naisen n.
½ cm, ja äänen nopeudeksi ilmassa (merk. 
) voidaan ottaa n. ¿ ¼ m/s. Putken
resonanssitaajuudet ( ) voidaan laskea aaltoliikkeen perusyhtälöstä 
 = , jolloin
saadaan (kun = 17 cm)
½   £¿   ¼Ñ × ¿   £¿   ¼Ñ ×   £¿     ¼Ñ ×
                                                    ¼¼ÀÞ ½ ¼¼ÀÞ ¾ ¼¼ÀÞ
         Ñ             Ñ             Ñ
eli  ¼¼ Hz:n parittomat harmoniset.
    Tasapaksun putken akustiikka saadaan ratkaistua täydellisesti (muutamalla yk-
sinkertaistavalla oletuksella) ja sen ymmärtämisestä on hyötyä jatkon kannalta jo-
ten käydään se läpi. Otetaan käsittelyyn tasapaksu putki jonka poikkipinta-ala on
Ë ja jonka pituus on , ks. kuvio 3.2. Akustisesti kiinnostavat muuttujat ovat put-
kessa olevien ilmahiukkasten nopeus jota merkitään Ú ´Ü ص (eli pisteessä Ü ole-
van hiukkasen nopeus hetkellä Ø) ja tietyn pisteen ilmanpaine (tarkemmin paineen
muutos vakioilmanpaineen ympärillä) jota merkitään Ô´Ü Øµ.

                                         38
39




Kuvio 3.1: Toisesta päästä umpinaisessa putkessa muodostuvat seisovat aallot.
Kuvassa on näytetty paineenvaihtelu, joka on nolla umpinaisessa päässä ja suu-
rimmillaan avonaisessa päässä.




Kuvio 3.2: Notaatio tasapaksun putken akustiikan käsittelyyn: Ë on poikkipinta-
ala, on putken pituus, Ü on etäisyys putken vasemmasta reunasta.
40                                            LUKU 3. AKUSTISTA FONETIIKKAA

     Oletetaan että paineaallot ovat tasomaisia, kohtisuorassa putken pituuteen näh-
den ja etenevät putken suuntaisesti. Tällä oletuksella voidaan hiukkasnopeuden
Ú ´Ü ص sijaan käyttää myöhemmin käyttökelpoisempaa tilavuusnopeutta Ù´Ü Øµ
joka tarkoittaa pienen ilmapatsaan nopeutta pisteessä Ü ja hetkellä Ø, ja niiden vä-
lillä on yksinkertainen yhteys

                                  Ù´Ü Øµ      ËÚ ´Ü ص

     Paineen ja tilavuusnopeuden välillä ovat voimassa seuraavat ns. aaltoyhtälöt
                                         Ô          Ù
                                         Ü        Ë Ø
                                                                                 (3.1)


                                       Ù
                                       Ü
                                                   Ë Ô
                                                   
¾ Ø
                                                                                 (3.2)

missä on ilmanpaine. Nämä aaltoyhtälöt saataisiin periaatteessa johdettua vielä
perustavammista fysiikan laeista mutta mietitään sen sijaan mitä ne tarkoittavat.
     Yhtälö (3.1) sanoo että jos ilmanpaine kasvaa jossain kohdassa putkea, se ai-
heuttaa tilavuusnopeuden kasvun ajassa (joka on sitä suurempi mitä suurempi il-
manpaineen muutos ja pienempi poikkipinta-ala on). Jos vaikka ajatellaan jotain
ilmahiukkasta pisteessä Ü joka ei liiku hetkellä Ø mutta ilmanpaine on suurem-
pi pisteen Ü oikealla puolella niin paine-ero aiheuttaa sen että hiukkanen alkaa
liikkua vasemmalle.
     Toinen yhtälö taas voidaan tulkita niin että tilavuusnopeuden muutos aiheut-
taa paineen muutoksen. Jos ajatellaan että pisteessä Ü hetkellä Ø paine on 0 mut-
ta tilavuusnopeus on suurempi pisteen Ü vasemmalla kuin oikealla puolella niin
hiukkaset ’kasaantuvat’ pisteeseen Ü eli paine kasvaa ajassa.
     Melko helposti nähdään (tarkistetaan alla) että jos ´Ý µ on mielivaltainen funk-
tio niin valitsemalla

                                 Ù´Ü Øµ       ´Ø    Ü   
µ

                                            
                            Ô ´ Ü Øµ
                                           Ë
                                              ´Ø    Ü      
µ

differentiaaliyhtälöpari (3.1), (3.2) tulee toteutettua. Funktio ´Ø   Ü 
µ puolestaan
voidaan tulkita äänen nopeudella 
 eteenpäin (forward, tästä nimi) liikkuvaksi aal-
loksi: kun Ø kasvaa 1:llä ja Ü 
:n verran, funktio saa samat arvot kuin Ø:llä ja Ü:llä.
Vastaavasti myös taaksepäin nopeudella 
 liikkuva aalto toteuttaa aaltoyhtälöt ja
vieläpä mielivaltainen summa tällaisista aalloista.
    Kaiken kaikkiaan aaltoyhtälöiden ratkaisu voidaan siis kirjoittaa muodossa

                      Ù ´ Ü Øµ       ´Ø     Ü 
µ        ´ Ø · Ü 
µ
41

                                  
                  Ô ´ Ü Øµ
                                 Ë
                                    ´ ´Ø    Ü    
µ · ´Ø · Ü 
µµ

missä on mielivaltainen eteenpäin kulkeva ja taaksepäin kulkeva aalto.
   Tarkistetaan tämä sijoittamalla nämä yhtälöön (3.1)
                                     Ô         Ù
                                     Ü       Ë Ø
Vasemmaksi puoleksi tulee (muistamalla sisäfunktion derivointisääntö)

                       Ë
 ´´ ½ 
µ ¼´Ø   Ü 
µ · ´½         
µ ¼ ´Ø · Ü 
µµ

                       ´ ´Ø   Ü 
µ   ´Ø · Ü 
µµ
                          ¼            ¼
                     Ë
missä ¼ on funktion      derivaatta ja vastaavasti funktiolle . Oikeaksi puoleksi
saadaan

                             ´
                                 ¼ ´Ø   Ü 
µ   ¼ ´Ø · Ü 
µµ
                        Ë
joten tämä on kunnossa. Vastaava tarkistus differentiaaliyhtälölle (3.2) jätetään
lukijan harteille.
     Ihmisen ääntöväylä ei ole tasapaksu putki, mutta silti vokaaliäänteissä for-
mantteja on yleensä karkeasti ottaen 1 kilohertsiä kohden kuten tasapaksun put-
ken tapauksessa. Formanttien taajuudet eivät vain enää ole harmonisissa suhteissa
toisiinsa vaan niiden taajuudet siirtyvät ääntöväylän muodon mukana.
     Formanttitaajuuksien laskeminen ääntöväylän muodon perusteella on yleisesti
analyyttisesti ratkeamaton ongelma (numeerisia ratkaisuja voidaan kyllä laskea).
Tarkkaan puheentuoton malliin pyrittäessä pitäisi ottaa huomioon lukuisia seikko-
ja, kuten erilaiset kurkunpään herätteet, ajalliset ja paikasta riippuvat muutokset
ääntöväylän muodossa, nenäväylän kytkeytyminen järjestelmään, huulten kohdal-
la tapahtuva ääniaallon leviäminen ympäristöön eli nk. säteily, erilaiset energiahä-
viöt, pyörteiset ilmavirtaukset jne. Yksinkertaistettujakin malleja tarkastelemalla
päästään kuitenkin melko pitkälle äänentuoton ymmärryksessä. Erityisen kätevä
lähestymistapa on ääntöväylän mallintaminen useamman peräkkäisen tasapaksun
putken avulla, sillä tämä malli saadaan ratkaistua kohtuullisella vaivalla, ja sen
tuloksetkin ovat käytännössä varsin hyviä.
     Kun liitämme kaksi tasapaksua putkea yhteen, tilavuusnopeusaallot kulkevat
edelleen äänen nopeudella kummankin putken sisällä, mutta putkien liitoskohdas-
sa tapahtuu myös heijastumista. Merkitään vasemman putken poikkipinta-alaa ËÒ
ja oikean ËÒ·½ . Määritellään heijastuskerroin Ò seuraavasti:
                                              
                                           ËÒ ËÒ·½
                                   Ò
                                           ËÒ · ËÒ·½
42                                           LUKU 3. AKUSTISTA FONETIIKKAA

Huomaa että koska pinta-alat ovat positiivisia niin aina  ½       Ò   ½. Heijastus-
kerroin ilmaisee, kuinka suuri osa putkesta toiseen liikkuvasta tilavuusnopeusaal-
losta heijastuu takaisin. Katso käytetty notaatio kuvasta 3.3: Ò on eteenpäin kul-
keva tilavuusaalto putkessa Ò ja Ò on taaksepäin kulkeva tilavuusaalto.




     Kuvio 3.3: Käytetty notaatio ja Kelly-Lochbaum–yhtälöiden vuokaavio.

    Näytteistetään järjestelmän toiminta sillä näytteenottovälillä joka ääneltä ku-
luu yhden putken kulkemiseen (eli kun aalto kulkee putken päästä toiseen se vii-
västyy yhden tapin) ja esitetään järjestelmän toiminta Þ -muunnostasossa (eli kun
aalto kulkee putken päästä toiseen se tulee kerrottua Þ  ½ :lla). Nyt tilavuusaallon Þ -
muunnoksen käyttäytyminen putkissa ja niiden liitoskohdissa voidaan esittää ns.
Kelly-Lochbaum-yhtälöillä

                      Ò·½ ´Þ µ   ´½       Ò µ Ò ´Þ µÞ
                                                         ½  
                                                               Ò Ò·½ ´Þ µ         (3.3)
43

                                                         ¾ · ´½ ·                                    ½
                           Ò ´Þ µ        Ò Ò ´Þ µÞ                             Ò µ Ò·½ ´Þ µÞ                    (3.4)
jotka voidaan myös kirjoittaa matriisimuodossa

            Ò·½ ´Þ µ                ´½           Ò µÞ
                                                         ½                 Ò                        Ò ´Þ µ
             Ò ´Þ µ                       ÒÞ
                                              ¾               ´½ ·        Ò µÞ
                                                                                ½               Ò·½ ´Þ µ

Esimerkiksi putkessa ½ oikealle kulkevasta tilavuusnopeudesta ½ :n ilmaisema
osuus heijastuu takaisin putkeen ½ ja loppuosa (½   ½ ) etenee putken ¾ puolelle ra-
japinnan yli. Putkessa ¾ vasemmalle kulkevasta aallosta takaisin heijastuu   ½ :n
ilmaisema osuus. Loogisesti jos ËÒ        ËÒ·½ niin heijastumista ei tapahdu. Myös
loogisesti jos ËÒ·½ ¼ niin koko aalto putkesta Ò heijastuu takaisin.
    Diskreettiaikainen malli ääntöväylälle saadaan nyt yksinkertaisesti liittämäl-
lä tasapaksuja putkia peräkkäin. Tätä varten ratkaistaan ensin Kelly-Lochbaum-
yhtälöistä Ò·½ ´Þ µ ja Ò·½ ´Þ µ muuttujien Ò ´Þ µ ja Ò ´Þ µ funktiona. Signaali Ò·½ ´Þ µ
saadaan suoraan yhtälöstä (3.4):
                                                   Ò Ò ´Þ µÞ
                                                                   ½            Ò ´Þ µÞ
                             Ò·½ ´Þ µ                                     ·
                                                    ½· Ò                       ½· Ò

Sijoittamalla tämä yhtälöön (3.3) saadaan

                                                  ½                       Ò Ò ´Þ µÞ
                                                                                       ½              Ò ´Þ µÞ
        Ò·½ ´Þ µ      ´½        Ò µ Ò ´Þ µÞ                   Ò                                ·
                                                                          ½· Ò                      ½· Ò

joka sievenee muotoon

                                                 Ò ´Þ µÞ
                                                              ½            Ò Ò ´Þ µÞ
                             Ò·½ ´Þ µ                             ·
                                                 ½· Ò                     ½· Ò

   Nämä yhtälöt voidaan taas kirjoittaa matriisimuodossa
                                  Þ  ½   ´  Ò µÞ
                 Ò·½ ´Þ µ        ½· Ò     ½· Ò      Ò ´Þ µ
                       Ò·½ ´Þ µ
                                  Ò Þ  ½    Þ
                                                                                     Ò ´Þ µ
                                                  ½· Ò            ½· Ò

Merkitään tässä olevaan matriisia Ò .
  Jos meillä on Æ putkea kytkettynä peräkkäin niin saadaan

                             Æ ´Þ µ                                    
                                                                  Æ ½ ´Þ µ
                                                        Æ
                             Æ ´Þ µ                                    
                                                                  Æ ½ ´Þ µ

                                                                                 
                                                                              Æ ¾ ´Þ µ
                                                        Æ     Æ ½  
                                                                              Æ  ¾ ´Þ µ
                                             .
                                             .
                                             .
                                                                                               Þµ
                                                        Æ     Æ ½     ¡¡¡        ¼
                                                                                          ¼´

                                                                                          ¼ ´Þ µ
44                                      LUKU 3. AKUSTISTA FONETIIKKAA

eli useamman putken siirtofunktio (jolla on 2 sisäänmenoa) saadaan näppärästi
matriisien tulona.
    Kelly-Lochbaum-yhtälöiden mukaista suodatinrakennetta kutsutaan ristikko-
rakenteeksi (engl. lattice structure) ja se löytyy kuviosta 3.4. Ristikkorakenteelle
on käyttöä muutenkin kuin ääntöväylän mallintamisessa, mm. adaptiivisten suo-
dattimien yhteydessä.




                           Kuvio 3.4: Ristikkorakenne.

     Kuviossa 3.4 suodattimella on 2 sisäänmenoa ja 2 ulostuloa mutta tästä saa-
daan helposti rehti suodatin yhdellä sisäänmenolla ja yhdellä ulostulolla vaikka-
pa poistamalla ensimmäisestä ja viimeisestä putkesta taaksepäin kulkevat aallot
jolloin saadaan kuvion 3.5 suodatin. Tämä voitaisiin tehdä myös hieman realis-
tisemmin esimerkiksi kytkemällä ensimmäisen putken taaksepäin kulkeva aalto
eteenpäin menevään aaltoon mutta tämä ei ole tämän käsittelyn kannalta tarpeel-
lista.




       Kuvio 3.5: Yhden sisäänmenon ja yhden ulostulon ristikkorakenne.

    Laskennallisesti siis pystymme toteuttamaan ristikkorakenteen kuvion 3.4 poh-
jalta. Tämän kurssin jatkon kannalta on kuitenkin oleellista selvittää mikä on ris-
45

tikkorakenteisen suodattimen siirtofunktio. Erityisesti haluamme osoittaa että se
                                                ´Þ µ
on all-pole-tyyppinen eli että siirtofunktiossa ´Þ µ on pelkkiä napoja (eli osoitta-
jan kaikki nollat ovat Þ ¼:ssa). Tämä ei ole aivan yksinkertaista mutta hoidam-
me homman tekemällä suodattimelle käänteissuodattimen joka on FIR-tyyppinen,
jolloin alkuperäisen suodattimen on oltava all-pole-tyyppinen.
    Lähdetään liikkeelle kuviosta 3.6 jossa on yksi lohko ristikkorakenteesta, si-
sään menevät Ò ´Þ µ, Ò ´Þ µ ja ulos tulevat Ò·½ ´Þ µ, Ò·½ ´Þ µ. Yritetään päästä ta-
kaisin muuttujiin Ò ´Þ µ, Ò ´Þ µ muuttujien Ò·½ ´Þ µ, Ò·½ ´Þ µ avulla, joka onnistuu
ratkaisemalla edelliset jälkimmäisten avulla Kelly-Lochbaum–yhtälöistä (3.3) ja
(3.4). Yhtälöstä (3.3) saadaan

                                          Ò·½ ´Þ µ ·            Ò Ò·½ ´Þ µ
                         Ò ´Þ µ
                                                  ´½           Ò µÞ
                                                                       ½
                                          Ò·½ ´Þ µÞ               Ò Ò·½ ´Þ µÞ
                                          ½            Ò
                                                           ·
                                                                      ½            Ò

Sijoittamalla tämä toiseen yhtälöön saadaan

                     Ò·½ ´Þ µÞ ·      Ò Ò·½ ´Þ µÞ
      Ò ´Þ µ                                               Þ  ¾ · ´½ ·                  Ò µ Ò·½ ´Þ µÞ
                                                                                                         ½
                Ò
                              ½       Ò


joka pienen sieventelyn jälkeen taipuu muotoon

                                  Ò Ò·½ ´Þ µÞ
                                                    ½            Ò·½ ´Þ µÞ
                                                                                    ½
                     Ò ´Þ µ
                                      ½       Ò
                                                           ·
                                                                  ½            Ò

   Nämä yhtälöt voidaan toteuttaa kuvion 3.7 mukaisella suodattimella. Termi
Þ joka vastaa siirtymistä ajassa eteenpäin voi vaikuttaa pelottavalta mutta sekin
saadaan järjestykseen jäljempänä.
    Nyt jos kytkemme edelliseen tyyliin ristikkorakenteen jälkeen ’käänteisloh-
kon’ jokaiselle ristikkorakenteen lohkolle (ensin lohko Ò, sitten Ò   ½ jne.) niin
lopputuloksena on se että siirtofunktio À ´Þ µ koko suodattimen läpi on yksinker-
taisesti À ´Þ µ ½. Tilannetta on havainnollistettu kuviossa 3.8.
    Kun tarkemmin katsotaan käänteissuodatinta ristikkorakenteen jälkeen, havai-
taan että siinä on vain viiveitä ja kertolaskuja, ja kaikki kytkennät ovat eteenpäin.
Tämän perusteella suodatin on FIR-tyyppiä.
                                                                                  ´Þ µ
    Eli tilanne on seuraava: ristikkorakenteen siirtofunktio (jota ei tunneta) on ´Þ µ
ja sen jälkeisen suodattimen siirtofunktio (myös tuntematon mutta kuitenkin FIR)
on ´Þ µ, mutta kun nämä kytketään sarjaan niin siirtofunktio on

                                      ´Þ µ
                                              ´Þ µ         ½
                                      ´Þ µ
46                                       LUKU 3. AKUSTISTA FONETIIKKAA




                     Kuvio 3.6: Yksi lohko ristikkorakenteesta.




      Kuvio 3.7: Ristikkorakenteen lohko johon on liitetty käänteinen lohko.

                                            ´Þ µ
Mutta tästä taas seuraa että suodattimen    ´Þ µ
                                                   osoittajan pitää olla ½ josta taas seu-
          ´Þ µ
raa että  ´Þ µ
               on all-pole-suodatin. Varsin yleisesti puhetta mallinnetaan all-pole-
suodattimilla (kuten seuraavan luvun lineaarisessa ennustuksessa) ja tässä on koh-
tuullisen hyvä perustelu sille miksi tämä toimii.
     Selvitellään vielä Þ -termit käänteissuodattimen toteutuksessa. Nämä ovat sikä-
li täysin loogisia että ristikkorakenne aiheuttaa signaaliin viivettä (aivan kuten sen
47




          Kuvio 3.8: Ristikkorakenne johon on liitetty käänteissuodatin.

esikuvana ollut akustinen putkimallikin). Tämän takia yleensä ollaan tyytyväisiä
jos löydetään käänteissuodatin joka palauttaa alkuperäisen signaalin viivästettynä
mutta ei tee siihen muita muutoksia. Tämä taas onnistuu ristikkorakenteen tapauk-
sessa ’työntämällä’ Þ -termit suodattimen loppuun kuten kuviossa 3.9 on osoitettu
(lukija voi taas varmistua itse siitä että tämä on sama suodatin kuin kuviossa 3.8
ja/tai tehtävä saattaa tulla harjoituksiin jos harjoitusten pitäjä huomaa tämän kom-
mentin). Jos nämä Þ :t otetaan suodattimen lopusta pois, lopputuloksena on reaa-
liaikaisesti toteutettavissa oleva suodatin joka on käänteissuodatin siinä mieles-
sä että ristikkorakenne ja tämä suodatin kytkettynä sarjaan aiheuttavat signaaliin
puhtaan viiveen.
48                                  LUKU 3. AKUSTISTA FONETIIKKAA




     Kuvio 3.9: Käänteissuodatin jossa antiviiveet on siirretty loppuun.
Luku 4

Lineaarinen ennustus

Lineaarinen ennustus (engl. linear prediction tai joskus linear predictive coding,
lyhennys LP tai LPC) on yksi tärkeimmistä puheenkäsittelyn työkaluista. Puheen-
käsittelyn kannalta LP:n tärkein ominaisuus on sen kyky mallintaa ääntöväylää.
Kuten viime luvussa todettiin, ristikkorakenteinen ääntöväylän malli on all-pole–
suodatin eli suodatin, jossa on pelkästään napoja. Lineaarinen ennustus puolestaan
on hyvä menetelmä tämän all-pole–ääntöväyläsuodattimen parametrien estimoin-
tiin mitatun puhesignaalin perusteella.
     Termi ’lineaarinen ennustus’ saattaa vaikuttaa ensi alkuun oudolta mutta se
tulee täysin loogisesti siitä että yritämme ennustaa puhesignaalin seuraavaa näy-
tettä edellisten avulla, vieläpä lineaarisen suodattimen avulla. Kuten seuraavassa
luvussa nähdään, tämän ennustussuodattimen avulla voidaan mallintaa ääntöväy-
läsuodatinta. Ääntöväyläsuodatin taas on puheentuoton kenties oleellisin piirre,
joten jos se saadaan estimoitua hyvin siitä saadaan hyödyllistä informaatiota pu-
heesta.
     Katsotaan alkuun esimerkki LP:n käyttökelpoisuudesta. Kuviossa 4.1 on esi-
tetty 30 ms kehys vokaalista [a] näytteenottotaajuudella 16 kHz. Kuviossa 4.2 on
kehyksen amplitudispektri, jossa näkyvät puheen perustaajuus (tiheät piikit) se-
kä formantit (leveät piikit verhokäyrässä). Samassa kuviossa on aaltomuodosta
lasketun LP-mallin amplitudivaste, joka vastaa varsin hyvin vokaalin amplitudis-
pektrin verhokäyrää. Jatkossa kannattaa aina pitää mielessä että puhetta käsitel-
lään lyhyissä kehyksissä ja LP-analyysi tehdään n. 10-30 ms välein.


4.1     Lineaarisen ennustuksen taustaa
Termi ’lineaarinen ennustus’ viittaa kirjaimellisesti lineaarisen järjestelmän ulos-
tulon ennustamiseen aikaisempien syötteiden Ü´Òµ Ü´Ò   ½µ           Ü´Ò   Õ µ ja ulos-
tulojen Ý ´Ò   ½µ Ý ´Ò   ¾µ    Ý ´Ò   Ôµ avulla. Tavoitteena on näiden muuttujien

                                         49
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010
Sgn4010

More Related Content

Featured

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

Sgn4010

  • 1. SGN-4010 Puheenkäsittelyn menetelmät Konsta Koppinen konsta.koppinen@tut.fi 18. joulukuuta 2006
  • 2. Sisältö 1 Signaalinkäsittelyn kertausta 1 1.1 Spektri, DFT, DTFT . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Aika-taajuusresoluutio . . . . . . . . . . . . . . . . . . . . . . . 5 1.3 Jaksollisen signaalin spektri . . . . . . . . . . . . . . . . . . . . 9 1.4 Nollilla jatketun signaalin spektri . . . . . . . . . . . . . . . . . . 11 1.5 Ikkunointi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.6 Signaalin autokorrelaatio . . . . . . . . . . . . . . . . . . . . . . 17 1.6.1 Autokorrelaation määritelmä . . . . . . . . . . . . . . . . 18 2 Fonetiikkaa 28 2.1 Puhe-elimet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2 Puheentuotto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3 Artikulatorista fonetiikkaa . . . . . . . . . . . . . . . . . . . . . 32 2.3.1 Vokaalit . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.3.2 Konsonantit . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.4 Suomen kielen äänteet . . . . . . . . . . . . . . . . . . . . . . . 36 2.5 Muita foneettisia piirteitä . . . . . . . . . . . . . . . . . . . . . . 36 3 Akustista fonetiikkaa 38 4 Lineaarinen ennustus 49 4.1 Lineaarisen ennustuksen taustaa . . . . . . . . . . . . . . . . . . 49 4.2 Ääntöväylän mallinnus . . . . . . . . . . . . . . . . . . . . . . . 52 4.2.1 Autokorrelaatioyhtälöt . . . . . . . . . . . . . . . . . . . 53 4.2.2 Levinson-Durbin rekursio . . . . . . . . . . . . . . . . . 57 5 Lineaarisen ennustuksen sovelluksia 61 5.1 Formanttien estimointi . . . . . . . . . . . . . . . . . . . . . . . 61 5.1.1 Tekijöihin jako . . . . . . . . . . . . . . . . . . . . . . . 62 5.1.2 Amplitudivasteen maksimien etsintä . . . . . . . . . . . . 64 5.2 LP-kertoimien käyttö perustaajuuden estimoinnissa . . . . . . . . 66 ii
  • 3. SISÄLTÖ iii 6 Puhesynteesi 69 6.1 Tekstianalyysi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 6.2 Puhesignaalin generointi . . . . . . . . . . . . . . . . . . . . . . 70 6.2.1 Sääntöpohjainen synteesi . . . . . . . . . . . . . . . . . . 70 6.2.2 Konkatenatiivinen synteesi . . . . . . . . . . . . . . . . . 71 6.2.3 Markovin piilomalleihin perustuva synteesi . . . . . . . . 72
  • 4. iv SISÄLTÖ
  • 5. Luku 1 Signaalinkäsittelyn kertausta Tässä luvussa kerrataan/käydään läpi seuraavat signaalinkäsittelyn tiedot joilla on erityistä merkitystä puhesignaalin käsittelyn kannalta: ¯ spektri, DFT, DTFT ja FFT ¯ aika-taajuusresoluutio ¯ signaalin jaksollisuuden ja spektrin harmonisuuden välinen yhteys ¯ ikkunointi Lukijan oletetaan osaavan signaalinkäsittelyn perusteet jotka voi hankkia esi- merkiksi kursseilta SGN-1200 Signaalinkäsittelyn menetelmät ja SGN-1250 Sig- naalinkäsittelyn sovellukset. 1.1 Spektri, DFT, DTFT Napataan kiinni signaali ×´Òµ ½ ½ ¾  ¾  ½ ja sen DFT Ë ´ µ (eli discrete Fourier transform, diskreetti Fourier-muunnos) Ë´ µ ×´Òµ ÜÔ´   Ò £¾ µ ¼ Ò ¼ ½ ½   ¾ ¿¿ ½·¾ ¾ ½  ¾ ¾ ½· ¾ ¿¿ ½ ¿   ´ ¼ ¾ µ ¾ ½¾ ¼¿ ¾ ½¾ ´ ¼ ¿ µ ¿ ¼ ¾ 1
  • 6. 2 LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA jotka löytyvät kuviosta 1.1. Esim. arvot Ë ´ µ ja Ë ´½ µ voidaan laskea samalla kaavalla, mutta lopputuloksena on se, että DFT on jaksollinen, tässä tapauksessa jaksonpituudella eli Ë ´¼µ Ë ´ µ Ë ´½¼µ Ë ´½µ Ë ´ µ Ë ´½½µ jne. Termi FFT eli fast Fourier transform viittaa nopeaan Fourier-muunnokseen jo- ka on nopea algoritmi DFT:n laskemiseksi. Insinööriperinteiden mukaisesti kui- tenkin usein käytämme nimitystä FFT myös itse DFT-muunnoksesta. Diskreetti Fourier-muunnos kertoo kuinka paljon tietyn taajuisia kompleksisia eksponenttisignaaleja alkuperäisessä signaalissa on. Jatkossa termi ’kompleksinen eksponenttisignaali’ saatetaan lyhentää muotoon ’kompleksinen sini’ tai jopa ’si- ni’, sillä ÜÔ´ µ Ó×´ µ · × Ò´ µ signaali s(n) 2 1 0 −1 −2 0 1 2 3 4 DFT:n amplitudi 6 4 2 0 0 0.5 1 1.5 2 2.5 3 3.5 4 DFT:n vaihe, radiaaneina 2 1 0 −1 −2 0 1 2 3 4 Kuvio 1.1: Signaali ×´Òµ ja sen DFT:n amplitudi ja vaihe. Signaalin ×´Òµ diskreetti Fourier-muunnos Ë ´ µ sisältää siis saman informaa- tion kuin ×´Òµ mutta joskus signaalia analysoitaessa on käyttökelpoista käyttää redundantimpaa taajuusesitysmuotoa. Jos katsotaan esimerkiksi DFT:n tappia Ë ´¾µ ×´Òµ ÜÔ´   Ò¾ £ ¾ µ Ò ¼
  • 7. 1.1. SPEKTRI, DFT, DTFT 3 se kertoo signaalin ×´Òµ ja signaalin ÜÔ´  Ò¾ £ ¾ µ sisätulon, toisin sanoen suurin piirtein sen, kuinka paljon signaalia ÜÔ´  Ò¾ £ ¾ µ sisältyy signaaliin ×´Òµ (matemaattisesti innokkaat voivat miettiä tätä tarkemmin muistelemalla vek- torien sisätuloa Ò :ssa). Signaali ÜÔ´   Ò¾ £ ¾ µ taas on kompleksinen eksponenttisignaali joten se voidaan yhtä hyvin kirjoittaa muodossa ÜÔ´  Ò µ missä ¾ £ ¾ . Ja kun tähän asti ollaan tultu, voidaan saman tien antaa taajuudelle muitakin reaaliarvoja kuin ¼ ¾ ¾£¾ ¿£¾ ja £ ¾ . Esimerkiksi jos ¼ ½ £ ¾ , niin summa ×´Òµ ÜÔ´  Ò µ Ò ¼ kertoo suunnilleen kuinka paljon signaalia ÜÔ´  Ò µ (kompleksinen eksponenttisignaali, jakso ½¼) sisältyy signaaliin ×´Òµ. Jos sama homma tehdään isolle nipulle :n arvoja saadaan funktio Ë´ µ ×´Òµ ÜÔ´  Ò µ Ò ¼ joka on signaalin ×´Òµ DTFT (eli discrete-time Fourier transform, diskreettiaikai- nen Fourier-muunnos). Kuviossa 1.2 on esitelty signaalin ×´Òµ DTFT. DTFT las- ketaan siis vastaavasti kuin DFT mutta tiheämmällä jaolla, jonka takia saatamme ajoittain viitata siihen nimellä interpoloitu DFT. Havaitaan että DTFT on jaksol- linen jaksolla ¾ (näppärä juttu koska tämä ei riipu signaalin pituudesta), ja sen näytteet arvoilla ¼ ¾ ¾£¾ ¿£¾ £ ¾ antavat täsmälleen DFT:n näytteet (jotka on osoitettu kuviossa 1.2 tähdillä). Tällä kurssilla käytetään signaalin DTFT:n amplitudista Ë ´ µ nimitystä ’spekt- ri’, joskus myös itse DTFT:sta. Yleisesti spektrillä voidaan vieläpä tarkoittaa DTFT:n amplitudin neliötä tai jopa jotain muuta taajuusesitystä joten kannattaa olla varuil- laan. Mitä iloa tästä spektristä sitten on? Esimerkiksi seuraava: otetaan 10 tappia sinisignaalia ×´Òµ × Ò´Ò £¾ ¿µ
  • 8. 4 LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA signaali s(n) 2 1 0 −1 −2 0 1 2 3 4 DTFT:n amplitudi 6 4 2 0 0 1 2 3 4 5 6 DTFT:n vaihe 2 0 −2 0 1 2 3 4 5 6 Kuvio 1.2: Signaalin ×´Òµ DTFT ja DFT:n näytteet tähdillä. jonka jaksonpituus on ¿. Tämä signaali ja sen DFT:n amplitudi löytyvät kuviosta 1.3. Koska ×´Òµ on täysin jaksollinen signaali, voisimme odottaa että sen DFT:ssa olisi vain tätä taajuutta vastaava komponentti (sekä lisäksi negatiivisella taajuu- della koska ×´Òµ on reaalinen, mutta tällä ei ole tässä niin väliä), mutta DFT:ssa näyttääkin olevan iso kasa eri taajuuksia. Selitys on siinä, että sinin taajuutta ¾ ¿ ei esiinny DFT:ssa, jonka pituus on ½¼, vaan lähimmät taajuudet ovat ¿ £ ¾ ½¼ ja £ ¾ ½¼. Jos signaalin pituus sattuisi olemaan monikerta jaksonpituudesta, DFT:ssa olisi vain yksi nollasta eroava alkio. Jos kuitenkin DFT:n sijaan lasketaankin DTFT, käy kuten kuvio 1.4 kertoo: spektripiikki on ’levinnyt’ koko taajuusalueelle, kuitenkin siten että oikean taa- juuden kohdalla on suurin piikki. DTFT antaa tässä ’oikeamman’ kuvan signaa- lista, sillä sen arvot eivät riipu niin paljon siitä miten signaalin (mahdollinen) jak- sonpituus ja ikkunan pituus sopivat toisiinsa.
  • 9. 1.2. AIKA-TAAJUUSRESOLUUTIO 5 sinisignaali 1 0.5 0 −0.5 −1 0 1 2 3 4 5 6 7 8 9 DFT:n amplitudi 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 Kuvio 1.3: 10 tappia sinisignaalia jonka jaksonpituus on 3 ja DFT:n amplitudi. 1.2 Aika-taajuusresoluutio Sinisignaalin taajuuden estimointia pohtimalla tulee ilmi yleisempi aika-taajuus- resoluution ns. Heisenbergin epätarkkuusperiaate: jos signaalin aikaresoluutio on hyvä, sen taajuusresoluutio ei voi olla kovin hyvä, ja päinvastoin. Signaalin aika- resoluutio tarkoittaa tässä ikkunan (=signaalin) pituutta ja taajuusresoluutio suurin piirtein sitä, kuinka keskittynyt sen DTFT on. Aikaresoluutio on sitä parempi mitä lyhyempi ikkuna ja taajuusresoluutio on sitä parempi mitä keskittyneempi DTFT. Ajatellaan että otetaan jostain pidemmästä signaalista 10 tapin mittainen ikkuna, jolloin tiedämme melko tarkkaan (10 näytteen tarkkuudella) missä päin signaa- lia tämä ikkuna on. Sen sijaan 10 tapin ikkunasta on vaikea tehdä kovin tarkkaa taajuusanalyysia: kyseessä voisi olla tietyntaajuinen sini ja hiukan kohinaa tai ai- kalaillaeritaajuinen sini ja hiukan enemmän kohinaa. Sen sijaan jos alkuperäisestä signaalista otetaan 1024:n tapin mittainen ikkuna, voimme jo aika hyvin diskrimi- noida edellisten taajuusvaihtoehtojen välillä, mutta nyt aikaresoluutio on heikom- pi, koska käytetty ikkuna on pidempi. Otetaan tästä esimerkkinä 16kHz:lla näytteistetty signaali joka on summa kah-
  • 10. 6 LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA sinisignaali 1 0.5 0 −0.5 −1 0 1 2 3 4 5 6 7 8 9 spektri 5 4 3 2 1 0 0 1 2 3 4 5 6 Kuvio 1.4: 10 tappia sinisignaalia jonka jaksonpituus on 3 ja sen spektri, DFT:n näytteet merkitty tähdillä. desta sinistä joiden taajuudet ovat 440Hz ja 450Hz: ×´Òµ × Ò´´ ¼ ½ ¼¼¼µ¾ Òµ · × Ò´´ ¼ ½ ¼¼¼µ¾ Òµ josta otettu ½¼¼:n näytteen pala on kuviossa 1.5. Kun tästä piirretään 440Hz:n ympäristössä laskettu DTFT 400:n ja 4000:n pituisille ikkunoille saadaan ku- vio 1.6 (DTFT:t on vielä normalisoitu näytteen pituudella). Lyhyemmän ikku- nan DTFT:ssa näkyy vain yksi piikki kun taas pidemmässä erottuvat yksittäiset sinit. Kuuntelemalla sinit lyhyempi kuulostaa (ainakin luennoitsijan korvin) ly- hyeltä piippaukselta kun pidemmässä erottaa jo huojuntaa joka viittaa läheisiin sinitaajuuksiin. Edellinen periaate voidaan formuloida matemaattisesti huomattavasti tarkem- minkin, mutta tämän kurssin kannalta järkevää lienee pitää mielessä vain periaate: mitä pidempi ikkuna, sen parempi taajuusresoluutio mutta sen huonompi aikare- soluutio.
  • 11. 1.2. AIKA-TAAJUUSRESOLUUTIO 7 kahden sinisignaalin summa 2 1.5 1 0.5 0 −0.5 −1 −1.5 −2 0 10 20 30 40 50 60 70 80 90 100 Kuvio 1.5: Kahden taajuudeltaan lähekkäisen sinisignaalin summa.
  • 12. 8 LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA DTFT:n amplitudi, 400 näytettä 1 0.8 0.6 0.4 0.2 0 400 410 420 430 440 450 460 470 480 490 500 taajuus, Hz DTFT:n amplitudi, 4000 näytettä 1 0.8 0.6 0.4 0.2 0 400 410 420 430 440 450 460 470 480 490 500 taajuus, Hz Kuvio 1.6: Kahden sinisignaalin summasta laskettu DTFT eri signaalien pituuk- silla.
  • 13. 1.3. JAKSOLLISEN SIGNAALIN SPEKTRI 9 1.3 Jaksollisen signaalin spektri Joidenkin puheäänteiden (esim. vokaalien) aaltomuoto on usein lähes jaksollinen. Signaalin jaksollisuus taas näkyy Fourier-muunnoksessa niin, että sen DFT on harmoninen, eli siinä kaikki energia on perustaajuudella ¼ ja sen monikerroilla ¾ ¼ ¿ ¼ ¼ . Tällä tiedolla on usein käyttöä puhe- ja audiosignaalien käsitte- lyssä. Mutta miksi spektri on harmoninen? Selitys 1 (hankala). Lasketaan kylmästi Æ ½   ˽ ´ µ ×½ ´Òµ ÜÔ´  Ò µ Ò ¼ missä ×½ ´Òµ on Æ :n pituinen ei-jaksollinen signaali ˽ ´ µ tämän DTFT. Jos nyt × ¾ ´Òµ ×½ ´Òµ ×½ ´Òµ℄ eli kaksi jaksoa signaalia ×½ ´Òµ, niin ¾Æ  ½ ˾ ´ µ ×¾ ´Òµ ÜÔ´  Ò µ Ò ¼   Æ ½   Æ ½ ×½ ´Òµ ÜÔ´   Ò µ· ×½ ´Òµ ÜÔ´   ´Ò · Æ µ µ Ò ¼ Ò ¼ ˽ ´ µ · ÜÔ´  Æ µË ´ µ ½ ˽ ´ µ´½ · ÜÔ´  Æ µµ Vastaavalla meiningillä kun signaalista otetaan à kopiota voidaan todeta spektrin olevan Ëà ´ µ ˽ ´ µ ½ · ÜÔ´  Æ µ· · ÜÔ´   ´Ã   ½µÆ µ℄ Eli herää kysymys miten ô µ ½ · ÜÔ´  Æ µ· · ÜÔ´   ´Ã   ½µÆ µ käyttäytyy kun à kasvaa. Koska ô µ on geometrinen sarja, saadaan (pikku muistelulla/taulukkokirjalla)   ÜÔ´  Æ Ã µ ½ ½   ÜÔ´  Æ µ ô µ Tämän funktion nimittäjä on 0 kun ¼ ¾ Æ ¾£¾ Æ ´Æ   ½µ £ ¾ Æ . Tällöin myös osoittaja on 0, joten osamäärä voidaan tällaisella taajuudella laskea
  • 14. 10 LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA l’Hospitalin säännön avulla   ÜÔ´  Æ Ã µ ½ ½   ÜÔ´  Æ µ ÐÑ Ã´ µ ÐÑ ´½   ÜÔ´  Æ Ã µµ ´½   ÜÔ´  Æ µµ   ÜÔ´  Æ Ã µ´  Æ Ã µ   ÜÔ´  Æ µ´  Æ µ à sillä :n määritelmän mukaan ÜÔ´  Æ Ã µ ÜÔ´ Æ µ ½. Lisäksi ô µ ¼ silloin kun osoittaja on 0 eli kun on ¾ ´Æ à µ:n monikerta jos se ei ole sa- malla ¾ Æ :n monikerta. Näin käy jos ¾ ´Æ à µ ¾ £¾ ´Æ à µ ´Ã   ½µ¾ ´Æ à µ ´Ã · ½µ¾ ´Æ à µ Siis: kun signaalista ×½ ´Òµ otetaan à jaksoa, sen DTFT on Ã˽ ´ µ kun on ¾ ¾ Æ :n monikerta ja nolla kun on Æ Ã :n monikerta paitsi ¾ Æ :n monikerrois- sa. Kuva 1.7 havainnollistaa tilannetta. Tämä selitys ei välttämättä ole kaikkein havainnollisin joten katsotaan vielä toinen... Selitys 2 (helpompi mutta hiukan vähemmän tarkka). Otetaan taas à kopoita Æ :n pituisesta signaalista ×½ ´Òµ signaaliin ×à ´Òµ ja olkoon signaalin ×à ´Òµ DFT Ëà ´ µ. Tavoitteena on osoittaa että DFT:n tapit paitsi ¼ à ¾Ã ´Æ   ½µÃ ovat nollia. Lähdetään liikkeelle käänteisestä DFT:sta eli ½ Æà ½  × ´Òµ Ëà ´ µ ÜÔ´ ¾ Ò ´Æ à µµ Æà ¼ Tiedämme että × ´Òµ on jaksollinen signaali jonka jaksonpituus on Æ ja se saa- daan siis summaamalla signaaleja ÜÔ´ ¾ Ò ´Æ à µµ eri :n arvoilla. Jos otam- me mukaan summaan vain ne :n arvot joilla tämä signaali on jaksollinen jaksolla Æ niin summasignaali on taatusti myös jaksollinen jaksolla Æ . Nämä :n arvot saadaan yhtälöstä ÜÔ´ ¾ Ò ´Æ à µµ ÜÔ´ ¾ ´Ò · Æ µ ´Æ à µµ Kirjoittamalla oikea puoli auki tämä yhtälö saadaan muotoon ÜÔ´ ¾ Ò ´Æ à µµ ÜÔ´ ¾ Ò ´Æ à µµ ÜÔ´ ¾ Æ ´Æ à µµ
  • 15. 1.4. NOLLILLA JATKETUN SIGNAALIN SPEKTRI 11 signaali signaali x 2 signaali x 3 3 3 3 2.5 2.5 2.5 2 2 2 1.5 1.5 1.5 1 1 1 0.5 0.5 0.5 0 0 0 0 1 2 3 0 2 4 6 0 5 10 FFT:n amplitudi FFT:n amplitudi FFT:n amplitudi 6 15 20 5 15 4 10 3 10 2 5 5 1 0 0 0 0 1 2 3 0 2 4 6 0 5 10 Kuvio 1.7: Monistettuja signaaleja ja niiden spektrit. eli ½ ÜÔ´ ¾ Æ ´Æ à µµ ÜÔ´ ¾ õ Tämä taas on voimassa vain silloin kuin à on kokonaisluku, eli juuri silloin kun ¼ à ¾Ã ´Æ   ½µÃ . Selitys 3 (selityskyky olematon mutta menee muistisääntönä). Kun aikatason signaaliin lisätään à kopiota, sen spektriin interpoloituu à nollaa jokaisen tapin väliin. 1.4 Nollilla jatketun signaalin spektri Nollien lisääminen aikatason signaalin perään ennen DFT:n laskentaa on myös usein hyödyllinen operaatio. Tällä saadaan itse asiassa hyvä approksimaatio DTFT:sta ja mm. kaikki edellä olleet kuviot DTFT:sta on laskettu tällä tavalla. Oletetaan, että meillä on 256:n näytteen pituinen signaali ×½ ´Òµ johon lisääm- me loppuun nollia siten että signaalin pituus on 1024, merkitään tätä signaalia
  • 16. 12 LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA ×¾ ´Òµ (jonka alussa majailee siis ×½ ´Òµ ja lopussa 768 nollaa). Jos laskemme alku- peräisen ja toisaalta nollilla jatketun (engl. zero-padded) jonon DFT:n, käy kuten kuvio 1.8 kertoo: DFT interpoloituu. Miksi? Tämä selittyy helposti DFT:n laskennan avulla, nimittäin DFT:n laskeminen antaa DTFT:n ˽ ´ µ näytteet taajuuksilla ¼ ¾ ¾ ¾£¾ ¾ ¾ £ ¾ ¾ . Nämä saadaan siis kaavasta ¾ ˽ ´ µ ×½ Ò℄ ÜÔ´  Ò µ Ò ¼ kun ¼ ¾ ¾ ¾£¾ ¾ ¾ £ ¾ ¾ . Pidennetyn signaalin ×¾´Òµ DTF:ssa taas on laskettuna taajuudet ¼ ¾ ½¼¾ ½¼¾¿ £ ¾ ½¼¾ (huo- maa että nämä ovat tiuhemmassa kuin edellisessä) ja nämä saadaan kaavasta ½¼¾¿ ˾ ´ µ ×¾ Ò℄ ÜÔ´  Ò µ Ò ¼ Mutta hetkinen! Koska jonon ×¾ ´Òµ ensimmäiset ¾ arvoa ovat samat kuin jonos- sa ×½ ´Òµ ja loput ovat nollia, voidaan todeta että ¾ ˾ ´ µ ×½ Ò℄ ÜÔ´  Ò µ Ò ¼ joka on siis täsmälleen sama kuin ˽ ´ µ. Siis: nollilla jatketun jonon spektri on täsmälleen sama kuin alkuperäisenkin, mutta sen DFT:ssa on tiuhempi näytteistys. Hyvä puoli nollilla jatketun jonon DFT:n laskemisessa on sen nopeus, koska se toteutetaan FFT:n avulla (DFT on siis se muunnnos, ja FFT taas algoritmi jolla DFT lasketaan). Matlabilla nollilla jatketun jonon DFT:n saa laskettua komennolla fft(x, n) missä n on haluttu pituus. 1.5 Ikkunointi Puhe ei ole stationaarinen signaali, vaan sen ominaisuudet muuttuvat tyypillisesti millisekuntien tai kymmenien millisekuntien aikana. Tämä on täysin luonnolli- nen ja hyvä asia, mutta tämä tekee sellaisten signaalinkäsittelyn menetelmien ku- ten DFT tai autokorrelaatio käyttämisen sellaisenaan epätarkoituksenmukaiseksi. Useilla äänteillä puhesignaalin omainaisuudet pysyvät lyhyen jakson ajan (n. 5- 100 ms) enemmän tai vähemmän vakiona. Tämä tarkoittaa sitä että puhesignaalis- ta otettuun lyhyeen ikkunaan voidaan soveltaa suhteellisen menestyksekkäästi pe- rinteisiä signaalinkäsittelyn menetelmiä. Suuri osa puheenkäsittelystä tapahtuukin näin: otetaan signaalista lyhyitä ikkunoita (mahdollisesti osittain päällekkäisiä) ja
  • 17. 1.5. IKKUNOINTI 13 signaali nollilla jatkettu signaali 4 4 3 3 2 2 1 1 0 0 0 5 10 15 0 20 40 60 DFT:n amplitudi DFT:n amplitudi 40 40 30 30 20 20 10 10 0 0 0 5 10 15 0 20 40 60 Kuvio 1.8: Signaali, nollilla jatkettu signaali ja molempien DFT:t. Alkuperäisen signaalin DFT:n näytteet on merkitty tähdillä. käsittelemällä niitä. Tällaista lyhyttä puheesta (tai muusta signaalista) otettua ik- kunaa kutsutaan kehykseksi (engl. frame) tai usein vain ikkunaksi.Ikkunan pituus on tyypillisesti 10-30 ms ja peräkkäisten kehysten välinen etäisyys puolet tästä. Tämä ikkunointi vastaa toteutuksellisesti sitä mitä sillä ymmärretään esimer- kiksi suodattimen suunnittelussa ikkunointimenetelmällä: otetaan pitkä signaali (esimerkiksi puhesignaali tai ideaalinen impulssivaste) ja kerrotaan se näytteittäin äärellisen pituisella ikkunafunktiolla, jolloin tuloksena saadaan äärellisen mittai- nen ja painotettu versio alkuperäisestä signaalista. Esimerkki löytyy kuviosta 1.9. Puheenkäsittelyssä ikkunafunktion täsmällinen muoto ei yleensä ole kovin kriittinen, mutta usein kannattaa käyttää jotain ’pehmeää’ ikkunaa (esimerkiksi hanning, Hamming, kolmio, puolisuunnikas) suorakulmaisen sijaan. Tämä joh- tuu pitkälti samasta syystä kuin suodattimen suunnittelussakin, ts. pehmeämmän ikkunan spektrin sivukeilat ovat huomattavasti pienemmät kuin suorakulmaisen ikkunan. Lisäksi esimerkiksi myöhemmin tarkasteltavassa LPC-analyysissä sig- naali oletetaan nollaksi ikkunan ulkopuolella, joten suorakulmaisen ikkunan ta- pauksessa kehyksen rajalla on äkillinen muutos signaalissa, mikä usein vääristää tuloksia.
  • 18. 14 LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA signaali ja ikkuna 1 0.5 0 −0.5 −1 2000 2200 2400 2600 2800 3000 3200 3400 3600 näytteen indeksi kehys 1 0.5 0 −0.5 −1 2000 2200 2400 2600 2800 3000 3200 3400 3600 Kuvio 1.9: Signaalin ikkunointi. Kuitenkin täytyy pitää mielessä, että puheenkäsittelyssä (päinvastoin kuin esi- merkiksi suodattimen suunnittelussa) menetelmät ovat harvoin täydellisesti ma- temaattisesti perusteltuja. Yleensä tavoitteena on toteuttaa järjestelmä, joka toi- mii mahdollisimman hyvin annetussa sovelluksessa. Nämä sovelluksen kriteerit taas saattavat olla hyvin vaikeasti analyyttisesti määriteltävissä, kuten esimerkiksi koodatun puheen laatu, syntetisoidun puheen ymmärrettävyys tai ehostetun pu- heen miellyttävyys. Tältä pohjalta kannattaa ikkunointiinkin suhtautua sen verran vapaasti, että on valmis käyttämään erilaista ikkunointia eri tilanteissa. Esimerkiksi: puheen koodauksessa pyritään usein esittämään näytteet täsmäl- leen sellaisina kuin ne ovat, jolloin tässä käytetään suorakulmaista ikkunointia. Sen sijaan kun puhekoodekissa lasketaan ns. LPC-kertoimet, näiden laskennassa käytetään pehmeää ikkunaa, joka on vieläpä epäsymmetrinen jotta koodekin viive saadaan minimoitua. Puheentunnistuksessa käytetään yleensä päällekkäisiä noin 10 ms pehmeitä (tyypillisesti hanning) ikkunoita, joista tehdään hypoteeseja mikä äänne voisi olla kyseessä, ja näitä hypoteeseja yhdistellään useamman kehyksen yli. Jos puhetta halutaan myös muokata (ei siis ainoastaan analysoida), kannattaa käyttää päällekkäisiä ikkunoita jotka summautuvat suurin piirtein 1:een. Esimerk-
  • 19. 1.5. IKKUNOINTI 15 ki: toteutetaan maailman yksinkertaisin koodaussysteemi, jossa lasketaan kustakin kehyksestä DFT, nollataan siitä kaikki paitsi muutama amplitudiltaan isoin tappi ja otetaan tästä käänteismuunnos. Todellisuudessa tämän toteutus vaatisi huomat- tavan paljon lisätyötä mm. kerrointen indeksien ja amplitudien koodauksessa. Sii- nä tulee kuitenkin hyvin esille erilaisia ikkunointiin, analysointiin ja syntetisoin- tiin liittyviä juttuja. Matlab-koodi löytyy osoitteesta http://www.cs.tut.fi/~puhkas/FFT_koodaus.m sekä alta. Koodin jälkeen on selitetty sen toimintaa. function syn = FFT_koodaus(ind, N, x, fs); % syn = FFT_koodaus(ind, N, x, fs); % % Ikkunointi-demo: käydään puhesignaali x läpi % pyöreäreunaisesti ikkunoiduissa 60 ms kehyksissä (jos ind == 0), tai % suorakulmaisesti ikkunoiduissa 15 ms kehyksissä (jos ind == 1), % lasketaan kustakin FFT, nollataan kaikki paitsi N isointa tappia, ja % syntetisoidaan tämän perusteella puhe takaisin ulostulosignaaliin syn. % % % ind : jos 0, käytetään 60ms pehmeää ikkunaa, jos 1, 15 ms suorakulmaista. % N : kuinka monta tappia jätetään FFT:hen % x : puhesignaali, jos ei annettu otetaan tiedostosta yhdeksan.wav % fs : näytteenottotaajuus, oletus 8000 Hz % % syn : koodattu signaali if ( nargin < 3), [x,fs] = wavread( ’yhdeksan.wav’); end x = x(:); % tehdään pystyvektoriksi if ( nargin < 4), fs = 8000; % näytteenottotaajuus end if ( ind == 0), awinlen = round( fs*0.06) % analyysi-ikkunan pituus, 60 ms % tehdään hihasta analyysi-ikkuna, pyöreät reunat, tasainen keskeltä temp = hanning( fs*0.01); % tässä ne pyöreät reunat awinfun = [temp(1:length(temp)/2); ones(awinlen-length(temp),1); ... temp(length(temp)/2+1:end)]; swinlen = round(awinlen/2); % synteesi-ikkunan pituus %puolet analyysi-ikkunasta
  • 20. 16 LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA swinfun = hanning( swinlen); % synteesi-ikkunafunktio nforward = swinlen/2; % kuinka monta tappia on kehysten välillä, 15 ms end if ( ind == 1), awinlen = round( fs*0.015); % analyysi-ikkunan pituus, 15 ms awinfun = boxcar( awinlen); swinlen = awinlen; % synteesi-ikkunan pituus = analyysi-ikkunan pituus swinfun = boxcar( swinlen); % synteesi-ikkunafunktio nforward = swinlen; end if ( rem( awinlen, 2) == 1), error(’sori, ainoastaan parilliset ikkunan pituudet käyvät.’); % käänteisen FFT:n takia end fftind = 2:floor(awinlen/2); % FFT:n puolikkaan indeksit ilman DC-tasoa ja % Nyquistin taajuutta n = 1+ceil(awinlen/2); % ensimmäisen kehyksen keskimmäinen näyte syn = zeros( size( x)); % ulostulosignaali tehdään tänne while ( n+ceil(awinlen/2) <= length(x)) awinind = n-ceil(awinlen/2)+(0:awinlen-1); % nykyisen kehyksen % analyysi-ikkunan indeksit frame = x( awinind).*awinfun; % kehys Frame = fft(frame); % kehyksen FFT %etsitään N:nneksi suurin itseisarvo [val,sind] = sort( abs( Frame( fftind))); valN = val( end-N+1); % nollataan kaikki paitsi N suurinta ja tehdään käänteinen FFT FrameMod = zeros( length( Frame),1); % modifioitu kehys FrameMod(1) = Frame(1); % säilytetään DC FrameMod( fftind) = Frame( fftind).*(abs( Frame( fftind)) >= valN); % otetaan vain isoimmat tapit FrameMod( length(Frame)+2-fftind) = conj( FrameMod(fftind)); % peilataan % FFT:n toinen puolikas iframe = ifft(FrameMod); % käänteinen FFT if ( max( abs( imag( iframe))) > 0.0001) % tarkistus error(’Käänteinen FFT ei ole reaalinen.’); end iframe = real( iframe); swinind = n - swinlen/2 + (0:swinlen-1); % synteesi-ikkunan indeksit swin = iframe( 1+ awinlen/2 - swinlen/2 + (0:swinlen-1)).*swinfun; % synteesikehys syn( swinind) = syn(swinind) + swin; % overlap-add
  • 21. 1.6. SIGNAALIN AUTOKORRELAATIO 17 n = n + nforward; % liikutaan signaalissa eteenpäin end Idea hommassa on seuraava: puheesta ikkunoidaan ensin kehys FFT-analyysia varten. Tämä tehdään joko pehmeäreunaisella 60 ms ikkunalla tai suorakaiteisella 15 ms ikkunalla. Analyysikehyksestä lasketaan FFT ja nollataan siitä kaikki paitsi itseisarvoltaan suurimmat tapit. Tälle osittain nollatulle spektrille lasketaan tämän jälkeen käänteinen FFT, jol- loin saadaan vastaava aikatason signaali. Tässä on pientä säätöä sen kanssa että FFT:n täytyy olla konjugaattisymmetrinen. Tämä tarkoittaa sitä että jos ikkunan pituus on Æ ja sen FFT on ´¼µ ´½µ ´¾µ ´Æ   ½µ niin ennen käänteistä FFT:ta pitää huolehtia siitä että ´½µ ´Æ   ¾µ ´¾µ ´Æ   ¿µ jne. Tälle muokatulle signaalille tehdään tämän jälkeen ns. synteesi-ikkunointi: sen keskeltä ikkunoidaan pala (tässä tapauksessa hanning-ikkunalla) joka summa- taan lopulliseen signaaliin, jolloin tuloksena saatavaan signaaliin ei tule äkillisiä muutoskohtia. Tätä menetelmää jossa lopullinen signaali saadaan summaamal- la päällekkäisiä kehyksiä kutsutaan overlap-add-menetelmäksi ja sille on usein käyttöä puheenkäsittelyssä. Synteesi-ikkunointia havainnollistaa kuvio 1.10. Mm. hanning-ikkunan käytössä on vielä se hyvä puoli että parittoman pituiset puoliksi päällekkäiset ikkunat summatuvat 1:een. Jos käytetään 15 ms suorakaideikkunaa, peräkkäiset kehykset eivät osu ollen- kaan päällekäin, vaan synteesi tapahtuu liimaamalla käänteisen FFT:n tuottamia aikatason signaaleja sellaisenaan peräkkäin. Kehysten rajoilla esiintyy täten epä- jatkuvuuskohtia, jotka saavat ulostulopuheen kuulostamaan rosoiselta. Huomaa, että kummankin ikkunan tapauksessa puhe ’koodataan’ samalla mää- rällä parametreja (ottamatta kvantisointia huomioon): kummallakin menetelmällä ikkunaa liikutetaan eteenpäin 15 ms kehysten välillä. Merkille kannattaa panna myös se, että 60 ms ikkunalla koodattu puhe kuulostaa subjektiivisesti paremmal- ta kuin 15 ms suorakaideikkunalla vaikka edellisestä aiheutuvan kohinan teho on itse asiassa suurempi. 1.6 Signaalin autokorrelaatio Signaalin autokorrelaatio kertoo kuinka paljon signaali eri viiveillä korreloi itsen- sä kanssa (josta nimikin). Se on Fourier-muunnoksen ohella yksi käyttökelpoisim- mista signaalien analysointimenetelmistä joten käydään se tässä läpi siltä varalta että se ei ole vielä lukijalle tuttu juttu. Puheenkäsittelyssä autokorrelaatiota käyte- tään erityisesti puheen perustaajuuden määrittämisessä.
  • 22. 18 LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA analyysi−ikkuna (ehyt viiva) ja synteesi−ikkuna (katkoviiva) 1 0.8 0.6 0.4 0.2 0 100 200 300 400 500 600 700 800 900 näytteet Kuvio 1.10: M-funktiossa käytetyt analyysi- ja synteesi-ikkunat. 1.6.1 Autokorrelaation määritelmä Meidän tarkoituksiimme riittää hyvin määritellä autokorrelaatio vain äärellisen pi- tuisille signaaleille, jotka käytännössä ovat kehyksiä jostain pidemmästä signaa- lista. Kuviossa 1.11 on esimerkki tällaisesta signaalista. Signaalin indeksoinnin kannalta on usein kuitenkin näppärämpää esittää tämä äärettömän pitkänä signaa- lina, joka on 0 muualla kuin tämän äärellisen ikkunan kohdalla. Kuvio 1.12 esittää tämän nollilla jatketun signaalin. Signaalin ×´Òµ autokorrelaatio Ö´ µ määritellään kaavalla ½ Ö´ µ ×´Òµ×´Ò   µ (1.1) Ò  ½ missä saa kaikki kokonaislukuarvot  ¾  ½ ¼ ½ ¾ . Huomaa että autokorrelaatio on siis viiveen funktio vastaavasti kuin esimerkiksi FFT on taajuu- den funktio, jonka takia sitä nimitetään myös autokorrelaatiofunktioksi. Autokor- relaatio on itse asiassa korrelaatio signaalien ×´Òµ ja ×´Ò   µ välillä: sen arvo on sitä suurempi mitä enemmän nämä signaalit korreloivat keskenään.
  • 23. 1.6. SIGNAALIN AUTOKORRELAATIO 19 puhekehys 0.1 0.08 0.06 0.04 0.02 0 −0.02 −0.04 −0.06 −0.08 −200 0 200 400 600 800 näyte Kuvio 1.11: Äärellisen pituinen kehys. Eräs ongelma autokorrelaation määrittelemisessä kaavalla (1.1) on se, että suuremmilla viiveillä summaan tulee mukaan vähemmän termejä ja tämän takia autokorrelaation arvo pienenee viiveen kasvaessa signaalista riippumatta. Esimer- kiksi jos meillä on Æ :n näytteen pituinen ikkuna vakiosignaalia 1 (eli ×´Òµ ½ kun ¼ Ò Æ ja ×´Òµ ¼ muulloin), kun ¼ Æ autokorrelaatio on Ö´ µ ×´Òµ×´Ò   µ Ò Æ ½   ×´Òµ×´Ò   µ Ò Æ ½   ½ Ò Æ   Kun  Æ ¼, vastaavalla päättelyllä todetaan että autokorrelaatio on Ö´ µ Æ   Kun Æ , toinen termi summassa (1.1) on aina 0, joten kaiken kaikkiaan tässä
  • 24. 20 LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA nollilla jatkettu puhekehys 0.1 0.08 0.06 0.04 0.02 0 −0.02 −0.04 −0.06 −0.08 −200 0 200 400 600 800 näyte Kuvio 1.12: Nollilla jatkettu äärellisen pituinen kehys. tapauksessa autokorrelaatioksi tulee   ´ Æ ÙÒ Æ Ö´ µ ¼ ÙÒ Æ Toisin sanoen tämä autokorrelaation määritelmä ’suosii’ pienempiä viiveitä. Tämän takia autokorrelaatiosta löytyy myös pari muunnelmaa joissa tämä on- gelma pyritään kiertämään. Ensimmäinen muunnelma on määritellä autokorrelaa- tio kaavalla ×´Òµ×´Ò   µ ½ Ö½ ´ µ Æ   Ò (1.2) jossa yksinkertaisesti otetaan keskiarvo kaikista nollasta eroavista tulon termeistä viiveellä . Tämä kyllä poistaa arvojen pienenemisen ongelman mutta tilalle tulee toinen: mitä suurempi viive on, sitä vähemmän termejä summaan tulee mukaan ja sitä ’epäluotettavampi’ tulos on. Esimerkiksi kohinaisella signaalilla autokor- relaatio voi saada suuriakin arvoja kun viive on suuri vaikka signaali ei näillä viiveillä oikeastaan korreloikaan, esimerkki tästä löytyy jäljempänä. Koko hom- ma saataisiin perusteltua täsmällisemmin sillä että tämän autokorrelaatiofunktion estimaattorin varianssi kasvaa kun viive kasvaa (vaikka se onkin harhaton) mutta tämä vaatisi stokastisten prosessien teoriaa joten ei käydä tätä sen tarkemmin läpi.
  • 25. 1.6. SIGNAALIN AUTOKORRELAATIO 21 Vielä yksi muunnos autokorrelaatiosta saadaan kaavalla Æ ½   Ö¾ ´ µ ×´Òµ×´Ò   µ Ò  Æ ·½ kun  Æ Æ ja summan laskemiseen käytetään ×´Òµ:n arvoja kun Ò  ¾Æ ·¾ ¾Æ   ¾. Tässä jippo on siinä, että kaikilla viiveillä otetaan summaan mukaan sama määrä termejä jolloin luotettavuus säilyy. Ongelmana on se että signaalista tarvitaan pidempi ikkuna kuin edellisillä menetelmillä ja eri viiveillä autokorrelaatio tulee laskettua eri näytteiden yli, jonka seurauksena osa seuraavan kappaleen ominaisuuksista eivät ole voimassa. Jatkossa käytämme autokorrelaatiota (1.1) mutta on hyvä pitää mielessä että myös vaihtoehtoja on olemassa. Matlabissa autokorrelaation saa laskettua komen- nolla xcorr. Autokorrelaatiofunktion ominaisuuksia Kaavan (1.1) autokorrelaatiolla on seuraavat ominaisuudet: ¯ Ö´ µ Ö´  µ, toisin sanoen autokorrelaation on symmetrinen funktio 0- viiveen suhteen. Jätetään tämä lukijan todettavaksi. ¯ Ö´¼µ = signaalin energia. Tämä seuraa suoraan siitä että Ö´¼µ ×´Òµ¾ Ò ¯ Ö´¼µ Ö´ µ kaikilla :n arvoilla. Otetaan lähtökohdaksi perusmatikan kursseilta tuttu Cauchy-Schwarz–epäyhtälö Æ :n pituisille reaalivektoreille Ü ja Ý : ¾ Æ Æ Æ ¾ Ü´ÒµÝ ´Òµ Ü´Òµ Ý ´Òµ¾ Ò ½ Ò ½ Ò ½ Myös tässä voidaan summata kaikkien kokonaislukuindeksien Ò yli kunhan vain äärellinen määrä arvoista poikkeaa nollasta. Kun meillä on joku viive niin otetaan vektoriksi Ü signaali ×´Òµ ja vektoriksi Ý viivästetty signaa- li ×´Ò   µ. Huomaa että koska ×´Òµ:ssa vain äärellisen monta arvoa eroaa nollasta, sekä ×´Òµ että ×´Ò   µ voidaan esittää äärellisen pituisina vektorei- na. Konkreettinen esimerkki: jos ×´Òµ ½ ¾ ¿ ℄ ja ¾ niin tehdään vektorit Ü ½ ¾ ¿ ¼ ¼
  • 26. 22 LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA ja Ý ¼ ¼ ½ ¾ ¿ Nyt kun sovelletaan Cauchy-Schwarz-epäyhtälöä näihin vektoreihin saa- daan ¾ ×´Òµ×´Ò   µ ×´Òµ¾ ×´Ò   ¾ µ Ò Ò Ò ¾ ×´Òµ¾ Ò koska È Ò ×´Òµ¾ È Ò ×´Ò   µ¾ . Tästä seuraa että Ö´ µ¾ Ö´¼µ¾ josta puolestaan seuraa että Ö´¼µ Ö´ µ . ¯ autokorrelaatiofunktion Fourier-muunnos = signaalin Fourier-muunnoksen amplitudin neliö (Wiener-Khinchin–teoreema). Tarkalleen ottaen siis ¬ ¬¾ ¬ ¬ Ö´Òµ ÜÔ´   Òµ ¬ ¬ ¬ ×´Òµ ÜÔ´   Ò ¬ µ¬ ¬ Ò Ò Tämä on hitusen yllättävä tulos ja yksi tapa hahmottaa sitä on seuraava: au- tokorrelaatiofunktion Ö´ µ symmetrisyydestä seuraa helposti että sen Fourier- muunnos on reaalinen. Tämä teoreema sanoo että Fourier-muunnos on pait- si reaalinen myös ei-negatiivinen (koska edellisen yhtälön oikea puoli on aina ¼). Tällä kurssilla emme isommin käytä tätä tulosta mutta se on kui- tenkin hyvä pitää mielen perukoilla. Esimerkkejä autokorrelaatiosta Katsotaan läpi muutamia signaaleja ja niiden autokorrelaatio jotta saadaan jokin käsitys siitä miten autokorrelaatio toimii. Olemme lähinnä kiinnostuneita siitä mi- kä autokorrelaatiofunktion muoto on, joten tätä tarkoitusta varten autokorrelaatio saadaan näppärästi normalisoitua jakamalla sen arvot Ö´¼µ:lla. Esimerkki 1: ×´Òµ ½ eli vakiosignaali. Totesimme jo aiemmin että tämän signaalin autokorrelaatiofunktio on Ö´ µ Æ  
  • 27. 1.6. SIGNAALIN AUTOKORRELAATIO 23 Tässä tapauksessa Ö´¼µ Æ , joten normalisoitu autokorrelaatio (siis autokorre- laatio jaettuna signaalin energialla) on Ö´ µ ½  Æ Tämä on esitetty kuviossa 1.13. Tässä on oleellista huomata että vaikka ×´Òµ:n näytteet eri viiveillä korreloivat täysin, niin signaalin ikkunointi aiheuttaa sen että autokorrelaatio kuitenkin pienenee lineaarisesti viiveen kasvaessa. vakiosignaali 2 1.5 1 0.5 0 0 10 20 30 40 50 60 70 80 90 100 normalisoitu autokorrelaatio 1 0.8 0.6 0.4 0.2 0 −100 −80 −60 −40 −20 0 20 40 60 80 100 viive Kuvio 1.13: Vakiosignaali ja autokorrelaatio. Esimerkki 2: ×´Òµ = satunnaista kohinaa jonka keskiarvo ¼. Ajatellaan vaik- ka että signaali saadaan heittämällä -sivuista noppaa jonka arvot ovat  ¿ ¼ ½ ja ¾. Kun ¼ niin Ö ´¼µ on signaalin energia, kuten tavallista. Kun ¼, meillä on summa Ö´ µ ×´Òµ×´Ò   µ Ò
  • 28. 24 LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA Nyt minkä tahansa kahden arvon ×´Òµ ja ×´Ò   µ tulo saadaan taulukosta  ¿ ¼ ½ ¾  ¿ ¼  ¿   ¼ ¼ ¼ ¼ ¼ ½  ¿ ¼ ½ ¾ ¾   ¼ ¾ Todetaan että taulukon alkioiden summa on ¼ ja jokainen niistä on yhtä todennä- köinen, joten summasta ×´Òµ×´Ò   µ Ò tulee arvoksi ’keskimäärin’ 0. Tämä päättely saataisiin huomattavasti vakaammalle pohjalle käyttämällä to- dennäköisyyslaskennan teoriaa mutta tämä tarkkuus riittää meidän tarpeisiimme. Eli satunnaisen signaalin tapauksessa autokorrelaatio Ö´ µ on signaalin energia kun ¼ ja koko lailla 0 kun ¼. Kuviossa 1.14 on esitetty yksi realisaatio tästä signaalista kun sen pituus on Æ ½¼¼ ja tämän normalisoitu autokorrelaatio. Todetaan että autokorrelaatio ei ole tarkalleen 0 kun ¼ mutta kuitenkin aika liki. Kuviossa 1.15 on esitelty tilanne kun signaalin pituus Æ ½¼¼¼, josta huomataan että normalisoitu auto- korrelaatio on huomattavasti pienempi kun ¼. Normalisoitu autokorrelaatio käyttäen kaavaa (1.2) on vielä laskettu kuviossa 1.16 josta välittömästi havaitaan että pitkillä viiveillä tämä menetelmä ei ole kovin luotettava. Tavallaan nämä kaksi esimerkkisignaalia kuvastavat autokorrelaation ääripäi- tä: täysin korreloivan signaalin normalisoitu autokorrelaatio on ½   Æ ja täysin satunnaisen signaalin normalisoitu autokorrelaatio on impulssi (siis ½ kun ¼ ja 0 muuten). Käytännön signaalit elävät jossain näiden ääripäiden välimaastossa jota varten katsotaan pari esimerkkiä autokorrelaatiosta eri puheäänteissä. Esimerkki 3: kuviossa 1.17 on esitetty kehys (suorakaideikkunalla ikkunoitu) [ä]-äänteestä ja sen autokorrelaatio. Havaitaan että autokorrelaatiossa on useita suuria piikkejä joten eri viiveet korreloivat vahvasti keskenään. Erityisesti viiveel- lä 150 autokorrelaatiossa on iso positiivinen piikki joka johtuu puheen perustaa- juudesta tässä kehyksessä; yhdellä jaksonpituudella viivästetty puhe näyttää aika samalta kuin viivästämätön puhe. Tässä kehyksessä puheen perustaajuus on siis ½ ¼¼¼ ÀÞ ½ ¼ ½¼ ÀÞ. Itse asiassa autokorrelaation piikkien etsintä on hyvä tapa löy- tää puheen perustaajuus (tästä tarkemmin seuraavassa luvussa). Esimerkki 4: kuviosta 1.17 löytyy kehys (taas suorakaideikkunalla ikkunoi- tu) [s]-äänteestä ja sen autokorrelaatio. Tässä tapauksessa autokorrelaatio on koh- tuullisen impulssimainen mikä viittaa siihen että [s]-äänteen aaltomuoto on melko satunnainen.
  • 29. 1.6. SIGNAALIN AUTOKORRELAATIO 25 kohinasignaali 2 1 0 −1 −2 −3 0 10 20 30 40 50 60 70 80 90 100 normalisoitu autokorrelaatio 1.5 1 0.5 0 −0.5 −100 −80 −60 −40 −20 0 20 40 60 80 100 viive Kuvio 1.14: Satunnaissignaalin autokorrelaatio. pidempi kohinasignaali 2 1 0 −1 −2 −3 0 100 200 300 400 500 600 700 800 900 1000 normalisoitu autokorrelaatio 1.2 1 0.8 0.6 0.4 0.2 0 −0.2 −1000 −800 −600 −400 −200 0 200 400 600 800 1000 viive Kuvio 1.15: Pidemmän satunnaissignaalin autokorrelaatio.
  • 30. 26 LUKU 1. SIGNAALINKÄSITTELYN KERTAUSTA pidempi kohinasignaali 2 1 0 −1 −2 −3 0 100 200 300 400 500 600 700 800 900 1000 normalisoitu autokorrelaatio r (k) 1 4 3 2 1 0 −1 −2 −3 −1000 −800 −600 −400 −200 0 200 400 600 800 1000 viive Kuvio 1.16: Satunnaissignaalin autokorrelaatio kaavalla (1.2). [ä]−äänne 0.1 0.05 0 −0.05 −0.1 0 50 100 150 200 250 300 350 400 450 500 normalisoitu autokorrelaatio 1 0.5 0 −0.5 −500 −400 −300 −200 −100 0 100 200 300 400 500 viive Kuvio 1.17: [ä]-äänne ja autokorrelaatio.
  • 31. 1.6. SIGNAALIN AUTOKORRELAATIO 27 [s]−äänne 0.03 0.02 0.01 0 −0.01 −0.02 −0.03 0 50 100 150 200 250 300 350 400 450 500 normalisoitu autokorrelaatio 1 0.8 0.6 0.4 0.2 0 −0.2 −0.4 −500 −400 −300 −200 −100 0 100 200 300 400 500 viive Kuvio 1.18: [s]-äänne ja autokorrelaatio.
  • 32. Luku 2 Fonetiikkaa Puhe on kaiken kaikkiaan hyvin monitasoinen ja monimutkainen inhimillinen ja fysikaalinen ilmiö, sisältäen kysymyksiä liittyen mm. kognitioon, kieleen, fysiolo- giaan, kuuloon ja akustiikkaan. Fonetiikka tarkoittaa yleisesti puheen tutkimusta, joka sisältää piirteitä edellisistä tieteenaloista. Puheenkäsittelyn kannalta joudumme toistaiseksi keskittymään puheen alem- piin tasoihin, joissa kysytään esimerkiksi: Millaisia erilaisia äänteitä on olemassa? Mikä on perustaajuus/puheen resonanssitaajuudet tietyllä hetkellä? Miten puhet- ta kannattaa koodata? Mitä foneemeja tietyssä puhejaksossa esiintyy? Näiden ja muiden kysymysten selvittämiseksi tarvitaan perustietoja siitä, millainen signaali puhe oikeastaan on. Suuri osa puheen akustisista ominaisuuksista juontaa juurensa ihmisen pu- heentuottojärjestelmän ominaisuuksiin. Siksi tämän järjestelmän toiminta katso- taan ensin läpi, ja sen jälkeen sitä pyritään mallintamaan. 2.1 Puhe-elimet Hyviä kuvioita liittyen oheiseen tekstiin löytyy osoitteesta http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/006.htm Akustisesti puhe on ilmanpaineen vaihtelua, jonka voimanlähteenä on keuh- koissa oleva tiivistetty ilma. Sisäänhengityksessä pallea ja kylkivälilihakset jän- nittyvät, jolloin rintakehä laajenee ja keuhkoihin syntyy alipaine ja ilmaa virtaa niihin. Uloshengityksen aikana lihakset rentoutuvat, jolloin rintakehä supistuu, ja ilmaa virtaa ulos keuhkojen ylipaineesta johtuen. Puhetta esiintyy lähes yksino- maan uloshengityksen aikana. Kannattaa pitää mielessä, että puhe-elimet (keuh- kot, kieli, äänihuulet, yms.) ovat alun perin kehittyneet mahdollistamaan ihmi- 28
  • 33. 2.1. PUHE-ELIMET 29 sen muita toimintoja, lähinnä hengityksen ja syömisen, ja ovat vasta myöhemmin adaptoituneet myös puheen tuottamiseen. Kurkunpää on kehittynyt elin, jonka päätarkoituksena on toimia läppänä jo- kaa erottaa ruokatorven henkitorvesta nielaisemisen ajaksi. Puheentuoton kannal- ta oleellisinta kurkunpäässä on että se muokkaa keuhkoista lähtevän äänettömän ilmavirran jollain tapaa kuuluvaksi. Kurkunpää muodostuu seuraavista osista: kil- pirusto (aataminomena), äänihuulet ja kannurustot. Äänihuulten välissä olevaa rakoa nimitetään ääniraoksi eli glottikseksi ja se muodostuu huuliraosta (ääni- huulten välissä) ja rustoraosta (kannurustojen välissä), ks. kuvio 2.1. Ihminen pystyy säätelemään monipuolisesti ääniraon muotoa kurkunpään lihaksien avulla. Kuvio 2.1: Kurkunpään poikkileikkaus äänihuulten kohdal- ta ylhäältä katsottuna, kuvion leikattu henkilö katsoo ylöspäin (http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/). Ääntöväylällä tarkoitetaan yleensä puhe-elimiä kurkunpään jälkeen, ks. kuvio 2.2. Nämä jakautuvat seuraaviin alueisiin: nieluontelo, nenäontelo ja suuontelo. Tärkeimmät puhe-elimet ääntöväylässä ovat kieli, kitapurje, alaleuka ja huulet. Kieli on puheentuoton tärkein elin: sen eri asennot määräävät suurimman osan äänteistä. Kitapurje on lihas, jonka avulla voidaan erottaa nieluontelo nenäonte- losta. Ohessa lyhyt suomi-englanti-termistö aiheesta:
  • 34. 30 LUKU 2. FONETIIKKAA alveolar ridge hammasvalli arytenoid cartilage kannurusto bronchus keuhkoputki cartilage rusto cricoid cartilage rengasrusto diaphragm pallea epiglottis kurkunkansi false vocal folds taskuhuulet glottis äänirako hyoid bone kieliluu larynx kurkunpää lungs keuhkot nasal cavity nenäontelo palate kitalaki thyroid cartilage kilpirusto tongue kieli trachea henkitorvi vocal folds äänihuulet vocal tract ääntöväylä oral pharynx, pharyngeal cavity nieluontelo pharynx nielu uvula kitakieleke velum, soft palate kitapurje Kuvio 2.2: Ääniväylän puhe-elimet (Thomas W. Parsons, Voice and Speech Processing, McGraw-Hill, Inc., 1987. s. 63).
  • 35. 2.2. PUHEENTUOTTO 31 2.2 Puheentuotto Puhetta muodostuu, kun keuhkoista lähtevä ilmavirta kulkee ääniraon eli glot- tiksen läpi ja moduloituu ääntöväylässä. Ääniraosta lähtevä ääni voidaan ajatella herätteeksi, jonka ääntöväylä suodattaa. Ilmavirtaus sinänsä on äänetöntä, joten äänteet muodostetaan tavalla tai toisella aiheuttamalla muutoksia keuhkoista läh- tevään ilmavirtaan. Alla on lueteltu glottiksen eri herätetyypit. soinnilliset äänteet Glottis aukenee ja sulkeutuu jaksollisesti, mikä aiheuttaa kat- konaisen ilmavirran. Yhtä auki-kiinni jaksoa sanotaan värähdykseksi, ja sen kesto määrää äänen perustaajuuden jota säädetään esim. laulamisessa. Tyy- pillisesti taajuus on n. 50-500Hz (matalampi miehillä, korkeampi naisilla ja lapsilla). Äänteitä, joissa äänihuulet värähtelevät, sanotaan soinnillisiksi (esim. kaikki vokaalit). hengitys Glottis on auki. Ilmavirta on tasaista ja sen takia (lähes) äänetöntä. soinnittomat äänteet Glottis on jonkin verran auki mutta äänihuulet eivät väräh- tele. kuiskaus Glottis on kiinni mutta rustorako auki, jolloin muodostuu kuultavaa hankaushälyä (friction). Kuvio 2.3: Äänihuulten asento eri äännetyypeissä (Kalevi Wiik, Fonetiikan Pe- ruskurssi, WSOY, 1981). Ääntöväylä suodattaa glottisherätteen puhe-elinten asennosta riippuvalla ta- valla. Kunkin äänteen aikana ääntöväylällä on tyypillinen (äänteestä riippuva) muotonsa, jota voidaan mallintaa akustisena putkena. Tällä putkella on erityises- ti tietyt resonanssitaajuudet, joiden johdosta äänteen spektrissä on havaittavissa vahvistuneita osavärähtelyalueita eli formantteja. Formantit ovat tärkein seuraus ääniväylän moduloinnista; niiden avulla voidaan luokitella kaikki vokaalit. Toinen tapa muodostaa äänteitä on aiheuttaa ääntöväylän johonkin osaan kapeikko jonka
  • 36. 32 LUKU 2. FONETIIKKAA läpi kulkiessaan ilmavirta muuttuu pyörteiseksi. Kolmas laaja äänteiden luokka saadaan sulkemalla hetkeksi ääntöväylä kokonaan joltain kohtaa ja avaamalla se, jolloin ilmavirta ’poksahtaa’ ulos. Seuraavassa luvussa on selitetty tämän kurssin jatkon kannalta oleellisimmat tiedot siitä, miten puhe-elimet tuottavat tietyn äänteen ja millaisia akustisia omi- naisuuksia äänteellä tästä konfiguraatiosta johtuen on. Yleisesti artikulatorinen fonetiikka tutkii, millä tavalla puhe-elimet sijoittuvat tietyn äänteen aikaansaami- seksi kun taas akustisessa fonetiikassa tutkitaan akustisen aallon ja puhe-elinten asentojen yhteyttä (tästä lisää myöhemmin). 2.3 Artikulatorista fonetiikkaa Eräs tärkeä fonetiikan tavoite on luokitella eri kielissä esiintyvät äänteet. Tätä tarkoitusta varten kehitettiin vuonna 1888 International phonetic alphabet (IPA). IPA:n luokittelusta ollaan jokseenkin yksimielisiä, mutta lähinnä merkinnällisistä syistä (IPAssa käytetyttyjä symboleita ei löydy kirjoituskoneesta) käytetään mui- takin foneettisia aakkostoja, mm. Arpabet. IPA-luokitus löytyy osoitteesta http://www.arts.gla.ac.uk/IPA/fullchart.html Äänteitä voidaan käsitellä foneettiselta kannalta, jolloin tarkastelu ei ole si- doksissa mihinkään tiettyyn kieleen, vaan äänteet pyritään kuvaamaan mahdolli- simman täsmällisesti niiden artikuloinnin (puhe-elinten asennon) avulla. Toinen lähestymistapa on fonologinen, jossa tarkastellaan tietyssä kielessä esiintyviä eri äänteitä, erityisesti niiden äänteiden luokkaa jotka tulkitaan samaksi. Esimerkiksi [k] ja [p] ovat suomen kielessä eri äänteitä koska sanaa kala ei ymmärretä samaksi kuin sanaa pala. Sen sijaan äänteet [s] ja "suhu-[s]"(kuten esim. sanassa shekki) eivät muuta sanan merkitystä, joten ne tulkitaan suomen kielessä samaksi äänteeksi, kun taas esim. venäjän kielessä ne ovat eri äänteitä. Kaikkien maailman kielten äänteet jakautuvat vokaaleihin ja konsonantteihin (selitetty tarkemmin alla), joita edelleen jakaa tarkemmin eri ominaisuuksien pe- rusteella (myös selitetty tarkemmin alla). Kannattaa koko ajan pitää mielessä että tämän kappaleen luokittelu on tullut pyrkimyksestä selittää miten ihmisten ään- teet muodostuvat; puhuminen onnistuu varsin hyvin tietämättä tästä luokituksesta mitään (joskus jopa paremmin). 2.3.1 Vokaalit Vokaalit (engl. vowel) ovat soinnillisia äänteitä, joissa ääniväylä on avoin. Eri kie- lissä saattaa kuitenkin esiintyä tarvetta edellisen määritelmän hienosäätöön, esim. suomen kielessä vokaalit määritellään äänteiksi joissa ’ääntä pääsee esteettä suun keskeltä ulos’ (näin päästään eroon nasaaleista [n] ja [m] sekä lateraalista [l]).
  • 37. 2.3. ARTIKULATORISTA FONETIIKKAA 33 Vokaalit taas voidaan luokitella seuraavien ominaisuuksien perusteella: ¯ kielen asento ¯ huulten pyöreys ¯ nasaalisuus Erityisesti kielen asennossa on oleellista ääniväylän kapeimman kohdan si- jainti. Tämä voidaan esittää ns. vokaalidiagrammin avulla, jossa on kuvallisesti esitetty kielen keskiviivan korkein kohta suussa. [i] [y] [u] [e] [ö] [o] [ä] [a] Kuvio 2.4: Vokaalidiagrammi, jossa on esitettynä kielen korkein kohta suomen eri vokaaleissa. Kuvio esittää pelkistetysti vasemmalle katsovan henkilön suuonteloa. Huulten asennon perusteella äänteitä nimitetään labiaalisiksi (jos huulet ovat pyöristetyt) tai illabiaalisiksi (jos eivät). Esim. suomen [i] ja [y] eroavat lähinnä huulten pyöreyden perusteella. Nasaalisuus liittyy siihen, onko kitapurje alhaalla vai ylhäällä. Kun kitapurje on alhaalla eli auki, ilmavirta pääsee nenäonteloon ja syntyy nasaalinen äänne, ja vastaavasti kitapurjeen ollessa ylhäällä syntyy oraalinen äänne.
  • 38. 34 LUKU 2. FONETIIKKAA 2.3.2 Konsonantit Konsonanteissa (engl. consonant) ilmavirta ei pääse vapaasti suun kautta ulos. Tarkemmin ottaen konsonantit voidaan luokitella seuraavien ominaisuuksien pe- rusteella: ¯ ääntymäpaikka ¯ ääntymätapa ¯ sointi Ääntymäpaikka (engl. place of articulation) kertoo missä kohdassa ääntö- väylää muodostuu tärkein kapeikko. Esimerkisi [p]-äänteessä kapeikko muodos- tuu huulten välissä ja [t]-äänteessä kielen ja ylähampaiden takana. Eri ääntymä- paikat ovat (ks. kuvio 2.5): bilabiaalinen huulten välissä labiodentaalinen alahuulen ja ylähampaiden välissä dentaalinen hampaiden välissä alveolaarinen hammasvallin ja kielen välissä palato-alveolaarinen kitalaen etuosan ja kielen välissä palataalinen kitalaen ja kielen välissä velaarinen kitapurjeen ja kielen välissä uvulaarinen kitapurjeen kärjen (uvula) ja kielen välissä faryngaalinen nielun takaosan ja kielen välissä Ääntymätavalla (engl. manner of articulation) tarkoitetaan sitä, kuinka va- paasti ilmavirta pääsee virtaamaan konsonanttia äännettäessä. Konsonantteja jois- sa ilmavirralla on vapaa ulospääsy sanotaan resonanteiksi ja niitä joissa ei sano- taan obstruenteiksi. Resonantit voidaan edelleen ryhmitellä tarkemmin: ¯ puolivokaalit (engl. approximant). Nämä muistuttavat vokaaleja, mutta kie- lellä tai huulilla muodostettava kapeikko on ahtaampi kuin vokaaleilla. Suo- men puolivokaaleja ovat [j] ja [v].
  • 39. 2.3. ARTIKULATORISTA FONETIIKKAA 35 Kuvio 2.5: Konsonanttien ääntymäpaikat: 1: bilabiaalinen, 2: labiodentaalinen, 3: interdentaalinen, 4: dentaalinen, 5: alveoraalinen, 6: palataalinen, 7: velaarinen, 8: uvulaarinen, 9: faryngaalinen, 10: laryngaalinen, 11: apikaalinen, 12: koronaali- nen, 13: laminaalinen, 14: dorsaalinen, 15: radikaalinen, 16: sublingvaalinen, 17: epiglottaalinen. ¯ nasaalit. Nasaaleissa ilmavirta kulkee ulos vain nenän kautta, suomessa [n], [m], [ng]. ¯ likvidat. Näissä ilmavirta tulee suusta eri tavalla kuin vokaaleissa. Likvidat jaotellaan edelleen lateraaleiksi joissa ilmavirta kulkee kielen laitojen yli (suomessa [l]) ja tremulanteiksi joissa ilmavirta on katkonainen (suomessa [r]). Samoin obstruenttien jakoa voidaan hienontaa: ¯ klusiilit (engl. plosive). Näissä obstruenteissa ilmavirta katkaistaan koko- naan (suomessa [p], [t], [k]). Myös [b], [d], [g] voidaan laskea suomen kie- len foneemeiksi vaikka kaikki suomea puhuvat eivät käytä näitä puheessa; nämä ovat muuten samat kuin äänteet [p], [t] ja [k], mutta ovat soinnillisia. ¯ frikatiivit. Ilmavirta estetään osittain, suomessa [s], [h], sekä vieraampana [f].
  • 40. 36 LUKU 2. FONETIIKKAA Sointi ilmaisee onko konsonantti soinnillinen vai soinniton. Soinnillisia kon- sonantteja suomen kielessä ovat kaikki paitsi [p],[t],[k],[h] ja [s] (sekä [f]). Itse asiassa [h] voi esiintyä ns. henkäyssoinnillisena äänteenä (kuten sanassa paha), jolloin ääniraon huulirako värähtelee etuosaltaan ja rustorako on auki. Edellisten kolmen ominaisuuden (ääntymäpaikka, ääntymätapa ja sointi) pe- rusteella voidaan luokitella kaikki konsonantit. Esimerkkejä: [m] on soinnillinen bilabiaalinen nasaali ja [k] on soinniton palataalinen klusiili. Kysymys: onko suo- men kielessä soinnitonta dentaalista klusiilia? Entä soinnillista labiodentaalista resonanttia? 2.4 Suomen kielen äänteet Alla on suomen kielen äänteiden jaottelu ääntymätavan mukaan: ¯ vokaalit: [a],[e],[i],[o],[u],[y],[ä],[ö] ¯ konsonantit – resonantit £ puolivokaalit: [j],[v] £ nasaalit: [n],[m],[ng] £ lateraali: [l] £ tremulantti: [r] – obstruentit £ frikatiivit: [h],[s] (myös [f]) £ klusiilit: [p],[t],[k] (myös [b],[d],[g]) Lisäksi suomessa kaikki äänteet poislukien [d], [g], [f] voidaan kahdentaa, esimerkiksi muta, mutta, muuta, mutaa ja muuttaa ovat kaikki eri sano- ja. "Äng-äänne"[ng] esiintyy tosin aina pitkänä (esim. kengät) ellei sitä seuraa konsonantti (kenkä), ja [v] ja [h] eivät yleensä esiinny pitkinä paitsi joskus lop- pukahdennuksen yhteydessä (homevvaurio). 2.5 Muita foneettisia piirteitä Yleistä äänneluokkaa kutsutaan foneemiksi, kun taas yksittäistä puhuttua realisaa- tiota kutsutaan fooniksi (kaikki foonit ovat siis periaatteessa erilaisia). Tietyssä
  • 41. 2.5. MUITA FONEETTISIA PIIRTEITÄ 37 kielessä samaan äänneluokkaan kuuluvia äänteitä, joilla on kuitenkin joku foneet- tinen ero, sanotaan allofoneiksi. Yleinen periaate jonkin kielen foneemien määrit- tämisessä on se voiko jonkin äänteen muuttaminen toiseksi muuttaa sanan mer- kitystä. Esimerkiksi suomen kielessä kaikki vokaalit voidaan ääntää joko nasaali- sina tai ei-nasaalisina sanan merkityksen muuttumatta kun taas vaikkapa ranskan kielessä myös merkitys voi muuttua. Vaikka kielen äänteet kuullaan diskreetteinä foneemeina, itse äänteet eivät ole diskreettejä, äkillisesti toisiinsa muuttuvia aaltomuotoja, vaan äänteet ’sulautuvat’ toisiinsa. Tätä ilmiötä kutsutaan yhteisartikuloinniksi (engl. coarticulation). Yh- teisartikulointi johtuu pitkäli siitä että puhe-elinten siirtyminen ei ole hetkellinen tapahtuma vaan vaatii aikaa, ja tämän siirtymisen aikana aaltomuoto muuttuu ta- saisesti. Lisäksi, yleensä kun puhe-elimet ovat saaneet äänteen ’riittävän hyvin’ äännettyä (eli niin hyvin että kuulija sen ymmärtää), ne alkavat siirtyä seuraavan äänteen vaatimaan asentoon. Lisäksi äänteessä käytetty allofoni riippuu usein ym- päröivistä äänteistä, erityisesti seuraavasta äänteestä. Prosodialla tarkoitetaan puheen ’pidempiaikaisia’ ominaisuuksia, joita ovat lähinnä kvantiteetti, paino ja intonaatio (määrittelyt alla). Prosodian pienin yk- sikkö foneemin sijasta on yleensä tavu. Tavun yleispätevää määritelmää ei ole olemassa, mutta kielikohtainen määritteleminen onnistuu. Suomen kielessä tavu- tuksen pääsääntö on se, että tavun raja kulkee jokaisen CV (konsonatti, vokaali) ryhmän edellä (esim. pu-heen-kä-sit-te-ly). Tavu on kielellisesti usein käyttökel- poisempi yksikkö kuin yksittäiset foneemit. Kvantiteetilla tarkoitetaan äänteiden pituutta. Joissakin kielissä (esim. espan- ja) kvantiteetin muutoksella ei saada sanan merkitystä muuttumaan. Sen sijaan suomen kielessä kvantiteetitti on erottava piirre (eli sillä voidaan muuttaa sa- nan merkitystä) sekä vokaaleissa (muta, muuta) että konsonanteissa (muta, mutta). Äänteen kvantiteetti riippuu monesta eri tekijästä, kuten äänteen ’luon- nollisesta’ kestosta, viereisten äänteiden laadusta ja kestosta, äänteiden asemasta tavussa sekä äänteen painosta. Paino tarkoittaa jonkin äänteen painottamista, yleensä suuremmalla teholla tai muuttuneella äänenkorkeudella. Paino voi viitata joko tavupainoon (painotetaan tiettyä tavua sanassa) tai sanapainoon (painotetaan tiettyä sanaa virkkeessä). Suo- men kielessä tavupaino on aina ensimmäisellä tavulla (jonka takia suomen kieli on ei-suomalaisen korviin melko monotonisen kuuloista). Intonaatio viittaa puheen äänenkorkeuden muutokseen pidemmän jakson, esim. virkkeen aikana. Äänenkorkeudella voidaan muuttaa joissain kielissä sanojen mer- kityksiä (esim. kiina) mutta sitä käytetään muissakin kielissä ilmaisemaan esim. välimerkkejä. Esimerkiksi englannin kielessä äänenkorkeus nousee kysymyslauseen lopussa, kun taas suomen kielessä koko kysymyslauseen sävelkorkeus on jonkin verran korkeampi kuin vastaavan väitelauseen.
  • 42. Luku 3 Akustista fonetiikkaa Akustisessa fonetiikassa tutkitaan puheen akustisia ominaisuuksia ja sitä miten ne seuraavat puheentuottomekanismin toiminnasta. Aiheen tarkka käsitteleminen vaatisi oman kurssinsa, mutta seuraavassa käydään läpi aiheesta tämän kurssin kannalta oleellisimmat tiedot. Tärkein ääntöväylän akustinen ominaisuus ovat siinä esiintyvät resonanssit, jotka syntyvät samaan tapaan kuin esim. puhallinsoittimissa, eli värähtelevän il- mapatsaan seisovina aaltoina. Mikäli kyseessä on tasapaksu putki, jonka toinen pää on umpinainen ja toinen avoin, siinä muodostuu seisovia aaltoja siten, että paineenvaihtelu umpinaisessa päässä on pienimmillään ja avonaisessa suurimmil- laan, kuten kuviosta 3.1 näkyy. Mikäli putken pituus on , seisovien aaltojen aal- lonpituudet ( ) ovat ¿ Tyypillisesti aikuisen miehen ääntöväylän pituus on luokkaa ½ cm ja naisen n. ½ cm, ja äänen nopeudeksi ilmassa (merk. ) voidaan ottaa n. ¿ ¼ m/s. Putken resonanssitaajuudet ( ) voidaan laskea aaltoliikkeen perusyhtälöstä = , jolloin saadaan (kun = 17 cm) ½ £¿ ¼Ñ × ¿ £¿ ¼Ñ × £¿ ¼Ñ × ¼¼ÀÞ ½ ¼¼ÀÞ ¾ ¼¼ÀÞ Ñ Ñ Ñ eli ¼¼ Hz:n parittomat harmoniset. Tasapaksun putken akustiikka saadaan ratkaistua täydellisesti (muutamalla yk- sinkertaistavalla oletuksella) ja sen ymmärtämisestä on hyötyä jatkon kannalta jo- ten käydään se läpi. Otetaan käsittelyyn tasapaksu putki jonka poikkipinta-ala on Ë ja jonka pituus on , ks. kuvio 3.2. Akustisesti kiinnostavat muuttujat ovat put- kessa olevien ilmahiukkasten nopeus jota merkitään Ú ´Ü ص (eli pisteessä Ü ole- van hiukkasen nopeus hetkellä Ø) ja tietyn pisteen ilmanpaine (tarkemmin paineen muutos vakioilmanpaineen ympärillä) jota merkitään Ô´Ü Øµ. 38
  • 43. 39 Kuvio 3.1: Toisesta päästä umpinaisessa putkessa muodostuvat seisovat aallot. Kuvassa on näytetty paineenvaihtelu, joka on nolla umpinaisessa päässä ja suu- rimmillaan avonaisessa päässä. Kuvio 3.2: Notaatio tasapaksun putken akustiikan käsittelyyn: Ë on poikkipinta- ala, on putken pituus, Ü on etäisyys putken vasemmasta reunasta.
  • 44. 40 LUKU 3. AKUSTISTA FONETIIKKAA Oletetaan että paineaallot ovat tasomaisia, kohtisuorassa putken pituuteen näh- den ja etenevät putken suuntaisesti. Tällä oletuksella voidaan hiukkasnopeuden Ú ´Ü ص sijaan käyttää myöhemmin käyttökelpoisempaa tilavuusnopeutta Ù´Ü Øµ joka tarkoittaa pienen ilmapatsaan nopeutta pisteessä Ü ja hetkellä Ø, ja niiden vä- lillä on yksinkertainen yhteys Ù´Ü Øµ ËÚ ´Ü ص Paineen ja tilavuusnopeuden välillä ovat voimassa seuraavat ns. aaltoyhtälöt Ô Ù   Ü Ë Ø (3.1)   Ù Ü Ë Ô ¾ Ø (3.2) missä on ilmanpaine. Nämä aaltoyhtälöt saataisiin periaatteessa johdettua vielä perustavammista fysiikan laeista mutta mietitään sen sijaan mitä ne tarkoittavat. Yhtälö (3.1) sanoo että jos ilmanpaine kasvaa jossain kohdassa putkea, se ai- heuttaa tilavuusnopeuden kasvun ajassa (joka on sitä suurempi mitä suurempi il- manpaineen muutos ja pienempi poikkipinta-ala on). Jos vaikka ajatellaan jotain ilmahiukkasta pisteessä Ü joka ei liiku hetkellä Ø mutta ilmanpaine on suurem- pi pisteen Ü oikealla puolella niin paine-ero aiheuttaa sen että hiukkanen alkaa liikkua vasemmalle. Toinen yhtälö taas voidaan tulkita niin että tilavuusnopeuden muutos aiheut- taa paineen muutoksen. Jos ajatellaan että pisteessä Ü hetkellä Ø paine on 0 mut- ta tilavuusnopeus on suurempi pisteen Ü vasemmalla kuin oikealla puolella niin hiukkaset ’kasaantuvat’ pisteeseen Ü eli paine kasvaa ajassa. Melko helposti nähdään (tarkistetaan alla) että jos ´Ý µ on mielivaltainen funk- tio niin valitsemalla Ù´Ü Øµ ´Ø  Ü µ Ô ´ Ü Øµ Ë ´Ø  Ü µ differentiaaliyhtälöpari (3.1), (3.2) tulee toteutettua. Funktio ´Ø   Ü µ puolestaan voidaan tulkita äänen nopeudella eteenpäin (forward, tästä nimi) liikkuvaksi aal- loksi: kun Ø kasvaa 1:llä ja Ü :n verran, funktio saa samat arvot kuin Ø:llä ja Ü:llä. Vastaavasti myös taaksepäin nopeudella liikkuva aalto toteuttaa aaltoyhtälöt ja vieläpä mielivaltainen summa tällaisista aalloista. Kaiken kaikkiaan aaltoyhtälöiden ratkaisu voidaan siis kirjoittaa muodossa Ù ´ Ü Øµ ´Ø   Ü µ   ´ Ø · Ü µ
  • 45. 41 Ô ´ Ü Øµ Ë ´ ´Ø  Ü µ · ´Ø · Ü µµ missä on mielivaltainen eteenpäin kulkeva ja taaksepäin kulkeva aalto. Tarkistetaan tämä sijoittamalla nämä yhtälöön (3.1) Ô Ù   Ü Ë Ø Vasemmaksi puoleksi tulee (muistamalla sisäfunktion derivointisääntö)   Ë ´´ ½ µ ¼´Ø   Ü µ · ´½ µ ¼ ´Ø · Ü µµ ´ ´Ø   Ü µ   ´Ø · Ü µµ ¼ ¼ Ë missä ¼ on funktion derivaatta ja vastaavasti funktiolle . Oikeaksi puoleksi saadaan ´ ¼ ´Ø   Ü µ   ¼ ´Ø · Ü µµ Ë joten tämä on kunnossa. Vastaava tarkistus differentiaaliyhtälölle (3.2) jätetään lukijan harteille. Ihmisen ääntöväylä ei ole tasapaksu putki, mutta silti vokaaliäänteissä for- mantteja on yleensä karkeasti ottaen 1 kilohertsiä kohden kuten tasapaksun put- ken tapauksessa. Formanttien taajuudet eivät vain enää ole harmonisissa suhteissa toisiinsa vaan niiden taajuudet siirtyvät ääntöväylän muodon mukana. Formanttitaajuuksien laskeminen ääntöväylän muodon perusteella on yleisesti analyyttisesti ratkeamaton ongelma (numeerisia ratkaisuja voidaan kyllä laskea). Tarkkaan puheentuoton malliin pyrittäessä pitäisi ottaa huomioon lukuisia seikko- ja, kuten erilaiset kurkunpään herätteet, ajalliset ja paikasta riippuvat muutokset ääntöväylän muodossa, nenäväylän kytkeytyminen järjestelmään, huulten kohdal- la tapahtuva ääniaallon leviäminen ympäristöön eli nk. säteily, erilaiset energiahä- viöt, pyörteiset ilmavirtaukset jne. Yksinkertaistettujakin malleja tarkastelemalla päästään kuitenkin melko pitkälle äänentuoton ymmärryksessä. Erityisen kätevä lähestymistapa on ääntöväylän mallintaminen useamman peräkkäisen tasapaksun putken avulla, sillä tämä malli saadaan ratkaistua kohtuullisella vaivalla, ja sen tuloksetkin ovat käytännössä varsin hyviä. Kun liitämme kaksi tasapaksua putkea yhteen, tilavuusnopeusaallot kulkevat edelleen äänen nopeudella kummankin putken sisällä, mutta putkien liitoskohdas- sa tapahtuu myös heijastumista. Merkitään vasemman putken poikkipinta-alaa ËÒ ja oikean ËÒ·½ . Määritellään heijastuskerroin Ò seuraavasti:   ËÒ ËÒ·½ Ò ËÒ · ËÒ·½
  • 46. 42 LUKU 3. AKUSTISTA FONETIIKKAA Huomaa että koska pinta-alat ovat positiivisia niin aina  ½ Ò ½. Heijastus- kerroin ilmaisee, kuinka suuri osa putkesta toiseen liikkuvasta tilavuusnopeusaal- losta heijastuu takaisin. Katso käytetty notaatio kuvasta 3.3: Ò on eteenpäin kul- keva tilavuusaalto putkessa Ò ja Ò on taaksepäin kulkeva tilavuusaalto. Kuvio 3.3: Käytetty notaatio ja Kelly-Lochbaum–yhtälöiden vuokaavio. Näytteistetään järjestelmän toiminta sillä näytteenottovälillä joka ääneltä ku- luu yhden putken kulkemiseen (eli kun aalto kulkee putken päästä toiseen se vii- västyy yhden tapin) ja esitetään järjestelmän toiminta Þ -muunnostasossa (eli kun aalto kulkee putken päästä toiseen se tulee kerrottua Þ  ½ :lla). Nyt tilavuusaallon Þ - muunnoksen käyttäytyminen putkissa ja niiden liitoskohdissa voidaan esittää ns. Kelly-Lochbaum-yhtälöillä Ò·½ ´Þ µ ´½   Ò µ Ò ´Þ µÞ  ½   Ò Ò·½ ´Þ µ (3.3)
  • 47. 43  ¾ · ´½ ·  ½ Ò ´Þ µ Ò Ò ´Þ µÞ Ò µ Ò·½ ´Þ µÞ (3.4) jotka voidaan myös kirjoittaa matriisimuodossa Ò·½ ´Þ µ ´½   Ò µÞ  ½   Ò Ò ´Þ µ Ò ´Þ µ ÒÞ  ¾ ´½ · Ò µÞ  ½ Ò·½ ´Þ µ Esimerkiksi putkessa ½ oikealle kulkevasta tilavuusnopeudesta ½ :n ilmaisema osuus heijastuu takaisin putkeen ½ ja loppuosa (½   ½ ) etenee putken ¾ puolelle ra- japinnan yli. Putkessa ¾ vasemmalle kulkevasta aallosta takaisin heijastuu   ½ :n ilmaisema osuus. Loogisesti jos ËÒ ËÒ·½ niin heijastumista ei tapahdu. Myös loogisesti jos ËÒ·½ ¼ niin koko aalto putkesta Ò heijastuu takaisin. Diskreettiaikainen malli ääntöväylälle saadaan nyt yksinkertaisesti liittämäl- lä tasapaksuja putkia peräkkäin. Tätä varten ratkaistaan ensin Kelly-Lochbaum- yhtälöistä Ò·½ ´Þ µ ja Ò·½ ´Þ µ muuttujien Ò ´Þ µ ja Ò ´Þ µ funktiona. Signaali Ò·½ ´Þ µ saadaan suoraan yhtälöstä (3.4):   Ò Ò ´Þ µÞ  ½ Ò ´Þ µÞ Ò·½ ´Þ µ · ½· Ò ½· Ò Sijoittamalla tämä yhtälöön (3.3) saadaan    ½     Ò Ò ´Þ µÞ  ½ Ò ´Þ µÞ Ò·½ ´Þ µ ´½ Ò µ Ò ´Þ µÞ Ò · ½· Ò ½· Ò joka sievenee muotoon Ò ´Þ µÞ  ½   Ò Ò ´Þ µÞ Ò·½ ´Þ µ · ½· Ò ½· Ò Nämä yhtälöt voidaan taas kirjoittaa matriisimuodossa Þ  ½ ´  Ò µÞ Ò·½ ´Þ µ ½· Ò ½· Ò Ò ´Þ µ Ò·½ ´Þ µ   Ò Þ  ½ Þ Ò ´Þ µ ½· Ò ½· Ò Merkitään tässä olevaan matriisia Ò . Jos meillä on Æ putkea kytkettynä peräkkäin niin saadaan Æ ´Þ µ   Æ ½ ´Þ µ Æ Æ ´Þ µ   Æ ½ ´Þ µ   Æ ¾ ´Þ µ Æ Æ ½   Æ  ¾ ´Þ µ . . . Þµ Æ Æ ½   ¡¡¡ ¼ ¼´ ¼ ´Þ µ
  • 48. 44 LUKU 3. AKUSTISTA FONETIIKKAA eli useamman putken siirtofunktio (jolla on 2 sisäänmenoa) saadaan näppärästi matriisien tulona. Kelly-Lochbaum-yhtälöiden mukaista suodatinrakennetta kutsutaan ristikko- rakenteeksi (engl. lattice structure) ja se löytyy kuviosta 3.4. Ristikkorakenteelle on käyttöä muutenkin kuin ääntöväylän mallintamisessa, mm. adaptiivisten suo- dattimien yhteydessä. Kuvio 3.4: Ristikkorakenne. Kuviossa 3.4 suodattimella on 2 sisäänmenoa ja 2 ulostuloa mutta tästä saa- daan helposti rehti suodatin yhdellä sisäänmenolla ja yhdellä ulostulolla vaikka- pa poistamalla ensimmäisestä ja viimeisestä putkesta taaksepäin kulkevat aallot jolloin saadaan kuvion 3.5 suodatin. Tämä voitaisiin tehdä myös hieman realis- tisemmin esimerkiksi kytkemällä ensimmäisen putken taaksepäin kulkeva aalto eteenpäin menevään aaltoon mutta tämä ei ole tämän käsittelyn kannalta tarpeel- lista. Kuvio 3.5: Yhden sisäänmenon ja yhden ulostulon ristikkorakenne. Laskennallisesti siis pystymme toteuttamaan ristikkorakenteen kuvion 3.4 poh- jalta. Tämän kurssin jatkon kannalta on kuitenkin oleellista selvittää mikä on ris-
  • 49. 45 tikkorakenteisen suodattimen siirtofunktio. Erityisesti haluamme osoittaa että se ´Þ µ on all-pole-tyyppinen eli että siirtofunktiossa ´Þ µ on pelkkiä napoja (eli osoitta- jan kaikki nollat ovat Þ ¼:ssa). Tämä ei ole aivan yksinkertaista mutta hoidam- me homman tekemällä suodattimelle käänteissuodattimen joka on FIR-tyyppinen, jolloin alkuperäisen suodattimen on oltava all-pole-tyyppinen. Lähdetään liikkeelle kuviosta 3.6 jossa on yksi lohko ristikkorakenteesta, si- sään menevät Ò ´Þ µ, Ò ´Þ µ ja ulos tulevat Ò·½ ´Þ µ, Ò·½ ´Þ µ. Yritetään päästä ta- kaisin muuttujiin Ò ´Þ µ, Ò ´Þ µ muuttujien Ò·½ ´Þ µ, Ò·½ ´Þ µ avulla, joka onnistuu ratkaisemalla edelliset jälkimmäisten avulla Kelly-Lochbaum–yhtälöistä (3.3) ja (3.4). Yhtälöstä (3.3) saadaan Ò·½ ´Þ µ · Ò Ò·½ ´Þ µ Ò ´Þ µ ´½   Ò µÞ  ½ Ò·½ ´Þ µÞ Ò Ò·½ ´Þ µÞ ½   Ò · ½   Ò Sijoittamalla tämä toiseen yhtälöön saadaan Ò·½ ´Þ µÞ · Ò Ò·½ ´Þ µÞ Ò ´Þ µ Þ  ¾ · ´½ · Ò µ Ò·½ ´Þ µÞ  ½ Ò ½   Ò joka pienen sieventelyn jälkeen taipuu muotoon Ò Ò·½ ´Þ µÞ  ½ Ò·½ ´Þ µÞ  ½ Ò ´Þ µ ½   Ò · ½   Ò Nämä yhtälöt voidaan toteuttaa kuvion 3.7 mukaisella suodattimella. Termi Þ joka vastaa siirtymistä ajassa eteenpäin voi vaikuttaa pelottavalta mutta sekin saadaan järjestykseen jäljempänä. Nyt jos kytkemme edelliseen tyyliin ristikkorakenteen jälkeen ’käänteisloh- kon’ jokaiselle ristikkorakenteen lohkolle (ensin lohko Ò, sitten Ò   ½ jne.) niin lopputuloksena on se että siirtofunktio À ´Þ µ koko suodattimen läpi on yksinker- taisesti À ´Þ µ ½. Tilannetta on havainnollistettu kuviossa 3.8. Kun tarkemmin katsotaan käänteissuodatinta ristikkorakenteen jälkeen, havai- taan että siinä on vain viiveitä ja kertolaskuja, ja kaikki kytkennät ovat eteenpäin. Tämän perusteella suodatin on FIR-tyyppiä. ´Þ µ Eli tilanne on seuraava: ristikkorakenteen siirtofunktio (jota ei tunneta) on ´Þ µ ja sen jälkeisen suodattimen siirtofunktio (myös tuntematon mutta kuitenkin FIR) on ´Þ µ, mutta kun nämä kytketään sarjaan niin siirtofunktio on ´Þ µ ´Þ µ ½ ´Þ µ
  • 50. 46 LUKU 3. AKUSTISTA FONETIIKKAA Kuvio 3.6: Yksi lohko ristikkorakenteesta. Kuvio 3.7: Ristikkorakenteen lohko johon on liitetty käänteinen lohko. ´Þ µ Mutta tästä taas seuraa että suodattimen ´Þ µ osoittajan pitää olla ½ josta taas seu- ´Þ µ raa että ´Þ µ on all-pole-suodatin. Varsin yleisesti puhetta mallinnetaan all-pole- suodattimilla (kuten seuraavan luvun lineaarisessa ennustuksessa) ja tässä on koh- tuullisen hyvä perustelu sille miksi tämä toimii. Selvitellään vielä Þ -termit käänteissuodattimen toteutuksessa. Nämä ovat sikä- li täysin loogisia että ristikkorakenne aiheuttaa signaaliin viivettä (aivan kuten sen
  • 51. 47 Kuvio 3.8: Ristikkorakenne johon on liitetty käänteissuodatin. esikuvana ollut akustinen putkimallikin). Tämän takia yleensä ollaan tyytyväisiä jos löydetään käänteissuodatin joka palauttaa alkuperäisen signaalin viivästettynä mutta ei tee siihen muita muutoksia. Tämä taas onnistuu ristikkorakenteen tapauk- sessa ’työntämällä’ Þ -termit suodattimen loppuun kuten kuviossa 3.9 on osoitettu (lukija voi taas varmistua itse siitä että tämä on sama suodatin kuin kuviossa 3.8 ja/tai tehtävä saattaa tulla harjoituksiin jos harjoitusten pitäjä huomaa tämän kom- mentin). Jos nämä Þ :t otetaan suodattimen lopusta pois, lopputuloksena on reaa- liaikaisesti toteutettavissa oleva suodatin joka on käänteissuodatin siinä mieles- sä että ristikkorakenne ja tämä suodatin kytkettynä sarjaan aiheuttavat signaaliin puhtaan viiveen.
  • 52. 48 LUKU 3. AKUSTISTA FONETIIKKAA Kuvio 3.9: Käänteissuodatin jossa antiviiveet on siirretty loppuun.
  • 53. Luku 4 Lineaarinen ennustus Lineaarinen ennustus (engl. linear prediction tai joskus linear predictive coding, lyhennys LP tai LPC) on yksi tärkeimmistä puheenkäsittelyn työkaluista. Puheen- käsittelyn kannalta LP:n tärkein ominaisuus on sen kyky mallintaa ääntöväylää. Kuten viime luvussa todettiin, ristikkorakenteinen ääntöväylän malli on all-pole– suodatin eli suodatin, jossa on pelkästään napoja. Lineaarinen ennustus puolestaan on hyvä menetelmä tämän all-pole–ääntöväyläsuodattimen parametrien estimoin- tiin mitatun puhesignaalin perusteella. Termi ’lineaarinen ennustus’ saattaa vaikuttaa ensi alkuun oudolta mutta se tulee täysin loogisesti siitä että yritämme ennustaa puhesignaalin seuraavaa näy- tettä edellisten avulla, vieläpä lineaarisen suodattimen avulla. Kuten seuraavassa luvussa nähdään, tämän ennustussuodattimen avulla voidaan mallintaa ääntöväy- läsuodatinta. Ääntöväyläsuodatin taas on puheentuoton kenties oleellisin piirre, joten jos se saadaan estimoitua hyvin siitä saadaan hyödyllistä informaatiota pu- heesta. Katsotaan alkuun esimerkki LP:n käyttökelpoisuudesta. Kuviossa 4.1 on esi- tetty 30 ms kehys vokaalista [a] näytteenottotaajuudella 16 kHz. Kuviossa 4.2 on kehyksen amplitudispektri, jossa näkyvät puheen perustaajuus (tiheät piikit) se- kä formantit (leveät piikit verhokäyrässä). Samassa kuviossa on aaltomuodosta lasketun LP-mallin amplitudivaste, joka vastaa varsin hyvin vokaalin amplitudis- pektrin verhokäyrää. Jatkossa kannattaa aina pitää mielessä että puhetta käsitel- lään lyhyissä kehyksissä ja LP-analyysi tehdään n. 10-30 ms välein. 4.1 Lineaarisen ennustuksen taustaa Termi ’lineaarinen ennustus’ viittaa kirjaimellisesti lineaarisen järjestelmän ulos- tulon ennustamiseen aikaisempien syötteiden Ü´Òµ Ü´Ò   ½µ Ü´Ò   Õ µ ja ulos- tulojen Ý ´Ò   ½µ Ý ´Ò   ¾µ Ý ´Ò   Ôµ avulla. Tavoitteena on näiden muuttujien 49