SlideShare a Scribd company logo
1 of 94
www.dsp.agh.edu.pl
http://rozpoznawaniemowy.blogspot.com/

Przetwarzanie Mowy
Bartosz Ziółko

1
Przetwarzanie Mowy

2
Człowiek vs. komputer
Pierwsze syntezatory mowy

1779 - Christian Kratzenstein - urządzenie
umożliwiające generowanie dźwięków
przypominających 5 różnych głosek

Równolegle, nad
swoją akustycznomechaniczną
maszyną imitującą
mowę pracował
Wolfgang von
Kempelen
4
„Cztery”

5
Sygnał mowy

6
REX - 1920
Przymocowany do
płytki reagującej obrotem na
drgania o częstotliwości 500
[Hz] odpowiadającej
między innymi głosce „e”.
Przy tej częstotliwości
pojawiał się rezonans, który
odcinał prąd, wypychając
psa z budy. W ten sposób
zabawka reagowała na
imię Rex.

7
VOCODER – Bell Labs

Posiadał klawiaturę i mógł między innymi syntezować
mowę. Służył także do kodowania mowy na potrzeby
transmisji. Działał w oparciu o bank filtrów.
Z urządzenia
najprawdopodobniej korzystali
Churchill i Roosevelt do
przeprowadzania
transkontynentalnych
konferencji. Po wojnie zaczęto
wykorzystywać ulepszone
urządzenia oparte na
VOCODERZE w muzyce.
8
Bell Labs digit recogniser - 1952
• Analiza spektrum podzielonego na 2 pasma
częstotliwości (powyżej i poniżej 900 Hz).
• Rozpoznawał cyfry wypowiadane po angielsku z
błędem mniejszym niż 2%, zakładając, że
użytkownik nie zmienił położenia ust względem
mikrofonu pomiędzy fazą ustalania parametrów
głosu a testowaniem.

9
10
Japoński system rozpoznawania
samogłosek (J. Suzuki, K. Nakata, Radio
Research Labs, Japonia, 1961)

11
Zimna wojna
• Szybka transformata Fouriera (FFT)
• Hidden Markov Model (HMM)
• ARPA Speech Understanding Project 1971 ($15M)
• Rozpoznawanie mowy ciągłej
• Słownik około 1000 słów
• => system CMU Harpy (5% błędów)
• Algorytm Viterbiego do ćwiczenia modeli
1967 - 1973

12
LPC - 1975

Linear predictive
coding
F. Itakura
Bell/NTT Labs

13
Podstawowe technologie mowy
•
•
•
•
•
•
•
•

Automatyczne rozpoznawanie mowy
Synteza mowy
Rozpoznawanie mówcy
Rozpoznawanie emocji
Generowanie emocji
Synteza z ruchem ust
Tłumaczenie mowa-mowa
Aplikacje w nauce języków obcych

14
Zalety technologii mowy
• Naturalność (nie wymagają przeszkolenia)
• Pozostawiają swobodę rąk i oczu
• Szybkie (3 razy szybciej mówimy niż
piszemy na klawiaturze)
• Ekonomiczność (tekst zajmuje dużo mniej
bajtów niż sygnał akustyczny)
Szczególnie istotne dla osób
nieprzyzwyczajonych do komputerów,
niepełnosprawnych oraz w zastosowaniach
telefonicznych
15
Różne poziomy modelowania

16
Komunikacja z komputerem

17
Komunikacja z komputerem

18
Ogólny schemat rozpoznawania mowy

19
Możliwe zastosowania ASR
• Głównie jako wejście
– Proste komendy i sterowanie
– Krótkie wprowadzanie danych (np. przez
telefon)
– Dyktowanie

• Interaktywne (z rozumieniem)
– Punkty informacyjne
– Przetwarzanie transakcji
– Wirtualni doradcy

20
Zakres mowy i słuchu człowieka
(Tadeusiewicz, 1988)

21
Cechy systemów mowy
•
•
•
•
•

Mowa izolowana lub ciągła
Czytana lub spontaniczna
Zależny lub niezależny od mówcy
Mały (20 słów) lub duży (>50 000) słownik
Model językowy stały lub zależny od
Miara nieokreśloności
kontekstu
k
H
pi log 2 pi
• Perpleksja (entropia) wypowiedzi
i 1
2^H
• SNR (<10 dB niski, >30 dB wysoki)
• Sposób rejestracji (telefon, komputer,
mikrofon z niwelowaniem szumu)
22
Fonem i trifon
• Pojęcie fonemu, jako pierwszy wprowadził
Jan Niecisław Ignacy Baudouin de
Courtenay. Obecnie fonem najczęściej
definiuje się jako najmniejszą
rozróżnialną jednostkę mowy. Szerzej
znane pojęcie głoski, opisuje realizację
konkretnego fonemu w jakiejś
wypowiedzi. Zbiór fonemów, opisujących
dany język całościowo jest więc alfabetem
fonetycznym.
• Trifon to fonem w lewym i prawym
kontekście, a NIE trzy fonemy
23
Fonemy

Baldi features accurate, visible articulators (CSLU Toolkit)

24
OrtFon – transkryptor ortofonetyczny

25
Tabele OrtFona

26
Dialekt

●

●

●

Dialekt charakteryzują
swoiste cechy fonetyczne,
leksykalne, semantyczne i
fleksyjne odróżniające go od
ogólnonarodowego języka,
używanego przez ogół
społeczności
Zespół gwar ludowych
używanych na większym
obszarze, termin nadrzędny
w stosunku do gwary ludowej
Dialekt jest pojęciem
szerszym

a gwara

●

Mówiony wariant
terytorialny (lokalny)
języka narodowego
używany na stosunkowo
niewielkim terenie
MAPA DIALEKTÓW
Język kaszubski

●

Od 2005 roku język regionalny z możliwością
wprowadzenia do urzędów jako język
pomocniczy

●

W województwie pomorskim

●

Można zdawać maturę z języka kaszubskiego

●

Inne znaki fonetyczne niż w języku polskim

●

Spółgłoski które w wielu gwarach polskich
ulegają mazurzeniu w kaszubszczyźnie
upodabniają się do ś, ź, ć, dź - kaszubienie
Ziemniaki

●

Grule – Podhale

●

Rzepy – Orawa

●

Pyry – Wielkopolska

●

Kobzale, knule, jabłka – Śląsk

●

Kartofle – Mazowsze i Śląsk

●

Bulwy – Pomorze

●

Pantówki - Kujawy
Znaczenie korpusów

• Większość metod w przetwarzaniu
mowy opiera się na statystykach =>
• Jakość i wielkość korpusów jest
kluczowa dla jakości systemów

31
Korpus a zbiór danych

•
•
•
•

Przetwarzalny przez maszyny
Autentyczne dane językowe
Reprezentatywny
Zwykle anotowany (transkrypcje
do mowy, funkcje gramatyczne do
tekstów, osoby wypowiadające się
itd.)
32
Jakość sygnału mowy

33
Anotacje

• Wykonanie wszelkiego rodzaju anotacji jest
procesem bardzo czasochłonnym i uciążliwym
(1 min mowy -> 20 min pracy) =>
• Korpusy są dużo kosztowniejsze niż ich nie
przetworzona zawartość
• Stosuje się coraz częściej także podejścia
automatyczne, bez anotacji przez ludzi
(Google)

34
Segmentacja na fonemy

35
Polskie korpusy mowy
•Grocholewski CORPORA
•Jurisdic
•GlobalPhone
•Luna
•SpeechDat(E)
•EPPS European Parliament corpus
•Szklanny corpus (PJWSTK)
•AGH corpus
36
Polskie korpusy tekstów

IPI PAN (z POS tagami)
NKJP
Rzeczpospolita
Literatura
Transkrypcje Sejmu i zjazdów Solidarności
Nazwiska (Lista Wildsteina, PESEL, Korporacje)
Notatki PAP
Wikipedia
Inne strony (crawling)
http://clip.ipipan.waw.pl/LRT

37
Korpus IPI PAN
<tok>
<orth>Porządek</orth>
<lex><base>porządek</base><ctag>subst:sg:acc:m3</ctag></lex>
<lex disamb="1">
<base>porządek</base><ctag>subst:sg:nom:m3</ctag>
</lex>
</tok>
<tok>
<orth>dzienny</orth>
<lex><base>dzienny</base><ctag>adj:sg:acc:m3:pos</ctag></lex>
<lex><base>dzienny</base><ctag>adj:sg:nom:m1:pos</ctag></lex>
<lex><base>dzienny</base><ctag>adj:sg:nom:m2:pos</ctag></lex>
<lex disamb="1">
<base>dzienny</base><ctag>adj:sg:nom:m3:pos</ctag>
</lex>
</tok>
38
Polskie korpusy tekstów

39
Inne typy korpusów

• Wielojęzyczne (do uczenia tłumaczeń)
• Wielomodalne (np. audiovideo)

• Emocjonalne (z pracy mgr inż. Magdaleny
Igras)
• „medyczne”

40
Korpusy Ultrasonograficzne

Thomas Hueber 1, Elie-Laurent Benaroya2,
Bruce Denby 3,2, Gérard Chollet
1GIPSA-lab,
2Sigma Laboratory, ESPCI Paristech,
3Université Pierre et Marie Curie, Paris,
France
4LTCI/CNRS, Telecom ParisTech
41
Korpusy z obrazowaniem metodą
rezonansu magnetycznego (MRI)

42
Korpusy elektromiograficzne (EMG)
Michael Wand, Matthias Janke, Tanja Schultz (KIT)

43
Korpusy z elektromagnetycznym
artykulografem (EMA)
P. West, Oxford University Phonetics Lab

44
Korpusy mowy i tekstów – czym się
kierować przy wyborze

•Jakość i wielkość – potrzebna optymalna
decyzja
•Format nagrań lub tekstów
•Anotacje
•Zgodność z tekstem
•Szczegółowość (zdania, słowa, fonemy)
•Dodatkowe informacje
•Kim byli mówcy
•O czym jest korpus
•Czy mówcy powtarzają te same wypowiedzi
•Cena (od 2000 Euro do 50 000 Euro)
45
Słowniki języka polskiego

• Synonimy Open Office http://synonimy.ux.pl/,
• Wielki Słownik Języka Polskiego
http://www.wsjp.pl/,
• Słownik wyrazów obcych i zwrotów obcojęzycznych
Władysława Kopalińskiego
http://www.slownik-online.pl/index.php,
• Wikisłownik http://pl.wiktionary.org/,
• Słownik synonimów i antonimów Piotra
Żmigrodzkiego
http://leksykony.interia.pl/synonim,
• Słownik Języka Polskiego http://sjp.pl/,
• N-gramowy słownik frekwencyjny języka polskiego

46
Słowniki do rozpoznawania mowy …

… zawsze będą mieć
transkrypcję fonetyczną.
może moZe
Morze moZe
tak tak
tak tag
47
Wybór silnika bazy danych

Potrzeby:
- Duża szybkość odczytu
- Odpowiednia licencja
- Małe zużycie zasobów
- Prostota
- Łatwość „instalacji” (brak serwera usług)
- Przenośność danych

Dawid Skurzok
SQL vs noSQL

SQL – Structured Query Language – relacyjne
bazy danych (MySQL, Ms SQL, Oracle, SQLite
...)
NoSQL - „not only SQL” - wszystkie inne –
key-value store, document store, graph DB,
object DB, tabular ,… (BerkeleyDB, BigTable,
CouchDB, …)
Dawid Skurzok
Wybór silnika bazy danych

Dostępność

Relational
Key-Value
Tabular
Document
Tokyo Cabinet,
CouchDB,
Cassandra

RDBMS (MySQL,
Postgres, MS SQL)

Wybierz dwa!

Spójność

BerkeleyDB,
BigTable (Google),
MongoDB

„Podzielność”
Dawid Skurzok
Wybór silnika bazy danych

Dostępność
Tylko czytanie
danych

Wybierz dwa!

Spójność

„Podzielność”
Dawid Skurzok
Wybór silnika bazy danych

Dostępność
Tylko czytanie
danych

Wybierz dwa!

Spójność
Zapis danych
jednowątkowo

„Podzielność”
Dawid Skurzok
Wybór silnika bazy danych

Dostępność
Tylko czytanie
danych

Wybierz dwa!

Spójność
Zapis danych
jednowątkowo

„Podzielność”
Dane przechowywane
tylko lokalnie Dawid Skurzok
Wybór silnika bazy danych

Dostępność
Tylko czytanie
danych

Spójność
Zapis danych
jednowątkowo

HODB
key-value store

(DSP AGH)
- Duża szybkość odczytu
- Własna licencja
- Prosta implementacja

„Podzielność”
Dane przechowywane
tylko lokalnie Dawid Skurzok
Testowane silniki baz danych

SQLite – lekki silnik relacyjnych baz danych
BerkeleyDB – nierelacyjna baza danych
przechowuje dane w oparciu o schemat kluczwartość
HODB – własna implementacja bazy danych w
oparciu o tablicę mieszającą (hash table)
Dawid Skurzok
Zbieranie danych do modelu językowego

Dawid Skurzok
Odczyt danych – dane rzeczywiste

Dawid Skurzok
Czym jest HTK

• Zbiór programów implementujących Niejawne
Łańcuchy Markowa - Hidden Markov Models
(HMMs)
• ASR, synteza mowa, rozpoznawanie liter, badania
nad sekwencjami DNA
• Analiza mowy, wyćwiczenie HMM, testowanie i
analiza rezultatów
• HTK dopasowuje hipotezę każdego rozpoznania
do
jednego
z
elementów
słownika
przygotowanego przez użytkownika
• Porównanie transkrypcji fonetycznych słów
58
Schemat HTK

59
Sekwencja symboli

60
Rozpoznanie pojedynczego słowa

61
Łańcuch Markowa

62
Ćwiczenie

63
Rozpoznawanie

64
Reprezentowanie mikstur

65
Reestymacja

• Najpierw
robi
się
zgrubne
przybliżenie wartości parametrów
HMM
• Następnie dokładniejsze parametry
można znaleźć stosując reestymację
Baum-Welcha
• Według kryterium
maksymalnego
podobieństwa (maximum likelihood)
66
Algorytm Viterbiego dla rozpoznawania
izolowanych słów

67
Common problems with using statistics

68
69
Klasyfikowanie i dekodowanie w
ASR poza HMM
• Klasyfikator k-NN
• Artificial Neural Networks (ANN),
Sztuczne sieci neuronowe
• Support Vector Machine (SVM), Maszyna
wektorów nośnych
• Dynamic Bayesian Networks (DBN),
Dynamiczne sieci Bayesa
• Graphical Model Toolkit (GMTK)
• Maximum Entropy Direct Model
70
• Conditional Random Fields (CRF)
Tworzenie siatki

a

l

a

m

k

o

t

a

e

k

o

n

t

f

d

u

o

d

t

a

p

g

d

i

a
ala
akta
ola
atrapa
….
Tworzenie siatki

a

l

a

m

k

o

t

a

e

k

o

n

t

f

d

u

o

d

t

a

p

g

d

i

dom
lama
koń
kotdam
Tworzenie siatki

a

l

a

m

k

o

t

a

e

k

o

n

t

f

d

u

o

d

t

a

p

g

d

i

a
ono
tak
amok
Tworzenie siatki

a

l

a

m

k

o

t

a

e

k

o

n

t

f

d

u

o

d

t

a

p

g

d

i

kot
akta
akt
…
Tworzenie siatki

a

l

a

m

k

o

t

a

e

k

o

n

t

f

d

u

o

d

t

a

p

g

d

i

kot
akta
akt
…
Tworzenie siatki

a

l

a

m

k

o

t

a

e

k

o

n

t

f

d

u

o

d

t

a

p

g

d

i

kot
akta
akt
…
Łączenie wyrazów

Ala
dom ono auto a
Oko
lamo tak ma i
koń a
nip u

a

kota
to
kodu
Usuwanie tych samych wyrazów

dom ono auto a
lamo tak ma i
koń a
nip ma

kota
to
a

dom ono auto a
lamo tak ma i
koń
nip

kota
to
a
Usuwanie tych samych wyrazów

dom ono
lamo tak
koń

auto a
ma i
nip

kota
to
a

dom ono
lamo tak
koń

auto a
ma i
nip

kota
to
Usuwanie ślepych ścieżek

ala

a

Ono

Auto

lamo

Tak

Ma

koń

oko

dom

a

nip
Usuwanie ślepych ścieżek

ala

dom

Ono

Ma

oko
koń
a

Auto

a

nip
Wyszukiwanie najlepszych ścieżek

Ala
oko
a

dom ono auto a
lamo tak ma i
koń a
nip u

kota od
to
ot
kodu oda

a
u
i

.
Przykład hipotezy zdania
Dzielenie na słowa
1

0.8
silne 450 [ms]

działanie 450 [ms]

uboczne 600 [ms]

0.6

0.4

amplitude

0.2
/s’il/

0

/ne/

/dz'a/

/wa/

/n’e/

/u/

/bo/

/ tSne/

-0.2

-0.4

-0.6

-0.8

-1

pause 110 [ms ]

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8 0.9
time [s]

1

1.1

1.2

1.3

1.4

1.5

1.6

84
Rozpoznawanie mowy ciągłej

85
‹#›
Analizator morfologiczny / POS tager
Proces zaznaczania słów w tekście jako
odpowiadających szczególnym częściom mowy,
oparty zarówno na ich definicjach, jak i ich
kontekstach.

87
1-gramy słów (wybrane korpusy)
1) się 1 780 825 (2,6%)

9) że 760 078

17) tak 279 877

2) i 1 632 596 (2,4%)

10) a 479 713

18) za 263 700

3) w 1 569 027 (2,3%)

11) o 396 011

19) od 225 843

4) nie 1 445 832 (2,1%)

12) jak 368 386

20) jego 219 587

5) na 1 283 268 (1,9%)

13) ale 343 482

21) go 217 036

6) z 1 116 819 (1,6 %)

14) po 330 381

22) już 201 735

7) do 816 874 (1,2 %)

15) co 329 270

23) tym 199 894

8) to 801 472 (1,2 %)

16) jest 302 011

24) czy 196 565
88
2-gramy słów (wybrane korpusy)
1) się w 116 446 (0,17%) 10) to nie 39 087 19) nie jest 31 615
20) a potem 31 196
2) się na 93 751 (0,14%) 11) się i 38 772

3) się z 83 610 (0,12%)

12) się nie 38 622 21) nigdy nie 31 082

4) się do 83 524 (0,12%) 13) i nie 38 177

22) mu się 27 209

5) się że 57 126 (0,08%)

14) ale nie 35 241 23) po prostu 26 047

6) że nie 50 222 (0,07%)

15) na to 34 259

24) w tej 25 461

7) w tym 48 035 (0,07%) 16) że to 34 171 25) to co 24 661
8) nie ma 43 633 (0,06%) 17) mi się 33 441 26) w końcu 23 863
9) o tym 42 041 (0,06%) 18) nie było 31682 27) co się 23 762
89
3-gramy słów (wybrane korpusy)
1) w ten sposób 10 119 (0,015%)
2) na to że 8 619 (0,012%)

3) w tej chwili 8 121 (0,012%)

10) zwrócił się do 5 349
11) wydaje mi się 4 855
12) od czasu do 4 742

4) w każdym razie 7 587 (0,011%) 13) się z nim 4 609
5) po raz pierwszy 7 266 (0,010%) 14) to nie jest 4 538

6) mi się że 6 395 (0,009%)

15) czasu do czasu 4 470

7) sobie sprawę że 5 514 (0,008%) 16) w tym momencie 4 455
8) mam nadzieję że 5 499 (0,008%) 17) po drugiej stronie 4 445
9) w takim razie 5 462 (0,008%)
18) w ogóle nie 4 309
90
Meanings by compositionality

Robert Berwick (MIT)

91
But there are exceptions

92
Bag-of-words

93
Bag-of-words

by Li Fei-Fei (Princeton)

94

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Przetwarzanie mowy polskiej

  • 4. Pierwsze syntezatory mowy 1779 - Christian Kratzenstein - urządzenie umożliwiające generowanie dźwięków przypominających 5 różnych głosek Równolegle, nad swoją akustycznomechaniczną maszyną imitującą mowę pracował Wolfgang von Kempelen 4
  • 7. REX - 1920 Przymocowany do płytki reagującej obrotem na drgania o częstotliwości 500 [Hz] odpowiadającej między innymi głosce „e”. Przy tej częstotliwości pojawiał się rezonans, który odcinał prąd, wypychając psa z budy. W ten sposób zabawka reagowała na imię Rex. 7
  • 8. VOCODER – Bell Labs Posiadał klawiaturę i mógł między innymi syntezować mowę. Służył także do kodowania mowy na potrzeby transmisji. Działał w oparciu o bank filtrów. Z urządzenia najprawdopodobniej korzystali Churchill i Roosevelt do przeprowadzania transkontynentalnych konferencji. Po wojnie zaczęto wykorzystywać ulepszone urządzenia oparte na VOCODERZE w muzyce. 8
  • 9. Bell Labs digit recogniser - 1952 • Analiza spektrum podzielonego na 2 pasma częstotliwości (powyżej i poniżej 900 Hz). • Rozpoznawał cyfry wypowiadane po angielsku z błędem mniejszym niż 2%, zakładając, że użytkownik nie zmienił położenia ust względem mikrofonu pomiędzy fazą ustalania parametrów głosu a testowaniem. 9
  • 10. 10
  • 11. Japoński system rozpoznawania samogłosek (J. Suzuki, K. Nakata, Radio Research Labs, Japonia, 1961) 11
  • 12. Zimna wojna • Szybka transformata Fouriera (FFT) • Hidden Markov Model (HMM) • ARPA Speech Understanding Project 1971 ($15M) • Rozpoznawanie mowy ciągłej • Słownik około 1000 słów • => system CMU Harpy (5% błędów) • Algorytm Viterbiego do ćwiczenia modeli 1967 - 1973 12
  • 13. LPC - 1975 Linear predictive coding F. Itakura Bell/NTT Labs 13
  • 14. Podstawowe technologie mowy • • • • • • • • Automatyczne rozpoznawanie mowy Synteza mowy Rozpoznawanie mówcy Rozpoznawanie emocji Generowanie emocji Synteza z ruchem ust Tłumaczenie mowa-mowa Aplikacje w nauce języków obcych 14
  • 15. Zalety technologii mowy • Naturalność (nie wymagają przeszkolenia) • Pozostawiają swobodę rąk i oczu • Szybkie (3 razy szybciej mówimy niż piszemy na klawiaturze) • Ekonomiczność (tekst zajmuje dużo mniej bajtów niż sygnał akustyczny) Szczególnie istotne dla osób nieprzyzwyczajonych do komputerów, niepełnosprawnych oraz w zastosowaniach telefonicznych 15
  • 20. Możliwe zastosowania ASR • Głównie jako wejście – Proste komendy i sterowanie – Krótkie wprowadzanie danych (np. przez telefon) – Dyktowanie • Interaktywne (z rozumieniem) – Punkty informacyjne – Przetwarzanie transakcji – Wirtualni doradcy 20
  • 21. Zakres mowy i słuchu człowieka (Tadeusiewicz, 1988) 21
  • 22. Cechy systemów mowy • • • • • Mowa izolowana lub ciągła Czytana lub spontaniczna Zależny lub niezależny od mówcy Mały (20 słów) lub duży (>50 000) słownik Model językowy stały lub zależny od Miara nieokreśloności kontekstu k H pi log 2 pi • Perpleksja (entropia) wypowiedzi i 1 2^H • SNR (<10 dB niski, >30 dB wysoki) • Sposób rejestracji (telefon, komputer, mikrofon z niwelowaniem szumu) 22
  • 23. Fonem i trifon • Pojęcie fonemu, jako pierwszy wprowadził Jan Niecisław Ignacy Baudouin de Courtenay. Obecnie fonem najczęściej definiuje się jako najmniejszą rozróżnialną jednostkę mowy. Szerzej znane pojęcie głoski, opisuje realizację konkretnego fonemu w jakiejś wypowiedzi. Zbiór fonemów, opisujących dany język całościowo jest więc alfabetem fonetycznym. • Trifon to fonem w lewym i prawym kontekście, a NIE trzy fonemy 23
  • 24. Fonemy Baldi features accurate, visible articulators (CSLU Toolkit) 24
  • 25. OrtFon – transkryptor ortofonetyczny 25
  • 27. Dialekt ● ● ● Dialekt charakteryzują swoiste cechy fonetyczne, leksykalne, semantyczne i fleksyjne odróżniające go od ogólnonarodowego języka, używanego przez ogół społeczności Zespół gwar ludowych używanych na większym obszarze, termin nadrzędny w stosunku do gwary ludowej Dialekt jest pojęciem szerszym a gwara ● Mówiony wariant terytorialny (lokalny) języka narodowego używany na stosunkowo niewielkim terenie
  • 29. Język kaszubski ● Od 2005 roku język regionalny z możliwością wprowadzenia do urzędów jako język pomocniczy ● W województwie pomorskim ● Można zdawać maturę z języka kaszubskiego ● Inne znaki fonetyczne niż w języku polskim ● Spółgłoski które w wielu gwarach polskich ulegają mazurzeniu w kaszubszczyźnie upodabniają się do ś, ź, ć, dź - kaszubienie
  • 30. Ziemniaki ● Grule – Podhale ● Rzepy – Orawa ● Pyry – Wielkopolska ● Kobzale, knule, jabłka – Śląsk ● Kartofle – Mazowsze i Śląsk ● Bulwy – Pomorze ● Pantówki - Kujawy
  • 31. Znaczenie korpusów • Większość metod w przetwarzaniu mowy opiera się na statystykach => • Jakość i wielkość korpusów jest kluczowa dla jakości systemów 31
  • 32. Korpus a zbiór danych • • • • Przetwarzalny przez maszyny Autentyczne dane językowe Reprezentatywny Zwykle anotowany (transkrypcje do mowy, funkcje gramatyczne do tekstów, osoby wypowiadające się itd.) 32
  • 34. Anotacje • Wykonanie wszelkiego rodzaju anotacji jest procesem bardzo czasochłonnym i uciążliwym (1 min mowy -> 20 min pracy) => • Korpusy są dużo kosztowniejsze niż ich nie przetworzona zawartość • Stosuje się coraz częściej także podejścia automatyczne, bez anotacji przez ludzi (Google) 34
  • 36. Polskie korpusy mowy •Grocholewski CORPORA •Jurisdic •GlobalPhone •Luna •SpeechDat(E) •EPPS European Parliament corpus •Szklanny corpus (PJWSTK) •AGH corpus 36
  • 37. Polskie korpusy tekstów IPI PAN (z POS tagami) NKJP Rzeczpospolita Literatura Transkrypcje Sejmu i zjazdów Solidarności Nazwiska (Lista Wildsteina, PESEL, Korporacje) Notatki PAP Wikipedia Inne strony (crawling) http://clip.ipipan.waw.pl/LRT 37
  • 38. Korpus IPI PAN <tok> <orth>Porządek</orth> <lex><base>porządek</base><ctag>subst:sg:acc:m3</ctag></lex> <lex disamb="1"> <base>porządek</base><ctag>subst:sg:nom:m3</ctag> </lex> </tok> <tok> <orth>dzienny</orth> <lex><base>dzienny</base><ctag>adj:sg:acc:m3:pos</ctag></lex> <lex><base>dzienny</base><ctag>adj:sg:nom:m1:pos</ctag></lex> <lex><base>dzienny</base><ctag>adj:sg:nom:m2:pos</ctag></lex> <lex disamb="1"> <base>dzienny</base><ctag>adj:sg:nom:m3:pos</ctag> </lex> </tok> 38
  • 40. Inne typy korpusów • Wielojęzyczne (do uczenia tłumaczeń) • Wielomodalne (np. audiovideo) • Emocjonalne (z pracy mgr inż. Magdaleny Igras) • „medyczne” 40
  • 41. Korpusy Ultrasonograficzne Thomas Hueber 1, Elie-Laurent Benaroya2, Bruce Denby 3,2, Gérard Chollet 1GIPSA-lab, 2Sigma Laboratory, ESPCI Paristech, 3Université Pierre et Marie Curie, Paris, France 4LTCI/CNRS, Telecom ParisTech 41
  • 42. Korpusy z obrazowaniem metodą rezonansu magnetycznego (MRI) 42
  • 43. Korpusy elektromiograficzne (EMG) Michael Wand, Matthias Janke, Tanja Schultz (KIT) 43
  • 44. Korpusy z elektromagnetycznym artykulografem (EMA) P. West, Oxford University Phonetics Lab 44
  • 45. Korpusy mowy i tekstów – czym się kierować przy wyborze •Jakość i wielkość – potrzebna optymalna decyzja •Format nagrań lub tekstów •Anotacje •Zgodność z tekstem •Szczegółowość (zdania, słowa, fonemy) •Dodatkowe informacje •Kim byli mówcy •O czym jest korpus •Czy mówcy powtarzają te same wypowiedzi •Cena (od 2000 Euro do 50 000 Euro) 45
  • 46. Słowniki języka polskiego • Synonimy Open Office http://synonimy.ux.pl/, • Wielki Słownik Języka Polskiego http://www.wsjp.pl/, • Słownik wyrazów obcych i zwrotów obcojęzycznych Władysława Kopalińskiego http://www.slownik-online.pl/index.php, • Wikisłownik http://pl.wiktionary.org/, • Słownik synonimów i antonimów Piotra Żmigrodzkiego http://leksykony.interia.pl/synonim, • Słownik Języka Polskiego http://sjp.pl/, • N-gramowy słownik frekwencyjny języka polskiego 46
  • 47. Słowniki do rozpoznawania mowy … … zawsze będą mieć transkrypcję fonetyczną. może moZe Morze moZe tak tak tak tag 47
  • 48. Wybór silnika bazy danych Potrzeby: - Duża szybkość odczytu - Odpowiednia licencja - Małe zużycie zasobów - Prostota - Łatwość „instalacji” (brak serwera usług) - Przenośność danych Dawid Skurzok
  • 49. SQL vs noSQL SQL – Structured Query Language – relacyjne bazy danych (MySQL, Ms SQL, Oracle, SQLite ...) NoSQL - „not only SQL” - wszystkie inne – key-value store, document store, graph DB, object DB, tabular ,… (BerkeleyDB, BigTable, CouchDB, …) Dawid Skurzok
  • 50. Wybór silnika bazy danych Dostępność Relational Key-Value Tabular Document Tokyo Cabinet, CouchDB, Cassandra RDBMS (MySQL, Postgres, MS SQL) Wybierz dwa! Spójność BerkeleyDB, BigTable (Google), MongoDB „Podzielność” Dawid Skurzok
  • 51. Wybór silnika bazy danych Dostępność Tylko czytanie danych Wybierz dwa! Spójność „Podzielność” Dawid Skurzok
  • 52. Wybór silnika bazy danych Dostępność Tylko czytanie danych Wybierz dwa! Spójność Zapis danych jednowątkowo „Podzielność” Dawid Skurzok
  • 53. Wybór silnika bazy danych Dostępność Tylko czytanie danych Wybierz dwa! Spójność Zapis danych jednowątkowo „Podzielność” Dane przechowywane tylko lokalnie Dawid Skurzok
  • 54. Wybór silnika bazy danych Dostępność Tylko czytanie danych Spójność Zapis danych jednowątkowo HODB key-value store (DSP AGH) - Duża szybkość odczytu - Własna licencja - Prosta implementacja „Podzielność” Dane przechowywane tylko lokalnie Dawid Skurzok
  • 55. Testowane silniki baz danych SQLite – lekki silnik relacyjnych baz danych BerkeleyDB – nierelacyjna baza danych przechowuje dane w oparciu o schemat kluczwartość HODB – własna implementacja bazy danych w oparciu o tablicę mieszającą (hash table) Dawid Skurzok
  • 56. Zbieranie danych do modelu językowego Dawid Skurzok
  • 57. Odczyt danych – dane rzeczywiste Dawid Skurzok
  • 58. Czym jest HTK • Zbiór programów implementujących Niejawne Łańcuchy Markowa - Hidden Markov Models (HMMs) • ASR, synteza mowa, rozpoznawanie liter, badania nad sekwencjami DNA • Analiza mowy, wyćwiczenie HMM, testowanie i analiza rezultatów • HTK dopasowuje hipotezę każdego rozpoznania do jednego z elementów słownika przygotowanego przez użytkownika • Porównanie transkrypcji fonetycznych słów 58
  • 66. Reestymacja • Najpierw robi się zgrubne przybliżenie wartości parametrów HMM • Następnie dokładniejsze parametry można znaleźć stosując reestymację Baum-Welcha • Według kryterium maksymalnego podobieństwa (maximum likelihood) 66
  • 67. Algorytm Viterbiego dla rozpoznawania izolowanych słów 67
  • 68. Common problems with using statistics 68
  • 69. 69
  • 70. Klasyfikowanie i dekodowanie w ASR poza HMM • Klasyfikator k-NN • Artificial Neural Networks (ANN), Sztuczne sieci neuronowe • Support Vector Machine (SVM), Maszyna wektorów nośnych • Dynamic Bayesian Networks (DBN), Dynamiczne sieci Bayesa • Graphical Model Toolkit (GMTK) • Maximum Entropy Direct Model 70 • Conditional Random Fields (CRF)
  • 77. Łączenie wyrazów Ala dom ono auto a Oko lamo tak ma i koń a nip u a kota to kodu
  • 78. Usuwanie tych samych wyrazów dom ono auto a lamo tak ma i koń a nip ma kota to a dom ono auto a lamo tak ma i koń nip kota to a
  • 79. Usuwanie tych samych wyrazów dom ono lamo tak koń auto a ma i nip kota to a dom ono lamo tak koń auto a ma i nip kota to
  • 82. Wyszukiwanie najlepszych ścieżek Ala oko a dom ono auto a lamo tak ma i koń a nip u kota od to ot kodu oda a u i .
  • 84. Dzielenie na słowa 1 0.8 silne 450 [ms] działanie 450 [ms] uboczne 600 [ms] 0.6 0.4 amplitude 0.2 /s’il/ 0 /ne/ /dz'a/ /wa/ /n’e/ /u/ /bo/ / tSne/ -0.2 -0.4 -0.6 -0.8 -1 pause 110 [ms ] 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 time [s] 1 1.1 1.2 1.3 1.4 1.5 1.6 84
  • 87. Analizator morfologiczny / POS tager Proces zaznaczania słów w tekście jako odpowiadających szczególnym częściom mowy, oparty zarówno na ich definicjach, jak i ich kontekstach. 87
  • 88. 1-gramy słów (wybrane korpusy) 1) się 1 780 825 (2,6%) 9) że 760 078 17) tak 279 877 2) i 1 632 596 (2,4%) 10) a 479 713 18) za 263 700 3) w 1 569 027 (2,3%) 11) o 396 011 19) od 225 843 4) nie 1 445 832 (2,1%) 12) jak 368 386 20) jego 219 587 5) na 1 283 268 (1,9%) 13) ale 343 482 21) go 217 036 6) z 1 116 819 (1,6 %) 14) po 330 381 22) już 201 735 7) do 816 874 (1,2 %) 15) co 329 270 23) tym 199 894 8) to 801 472 (1,2 %) 16) jest 302 011 24) czy 196 565 88
  • 89. 2-gramy słów (wybrane korpusy) 1) się w 116 446 (0,17%) 10) to nie 39 087 19) nie jest 31 615 20) a potem 31 196 2) się na 93 751 (0,14%) 11) się i 38 772 3) się z 83 610 (0,12%) 12) się nie 38 622 21) nigdy nie 31 082 4) się do 83 524 (0,12%) 13) i nie 38 177 22) mu się 27 209 5) się że 57 126 (0,08%) 14) ale nie 35 241 23) po prostu 26 047 6) że nie 50 222 (0,07%) 15) na to 34 259 24) w tej 25 461 7) w tym 48 035 (0,07%) 16) że to 34 171 25) to co 24 661 8) nie ma 43 633 (0,06%) 17) mi się 33 441 26) w końcu 23 863 9) o tym 42 041 (0,06%) 18) nie było 31682 27) co się 23 762 89
  • 90. 3-gramy słów (wybrane korpusy) 1) w ten sposób 10 119 (0,015%) 2) na to że 8 619 (0,012%) 3) w tej chwili 8 121 (0,012%) 10) zwrócił się do 5 349 11) wydaje mi się 4 855 12) od czasu do 4 742 4) w każdym razie 7 587 (0,011%) 13) się z nim 4 609 5) po raz pierwszy 7 266 (0,010%) 14) to nie jest 4 538 6) mi się że 6 395 (0,009%) 15) czasu do czasu 4 470 7) sobie sprawę że 5 514 (0,008%) 16) w tym momencie 4 455 8) mam nadzieję że 5 499 (0,008%) 17) po drugiej stronie 4 445 9) w takim razie 5 462 (0,008%) 18) w ogóle nie 4 309 90
  • 92. But there are exceptions 92
  • 94. Bag-of-words by Li Fei-Fei (Princeton) 94